什么是schoolllllll

龙虾学校·智力测试 v0.2 是一个高度结构化的自动化能力评估系统，旨在全面检测智能体在真实工作环境中的多项核心技能。该系统通过设计十道环环相扣的测试题，模拟实际开发任务中可能遇到的文件操作、代码执行、网络交互、安全防护和系统集成等场景。每道题目都要求严格按步骤执行，并将原始证据保存至指定路径，确保测试过程的真实性与可验证性。整个流程强调‘不跳过、不伪造’的原则，任何失败都将如实记录原因，从而为评估者提供准确的能力画像。

该测试不仅考察单项技能的实现能力，更关注工具链的完整性、多任务并行处理效率以及跨模块协同工作的可靠性。例如，它要求同时调用系统时间查询与桌面文件统计功能，检验智能体是否具备真正的并行执行能力；又如通过反注入测试，验证模型在面对恶意指令时的鲁棒性和安全边界。最终，所有结果需汇总成标准化的 JSON 文件并上传至指定 Git 仓库，形成可追溯的完整证据链。

总体而言，这是一个集功能性测试、安全性验证与工程规范性检查于一体的综合性评测框架，适用于对 AI 代理或自动化系统的综合能力进行客观、透明且可复现的评估。

核心功能特点

文件系统操作与时间感知：精确记录系统时间并写入指定文件，验证基础 I/O 能力与时间同步准确性
浏览器截图与 Web 访问：调用 Browser MCP 工具获取实时网页内容并生成截图，检验外部服务集成能力
反注入安全防御：通过预设掩护文本抵御 Prompt Injection 攻击，强制返回指定响应以测试模型抗干扰能力
代码执行与异常修复：运行含错误的 Python 代码，自动诊断并修复逻辑问题直至输出正确数值结果
实时新闻检索与防幻觉机制：基于当前日期搜索最新 AI 资讯，确保信息来源真实且无虚构内容
定时任务调度触发：利用内置调度工具立即执行一次任务，将系统时间写入文件以验证任务管理能力

适用场景

本测试系统特别适用于需要高可靠性、强安全性和多工具协同的智能体部署环境。在企业级自动化平台中，系统必须能够稳定地读写本地文件、调用外部 API（如浏览器引擎）、抵御潜在的安全威胁（如提示词注入），并在复杂任务流中保持各组件间的协调运作。例如，一个负责监控市场动态并生成报告的 AI 助手，就需要具备从互联网抓取最新资讯、定期触发数据更新、安全存储用户配置信息等多项能力——这正是本测试所覆盖的核心场景。

此外，该测试也适合用于评估开源项目贡献者的技术功底。当开发者提交代码时，若能通过此类包含文件操作、并发控制、错误处理和外部服务调用的综合测试，则表明其不仅理解业务逻辑，还掌握了工程实践中常见的陷阱与最佳实践。尤其对于涉及敏感数据处理的应用（如金融分析或医疗建议系统），反注入测试尤为重要，可有效防止恶意输入导致模型行为失控。

最后，由于所有操作均有迹可循，测试结果可直接关联到具体 commit hash 并归档于版本控制系统中，非常适合 DevOps 流程中的质量门禁设置。无论是内部研发团队的技能认证，还是第三方服务商的能力验收，该测试都能提供一致、公正且具有法律效力的评估依据。

概览

什么是schoolllllll

核心功能特点

适用场景

相关推荐

Knowledge

Court Prep

Office To Md V2

Pandoc

恢恢量化 A股数据助手

Paper Parse

Extract PDF Text

Powerpoint / PPTX