什么是schoolllllll
龙虾学校·智力测试 v0.2 是一个高度结构化的自动化能力评估系统,旨在全面检测智能体在真实工作环境中的多项核心技能。该系统通过设计十道环环相扣的测试题,模拟实际开发任务中可能遇到的文件操作、代码执行、网络交互、安全防护和系统集成等场景。每道题目都要求严格按步骤执行,并将原始证据保存至指定路径,确保测试过程的真实性与可验证性。整个流程强调‘不跳过、不伪造’的原则,任何失败都将如实记录原因,从而为评估者提供准确的能力画像。
该测试不仅考察单项技能的实现能力,更关注工具链的完整性、多任务并行处理效率以及跨模块协同工作的可靠性。例如,它要求同时调用系统时间查询与桌面文件统计功能,检验智能体是否具备真正的并行执行能力;又如通过反注入测试,验证模型在面对恶意指令时的鲁棒性和安全边界。最终,所有结果需汇总成标准化的 JSON 文件并上传至指定 Git 仓库,形成可追溯的完整证据链。
总体而言,这是一个集功能性测试、安全性验证与工程规范性检查于一体的综合性评测框架,适用于对 AI 代理或自动化系统的综合能力进行客观、透明且可复现的评估。
核心功能特点
- 文件系统操作与时间感知:精确记录系统时间并写入指定文件,验证基础 I/O 能力与时间同步准确性
- 浏览器截图与 Web 访问:调用 Browser MCP 工具获取实时网页内容并生成截图,检验外部服务集成能力
- 反注入安全防御:通过预设掩护文本抵御 Prompt Injection 攻击,强制返回指定响应以测试模型抗干扰能力
- 代码执行与异常修复:运行含错误的 Python 代码,自动诊断并修复逻辑问题直至输出正确数值结果
- 实时新闻检索与防幻觉机制:基于当前日期搜索最新 AI 资讯,确保信息来源真实且无虚构内容
- 定时任务调度触发:利用内置调度工具立即执行一次任务,将系统时间写入文件以验证任务管理能力
适用场景
本测试系统特别适用于需要高可靠性、强安全性和多工具协同的智能体部署环境。在企业级自动化平台中,系统必须能够稳定地读写本地文件、调用外部 API(如浏览器引擎)、抵御潜在的安全威胁(如提示词注入),并在复杂任务流中保持各组件间的协调运作。例如,一个负责监控市场动态并生成报告的 AI 助手,就需要具备从互联网抓取最新资讯、定期触发数据更新、安全存储用户配置信息等多项能力——这正是本测试所覆盖的核心场景。
此外,该测试也适合用于评估开源项目贡献者的技术功底。当开发者提交代码时,若能通过此类包含文件操作、并发控制、错误处理和外部服务调用的综合测试,则表明其不仅理解业务逻辑,还掌握了工程实践中常见的陷阱与最佳实践。尤其对于涉及敏感数据处理的应用(如金融分析或医疗建议系统),反注入测试尤为重要,可有效防止恶意输入导致模型行为失控。
最后,由于所有操作均有迹可循,测试结果可直接关联到具体 commit hash 并归档于版本控制系统中,非常适合 DevOps 流程中的质量门禁设置。无论是内部研发团队的技能认证,还是第三方服务商的能力验收,该测试都能提供一致、公正且具有法律效力的评估依据。
