你坐在电脑前干活,旁边有个家伙一声不吭盯着你。你点哪它看哪,你填什么它记什么,等你做完,它说一句:下次这活我来。这就是 Codex 刚刚上线的 Record & Replay 功能。
爱范儿报道,OpenAI 旗下 Codex 应用推出 Record & Replay,核心是把用户在电脑上的操作录下来,生成可复用的 skill。用户先在插件中添加该功能并授权录制,然后在 Mac 上完整执行目标流程;Codex 会观察并总结步骤、输入、验证方式和隐性偏好,生成一份可复用的 skill。下次遇到类似任务,只需在新对话中调用这个 skill 并给出本次参数,AI 就能自动执行。
录制和复现,究竟怎么跑通
Record & Replay 瞄准的是那些重复、依赖个人偏好、说不清楚但做一遍你就懂的活。适用场景包括报销、订停车位、建一个配置正确的 issue、上传视频、拉周期性报表等。这些任务要么步骤固定却繁琐,要么藏着大量只有操作者自己知道的隐性规则,比如文件怎么命名、某字段默认填什么、遇到岔路该往哪走。用文字逐条解释给 AI 听,成本极高;不如直接做一遍,让它自己看。
操作流程主要拆成七步:先在 Codex 应用里打开 Plugins,搜索并添加 Record & Replay 插件;授权录制权限后,在 Mac 上正常完成一次目标流程。录制会一直开着,直到你主动停止,所以最好专心做那一个任务。结束后可从菜单栏或悬浮层停止,或直接告诉 Codex 已经录完。
录制完成后,Codex 会复盘捕捉到的流程,自己起草一个 skill,写清楚什么时候该用、需要哪些输入、按什么步骤走、做完怎么验证结果。用户也可以继续让它打磨。几条录制建议值得注意:演示尽量短而完整;录之前先把目标和每次会变的输入告诉 Codex;用真实输入,但密码和敏感数据千万别录进去;录完后补上重要的隐性偏好,比如命名规范、字段默认值、决策点怎么选;流程做完就停,别拖到无关的收尾动作上。
下次复现时,新开一个对话,让 Codex 调用这个 skill,把本次的具体值喂给它,例如要传哪个文件、建哪个 issue、报表要哪段时间。关键在于,这个 skill 不是一段写死的脚本,而是可复用的上下文:每次都能拿来参考,再结合当前环境灵活执行。执行时,Codex 会调动当前环境里可用的工具,包括 Computer Use、浏览器操作和已安装的插件,把流程跑完。
从 YouTube 视频上传到报错自愈
一次公开演示里,Codex 要学的是上传 YouTube 视频的完整流程。它盯着用户在 YouTube Studio 里操作,把点击、选文件、填标题和描述、传缩略图、加字幕、设隐私选项等动作全部捕捉下来,随后展示独立复现的能力。更值得注意的是,它不只是机械复读,还试图理解背后的逻辑:什么时候该把视频设成 Private、什么时候设 Unlisted,怎么处理 .mp4 视频和 .srt 字幕这种成对文件,元数据字段该怎么填。
演示中,遇到缺少 Python 报错时,Codex 直接从已安装的 skill 位置读取信息,自己适配过去了。也就是说,录下来的操作最终会被转译成一个随时可调用的 skill,理论上能在没人盯着的情况下反复执行。对每天要传一堆视频的内容工作流来说,这件事确实有用。
Record & Replay 的底层能力:Codex 怎么操作电脑
要理解复现能力,得先看 Codex 到底怎么操作电脑。OpenAI 工程师 Jason 曾梳理过 Codex 用电脑的三条路径,能力有重叠,各有侧重:能用插件或 MCP 就先用,视觉控制留给结构化工具够不着的边角。
第一种是 Computer Use,覆盖面最广。它能在 macOS 和 Windows 上看见并操作图形界面,通过窗口、菜单、键盘、剪贴板来操作授权过的应用。代价是较慢,因为要不断看界面、判断、等待响应和确认状态;但好处是那些没有 API 的应用也能对付,比如 Spotify、Xcode、系统设置、iOS 模拟器,甚至能通过 iPhone 镜像操作 iPhone。在 macOS 上它还能后台跑,用户可同时做其他事。它的信任边界最宽,涉及钱、账户、支付、凭据的改动,建议全程在场盯着。这也解释了为什么 Record & Replay 必须跟着 Computer Use 一起开启:录下来的操作要复现,靠的就是这套看界面、动鼠标键盘的底层能力。
第二种是 Chrome 扩展。它接管你已经登录好的 Chrome 浏览器,适合靠账号、cookie、已认证标签页的任务,比如 Gmail、Salesforce、内部仪表盘。它能玩多标签,把同一任务的好几个标签页串成一个完整工作流来理解。代价是带着你的身份在动,网站会把它的点击和提交都当成你本人,所以发送、发布、购买等步骤一般要先过用户审核。
第三种是应用内浏览器。它活在 Codex 对话内部,与用户共享同一个渲染页面,尤其适合开发调试 Web 应用。它的最大特点是隔离,不碰你的浏览器配置、cookie、扩展和登录会话。这是限制,但换个角度看也是干净的边界:开发者能让它改代码、操作页面、截图、修完再跑一遍,形成紧密的反馈循环,还能直接点页面元素留设计意见。
另外还有个叫 Appshot 的机制,它不操作电脑,只负责把 Codex 的注意力指到你眼前的东西上。在 Mac 上连按两下 CMD 键,它就抓最前面的窗口,把图像和文字附进对话。你面对一个报错、一封邮件、一个看不懂的表单,可以直接发问。用 Jason 的话说,Appshot 负责指方向,浏览器、Chrome 扩展和 Computer Use 负责动手。而 Record & Replay 录下来的 skill,正是可以随时调动上面任意一种或几种方式来复现。
模型开放,不只是 OpenAI 自家模型
值得注意的是,Codex 应用、CLI 和 SDK 并不是只能配 OpenAI 自家模型。在 config.toml 里配置 model_providers,可以把 Codex 指向 Ollama、LM Studio 这类本地开源模型,也能接 Mistral、Azure、Amazon Bedrock 等第三方。传个 –oss 参数就能跑本地 provider,不指定的话默认走 oss_provider。也就是说,Record & Replay 这种能力,载体本身是个对模型开放的客户端。
它也分适用层次。Record & Replay 是从一次演示里快速造 skill 的捷径;但如果想把一个稳定的包发给整个团队、捆绑多个 skill、加应用集成或 MCP 服务器、管理安装元数据,就不应停在录制层面,而应打包成独立插件。
目前限制和管理员要注意的“坑”
上手前最好先知道几个限制。Record & Replay 目前只在 macOS 上可用,首发不覆盖欧盟、英国和瑞士,而且必须先开启 Computer Use 功能。
对组织管理员来说还有一个容易踩的坑:如果使用 requirements.toml 统一管理 Codex,那么 [features].computer_use 这一项会同时影响 Computer Use 和 Record & Replay。一旦把 computer_use 设成 false,两个功能都会消失。如果发现“我这儿压根看不到 Record & Replay”,先去查这一项是不是被关了。
从 API 自动化到图形界面学习
Record & Replay 的上线,看起来只是一个录制和复现操作的小功能,但放到更大的背景里,它代表的是 AI 与软件交互方式的一次变化。过去,自动化的基础是 API:软件必须先开放接口,把能力封装成机器能够调用的服务,自动化工具和 AI 才能接手流程。没有 API,没有结构化入口,很多任务就无法实现自动化。因此,传统自动化的边界,往往取决于软件愿意开放多少能力。
现在,OpenAI 试图绕开这层限制:不再要求软件专门为 AI 提供接口,而是让 AI 直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口,它也去理解;人能完成点击、输入和切换页面,它也去执行。这意味着 AI 的工作对象开始从 API 扩展到整个图形界面。
从这个角度看,Computer Use 负责赋予 AI 操作电脑的能力,而 Record & Replay 负责把人的操作经验沉淀成可复用的 AI 技能。图形界面这个原本为了让人类摆脱命令行而发明的创造,现在有望成为 AI 接管电脑的现成基础设施。

评论区