Codex 上线 Record & Replay：你操作电脑，AI 把流程学成可复用技能

codex · Record & Replay 2026年6月20日暂无评论

OpenAI 旗下 Codex 推出 Record & Replay 功能：用户演示一遍操作，AI 自动生成可复用的 skill，下次即可在新对话中结合当前参数自动执行。目前仅支持 macOS，并依赖 Computer Use 能力。该功能意味着 AI 正从依赖 API 自动化，转向直接学习图形界面操作，把人的工作流沉淀为 AI 技能。

你坐在电脑前干活，旁边有个家伙一声不吭盯着你。你点哪它看哪，你填什么它记什么，等你做完，它说一句：下次这活我来。这就是 Codex 刚刚上线的 Record & Replay 功能。

爱范儿报道，OpenAI 旗下 Codex 应用推出 Record & Replay，核心是把用户在电脑上的操作录下来，生成可复用的 skill。用户先在插件中添加该功能并授权录制，然后在 Mac 上完整执行目标流程；Codex 会观察并总结步骤、输入、验证方式和隐性偏好，生成一份可复用的 skill。下次遇到类似任务，只需在新对话中调用这个 skill 并给出本次参数，AI 就能自动执行。

录制和复现，究竟怎么跑通

Record & Replay 瞄准的是那些重复、依赖个人偏好、说不清楚但做一遍你就懂的活。适用场景包括报销、订停车位、建一个配置正确的 issue、上传视频、拉周期性报表等。这些任务要么步骤固定却繁琐，要么藏着大量只有操作者自己知道的隐性规则，比如文件怎么命名、某字段默认填什么、遇到岔路该往哪走。用文字逐条解释给 AI 听，成本极高；不如直接做一遍，让它自己看。

操作流程主要拆成七步：先在 Codex 应用里打开 Plugins，搜索并添加 Record & Replay 插件；授权录制权限后，在 Mac 上正常完成一次目标流程。录制会一直开着，直到你主动停止，所以最好专心做那一个任务。结束后可从菜单栏或悬浮层停止，或直接告诉 Codex 已经录完。

录制完成后，Codex 会复盘捕捉到的流程，自己起草一个 skill，写清楚什么时候该用、需要哪些输入、按什么步骤走、做完怎么验证结果。用户也可以继续让它打磨。几条录制建议值得注意：演示尽量短而完整；录之前先把目标和每次会变的输入告诉 Codex；用真实输入，但密码和敏感数据千万别录进去；录完后补上重要的隐性偏好，比如命名规范、字段默认值、决策点怎么选；流程做完就停，别拖到无关的收尾动作上。

下次复现时，新开一个对话，让 Codex 调用这个 skill，把本次的具体值喂给它，例如要传哪个文件、建哪个 issue、报表要哪段时间。关键在于，这个 skill 不是一段写死的脚本，而是可复用的上下文：每次都能拿来参考，再结合当前环境灵活执行。执行时，Codex 会调动当前环境里可用的工具，包括 Computer Use、浏览器操作和已安装的插件，把流程跑完。

从 YouTube 视频上传到报错自愈

一次公开演示里，Codex 要学的是上传 YouTube 视频的完整流程。它盯着用户在 YouTube Studio 里操作，把点击、选文件、填标题和描述、传缩略图、加字幕、设隐私选项等动作全部捕捉下来，随后展示独立复现的能力。更值得注意的是，它不只是机械复读，还试图理解背后的逻辑：什么时候该把视频设成 Private、什么时候设 Unlisted，怎么处理 .mp4 视频和 .srt 字幕这种成对文件，元数据字段该怎么填。

演示中，遇到缺少 Python 报错时，Codex 直接从已安装的 skill 位置读取信息，自己适配过去了。也就是说，录下来的操作最终会被转译成一个随时可调用的 skill，理论上能在没人盯着的情况下反复执行。对每天要传一堆视频的内容工作流来说，这件事确实有用。

Record & Replay 的底层能力：Codex 怎么操作电脑

要理解复现能力，得先看 Codex 到底怎么操作电脑。OpenAI 工程师 Jason 曾梳理过 Codex 用电脑的三条路径，能力有重叠，各有侧重：能用插件或 MCP 就先用，视觉控制留给结构化工具够不着的边角。

第一种是 Computer Use，覆盖面最广。它能在 macOS 和 Windows 上看见并操作图形界面，通过窗口、菜单、键盘、剪贴板来操作授权过的应用。代价是较慢，因为要不断看界面、判断、等待响应和确认状态；但好处是那些没有 API 的应用也能对付，比如 Spotify、Xcode、系统设置、iOS 模拟器，甚至能通过 iPhone 镜像操作 iPhone。在 macOS 上它还能后台跑，用户可同时做其他事。它的信任边界最宽，涉及钱、账户、支付、凭据的改动，建议全程在场盯着。这也解释了为什么 Record & Replay 必须跟着 Computer Use 一起开启：录下来的操作要复现，靠的就是这套看界面、动鼠标键盘的底层能力。

第二种是 Chrome 扩展。它接管你已经登录好的 Chrome 浏览器，适合靠账号、cookie、已认证标签页的任务，比如 Gmail、Salesforce、内部仪表盘。它能玩多标签，把同一任务的好几个标签页串成一个完整工作流来理解。代价是带着你的身份在动，网站会把它的点击和提交都当成你本人，所以发送、发布、购买等步骤一般要先过用户审核。

第三种是应用内浏览器。它活在 Codex 对话内部，与用户共享同一个渲染页面，尤其适合开发调试 Web 应用。它的最大特点是隔离，不碰你的浏览器配置、cookie、扩展和登录会话。这是限制，但换个角度看也是干净的边界：开发者能让它改代码、操作页面、截图、修完再跑一遍，形成紧密的反馈循环，还能直接点页面元素留设计意见。

另外还有个叫 Appshot 的机制，它不操作电脑，只负责把 Codex 的注意力指到你眼前的东西上。在 Mac 上连按两下 CMD 键，它就抓最前面的窗口，把图像和文字附进对话。你面对一个报错、一封邮件、一个看不懂的表单，可以直接发问。用 Jason 的话说，Appshot 负责指方向，浏览器、Chrome 扩展和 Computer Use 负责动手。而 Record & Replay 录下来的 skill，正是可以随时调动上面任意一种或几种方式来复现。

模型开放，不只是 OpenAI 自家模型

值得注意的是，Codex 应用、CLI 和 SDK 并不是只能配 OpenAI 自家模型。在 config.toml 里配置 model_providers，可以把 Codex 指向 Ollama、LM Studio 这类本地开源模型，也能接 Mistral、Azure、Amazon Bedrock 等第三方。传个 –oss 参数就能跑本地 provider，不指定的话默认走 oss_provider。也就是说，Record & Replay 这种能力，载体本身是个对模型开放的客户端。

它也分适用层次。Record & Replay 是从一次演示里快速造 skill 的捷径；但如果想把一个稳定的包发给整个团队、捆绑多个 skill、加应用集成或 MCP 服务器、管理安装元数据，就不应停在录制层面，而应打包成独立插件。

目前限制和管理员要注意的“坑”

上手前最好先知道几个限制。Record & Replay 目前只在 macOS 上可用，首发不覆盖欧盟、英国和瑞士，而且必须先开启 Computer Use 功能。

对组织管理员来说还有一个容易踩的坑：如果使用 requirements.toml 统一管理 Codex，那么 [features].computer_use 这一项会同时影响 Computer Use 和 Record & Replay。一旦把 computer_use 设成 false，两个功能都会消失。如果发现“我这儿压根看不到 Record & Replay”，先去查这一项是不是被关了。

从 API 自动化到图形界面学习

Record & Replay 的上线，看起来只是一个录制和复现操作的小功能，但放到更大的背景里，它代表的是 AI 与软件交互方式的一次变化。过去，自动化的基础是 API：软件必须先开放接口，把能力封装成机器能够调用的服务，自动化工具和 AI 才能接手流程。没有 API，没有结构化入口，很多任务就无法实现自动化。因此，传统自动化的边界，往往取决于软件愿意开放多少能力。

现在，OpenAI 试图绕开这层限制：不再要求软件专门为 AI 提供接口，而是让 AI 直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口，它也去理解；人能完成点击、输入和切换页面，它也去执行。这意味着 AI 的工作对象开始从 API 扩展到整个图形界面。

从这个角度看，Computer Use 负责赋予 AI 操作电脑的能力，而 Record & Replay 负责把人的操作经验沉淀成可复用的 AI 技能。图形界面这个原本为了让人类摆脱命令行而发明的创造，现在有望成为 AI 接管电脑的现成基础设施。