Local Hub

本地能力中心。通过 HTTP 调用本机麦克风、摄像头、Ollama、YOLO、Stable Diffusion、TTS/转写、通知、剪贴板、天气、白名单脚本等。当需要「验证是否有声音、拍一张照、用本地模型对话、文生图/图生图、朗读、系统通知、读剪贴板、看图描述、列模型、天气、跑脚本」时使用。需先确保 local_...

安装

概览

什么是Local Hub

Local Hub 是一个运行在本机上的 HTTP 服务,旨在将麦克风、摄像头、Ollama 大模型、YOLO 目标检测、Stable Diffusion 文生图/图生图、TTS 语音合成、系统通知、剪贴板读写、天气查询以及白名单脚本执行等本地能力统一封装成标准化的 REST API。它本质上是一个“本地能力中心”,通过暴露一组清晰的接口,让外部调用者(如 Silas)能够便捷地访问和操作本机的硬件与 AI 资源。该服务基于 Python 和 FastAPI 框架开发,默认监听在 `http://127.0.0.1:9000`,所有功能均需先启动本地服务方可使用。

与其他 OpenClaw 技能不同,Local Hub 并非一个独立的功能模块,而是作为底层基础设施存在——它本身不提供用户界面或任务编排逻辑,仅负责将本机已有工具(如 Ollama、A1111 Stable Diffusion WebUI、macOS 系统命令等)包装为可被远程调用的接口。Silas 等客户端通过发送 HTTP 请求(通常以 curl 形式由 exec 动作触发),即可实现对麦克风录音检测、拍照、图像分析、文本转语音、生成图片、读取剪贴板内容等一系列操作,从而在不依赖云端的情况下完成本地化智能交互。

要正常使用 Local Hub,用户需先手动部署并启动其服务端程序:从 GitHub 仓库下载代码包,解压后在指定目录下创建 Python 虚拟环境、安装依赖,并通过运行 `./run.sh` 启动服务。服务启动后可通过健康检查接口确认状态。若未启动,任何对该服务的调用都将失败,因此确保服务在线是使用的前提条件。此外,部分功能(如音频转写、脚本执行)依赖于特定的环境变量配置或外部工具链支持(例如设置 TRANSCRIBE_SCRIPT 路径或定义 RUN_SCRIPT_WHITELIST),使用前应仔细阅读相关文档。

核心功能特点

  1. 支持麦克风声音检测,可录制短音频并判断是否有有效输入
  2. 提供摄像头快照功能,一键拍摄并返回图片存储路径
  3. 集成 Ollama 本地大模型对话接口,支持多模型切换与上下文管理
  4. 实现 YOLO 目标检测与视觉描述功能,可对上传图片进行物体识别与语义分析
  5. 对接 Stable Diffusion 文生图与图生图能力,生成高质量图像文件
  6. 内置 TTS 文本转语音服务,支持 macOS 原生语音朗读并保存音频文件

适用场景

Local Hub 特别适合那些需要快速验证本机设备是否正常工作、或在无网络环境下仍能执行复杂 AI 任务的场景。例如,在演示或教学过程中,你可以先调用 `/audio/check` 接口确认麦克风正常拾音;当用户提问时,立即用 `/llm/chat` 接入本地部署的大语言模型进行实时响应,避免因网络延迟影响体验;若需展示图像理解能力,则可拍摄一张照片并通过 `/vision/describe` 获取详细描述。这些操作完全在本地完成,既保证了隐私安全,又提升了响应速度。

对于开发者或自动化脚本编写者而言,Local Hub 提供了一个高度可扩展的本地 API 集合。你可以将其嵌入到各类自动化流程中,比如结合剪贴板监控自动提取截图并用 YOLO 分析内容;或者在会议提醒系统中,先读取日历事件,再通过 TTS 朗读给用户听,最后发送系统通知。由于所有接口均采用标准 HTTP 协议,无论是用 curl、Python requests 还是其他编程语言,都能轻松集成,极大降低了跨平台开发的复杂度。

此外,Local Hub 还适用于对数据隐私要求较高的企业内网环境。由于所有计算均在本地机器上完成,敏感信息(如语音记录、个人照片、生成的图像)不会离开设备,有效规避了云端服务可能带来的数据泄露风险。同时,它也为构建私有化 AI 助手提供了基础支撑——只需配合前端界面或聊天机器人框架,就能快速搭建出具备本地感知、视觉理解和内容创作能力的智能终端应用。