什么是TokenRanger

TokenRanger 是一款专为降低云端大语言模型（LLM）令牌成本而设计的 OpenClaw 插件，通过本地运行的小型语言模型（SLM）对会话上下文进行压缩处理，显著减少每次对话向云端 LLM 发送的输入 token 数量。其核心机制是在用户消息发送至云端之前，先由本地部署的 Ollama 模型对历史对话进行语义摘要或提取式精简，从而将整体 token 消耗降低 50% 至 80%。即使在压缩服务出现故障或不可达的情况下，TokenRanger 也具备完善的容错能力，会自动降级为直接透传原始内容，确保对话流程不中断。该插件由 [@peterjohannmedina](https://github.com/peterjohannmedina) 维护，支持跨平台安装与自动化配置，适用于希望在不牺牲用户体验的前提下控制 AI 推理成本的终端用户和开发者。

核心功能特点

通过本地 Ollama 模型实现会话上下文的智能压缩，平均降低云端 LLM 输入 token 成本达 50%-80%
自动根据 GPU/CPU 资源选择最优压缩策略：GPU 环境下使用 mistral:7b 进行深度语义摘要，纯 CPU 环境则采用 phi3.5:3b 提取关键要点
内置优雅降级机制，当本地压缩服务不可用时自动切换至 passthrough 模式，确保对话连续性不受影响
提供命令行工具集用于实时监控、策略切换和状态诊断，包括 /tokenranger mode gpu/cpu/off 等快捷指令
支持 systemd（Linux）和 launchd（macOS）后台服务管理，首次安装后自动完成依赖部署与环境配置

适用场景

TokenRanger 特别适用于那些频繁使用长对话或多轮交互场景的用户，例如需要持续跟踪复杂任务进展的技术支持会话、长时间的知识问答讨论或团队协作中的信息整理过程。在这些场景中，传统方式下每轮对话都会累积大量历史记录，导致云端 LLM 调用成本迅速攀升。启用 TokenRanger 后，系统会在第二轮对话开始即对前序内容进行压缩，仅传递高度浓缩的语义摘要而非完整文本流，从而大幅节省费用。此外，对于硬件受限但依然希望优化成本的用户（如仅配备集成显卡的设备），可通过强制指定 CPU-only 模式运行，利用轻量级模型 phi3.5:3b 实现低开销的摘要生成。无论是个人开发者测试多模态应用原型，还是企业构建内部知识库问答机器人，只要存在高频率、长上下文的 LLM 调用需求，TokenRanger 都能有效平衡性能与经济效益。

概览

什么是TokenRanger

核心功能特点

适用场景

相关推荐

Capability Evolver

Proactive Agent

Markdown.new Skill

Openai Whisper Api

self-improving-agent

Self-Improving + Proactive Agent

Agent Memory

Memory Setup