Deep Memory

一键克隆生产级语义记忆系统:热/温/冷分层存储 + Qdrant向量库 + Neo4j图库 + qwen3嵌入模型

安装

概览

什么是Deep Memory

Deep Memory 是一款专为 AI 智能体设计的生产级语义记忆系统,旨在通过分层存储、向量检索与图谱关系相结合的方式,实现高效、可扩展的记忆管理。该系统采用三层架构:文件层(HOT/WARM/COLD Markdown 文件)作为持久化基础,向量层(基于 Qdrant 的语义相似度搜索)支持快速内容匹配,图数据库层(Neo4j)则用于维护实体间的复杂关系网络。所有组件均通过 Docker 容器化部署,确保环境一致性与可复现性。

核心嵌入模型选用本地运行的 qwen3-embedding:8b,提供 4096 维向量表示,无需依赖外部 API 服务,保障数据隐私与成本控制。整个系统以 Python 工具包形式集成,支持一键初始化、内存写入、语义搜索及联合查询等操作,适用于需要长期记忆积累和上下文关联推理的智能代理场景。

Deep Memory 不仅解决了传统知识库无法动态更新、难以捕捉隐式偏好的问题,还通过冷热分层机制优化资源使用效率——高频访问内容存于 HOT 区,低频信息归档至 COLD 区,兼顾性能与成本。其设计充分考虑了实际工程落地需求,如自动检测依赖服务状态、预建必要索引结构、执行端到端验证测试等,极大降低了部署门槛。

核心功能特点

  1. 采用 HOT/WARM/COLD 三级文件存储体系,实现热数据快速读写与冷数据低成本归档
  2. 集成 Qdrant 向量数据库,支持基于 qwen3-embedding 模型的语义相似度检索
  3. 内置 Neo4j 图数据库,构建实体间关系网络并支持联合查询
  4. 全本地化运行,依赖 Ollama 调用 qwen3-embedding:8b 模型,无需 API 费用或网络请求
  5. 提供 Python 工具链,支持一键初始化、内存存储、语义搜索与图谱联合查询
  6. 自动化部署流程,自动检查 Docker 与 Ollama 环境并配置所需容器与服务

适用场景

Deep Memory 特别适用于需要长期记忆能力的多轮对话型 AI 代理,例如投资顾问、个人助理或研发助手类应用。在这些场景中,系统需持续记录用户偏好(如沟通风格、决策习惯)、历史交互内容以及项目进展细节,并在后续对话中主动调取相关记忆以提供个性化响应。借助向量检索功能,即使提问方式与原始记忆表述不同,也能精准定位关键信息;而图关系建模则能揭示跨会话间的隐含逻辑,比如识别某次投资建议与过往风险偏好的关联。

对于企业级智能体开发团队而言,Deep Memory 提供了标准化的记忆基础设施,可无缝集成至 SOUL.md 或 AGENTS.md 定义的智能体工作流中。在回答涉及‘之前讨论过什么’、‘客户曾提过的需求’等问题前,智能体可先调用内存检索接口获取上下文,再结合工具调用结果综合判断,显著提升回答准确率与连贯性。此外,其分层存储策略也适合处理大规模非结构化日志或会议纪要,将高频参考内容置于高速通道,降低整体响应延迟。

相较于传统 RAG 方案仅关注文本片段召回,Deep Memory 更进一步实现了‘记忆即服务’的理念——不仅记住说了什么,更理解谁在何时为何目的说出这句话,从而构建出动态演进的认知图谱。这使得它在需要深度个性化与上下文感知的应用中展现出独特优势,尤其适合对一致性、可追溯性和长期学习有严苛要求的垂直领域智能体部署。