Baoyu Danger Gemini Web

通过逆向工程 Gemini Web API 生成图像和文本。支持文本生成、提示词生成图像、视觉输入参考图像等功能。

安装

概览

Baoyu Danger Gemini Web 是一款通过逆向工程 Google Gemini Web API 实现的命令行工具,旨在为开发者提供直接调用 Gemini 模型生成文本和图像的能力。该工具无需依赖官方 API 密钥,而是通过模拟浏览器行为获取认证状态,支持多轮对话、视觉输入以及参考图像生成等高级功能。其设计初衷是简化与 Gemini 模型的交互流程,尤其适合需要在脚本或自动化环境中集成 AI 能力的用户。首次使用时,系统会自动打开浏览器完成 Google 账号登录,后续操作则基于本地缓存的 Cookie 进行身份验证,确保安全性和便捷性。 工具的核心运行逻辑围绕 TypeScript 脚本展开,所有功能均通过 `scripts/` 目录下的 `.ts` 文件实现,包括主入口 `main.ts` 和底层的 `gemini-webapi` 模块封装。用户可通过简单的命令行参数调用文本生成、图像创作或结合图片进行内容理解等多种任务。例如,使用 `–prompt` 指定文本提示,`–image` 输出图像文件,或通过 `–reference` 引入参考图辅助生成。此外,工具支持会话管理(`–sessionId`),允许在多次调用间保持上下文连续性,非常适合构建交互式 AI 应用原型。配置方面,用户可通过项目级或用户级的 `EXTEND.md` 文件自定义默认模型、代理设置及数据存储路径,增强了灵活性与可维护性。 Baoyu Danger Gemini Web 特别适用于希望脱离云端服务限制、在本地环境快速测试 Gemini 能力边界的开发者和研究人员。无论是用于创意写作辅助、技术文档自动生成,还是作为多模态 AI 系统的底层组件,它都能以轻量级方式提供强大支持。由于其完全基于开源协议分发且无需付费订阅,也成为预算有限但需要高质量 AI 输出的个人创作者的理想选择。需要注意的是,该工具涉及对官方 Web API 的逆向分析,使用前需明确接受相关免责条款,并遵守 Google 的服务政策。

核心功能特点

  1. 支持文本生成、图像创建及视觉输入处理三大核心AI能力
  2. 通过浏览器自动登录机制获取认证,无需手动配置API密钥
  3. 支持多轮对话会话保持,便于构建连续交互场景
  4. 可引用参考图像进行内容理解或风格化图像生成
  5. 提供灵活的配置选项,支持自定义模型、代理和数据存储路径
  6. 命令行接口简洁直观,易于集成到自动化工作流中

适用场景

Baoyu Danger Gemini Web 特别适合那些希望在本地或私有环境中利用 Gemini 大模型能力,而不受官方 API 配额或网络访问限制的终端用户。例如,内容创作者可以将其用于快速生成文章草稿、社交媒体文案或故事开头,显著提升创作效率;开发者则可在不依赖第三方云服务的情况下,构建原型系统来测试多模态交互逻辑,如结合用户上传的图片生成描述或提出改进建议。对于教育领域的研究者而言,该工具提供了低成本的实验平台,可用于探索 Gemini 在不同语言任务或视觉推理上的表现边界。 另一个典型应用场景是自动化脚本集成。假设你正在编写一个爬虫程序,需要实时解析网页截图中的关键信息,此时可以通过 `–reference` 参数传入截图文件,让模型理解图像内容并返回结构化数据。又或者,在 DevOps 流程中,你可以用此工具自动生成日志摘要、错误报告说明,甚至根据代码片段撰写注释文档,从而减少人工干预。由于支持会话 ID 管理,这些任务可以被拆解为多个独立命令,在分布式系统中并行执行而不会互相干扰。 此外,该工具对隐私敏感型用户也具有吸引力。所有认证信息仅缓存在本地,不会上传至外部服务器,确保了敏感数据的安全性。配合可选的代理配置(HTTP_PROXY/HTTPS_PROXY),它还能帮助位于网络受限区域的用户绕过地理封锁,稳定访问 Google 服务。无论是小型创业项目、个人博客运维,还是企业内部知识库建设,Baoyu Danger Gemini Web 都能以高度可控的方式赋能 AI 技术的落地应用。