Gemini Image Generator

使用 Gemini 模型生成、编辑和合成图像。当用户请求生成图像、绘画、制作徽标/海报/图标/横幅、编辑或修改照片时激活。

安装

概览

Gemini Image Generator 是一款基于 Google Gemini 模型开发的图像生成与处理工具,专为满足用户在创意设计和内容制作中的多样化视觉需求而设计。该工具支持通过自然语言指令生成高质量图像、编辑现有图片以及将多张图片合成为统一风格的复合作品,适用于从艺术创作到商业设计的广泛场景。其核心优势在于兼容 OpenAI 格式和 Google 原生 API 两种调用方式,并允许用户自定义 API 端点与密钥,极大提升了部署灵活性。工具通过命令行脚本驱动,强调自动化输出与错误反馈机制,确保在触发图像相关任务时能够稳定交付结果。 该工具由 `Nano Banana` 项目封装实现,具备严格的执行规范:必须在检测到用户意图为‘画图’‘生成图片’‘制作海报或图标’等明确图像操作时调用脚本,严禁仅用文字描述替代实际图片输出。若运行环境缺少 `python3` 或 `uv` 依赖,系统会直接报错并提供安装命令,避免模糊提示。每次执行后,脚本会自动检查是否成功生成包含 `MEDIA:` 标识的图片文件路径,并在首次失败时自动重试一次;若仍无有效输出,则返回具体失败原因或优化建议,保障用户体验的可靠性。 Gemini Image Generator 支持多种高级配置选项,包括分辨率(1K/2K/4K)、宽高比(如16:9、1:1)、风格模式(natural/vivid)及画质等级(standard/hd),并可同时上传最多14张输入图片用于编辑或合成。文件名采用时间戳命名规则(yyyy-mm-dd-hh-mm-ss-name.png),便于版本管理。此外,内置了针对API限流(429错误)和超时情况的重试逻辑(最多3次),结合详细的调试日志选项,使开发者能快速定位问题。所有配置可通过命令行参数或环境变量设置,且优先级明确,方便集成到各类工作流中。

核心功能特点

  1. 支持文生图、图片编辑与多图合成三大核心功能
  2. 兼容 OpenAI 与 Google 原生两种 API 调用格式
  3. 可自定义 API 端点、模型名称及请求参数
  4. 自动重试机制应对限流与超时,提升稳定性
  5. 输出带 MEDIA: 标记的文件路径供系统自动附件
  6. 支持高分辨率(最高4K)与多种宽高比定制

适用场景

Gemini Image Generator 特别适合需要快速产出视觉内容的创作者、设计师及营销人员。无论是撰写社交媒体文案时配图不足,还是制作产品宣传海报、活动横幅,用户只需输入一段自然语言描述(如‘一只戴墨镜的猫站在海边看日落’),即可一键生成符合预期的图像,大幅缩短从零到一的创作周期。对于品牌方而言,该工具可用于批量生成 Logo 初稿、包装草图或广告插图,帮助团队在早期阶段快速验证创意方向。 在内容编辑方面,工具支持对已有照片进行局部修改或风格化处理,例如将黑白老照片上色、去除背景干扰物或将人像转换为卡通风格,无需掌握 Photoshop 等专业软件即可完成基础修图任务。更进阶的应用场景包括将多个素材图(如人物、道具、场景)智能融合成一张连贯画面,常用于游戏素材拼接、短视频封面设计或演示文稿配图制作。 由于完全基于命令行运行且输出标准化,该工具也适合嵌入自动化脚本或 CI/CD 流程中,实现报告封面自动生成、文档插图批量替换等后台任务。配合环境变量管理密钥与端点信息,可在团队协作环境中安全部署,避免敏感信息泄露风险。整体而言,它填补了通用 AI 写作助手无法直接输出图像的空白,成为连接文本指令与视觉成果的关键桥梁。