gemini-image-generation

使用 Google GenAI SDK 通过 Gemini 生成或编辑图片。当用户要求创建、转换、渲染或保存一张或多张图片时使用(在 OpenCla...)

安装

概览

gemini-image-generation 是一个基于 Google GenAI SDK 的 OpenClaw 技能,专门用于通过 Gemini 模型生成或编辑图像。该工具允许用户将文本提示转换为高质量的图片,也可以对现有图像进行多种操作,如修改风格、扩展画面或重新渲染。它通过标准化的命令行接口提供功能,确保与 Claude Code 工作流的无缝集成。使用本技能前需确保已正确配置环境变量,包括有效的 GEMINI_API_KEY 和指定的模型 ID。 该技能支持两种主要模式:文本到图像生成和图片编辑。在文本到图像模式下,用户可以输入自然语言描述来创建全新的视觉内容;在编辑模式下,则能基于一张或多张源图像进行创意加工。所有生成的文件都会自动保存至指定路径,并保留原始 MIME 类型对应的扩展名。此外,脚本会输出清晰的日志信息,区分文本响应与图像结果,便于开发者追踪执行过程。 值得注意的是,该工具不仅适用于独立创作场景,还可嵌入自动化流程中作为可复用的技能模块。例如,在开发辅助写作系统时,可通过调用此技能快速生成配图;在多媒体内容生产流水线中,也能实现批量图像处理。其设计兼顾灵活性与稳定性,既支持自定义端点部署,也兼容标准 Gemini API 接口。

核心功能特点

  1. 支持文本提示生成全新图像
  2. 可对单张或多张现有图像进行编辑与重绘
  3. 自动生成符合 MIME 类型的图像文件并保存至指定路径
  4. 支持自定义宽高比(aspect ratio)和分辨率设置
  5. 提供详细的控制台日志输出,区分文本与图像结果

适用场景

gemini-image-generation 特别适合需要快速原型化视觉内容的开发者和创作者。例如,在构建 AI 驱动的设计助手时,产品经理可以输入‘未来主义风格的咖啡杯’这样的描述,立即获得可用于界面预览的高清图像,大幅缩短反馈周期。对于技术文档撰写者而言,若需在说明书中加入示意图,只需用自然语言描述对象特征,即可自动生成匹配插图,避免从零开始绘制。 在企业级应用场景中,该工具同样表现出色。市场团队可利用其批量生成社交媒体素材,如节日促销海报或产品宣传图,统一风格的同时提升效率。教育科技领域也可借助此能力制作交互式学习资源——比如根据学生提交的文本作业自动生成概念图解,增强知识可视化效果。此外,在游戏开发前期,美术人员能够迅速产出角色草图或场景氛围图,加速创意验证流程。 更进阶的使用方式是将该技能封装为微服务,供其他系统调用。例如,客服聊天机器人可在收到用户上传的产品照片后,自动执行‘美化滤镜’或‘尺寸裁剪’等指令,并返回处理后的版本。这种集成模式不仅降低了代码复杂度,还确保了图像处理的标准化与高一致性。总之,无论是个人项目还是团队协作,gemini-image-generation 都能成为提升视觉生产力的高效利器。