gemini-image-generation 是一个基于 Google GenAI SDK 的 OpenClaw 技能，专门用于通过 Gemini 模型生成或编辑图像。该工具允许用户将文本提示转换为高质量的图片，也可以对现有图像进行多种操作，如修改风格、扩展画面或重新渲染。它通过标准化的命令行接口提供功能，确保与 Claude Code 工作流的无缝集成。使用本技能前需确保已正确配置环境变量，包括有效的 GEMINI_API_KEY 和指定的模型 ID。该技能支持两种主要模式：文本到图像生成和图片编辑。在文本到图像模式下，用户可以输入自然语言描述来创建全新的视觉内容；在编辑模式下，则能基于一张或多张源图像进行创意加工。所有生成的文件都会自动保存至指定路径，并保留原始 MIME 类型对应的扩展名。此外，脚本会输出清晰的日志信息，区分文本响应与图像结果，便于开发者追踪执行过程。值得注意的是，该工具不仅适用于独立创作场景，还可嵌入自动化流程中作为可复用的技能模块。例如，在开发辅助写作系统时，可通过调用此技能快速生成配图；在多媒体内容生产流水线中，也能实现批量图像处理。其设计兼顾灵活性与稳定性，既支持自定义端点部署，也兼容标准 Gemini API 接口。

核心功能特点

支持文本提示生成全新图像
可对单张或多张现有图像进行编辑与重绘
自动生成符合 MIME 类型的图像文件并保存至指定路径
支持自定义宽高比（aspect ratio）和分辨率设置
提供详细的控制台日志输出，区分文本与图像结果

适用场景

gemini-image-generation 特别适合需要快速原型化视觉内容的开发者和创作者。例如，在构建 AI 驱动的设计助手时，产品经理可以输入‘未来主义风格的咖啡杯’这样的描述，立即获得可用于界面预览的高清图像，大幅缩短反馈周期。对于技术文档撰写者而言，若需在说明书中加入示意图，只需用自然语言描述对象特征，即可自动生成匹配插图，避免从零开始绘制。在企业级应用场景中，该工具同样表现出色。市场团队可利用其批量生成社交媒体素材，如节日促销海报或产品宣传图，统一风格的同时提升效率。教育科技领域也可借助此能力制作交互式学习资源——比如根据学生提交的文本作业自动生成概念图解，增强知识可视化效果。此外，在游戏开发前期，美术人员能够迅速产出角色草图或场景氛围图，加速创意验证流程。更进阶的使用方式是将该技能封装为微服务，供其他系统调用。例如，客服聊天机器人可在收到用户上传的产品照片后，自动执行‘美化滤镜’或‘尺寸裁剪’等指令，并返回处理后的版本。这种集成模式不仅降低了代码复杂度，还确保了图像处理的标准化与高一致性。总之，无论是个人项目还是团队协作，gemini-image-generation 都能成为提升视觉生产力的高效利器。

概览

核心功能特点

适用场景

相关推荐

Guizang PPT Skill：AI 驱动的网页幻灯片生成工具

Anime Image Downloader (Safebooru, Download Only)

email-designer

Bible QA (OpenClaw Church)

VietQR

Filtrix Video Gen

biliup-skills

XReplyAI – Social Post Manager