Video Image & File Analysis（视频图片文件分析专家）是一款专为多模态内容设计的智能分析工具，能够高效处理本地图片、网络图片、视频及各类文件。该工具基于先进的视觉语言模型，支持智谱 GLM-4V 和阿里云千问 Qwen-VL 两种主流 AI 引擎，适用于 OCR 文字识别、物体检测、场景理解以及复杂推理任务。当用户上传或请求分析图像时，系统会自动调用此技能进行解析，确保输出结果的专业性与准确性。

该工具不仅支持单张图片的快速描述，还能实现多图对比分析、视频内容总结等高级功能。通过命令行接口，开发者可灵活配置模型参数、选择不同 API 密钥，并开启‘思考模式’以提升复杂任务的推理精度。同时，工具对输入格式有明确规范：本地图片需为 jpg/png/gif/webp/bmp 格式，网络图片需可直接访问；智谱模型限制图片大小在 5MB 以内且分辨率不超过 6000×6000 像素。

在实际应用中，该工具已被集成至自动化工作流中，例如用户发送图片后，系统自动下载至指定路径（如 data/temp/images/xxx.jpg），随后调用分析脚本完成 OCR 提取、物体定位或语义描述。其 JSON 输出模式便于程序化处理结果，而模型选择策略则根据场景需求推荐最优配置——简单描述可用任意模型，高精度文档解析推荐千问，复杂推理建议搭配智谱的‘思考模式’使用。

核心功能特点

支持智谱 GLM-4V 与千问 Qwen-VL 双视觉模型，满足不同精度与成本需求
可分析本地图片、网络链接图片、视频文件及通用文档格式
提供 OCR 文字提取、物体识别、场景理解及多图差异对比功能
支持命令行操作与 JSON 结构化输出，便于系统集成与自动化处理
可选‘思考模式’增强复杂推理能力，提升定位与判断准确度
自动将本地图片转为 Base64 编码，兼容常见图像格式（jpg/png/gif/webp/bmp）

适用场景

Video Image & File Analysis 特别适用于需要快速理解视觉内容的实际应用场景。例如，在客服系统中，当用户上传产品截图或故障照片时，该工具能自动识别界面元素、错误提示或关键部件位置，辅助生成精准回复。对于内容审核平台，它可以批量分析用户上传的图片，检测违规物品或敏感信息，实现自动化筛查。此外，在教育领域，教师可将学生提交的作业图片发送给系统，由工具提取手写公式、标注重点区域或比对前后版本差异，极大提升批改效率。

在开发者和企业技术团队中，该工具常用于构建智能助手或数据分析流水线。比如，运维人员上传服务器监控截图，系统可识别 CPU 使用率、内存占用等指标并生成报告；市场部门分析竞品广告图时，可通过多图对比发现设计亮点或宣传策略变化。由于支持命令行调用与脚本集成，它也能嵌入 CI/CD 流程，自动验证 UI 截图是否符合预期，或在文档处理中实现表格数据提取与归档。

对于注重成本控制的项目，智谱模型提供免费额度，适合高频次的基础分析任务；而对精度要求极高的场景，如法律文书 OCR、医学影像标注或工业质检，则推荐使用千问模型。结合‘思考模式’，即使在光线复杂、目标重叠度高的环境下，也能稳定输出坐标与描述，满足专业级应用需求。

Video Image & File Analysis 多模态视觉视频图片文件分析专家

概览

核心功能特点

适用场景

概览

核心功能特点

适用场景

相关推荐

predict-intelligence

Google Analytics & Search & Indexing with support for multiple Properties

Science Milestones & Research Trader

Monkeytype Tracker and Advisor

AetherLang

agentskills-io

Market Research Agent

Zapier MCP