图片理解
调用多模态大模型理解图片,生成精准的业务描述。
支持的模型
| 模型 | 环境变量 | 说明 |
|---|
| MiniMax VLM | INLINECODE0 , INLINECODE1 | 默认,推荐用于中文理解 |
| OpenAI |
OPENAI_API_KEY | GPT-4V |
| Anthropic |
ANTHROPIC_API_KEY | Claude Vision |
使用方法
前提条件
设置对应模型的环境变量(至少一个):
CODEBLOCK0
调用脚本
CODEBLOCK1
参数:
- - 图片路径:本地图片文件(PNG、JPG、JPEG、GIF、WebP)
- model(可选):
minimax(默认)、openai、 INLINECODE6 - prompt(可选):自定义提示词
示例
CODEBLOCK2
输出
直接输出图片的业务含义描述,不再罗列元素位置,聚焦数据内容和业务逻辑。
图片理解
调用多模态大模型理解图片,生成精准的业务描述。
支持的模型
| 模型 | 环境变量 | 说明 |
|---|
| MiniMax VLM | MINIMAXAPIKEY, MINIMAXAPIHOST | 默认,推荐用于中文理解 |
| OpenAI |
OPENAI
APIKEY | GPT-4V |
| Anthropic | ANTHROPIC
APIKEY | Claude Vision |
使用方法
前提条件
设置对应模型的环境变量(至少一个):
bash
MiniMax(默认)
export MINIMAX
APIKEY=your-minimax-key
export MINIMAX
APIHOST=https://api.minimaxi.com
或 OpenAI
export OPENAI
APIKEY=your-openai-key
或 Anthropic
export ANTHROPIC
APIKEY=your-anthropic-key
调用脚本
bash
python3 /scripts/understand_image.py <图片路径> [model] [prompt]
参数:
- - 图片路径:本地图片文件(PNG、JPG、JPEG、GIF、WebP)
- model(可选):minimax(默认)、openai、anthropic
- prompt(可选):自定义提示词
示例
bash
使用默认(MiniMax)
python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png
指定模型
python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png openai
自定义提示词
python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png minimax 描述图表中的数据趋势
输出
直接输出图片的业务含义描述,不再罗列元素位置,聚焦数据内容和业务逻辑。