返回顶部
m

minimax-image-understanding图片理解

使用多模态大模型理解图片内容,生成业务含义描述。支持多种模型:(1) MiniMax VLM (2) OpenAI GPT-4V (3) Claude Vision。用于理解截图、图表、文档照片等,生成精准的文字描述。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
659
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

minimax-image-understanding

图片理解

调用多模态大模型理解图片,生成精准的业务描述。

支持的模型

模型环境变量说明
MiniMax VLMMINIMAXAPIKEY, MINIMAXAPIHOST默认,推荐用于中文理解
OpenAI
OPENAIAPIKEY | GPT-4V | | Anthropic | ANTHROPICAPIKEY | Claude Vision |

使用方法

前提条件

设置对应模型的环境变量(至少一个):

bash

MiniMax(默认)


export MINIMAXAPIKEY=your-minimax-key
export MINIMAXAPIHOST=https://api.minimaxi.com

或 OpenAI

export OPENAIAPIKEY=your-openai-key

或 Anthropic

export ANTHROPICAPIKEY=your-anthropic-key

调用脚本

bash
python3 /scripts/understand_image.py <图片路径> [model] [prompt]

参数:

  • - 图片路径:本地图片文件(PNG、JPG、JPEG、GIF、WebP)
  • model(可选):minimax(默认)、openai、anthropic
  • prompt(可选):自定义提示词

示例

bash

使用默认(MiniMax)


python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png

指定模型

python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png openai

自定义提示词

python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png minimax 描述图表中的数据趋势

输出

直接输出图片的业务含义描述,不再罗列元素位置,聚焦数据内容和业务逻辑。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 minimax-image-understanding-1776190395 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 minimax-image-understanding-1776190395 技能

通过命令行安装

skillhub install minimax-image-understanding-1776190395

下载

⬇ 下载 minimax-image-understanding v1.0.0(免费)

文件大小: 3.37 KB | 发布时间: 2026-4-15 10:42

v1.0.0 最新 2026-4-15 10:42
minimax-image-understanding v1.0.0

- Initial release supporting multimodal image understanding using large models.
- Compatible with MiniMax VLM (default, recommended for Chinese), OpenAI GPT-4V, and Claude Vision (Anthropic).
- Simple CLI tool for generating business-centric descriptions of images, charts, and document photos.
- Environment-variable-based configuration for easy model selection.
- Output focuses on key content and business logic, omitting positional element listings.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部