返回顶部
v

vision-analyze图像分析

Image analysis using multimodal vision models. Use when user needs to: (1) Describe what's in an image, (2) Extract text from images (OCR), (3) Analyze visual content, (4) Compare images, (5) Answer questions about images. Supports JPG, PNG, GIF, WebP formats.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
3,164
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

vision-analyze

视觉分析

利用多模态AI模型的内置视觉能力分析图像。

快速开始

分析图像

描述图像中的内容:

python

当您提供图像路径时,智能体将自动使用视觉功能


image(/path/to/image.jpg, prompt=描述这张图片中的内容)

提取文本(OCR)

从图像中提取文本:

python
image(/path/to/document.png, prompt=从这张图片中提取所有文本)

分析多张图像

比较或分析多张图像:

python
images([/path/to/image1.jpg, /path/to/image2.jpg],
prompt=比较这两张图片并描述它们的差异)

使用模式

视觉问答

就图像内容提出具体问题:

python
image(menu.jpg, prompt=主菜的价格是多少?)
image(chart.png, prompt=这张图表显示了什么趋势?)
image(screenshot.png, prompt=显示了什么错误信息?)

内容审核

检查图像内容:

python
image(upload.jpg, prompt=这张图片适合专业场合吗?)

数据提取

从视觉内容中提取结构化数据:

python
image(receipt.jpg, prompt=提取日期、总金额和购买的商品)
image(business_card.png, prompt=提取姓名、电话、邮箱和公司)
image(form.jpg, prompt=以键值对形式提取所有已填写字段)

视觉比较

比较图像:

python
images([before.jpg, after.jpg],
prompt=这两张图片之间做了哪些更改?)

提示

  • - 具体明确:提示词越具体,效果越好
  • 多张图像:一次最多可分析20张图像
  • 支持格式:JPG、PNG、GIF、WebP
  • 大小限制:大图像会自动调整大小

适用场景

  • - 从截图、文档或照片中读取文本
  • 描述视觉内容以提升可访问性
  • 分析图表、图形或示意图
  • 比较视觉变化
  • 从表单或收据中提取数据
  • 理解UI元素或错误信息

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 image-vision-1776065118 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 image-vision-1776065118 技能

通过命令行安装

skillhub install image-vision-1776065118

下载

⬇ 下载 vision-analyze v1.0.0(免费)

文件大小: 1.69 KB | 发布时间: 2026-4-15 13:04

v1.0.0 最新 2026-4-15 13:04
Image analysis skill using multimodal vision models

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部