Image analysis using multimodal vision models. Use when user needs to: (1) Describe what's in an image, (2) Extract text from images (OCR), (3) Analyze visual content, (4) Compare images, (5) Answer questions about images. Supports JPG, PNG, GIF, WebP formats.
利用多模态AI模型的内置视觉能力分析图像。
描述图像中的内容:
python
从图像中提取文本:
python
image(/path/to/document.png, prompt=从这张图片中提取所有文本)
比较或分析多张图像:
python
images([/path/to/image1.jpg, /path/to/image2.jpg],
prompt=比较这两张图片并描述它们的差异)
就图像内容提出具体问题:
python
image(menu.jpg, prompt=主菜的价格是多少?)
image(chart.png, prompt=这张图表显示了什么趋势?)
image(screenshot.png, prompt=显示了什么错误信息?)
检查图像内容:
python
image(upload.jpg, prompt=这张图片适合专业场合吗?)
从视觉内容中提取结构化数据:
python
image(receipt.jpg, prompt=提取日期、总金额和购买的商品)
image(business_card.png, prompt=提取姓名、电话、邮箱和公司)
image(form.jpg, prompt=以键值对形式提取所有已填写字段)
比较图像:
python
images([before.jpg, after.jpg],
prompt=这两张图片之间做了哪些更改?)
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 image-vision-1776065118 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 image-vision-1776065118 技能
skillhub install image-vision-1776065118
文件大小: 1.69 KB | 发布时间: 2026-4-15 13:04