返回顶部
m

multimodal-memory多模态记忆

Remember and retrieve visual content from conversations. Use when: (1) user sends an image, photo, chart, diagram, or screenshot and wants it saved/remembered; (2) user asks to capture or remember a website, URL, or web page UI; (3) user asks what you've seen before, wants to recall a past image, or searches visual memories; (4) user sends an image to find similar past content.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
251
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

multimodal-memory

多模态记忆

跨对话存储和检索视觉内容——用户图像、图表、示意图、网站界面。

重要提示:图像分析

主模型可能不支持视觉功能。 请始终使用 analyze.py 分析图像——它通过 API 直接调用 GPT-4o,不依赖您自身的视觉能力。

存储位置

所有数据存储在 ~/.multimodal-memory/ 目录下:

  • - images/ — 捕获图像的保存副本
  • metadata.db — SQLite 数据库(自动创建)
  • memory.md — 人类可读的摘要(自动更新)

在会话开始时读取 ~/.multimodal-memory/memory.md 以快速了解概况。

场景与操作

1. 用户发送图像/图表/示意图

当用户发送图像时,OpenClaw 会将其保存到本地,并在消息上下文中提供文件路径(查找类似 /tmp/... 或 ~/.openclaw/... 的路径)。

使用该路径运行 analyze.py——它会调用 GPT-4o 进行分析并自动存储结果:

bash
python {baseDir}/scripts/analyze.py \
--image-path /绝对/路径/到/image.jpg \
--source image

对于图表使用 --source chart,对于示意图使用 --source image。

如果在消息上下文中找不到文件路径,请询问用户:

请问这张图片保存在哪个路径?或者你可以直接粘贴文件路径给我。

2. 用户要求捕获/记住一个网站

第一步——截取屏幕截图:
bash
python {baseDir}/scripts/capture_url.py --url https://example.com

该脚本会打印保存的截图路径。

第二步——分析并存储:
bash
python {baseDir}/scripts/analyze.py \
--image-path /上面/打印的/路径.png \
--source website \
--url https://example.com

3. 用户通过文本搜索

bash
python {baseDir}/scripts/search.py --query 深色主题登录界面

显示结果及其描述和图像路径。

4. 用户发送图像进行搜索(查找相似记忆)

第一步——分析查询图像以获取其描述:
bash
python {baseDir}/scripts/analyze.py \
--image-path /路径/到/查询/image.jpg \
--source image

第二步——分析结果已存储;同时使用描述关键词搜索相似的历史内容:
bash
python {baseDir}/scripts/search.py --query 分析输出中的关键概念

第三步——展示匹配的记忆并解释它们的相关性。

5. 列出最近的记忆

bash
python {baseDir}/scripts/list.py --limit 20

核心规则

  • - 切勿自行分析图像——始终委托给 analyze.py。
  • 存储后,向用户确认:描述 + 标签已保存。
  • 图像路径必须是绝对路径
  • --extra-tags 参数接受逗号分隔的附加标签。

URL 捕获的一次性设置

如果 capture_url.py 失败:
bash
pip install playwright && python -m playwright install chromium

脚本参考

脚本用途关键参数
analyze.py使用 GPT-4o 分析图像并存储--image-path, --source, --url, --extra-tags
store.py
存储预分析结果 | --image-path, --description, --tags, --source, --url | | search.py | 文本搜索 | --query, [--limit N] | | list.py | 列出记忆 | [--limit N] | | capture_url.py | 截取 URL 截图 | --url |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 minds-eye-1776204389 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 minds-eye-1776204389 技能

通过命令行安装

skillhub install minds-eye-1776204389

下载

⬇ 下载 multimodal-memory v1.0.0(免费)

文件大小: 11.58 KB | 发布时间: 2026-4-15 12:39

v1.0.0 最新 2026-4-15 12:39
Initial release: visual memory skill for AI agents

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部