返回顶部
p

paperbanana论文图表生成

Generate publication-quality academic diagrams from paper methodology text

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
516
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

paperbanana

PaperBanana

根据论文的方法部分和图表标题,生成达到发表质量的学术图表和流程图。PaperBanana 编排了一个多智能体流水线(检索器、规划器、风格设计器、可视化器、评审器),以生成适用于 NeurIPS、ICML 和 ACL 等会议的可直接发表的图表。

环境设置

bash
cd <仓库根目录>
uv pip install -r requirements.txt

通过环境变量或在 configs/model_config.yaml 中设置您的 API 密钥。

选项 1(推荐):OpenRouter API 密钥 — 一个密钥即可用于文本推理和图像生成:
bash
export OPENROUTERAPIKEY=sk-or-v1-...

选项 2:Google API 密钥 — 直接访问 Gemini API:
bash
export GOOGLEAPIKEY=your-key-here

如果两个密钥都已配置,默认使用 OpenRouter。

使用方法

bash
python skill/run.py \
--content 方法文本 \
--caption 图表标题 \
--task diagram \
--output output.png

参数

参数必需默认值描述
--content需要可视化的方法部分文本
--content-file
是 | | 包含方法文本的文件路径(替代 --content) | | --caption | 是 | | 图表标题或视觉意图 | | --task | 否 | diagram | 任务类型:diagram | | --output | 否 | output.png | 输出图像文件路径 | | --aspect-ratio | 否 | 21:9 | 宽高比:21:9、16:9 或 3:2 | | --max-critic-rounds | 否 | 3 | 最大评审优化迭代次数 | | --num-candidates | 否 | 10 | 并行生成的候选数量 | | --retrieval-setting | 否 | auto | 检索模式:auto、manual、random 或 none | | --main-model-name | 否 | gemini-3.1-pro-preview | VLM 智能体的主模型。根据配置的 API 密钥自动检测提供商 | | --image-gen-model-name | 否 | gemini-3.1-flash-image-preview | 图像生成模型。也支持 gemini-3-pro-image-preview | | --exp-mode | 否 | demofull | 流水线:demofull(含风格设计器)或 demoplannercritic(不含风格设计器) |

*--content 或 --content-file 中必须提供一个。

当 --num-candidates > 1 时,输出文件命名为 0.png、1.png 等。

输出

每个保存图像的绝对路径会打印到标准输出,每行一个。

示例

图表

bash
python skill/run.py \
--content 我们提出了一种基于 Transformer 的编码器-解码器架构。编码器由 12 个带有残差连接的自注意力层组成。解码器使用交叉注意力来关注编码器输出,并自回归地生成目标序列。 \
--caption 图 1:所提出的 Transformer 架构概览 \
--task diagram \
--output architecture.png

重要说明

  • - 运行时间:单个候选通常需要 3-10 分钟,具体取决于模型和网络条件。默认情况下并行运行 10 个候选,预计总共需要约 10-30 分钟。请相应规划时间。
  • API 调用:每个候选涉及多次 LLM 调用(检索器 + 规划器 + 风格设计器 + 可视化器 + 最多 3 轮评审)。候选并行运行以提高效率。
  • 图像生成:可视化器智能体调用图像生成模型(Gemini Image)来渲染图表。

关于

PaperBanana 基于 PaperVizAgent 框架,这是一个用于自动化学术插图的参考驱动多智能体系统。它是以下研究论文的一部分:

PaperBanana: Automating Academic Illustration for AI Scientists
Dawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon
arXiv:2601.23265

该框架引入了一个由五个专业智能体组成的协作团队——检索器、规划器、风格设计器、可视化器和评审器——将原始科学内容转化为达到发表质量的图表。评估在 PaperBananaBench 基准上进行。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 paperbanana-1776128530 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 paperbanana-1776128530 技能

通过命令行安装

skillhub install paperbanana-1776128530

下载

⬇ 下载 paperbanana v0.1.0(免费)

文件大小: 5.71 KB | 发布时间: 2026-4-15 13:50

v0.1.0 最新 2026-4-15 13:50
Initial release: multi-agent academic diagram generation from paper methodology text

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部