返回顶部
f

feishu-knowledge-ingest飞书知识导入

batch ingest feishu folders and single attachments into report-first knowledge artifacts. use when chatgpt needs to read a feishu directory or a single shared file, classify files, extract text from supported attachments, and produce ingest-report.md, kb-items.jsonl, failed-items.jsonl, and memory.candidate.md without directly writing memory.md. best for feishu knowledge training, directory learning, policy/manual ingestion, and controlled docx/pdf parsing workflows.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
85
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

feishu-knowledge-ingest

技能名称: feishu-knowledge-ingest
详细描述:

飞书知识摄入

使用此技能将飞书文件夹或单个共享附件转化为结构化的、可审阅的知识输出。

此技能的功能

  • - 接受飞书文件夹链接/令牌或单个共享附件。
  • 将文件分类为:直接读取、下载并解析、人工审阅、权限受限。
  • 在v0.1版本中解析.docx和.pdf文件。
  • 优先生成报告输出,而非直接写入MEMORY.md。
  • 保留失败和不确定情况,而非猜测内容。

v0.1版本支持范围

输入

  • - 飞书文件夹链接或folder_token
  • 单个共享附件链接或令牌

解析

  • - .docx
  • .pdf

输出

  • - ingest-report.md
  • kb-items.jsonl
  • failed-items.jsonl
  • MEMORY.candidate.md

必需行为

  1. 1. 区分飞书原生文档与上传附件。
- 原生文档:doc、sheet、wiki、bitable - 上传附件:.docx、.pdf、.pptx及其他文件
  1. 2. 除非实际提取了文本,否则不得声称已学习附件内容。
  2. 默认优先输出报告。在v0.1版本中不写入MEMORY.md。
  3. 记录每个失败文件的具体原因。
  4. 报告进度时,优先使用纯文本摘要而非复杂的飞书卡片。

文件路由规则

直接读取

仅在运行时具有可靠的原生读取路径时,才将以下类型视为直接读取:
  • - doc
  • sheet
  • wiki
  • bitable

下载并解析

将以下类型视为下载并解析:
  • - .docx
  • .pdf

人工审阅

当文件超出范围或在v0.1版本中置信度较低时,路由至此:
  • - .pptx
  • 图片
  • 无可提取文本的扫描件
  • 压缩包
  • 不常见文件类型

权限受限

当可以列出文件但无法下载或读取时,路由至此。

标准工作流程

  1. 1. 解析输入类型。
- 文件夹链接/令牌 -> 枚举文件。 - 单个文件链接/令牌 -> 构建单文件清单。
  1. 2. 创建批次记录。
- 生成batch_id。 - 记录started_at。
  1. 3. 构建清单。
- 文件名 - 文件令牌/链接 - 文件类型 - 路由决策
  1. 4. 尝试提取。
- .docx -> 使用parsers/parse_docx.py - .pdf -> 使用parsers/parse_pdf.py
  1. 5. 生成结构化输出。
- 成功 -> 追加至kb-items.jsonl - 失败 -> 追加至failed-items.jsonl
  1. 6. 汇总批次。
- 写入ingest-report.md - 写入MEMORY.candidate.md
  1. 7. 完成批次。
- 记录finished_at - 绝不自动写入MEMORY.md

输出规范

kb-items.jsonl

每个成功提取的知识项写入一个JSON对象,至少包含:
  • - batchid
  • sourcefile
  • sourcetoken
  • filetype
  • topic
  • contenttype
  • summary
  • extractedat
  • confidence

failed-items.jsonl

每个失败或受阻的文件写入一个JSON对象,至少包含:
  • - batchid
  • sourcefile
  • sourcetoken
  • filetype
  • failurereason
  • errordetail
  • suggestedaction
  • failedat

MEMORY.candidate.md

包含:
  • - 批次头部(batchid、startedat、finishedat、sourcedirectory或source_file)
  • 分组的知识摘要
  • 来源引用
  • 置信度说明
  • 需要审阅的项目

ingest-report.md

包含:
  1. 1. 批次摘要
  2. 输入范围
  3. 文件数量及路由统计
  4. 成功提取摘要
  5. 失败与风险
  6. 建议后续操作

安全规则

  • - 绝不编造未提取的文本。
  • 若解析失败,如实说明并记录。
  • 仅将文件名视为提示,绝不作为文档内容的证据。
  • 除非工作流明确允许,否则不得将敏感数据放入MEMORY.candidate.md。

包含文件

  • - run.py:用于本地测试的最小批次运行器
  • parsers/parsedocx.py:docx文本提取辅助工具
  • parsers/parsepdf.py:pdf文本提取辅助工具
  • references/output_examples.md:示例输出格式及字段指南
  • README.md:设置与使用说明

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 feishu-knowledge-ingest-1776071290 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 feishu-knowledge-ingest-1776071290 技能

通过命令行安装

skillhub install feishu-knowledge-ingest-1776071290

下载

⬇ 下载 feishu-knowledge-ingest v1.0.0(免费)

文件大小: 7.44 KB | 发布时间: 2026-4-14 13:28

v1.0.0 最新 2026-4-14 13:28
feishu-knowledge-ingest 1.0.0

- Initial release of Feishu Knowledge Ingest for batch processing Feishu folders or single attachments into structured knowledge artifacts.
- Supports parsing and extracting text from `.docx` and `.pdf` files; other file types are routed for manual review or failure logging.
- Outputs include `ingest-report.md`, `kb-items.jsonl`, `failed-items.jsonl`, and `MEMORY.candidate.md`—never writes `MEMORY.md` directly.
- Provides clear reporting of successes, failures, file routing decisions, and promotes review-first workflows.
- Includes safety rules to prevent content invention and maintain data integrity.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部