Twitter AI KOL Fetcher

抓取 Twitter AI 领域动态，识别热门话题，自动生成专业内参报告。

内参风格参考：中关村两院《美国对中国关键软件出口管制的影响研判与对策建议》

目录结构

twitter-ai-kol-fetcher/
├── config.json # API 配置文件（用户填 key）
├── SKILL.md # 本文件
├── references/
│ ├── kol_list.json # KOL 账号列表（82个）
│ ├── llm_prompts.md # LLM 提示词
│ └── internalreporttemplate.md # 内参模板
└── scripts/
├── 01fetchkols.py # 抓取 KOL 推文
├── 02filterand_score.py # 过滤、评分、聚类
├── 03generatereport.py # 机会判定 + 报告生成
└── main.py # 主流程脚本

Twitter API

服务商：https://twitterapi.io

资源	价格
Tweets	$0.15 / 1K 条
Profiles

$0.18 / 1K 个 |
| Followers | $0.15 / 1K 个 |

计费：15 Credits/条推文，1 USD = 100,000 Credits

工作流（优化版）

[Step 1] 抓取数据
↓
[Step 2] 规则过滤 + 热度评分
↓
[Step 3] 话题聚类（新增！基于关键词相似度）
↓
[Step 4] LLM 机会判定（Lightning 模型，便宜）
↓
[Step 5] LLM 报告生成（M2.1 模型，强推理）
↓
[Step 6] 发送到飞书 → 删除临时文件

核心优化点

1. 模型分离（成本优化）

阶段	模型	理由	成本
数据抓取	82 KOL × 1条	Tweets.io API	~$0.012
机会判定

MiniMax-M2.5 | 逻辑判断 + 优先级排序 | ~$0.01 | | 报告生成 | Gemini 3.1 Pro × 3 | 大上下文、强推理、文笔好 | ~$1.20 | | 总计 | | | ~$1.22/天 |

2. 话题聚类（质量提升）

问题：原来的逻辑是一条推文 = 一个话题，但内参的价值在于发现趋势和主题。

解决方案：基于关键词相似度将相关推文聚类

- 3个KOL讨论Claude 4发布 → 合并为一个主题
5个KOL聊AI安全法案 → 这是重点话题

效果：

- 减少重复内容
话题更有代表性
报告更有深度

3. 扩大信源 + 减少单KOL抓取量

- 信源扩大：从 34 个扩展到更多 KOL（AI公司、CEO、投资人、博主、研究员）
每KOL抓取量：从 5 条减少到 1 条（最新）
效果：覆盖更广，成本可控

4. 并行报告生成（速度优化）

- 原来：串行生成 3 篇报告 → ~3分钟
现在：并行生成 3 篇报告 → ~1分钟
效果：速度翻倍，更快交付

5. 防漏抓机制（关键！）

问题	解决方案
漏掉 VIP 用户	兜底机制：sama/elonmusk 等发的强制纳入
漏掉突发事件

关键词兜底：含 launching 等强制纳入 | | 漏掉高互动 | 互动兜底：点赞>5000 或转发>500 强制纳入 |

4. 兜底规则

如果满足以下任一条件，强制纳入话题池：

1. VIP 用户（sama, elonmusk 等）发布的
包含 launching, announcing, new, breaking 等关键词
点赞 > 5000 或转发 > 500

4. KOL 列表（82个）

从 references/kol_list.json 加载，分类：

类型	数量	说明
company	28	AI 公司官方（OpenAI, Anthropic, Google DeepMind 等）
influencer

11 | 技术博主（swyx, fireship, heyBarsee 等） |
| ceo | 9 | CEO（Sam Altman, Elon Musk, Demis Hassabis 等） |
| researcher | 8 | 研究员（Yann LeCun, Ilya, Noam Brown 等） |
| vc | 5 | 投资机构（a16z, Sequoia, Greylock 等） |
| platform | 5 | 平台（GitHub, LangChain, Streamlit 等） |
| investor | 4 | 个人投资人 |
| 其他 | 12 | newsletter, analyst, framework 等 |

总计：82 个 KOL（覆盖 AI 公司、投资、产品、研究、媒体）

5. 过滤规则

- AI 关键词过滤：匹配 AI 相关内容
热度评分：转发×2 + 点赞×1 + 浏览×0.001
内参触发词：launch, release, funding, safety, policy...
话题聚类：基于关键词相似度合并相关推文

6. LLM 参与点

1. 机会判定（Lightning）：判断聚类后的话题是否值得写内参
报告生成（M2.1）：按模板生成 Markdown 报告

7. 报告结构优化

章节	内容	目的
核心要点	3条最核心发现	一句话摘要
事件还原

使用方式

方式1：手动执行

bash

设置 API Key

export OPENROUTERAPIKEY=your-key

运行主流程

python3 scripts/main.py

方式2：定时任务

任务: 每日 AI 内参

- 时间: 工作日 9:00
输出: 发送到飞书 → 删除临时文件

关键文件说明

references/kol_list.json

KOL 账号列表，JSON 格式，可动态扩展。

references/llm_prompts.md

LLM 提示词模板，包含：

- 机会判定 Prompt
报告生成 Prompt
关键词配置

references/internalreporttemplate.md

内参模板，对齐中关村两院风格。

scripts/01fetchkols.py

抓取 KOL 推文，输出 JSON。

scripts/02filterand_score.py

过滤和评分，输出热门话题。

scripts/03generatereport.py

调用 LLM 生成报告。

配置

config.json

在项目根目录创建 config.json，填入 API Key：

json
{
twitterapikey: your-twitter-api-key,
openrouterapikey: your-openrouter-api-key
}

获取方式：

- Twitter API: https://twitterapi.io/dashboard
OpenRouter API: https://openrouter.ai/settings

可配置参数

- KOL 列表：references/kollist.json
关键词：references/llmprompts.md
热度阈值：脚本中 MINHOTNESS = 500
报告数量：脚本中 maxreports = 3

输出流程（关键！）

生成内参 → Markdown 文本 → 发送到飞书 → 删除临时文件

重要：不保存本地文件！

twitter-ai-kol-fetcherTwitter AI KOL 抓取器