🧠 Smart Model Switcher V5.0.2 (多模态感知增强版)

自动识别任务类型 • 智能切换最优模型 • 零感知 • 无需手动

🎯 V5.0.2 核心升级

特性	V4	V5.0.2
多模态感知	✅ 图片	✅ 图片 + 视频 + 音频
Office 模式

⚠️ 核心规则：主窗口限制

🔒 智能切换仅限主窗口

智能模型切换只对主窗口（主会话）生效！

会话类型	是否执行智能切换	说明
主窗口	✅ 执行	用户直接对话的会话（飞书、WebChat、Telegram 等）
子代理

为什么这样设计？

1. 子代理有固定模型 - 各专业人员的模型是预设的（技术专家用 glm-5，推理用 qwq-plus）
避免干扰 - 智能切换不应该覆盖子代理的专业模型配置
职责分明 - 主窗口处理用户意图，子代理专注执行任务

判断方式

CODEBLOCK0

检测方法：

- 主窗口：depth = 0 或无 subagent context 标记
子代理：消息开头有 [Subagent Context] 或 INLINECODE4

🖼️ 多模态模型列表

视觉/音视频模型（支持图片/视频/音频）
模型 ID Provider 能力推荐场景
INLINECODE5 Bailian 图片/视频/音频 ⭐⭐⭐⭐⭐ 多模态任务首选
INLINECODE6
Bailian | 图片 ⭐⭐⭐⭐⭐ | 纯图片理解、OCR |

模型 ID	Provider	能力	推荐场景
INLINECODE5	Bailian	图片/视频/音频 ⭐⭐⭐⭐⭐	多模态任务首选
INLINECODE6

代码模型（编程专用）
模型 ID Provider 代码能力推荐场景
INLINECODE9 Bailian/GLM ⭐⭐⭐⭐⭐ 代码生成、Debug、重构
INLINECODE10
Bailian | ⭐⭐⭐⭐⭐ | 代码补全、项目开发 |

模型 ID	Provider	代码能力	推荐场景
INLINECODE9	Bailian/GLM	⭐⭐⭐⭐⭐	代码生成、Debug、重构
INLINECODE10

推理模型（复杂思维）
模型 ID Provider 推理能力推荐场景
INLINECODE12 Bailian ⭐⭐⭐⭐⭐ 复杂推理、数学证明
INLINECODE13
Bailian | ⭐⭐⭐⭐⭐ | 深度思考、分析 |

模型 ID	Provider	推理能力	推荐场景
INLINECODE12	Bailian	⭐⭐⭐⭐⭐	复杂推理、数学证明
INLINECODE13

| glm-5 | Bailian/GLM | ⭐⭐⭐⭐ | 逻辑推理 |

Office 文档模型
模型 ID Provider 能力推荐场景
INLINECODE15 Bailian ⭐⭐⭐⭐⭐ Office 文档处理

模型 ID	Provider	能力	推荐场景
INLINECODE15	Bailian	⭐⭐⭐⭐⭐	Office 文档处理

通用模型
模型 ID Provider 综合能力推荐场景
INLINECODE16 Bailian ⭐⭐⭐⭐ 日常对话、写作、翻译
INLINECODE17
Bailian | ⭐⭐⭐ | 快速任务 |

模型 ID	Provider	综合能力	推荐场景
INLINECODE16	Bailian	⭐⭐⭐⭐	日常对话、写作、翻译
INLINECODE17

🔄 自动切换规则

规则 0: 主窗口检测（最高优先级）

CODEBLOCK1

规则 1: 多模态检测优先（图片/视频/音频）

CODEBLOCK2

视频文件扩展名：.mp4, .avi, .mov, .mkv, .wmv, .flv, .webm, .m4v

音频文件扩展名：.mp3, .wav, .m4a, .ogg, .flac, .aac, .wma

图片文件扩展名：.png, .jpg, .jpeg, .gif, .webp, .bmp, .svg

规则 2: 代码任务

CODEBLOCK3

规则 3: 推理任务

CODEBLOCK4

规则 4: Office 模式

CODEBLOCK5

规则 5: 文本任务

CODEBLOCK6

📋 切换决策树（完整版）

CODEBLOCK7

🎯 关键词识别

多模态检测（最高优先级）

- 图片：消息中有 image 类型内容，文件扩展名 .png, .jpg, .jpeg, .gif, .webp, .bmp
视频：文件扩展名 .mp4, .avi, .mov, .mkv, .wmv, .flv, .webm, .m4v
音频：文件扩展名 .mp3, .wav, .m4a, .ogg, .flac, .aac, .wma
用户说："看这个图"、"视频里是什么"、"听这个音频"、"截图"

代码关键词

- 编程相关：代码、编程、python、js、javascript、函数、debug、bug、报错、错误、修复
文件类型：.py, .js, .ts, .html, .css, .json, .yaml, .sh
操作词：写一个、帮我写、优化、重构、解释这段代码

推理关键词

- 推理、逻辑、证明、数学、计算、分析、思考
为什么、怎么推导、能不能推出、关系

Office 关键词

- Office、Office模式、切换Office、MiniMax、文档处理
Word、Excel、PPT、PowerPoint、表格处理

写作关键词

- 写、作文、文章、小说、故事、文案、邮件、报告

🔧 配置示例

用户配置的最强模型

CODEBLOCK8

📊 使用示例

示例 1: 主窗口发送视频文件

CODEBLOCK9

示例 2: 子代理处理代码任务

CODEBLOCK10

示例 3: 主窗口 Office 模式

CODEBLOCK11

示例 4: 主窗口发送音频文件

CODEBLOCK12

示例 5: 子代理执行推理任务

CODEBLOCK13

🚀 实现逻辑

Step 0: 主窗口检测（第一步）

CODEBLOCK14

Step 1: 消息分析

CODEBLOCK15

Step 2: 模型选择

CODEBLOCK16

Step 3: 执行切换

CODEBLOCK17

⚠️ 核心原则

1. 主窗口限制 - 智能切换仅限主窗口，子代理保持预设模型
多模态优先 - 图片/视频/音频一律走 qwen3.5-plus，绝不走 GLM-5
代码专用 - GLM-5 只用于纯代码/纯技术任务
Office 独立 - MiniMax-M2.5 专门处理 Office 文档
检测优先级 - 主窗口 > 图片/视频/音频 > 代码 > 推理 > Office > 通用
自动切换 - 用户无需手动操作，系统自动识别
fallback - 如果首选模型不可用，自动降级到备选

📝 更新日志

V5.0.2 (2026-03-25)

- ✅ 新增视频文件自动检测 (.mp4, .avi, .mov, .mkv 等)
✅ 新增音频文件自动检测 (.mp3, .wav, .m4a, .ogg 等)
✅ 新增 Office 模式，支持 MiniMax-M2.5
✅ 新增主窗口限制，子代理不执行智能切换
✅ 更新决策树，主窗口检测为最高优先级
✅ 明确 GLM-5 只用于纯代码任务

V4.0.0 (2026-03-23)

- ✅ 新增多模态感知，自动识别图片
✅ 新增视觉模型支持 (qwen3-vl-plus, qwen3.5-plus)
✅ 优化切换决策树，图片检测优先
✅ 更新关键词识别规则

V3.0.0

- ✅ 全平台支持
✅ API Key 验证
✅ 套餐检测

🤖 AI Agent 自动行为指南

重要：AI Agent 在每次响应前，必须执行以下检测流程！

🔒 规则 0：主窗口检测（第一步！）

智能切换只对主窗口生效！子代理不要执行模型切换！

CODEBLOCK18

子代理示例：

- INLINECODE20
INLINECODE21
INLINECODE22 或任何 INLINECODE23

主窗口示例：

- 用户直接在 WebChat/飞书/Telegram 发消息
无 [Subagent Context] 标记
INLINECODE25 或无 depth 标记

⚠️ 会话级别切换（重要！）

模型切换是会话级别的，不影响其他通道！

- WebChat 发视频 → 只在 WebChat 切换多模态模型
飞书写代码 → 只在飞书会话切换代码模型
Telegram 聊天 → 只在 Telegram 会话切换模型

不同通道独立，互不影响！

切换方法（会话级别）

使用 session_status 工具，带上当前会话的 sessionKey：

CODEBLOCK19

默认行为：不带 sessionKey 时，只切换当前会话的模型。

检测流程（每次响应前）

CODEBLOCK20

切换方法

使用 session_status 工具切换模型：
CODEBLOCK21

切换提示

切换成功后，给用户一个简短提示：

- "🧠 已切换到 qwen3.5-plus（视频/音频理解）"
"🧠 已切换到 qwen3.5-plus（图片理解）"
"🧠 已切换到 glm-5（代码任务）"
"🧠 已切换到 qwq-plus（推理任务）"
"🧠 已切换到 MiniMax-M2.5（Office 模式）"

示例行为

CODEBLOCK22

注意事项

1. 主窗口限制 - 只有主窗口才执行智能切换，子代理保持预设模型
不要重复切换 - 如果当前模型已经是最优选择，不要切换
切换要快 - 使用简短提示，不要长篇大论
记录切换 - 如果模型切换成功，记住当前使用的模型
优先级 - 主窗口检测 > 图片/视频/音频 > 代码 > 推理 > Office > 通用
多模态内容绝不走 GLM-5 - 视频/音频/图片必须用 qwen3.5-plus

📋 快速参考

场景	是否切换	最优模型
🏠 主窗口 + 视频	✅ 切换	qwen3.5-plus
🏠 主窗口 + 音频

V5.0.2 核心亮点：主窗口智能切换，子代理保持预设，发图片/视频/音频自动切换多模态模型，完全无感！ 🚀

🧠 智能模型切换器 V5.0.2（多模态感知增强版）

自动识别任务类型 • 智能切换最优模型 • 零感知 • 无需手动

🎯 V5.0.2 核心升级

特性	V4	V5.0.2
多模态感知	✅ 图片	✅ 图片 + 视频 + 音频
Office 模式

⚠️ 核心规则：主窗口限制

🔒 智能切换仅限主窗口

智能模型切换只对主窗口（主会话）生效！

会话类型	是否执行智能切换	说明
主窗口	✅ 执行	用户直接对话的会话（飞书、WebChat、Telegram 等）
子代理

为什么这样设计？

1. 子代理有固定模型 - 各专业人员的模型是预设的（技术专家用 glm-5，推理用 qwq-plus）
避免干扰 - 智能切换不应该覆盖子代理的专业模型配置
职责分明 - 主窗口处理用户意图，子代理专注执行任务

判断方式

当前会话是主窗口？
├── YES → 执行智能切换逻辑
└── NO → 跳过切换，使用该会话预设模型

检测方法：

- 主窗口：depth = 0 或无 subagent context 标记
子代理：消息开头有 [Subagent Context] 或 depth > 0

🖼️ 多模态模型列表

视觉/音视频模型（支持图片/视频/音频）
模型 ID Provider 能力推荐场景
qwen3.5-plus Bailian 图片/视频/音频 ⭐⭐⭐⭐⭐ 多模态任务首选
qwen3-vl-plus
Bailian | 图片 ⭐⭐⭐⭐⭐ | 纯图片理解、OCR |

模型 ID	Provider	能力	推荐场景
qwen3.5-plus	Bailian	图片/视频/音频 ⭐⭐⭐⭐⭐	多模态任务首选
qwen3-vl-plus

代码模型（编程专用）
模型 ID Provider 代码能力推荐场景
glm-5 Bailian/GLM ⭐⭐⭐⭐⭐ 代码生成、Debug、重构
qwen3-coder-plus
Bailian | ⭐⭐⭐⭐⭐ | 代码补全、项目开发 |

模型 ID	Provider	代码能力	推荐场景
glm-5	Bailian/GLM	⭐⭐⭐⭐⭐	代码生成、Debug、重构
qwen3-coder-plus

推理模型（复杂思维）
模型 ID Provider 推理能力推荐场景
qwq-plus Bailian ⭐⭐⭐⭐⭐ 复杂推理、数学证明
qwen3-max
Bailian | ⭐⭐⭐⭐⭐ | 深度思考、分析 |

模型 ID	Provider	推理能力	推荐场景
qwq-plus	Bailian	⭐⭐⭐⭐⭐	复杂推理、数学证明
qwen3-max

| glm-5 | Bailian/GLM | ⭐⭐⭐⭐ | 逻辑推理 |

Office 文档模型
模型 ID Provider 能力推荐场景
MiniMax-M2.5 Bailian ⭐⭐⭐⭐⭐ Office 文档处理

模型 ID	Provider	能力	推荐场景
MiniMax-M2.5	Bailian	⭐⭐⭐⭐⭐	Office 文档处理

通用模型
模型 ID Provider 综合能力推荐场景
qwen3.5-plus Bailian ⭐⭐⭐⭐ 日常对话、写作、翻译
qwen-plus
Bailian | ⭐⭐⭐ | 快速任务 |

模型 ID	Provider	综合能力	推荐场景
qwen3.5-plus	Bailian	⭐⭐⭐⭐	日常对话、写作、翻译
qwen-plus

🔄 自动切换规则

规则 0: 主窗口检测（最高优先级）

IF 当前会话不是主窗口 → 跳过所有切换逻辑，使用预设模型

规则 1: 多模态检测优先（图片/视频/音频）

IF 消息包含图片/视频/音频 → 切换到 qwen3.5-plus
├── 图片 + 代码相关 → qwen3.5-plus (视觉+代码)
├── 视频文件 → qwen3.5-plus (唯一支持视频)
├── 音频文件 → qwen3.5-plus (唯一支持音频)
└── 纯图片理解 → qwen3-vl-plus 或 qwen3.5-plus

视频文件扩展名：.mp4, .avi, .mov, .mkv, .wmv, .flv, .webm, .m4v

音频文件扩展名：.mp3, .wav, .m4a, .ogg, .flac, .aac, .wma

图片文件扩展名：.png, .jpg, .jpeg, .gif, .webp, .bmp, .svg

规则 2: 代码任务

IF 消息包含代码关键词 → 切换到代码模型
├── 复杂代码任务 → glm-5 (最强代码)
├── 快速代码补全 → qwen-coder-turbo
└── 项目级开发 → qwen3-coder-plus

规则 3: 推理任务

IF 消息包含推理关键词 → 切换到推理模型
├── 复杂推理 → qwq-plus (最强推理)
├── 数学/证明 → qwen3-max
└── 一般分析 → glm-5

规则 4: Office 模式

IF 用户说 Office模式 / 切换Office / MiniMax → 切换到 MiniMax-M2.5
└── Office 文档处理 → MiniMax-M2.5

规则 5: 文本任务

IF 纯文本任务 → 使用通用模型
├── 长文档 → qwen3.5-plus (1M context)
├── 写作/翻译 → qwen3.5-plus
└── 简单对话 → qwen-plus / qwen-turbo

📋 切换决策树（完整版）

收到消息
│
├── 🔒 是否为主窗口（主会话）？
│ ├── NO → 跳过切换，使用该会话预设模型
│ │
│ └── YES ↓
│
├── 🖼️ 包含图片/视频/音频？
│ ├── 视频文件 (.mp4/.avi/.mov/.mkv/...) → qwen3.5-plus ⭐多模态优先
│ ├── 音频文件 (.mp3/.wav/.m4a/.ogg/...) → qwen3.5-plus ⭐多模态优先
│ ├── 图片 + 代码关键词 → qwen3.5-plus (视觉+代码)
│ └── 纯图片 → qwen3-vl-plus 或 qwen3.5-plus
│
├── 💻 代码关键词？
│ └── YES → glm-5 (最强代码)
│
├── 🧠 推理关键词？
│ └── YES → qwq-plus / qwen3-max
│
├── 📎 Office 关键词？
│ └── YES → MiniMax-M2.5
│
└── 📝 通用任务 → qwen3.5-plus

🎯 关键词识别

多模态检测（最高优先级）

- 图片：消息中有 image 类型内容，文件扩展名 .png, .jpg, .jpeg, .gif, .webp, .bmp
视频：文件扩展名 .mp4, .avi, .mov, .mkv, .wmv, .flv, .webm, .m4v
音频：文件扩展名 .mp3, .wav, .m4a, .ogg, .flac, .aac, .wma
用户说：看这个图、

smart-model-switcher-v5智能模型切换