返回顶部
i

inception-token-optimizerInception令牌优化器

Optimize Inception Labs token usage to minimize costs. Use when choosing Inception models (Mercury, etc.), crafting prompts for Inception, analyzing token consumption, or when the user wants to reduce API costs. Covers caching strategies, context pruning, prompt compression, model selection tips, and free-tier budget management.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
112
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

inception-token-optimizer

Inception Token Optimizer

通过提示工程、上下文管理和预算控制,降低Inception API的令牌消耗。

免费层级限制(Inception Labs)

指标上限
请求数/分钟100
输入令牌数/分钟
100,000 | | 输出令牌数/分钟 | 10,000 |

核心策略

1. 提示压缩

  • - 移除冗余指令、填充词和重复上下文。
  • 使用简短系统提示:简洁回答。法语。优于200字的人物设定模块。
  • 避免重复发送未变化的上下文——仅发送差异部分。
  • 要求简短回复:用少于100词回答。

2. 上下文修剪

  • - 发送前估算令牌数:len(text) // 4(粗略估算)。
  • 若总上下文超出目标预算,丢弃最早的消息,并用1-2句话的摘要替代。
  • 详细模式请参考 references/pruning-strategies.md。

3. 缓存

  • - 相同提示 → 复用先前响应。不重复调用。
  • 对提示进行哈希处理;若近期(会话内)出现过,返回缓存回复。
  • scripts/lru_cache.py 提供即插即用的LRU缓存(默认256项)。

4. 模型选择

  • - 对简单任务(摘要、分类)使用更便宜/更快的模型。
  • 仅将Mercury(或旗舰模型)保留给复杂推理。
  • 将琐碎查询批量整合到单个提示中,而非多次调用。

5. 输出预算

  • - 明确设置 max_tokens——绝不保持开放状态。
  • 对话回复的目标输出令牌数为150-200。
  • 使用 temperature=0.7 减少冗余发散。

令牌预算守卫

scripts/token_bucket.py 使用滑动窗口强制执行每分钟上限:

python
from scripts.token_bucket import TokenBucket

bucket = TokenBucket(reqpermin=100, intokpermin=100000, outtokpermin=10000)
bucket.waitforslot(intokens=500, outtokens=200)

继续执行API调用

在有可用槽位前保持阻塞。每次Inception API调用前使用。

何时使用此技能

  • - 向Inception发送提示前 → 先压缩和修剪。
  • 监控成本时 → 检查令牌估算值。
  • 接近免费层级限制时 → 激活预算守卫。
  • 构建自动化时 → 集成缓存和桶守卫。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 inception-token-optimizer-1776121562 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 inception-token-optimizer-1776121562 技能

通过命令行安装

skillhub install inception-token-optimizer-1776121562

下载

⬇ 下载 inception-token-optimizer v1.0.0(免费)

文件大小: 4.42 KB | 发布时间: 2026-4-14 14:41

v1.0.0 最新 2026-4-14 14:41
Initial release: token bucket rate limiter, LRU cache, prompt compression guide, context pruning strategies

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部