返回顶部
a

agent-cost-strategy智能成本策略

Tiered model selection and cost optimization for multi-agent AI workflows. Use this skill whenever you are choosing a model for a task, spinning up a sub-agent, setting up cron jobs or heartbeats, or trying to reduce API spend. Also use when the user says "save costs", "which model should I use", "optimize model usage", "this is getting expensive", or when delegating any task to a sub-agent. Works with any AI provider.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.3.6
安全检测
已通过
357
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

agent-cost-strategy

Agent Cost Strategy

使用能够可靠完成任务的最便宜模型。大多数任务不需要使用你最强大的模型。

三个层级

层级使用场景示例
快速/廉价子代理、后台任务、自动修复、简单查询、简短回复Claude Haiku、GPT-4o-mini、Gemini Flash
中端
主会话对话、中等推理、多步骤任务 | Claude Sonnet、GPT-4o、Gemini Pro | | 强大 | 架构决策、深度审查、难题、廉价模型两次失败后 | Claude Opus、GPT-4.5、Gemini Ultra |

任务 → 层级路由

text
修复失败的测试 → 快速/廉价
编写样板代码 → 快速/廉价
研究/搜索 → 快速/廉价
定时/计划任务 → 快速/廉价(始终)
简短回复(嗨、好的) → 快速/廉价(始终)
后台监控 → 快速/廉价(始终)
构建新功能 → 中端
审查PR → 中端
主助手对话 → 中端(默认)
架构决策 → 强大
深度代码审查 → 强大
两次尝试后卡住 → 升级一个层级

心跳/定时任务模型规则

始终为定时和后台任务指定最便宜的模型——它们运行频繁,成本会迅速累积。查看你的平台配置,了解如何为每个定时/心跳任务设置模型。

对于心跳间隔:将其设置得略低于你的提供商缓存TTL,以保持提示缓存温暖,并支付缓存读取费率而非完整输入费率。查看你的提供商文档了解确切的TTL。

通信模式规则

单字和简短的对话消息(嗨、谢谢、好的、当然、是、否)应始终路由到快速/廉价。绝不要在确认消息上消耗中端或强大模型。

缓存优化

提示缓存可将重复上下文的成本降低50-90%。缓存写入成本约高25%,但仅需1-2次重用即可收回成本。参见 references/cache-optimization.md 了解模式和盈亏平衡计算。

批量API(非紧急任务)

对于定时任务、计划分析或任何不需要立即响应的任务——使用批量API(Anthropic/OpenAI都提供)。50%折扣,以换取异步交付(24小时内出结果)。绝不要为可以等待的后台工作使用实时API。

子代理模型规则(关键)

生成子代理时始终明确指定模型。 切勿依赖默认值——默认值会继承父会话模型(昂贵的中端)。一个月内子代理默认使用Sonnet = 96%的成本流向Sonnet,而本应大约80/20分配给Haiku/Sonnet。

text
sessions_spawn → 始终包含 model: claude-haiku-4-5-20251001(或等效的快速廉价模型)

默认将子代理任务分配给Haiku以提高成本效率。当任务复杂度或准确性要求证明有必要时,再覆盖为更强的模型。

新会话/机器冷启动成本

启动新会话(新机器、/new后的新会话)时,缓存为空。前几条消息将以正常输入费率1.25倍的价格将整个上下文(技能、工作区文件、记忆)写入缓存。这是不可避免但暂时的——一旦缓存预热,2-3条消息内即可收回成本。

不要因为新机器上前几条消息昂贵而惊慌。 缓存写入成本是一次性投资,使后续每条消息便宜约90%。

过度支出的迹象

  • - 在快速/廉价可以处理的任务上运行强大模型
  • 重复系统提示没有缓存
  • 心跳/定时任务使用默认(昂贵)模型
  • 子代理生成时未指定模型 = 最大的成本漏洞

会话与缓存管理

尽可能保持会话活跃——更长的会话建立缓存并降低成本。仅在上下文真正满时或出于隐私原因才结束会话。

Anthropic的提示缓存通过实时会话中的重复上下文构建。当会话全新启动时,所有上下文(系统提示、工作区文件、技能)冷加载——通常400-600k tokens按全价计费。一旦缓存,后续消息成本约为其10%。

计算方式:

  • - 冷会话启动:600k tokens × 全价 = 昂贵
  • 缓存预热后:600k tokens × 10%缓存价格 = 每条消息便宜约90%
  • 结束会话会销毁缓存,下次强制完全冷加载

规则:

  • - 让会话尽可能长时间运行以提高成本效率
  • 仅在上下文真正满(>80%)或需要新的隐私边界时才启动新会话(/new)
  • 结束会话应是刻意的——出于隐私/数据保留原因,而非常规成本管理
  • 会话运行时间越长,每条消息越便宜

隐私与缓存说明: 缓存的上下文可能包含工作区文件和记忆——避免缓存包含秘密或敏感PII的会话。如果会话将缓存敏感数据,计划在完成后结束它。

委派规则(保持主代理精简):

  • - 主代理(Sonnet/中端)= 仅对话:规划、协调、审查结果
  • 子代理(Haiku/快速廉价)= 所有实际操作:文件编辑、研究、构建、数据任务
  • 保持主代理对话性可减少其上下文增长并保持高缓存命中率

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 agent-cost-strategy-1776066983 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 agent-cost-strategy-1776066983 技能

通过命令行安装

skillhub install agent-cost-strategy-1776066983

下载

⬇ 下载 agent-cost-strategy v1.3.6(免费)

文件大小: 5.3 KB | 发布时间: 2026-4-14 15:55

v1.3.6 最新 2026-4-14 15:55
Soften absolute session/model rules; add privacy note on cached context

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部