为什么说sonnet 4.6是个“大胃王”？原因其实很简单

用同一批工作分别在Sonnet 4.6和其他候选模型上跑了超过100个样本后，数据就比较好懂了。只要记录下每个任务消耗的总代币数、一次性解决率还有响应延迟，再把任务复杂度和总代币量画成一条曲线，就能找出性价比最高的那个模型。为什么说Sonnet 4.6是个“大胃王”？原因其实很简单。单价便宜了40%，听起来是省钱了，但每次请求消耗的代币量往往翻了好几倍。这种增长不是魔术变的，而是模型变得更聪明了。更强的自适应推理能力会展开更多中间步骤来避免误解；上下文保留能力变强让对话能承载更多历史信息；调用浏览器和函数时又会产生一堆日志和状态描述。这些原本隐形的思考过程全都转化成了实打实的流量。在实际落地的时候要算账：总成本是（系统提示+历史上下文+中间思考+工具调用日志+最终回答）的总代币量乘以单价。如果单价降低40%，但每次请求的代币量从2千涨成了6千，那成本其实是从2元变成了6元乘以0.6，反而涨了差不多80%。有的报告说在扩展推理的场景下，消耗能达到4.5版的近4倍。性能提升和代币消耗并不是线性的关系。如果只是简单的客服问答或者改改FAQ，这种短平快的活儿用Sonnet 4.6挺划算；可一旦任务变成了多步骤推导或者跨文档写报告，那长出来的显式思路和中间过程就会让利润和延迟的波动变大。还有一个常被忽视的问题是API平台的差异。官方的API和第三方API在调用工具、上下文长度还有特性开关上可能不太一样。这种异构的技术栈会带来额外的适配工作和冗余调用，进一步把代币和集成成本推高了。简单的建议是：把每任务总消耗的代币量当成KPI来看，别光盯着单价看。客服和轻量自动化适合优先用Sonnet 4.6；要是搞研究型的长链推理或者复杂多工具编排的工作，最好还是谨慎一点，或者先考虑Opus 4.6这种更稳定的方案。还有一些具体的控费实操办法：系统提示模板化瘦身、先写提纲再展开内容、检索时分块并限制Top-K的数量、定期用对话摘要代替全文、控制工具调用的次数、要求“结论优先、少显性推理”、短任务用轻量模型、做好缓存与去重、流式早停，还有为每类任务设定一个代币预算。 Sonnet 4.6就像是一台高性能发动机——动力很强劲，但油门确实不能随便踩。对中小团队或者个人开发者来说，更实用的做法是先把提示工程、检索还有缓存这些基础工作做好再去评估模型。否则那便宜的单价可能只是账单陷阱上的一层糖衣。