数字生命卡兹克这次春节,给18个大维度和近100个小维度凑了970道题,弄了个原创评测集,就为了大家能花3个小时搞明白每个新模型的能力。其实这事儿挺费事的,用了四天最高档的Coding额度,踩了无数坑。 一开始Skill迭代很麻烦,出的题跟坨屎一样。后来只能让顶级模型互相出题审查,迭代了两天才稳当。上下文管理也难搞,1000道题信息量太大,没有哪个Agent能一次性生成。我甚至写了3本15万字的小说当素材。Claude Code一次只能出10道小类题,已经是上下文的极限了。 虽然坑不少,但也帮我找着了各个领域最强的AI。毕竟出题的水平影响评测质量。给大家说说我的感觉:代码生成跟推理看GPT-5.3 codex;调试和维护也看它;数据工程找Claude Opus 4.6;前端工程还是Claude Opus 4.6;工具调用也得看Claude Opus 4.6;数学推理找Gemini 3.1 Pro;逻辑规划也找它;知识核验看Gemini DeepThink;阅读理解跟多轮对话看GPT-5.2 Thinking;指令遵循还是Claude Opus 4.6;情商沟通找GPT-4.517;创作审美看Claude Opus 4.6。 哦对了,搜索最新AI资讯像OpanClaw玩法这类的,记得用Grok 4.2,效果特别好。