ai 资讯像opanclaw 玩法这类的，记得用grok 4.2，效果特别好

数字生命卡兹克这次春节，给18个大维度和近100个小维度凑了970道题，弄了个原创评测集，就为了大家能花3个小时搞明白每个新模型的能力。其实这事儿挺费事的，用了四天最高档的Coding额度，踩了无数坑。一开始Skill迭代很麻烦，出的题跟坨屎一样。后来只能让顶级模型互相出题审查，迭代了两天才稳当。上下文管理也难搞，1000道题信息量太大，没有哪个Agent能一次性生成。我甚至写了3本15万字的小说当素材。Claude Code一次只能出10道小类题，已经是上下文的极限了。虽然坑不少，但也帮我找着了各个领域最强的AI。毕竟出题的水平影响评测质量。给大家说说我的感觉：代码生成跟推理看GPT-5.3 codex；调试和维护也看它；数据工程找Claude Opus 4.6；前端工程还是Claude Opus 4.6；工具调用也得看Claude Opus 4.6；数学推理找Gemini 3.1 Pro；逻辑规划也找它；知识核验看Gemini DeepThink；阅读理解跟多轮对话看GPT-5.2 Thinking；指令遵循还是Claude Opus 4.6；情商沟通找GPT-4.517；创作审美看Claude Opus 4.6。哦对了，搜索最新AI资讯像OpanClaw玩法这类的，记得用Grok 4.2，效果特别好。