说到AI编程啊,最近又有个挺让人失望的研究出来了,是威斯康星麦迪逊大学跟MIT联手做的。他们弄了个叫SlopCodeBench的测试平台,专门看AI在改代码的时候能不能把活儿干好。结果发现,不少现在很火的AI模型像ClaudeOpus4.6、GPT5.4还有GLM4.7,代码越改越烂。这个平台特别讲究现实场景,一共设计了20个常见开发任务,每个任务里又有93个检查点。测试规则也很严苛,必须把代码往死里改,还不让看内部接口,也不给测试用例看。这就逼着AI像人类开发者那样瞎摸索着写。 研究者主要看了两个指标:一个是代码是不是都堆积在少数几个大函数里(结构侵蚀),另一个是代码里的废话多不多(冗余度)。结果让人有点傻眼,这些顶尖的AI写出来的代码质量实在是不咋地。它们的冗余度和结构侵蚀程度是人类代码的两倍多,甚至比那些本来就挺复杂的 scikit-learn和 scipy还不如。最吓人的是,迭代次数越多,代码质量跌得越惨。 好多人觉得给点提示词就能解决问题?研究团队也试过了。虽然加了“反slop提示”或者“先规划提示”之后初始代码能好看点,但挡不住后面质量一路往下跌。更搞笑的是,本来想用干净代码减少点成本,结果通过率反而更低了。这说明AI就是个短视的家伙,只想着赶紧把眼前的活儿干完,完全不在乎以后能不能维护。 说白了就是个思路问题。人类写代码的时候心里会盘算着以后维护起来方不方便;AI就不一样了,只管把眼前这点需求搞定就行。所以说现在的AI充其量也就是个能干苦力的实习生。别太担心饭碗被抢走了,真正懂架构、能搞长期维护的工程师还是香饽饽。大家用AI的时候也别当甩手掌柜,还是得自己盯着架构这块儿。 未来想让AI真正替代人类程序员?这事儿我看悬。毕竟真正的软件工程可不只是写个一次性的东西那么简单。大家觉得呢?欢迎在评论区聊聊你的看法。