gpt-5的大家伙给比下去了，苹果这回能赢真不容易

苹果AI最近放了一篇新论文，消息是从IT之家那边传过来的。说是他们用了一个叫Qwen3-Coder的小模型，只给它喂了181个专家画的草图当微调数据，结果这小模型生成界面的本事，居然把那个叫GPT-5的大家伙给比下去了。大家都知道GPT-5现在可是挺厉害的存在，苹果这回能赢真不容易。文章是9to5Mac发的，主要讲他们UICoder团队怎么把生成式AI搞进App开发里头的。他们发现现在流行的RLHF（人类反馈强化学习）方法不太适合做界面设计。以前那种让大家给东西打分或者排序的方式太粗糙了，设计师心里的想法根本没法说清楚。说白了，AI就只能知道你觉得不好，根本不知道哪里不好或者怎么改才行。为了破这个局，苹果找来21位干了2到30年的专业设计师帮忙。这次不让大家瞎打分了，直接让设计师自己动手改代码、画草图、写评论，手把手地教AI哪里不对。大家一共留了1460条这种深深刻画的意见，还把改前后的截图和文字说明都塞到一个奖励模型里去学习。结果最让人意外的是，靠这181个草图微调出来的模型表现最好。哪怕是用这么少的数据训练，它的UI生成能力还是把GPT-5给碾压了。这事儿证明了一个道理：有时候参数少不一定不行，只要有行家精准的指点，小模型也能干出大模型干不了的活。另外还有个好玩的发现：审美这事儿主观性太强了。光靠让大家选哪个更好看这种排序题来测试的话，研究人员和设计师的想法能对上的概率只有49.2%。这比例简直就跟抛硬币差不多大，说明设计到底好不好看有时候真的没法用公式算出来。这次研究揭示了一个核心观点：以后的人机协作重点应该放在展示效果上而不是一味地发指令。就像这回的情况一样，设计师直接把自己的想法画出来或者写出来让AI看懂比单纯给个分数或者选个对错有用多了。这也给未来怎么更好地利用AI辅助做设计提了个醒。