苹果AI最近放了一篇新论文,消息是从IT之家那边传过来的。说是他们用了一个叫Qwen3-Coder的小模型,只给它喂了181个专家画的草图当微调数据,结果这小模型生成界面的本事,居然把那个叫GPT-5的大家伙给比下去了。大家都知道GPT-5现在可是挺厉害的存在,苹果这回能赢真不容易。 文章是9to5Mac发的,主要讲他们UICoder团队怎么把生成式AI搞进App开发里头的。他们发现现在流行的RLHF(人类反馈强化学习)方法不太适合做界面设计。以前那种让大家给东西打分或者排序的方式太粗糙了,设计师心里的想法根本没法说清楚。说白了,AI就只能知道你觉得不好,根本不知道哪里不好或者怎么改才行。 为了破这个局,苹果找来21位干了2到30年的专业设计师帮忙。这次不让大家瞎打分了,直接让设计师自己动手改代码、画草图、写评论,手把手地教AI哪里不对。大家一共留了1460条这种深深刻画的意见,还把改前后的截图和文字说明都塞到一个奖励模型里去学习。 结果最让人意外的是,靠这181个草图微调出来的模型表现最好。哪怕是用这么少的数据训练,它的UI生成能力还是把GPT-5给碾压了。这事儿证明了一个道理:有时候参数少不一定不行,只要有行家精准的指点,小模型也能干出大模型干不了的活。 另外还有个好玩的发现:审美这事儿主观性太强了。光靠让大家选哪个更好看这种排序题来测试的话,研究人员和设计师的想法能对上的概率只有49.2%。这比例简直就跟抛硬币差不多大,说明设计到底好不好看有时候真的没法用公式算出来。 这次研究揭示了一个核心观点:以后的人机协作重点应该放在展示效果上而不是一味地发指令。就像这回的情况一样,设计师直接把自己的想法画出来或者写出来让AI看懂比单纯给个分数或者选个对错有用多了。这也给未来怎么更好地利用AI辅助做设计提了个醒。