最近呢,埃隆·马斯克在社交平台上发了个动态,夸中国人工智能公司Moonshot的Kimi团队搞出了一项很厉害的技术,他说“Kimi的工作令人印象深刻”。咱们来聊聊这个事儿,这项工作的核心就是要改进大模型底层的信息传递方式。最让我吃惊的是,这项技术的共同第一作者里面,居然有一个是来自深圳的17岁在读高中生叫陈广宇。 你敢信?一个17岁的高中生,居然能跟哈佛商学院的研究人员还有硅谷的大佬们一起搞技术创新!陈广宇在接受采访的时候特意强调了一点,他希望大家少关注个人、多关注技术和团队。他说得很实在:这次的成果是团队共同努力的结果。 咱们来看看他的团队成员:张宇是Kimi高效模型架构的重要研究者,苏剑林是提出旋转位置编码(RoPE)的人,这两位大佬加上他自己。 陈广宇给我留下深刻印象的一点是:他在大家关注的目光中依然保持谦逊。虽然外界把他的名字放在前面了,但他心里清楚:“没有团队的努力就没有这次成功。” Kimi团队这次的技术是针对Transformer架构提出来的。你知道Transformer架构是啥吗?它是目前主流的大模型基础结构。传统做法在层与层之间用固定的“残差连接”,层数一多关键信息就容易被稀释掉了。 那Kimi团队是怎么解决这个问题的呢?他们提出了一种叫“注意力残差”的新方法。简单来说就是:让当前层自己去选择并聚合前面层里更重要的信息,而不是一股脑儿把所有内容都传下去。 这个改进意味着什么?它给提升大模型能力开辟了一条新路:不靠堆参数和算力了!而是通过优化底层结构来提高信息利用效率。 咱们回到陈广宇身上吧。这位天才少年可是相当厉害的!他不仅拥有顶尖竞技编程背景,参加过美国计算机奥林匹克竞赛铂金组比赛,还在Kimi内部拿下48小时“黑客马拉松”比赛冠军呢! 他是怎么做到的?完全是靠自学经典论文、追踪开源项目打下基础。后来在社交平台上分享技术经验获得硅谷AI初创公司实习机会,去年11月正式加入Kimi团队实习。 在Kimi期间他担任机器学习研究员,参与了中国最顶尖开源大模型的核心研发!现在你知道他是谁了吧?罗德信托的高潜力未来领袖计划选中了他(这个可是面向全球15到17岁潜力青年的选拔计划)。 更牛的是!他还在美国顶尖小型实验室Tilde Research做过AI研究!如果你去看他的个人网站,会发现他参与了好多项目呢。 我要特别说一句:这个17岁的少年真的让人刮目相看!不过呢,陈广宇一直强调说这是大家一起努力的成果。 现在注册滴滴顺风车完成首单就能领50元奖励!另外如果你回复【A01】,还能获得85本哈佛商学院必读书单哦! 最后我想说的是:希望大家多关注技术本身吧!毕竟像陈广宇这样的年轻人真是太厉害了!