就在2月24日这天,那个刚从美国出来的MatX公司,给资本市场扔出了一个响当当的消息。这个由两位前谷歌工程师Reiner Pope和Mike Gunter创立的AI芯片创企,搞来了整整5亿美元的B轮融资,换算成人民币那就是34亿元。不仅如此,他们自己还透露估值已经达到了数十亿美金,正式挤入了“独角兽”的行列。公司的CEO Reiner Pope可是个有来头的人,以前给谷歌写芯片和AI模型开发软件;另一位联合创始人Mike Gunter更是厉害,以前是做TPU硬件的。如今他们的团队规模已经发展到了大约100人。 这支团队这次融到的钱大部分都给了前OpenAI研究员Leopold Aschenbrenner创立的Situational Awareness投资公司还有Jane Street领投。Aschenbrenner觉得MatX做的这个芯片特别适合处理预训练和强化学习,甚至放出豪言,“它很有可能成为这一代最重要的AI芯片公司”。这波投资里还有很多其他大佬参与,比如前特斯拉AI总监、OpenAI联合创始人Andrej Karpathy,还有Alchip、Marvell这些供应链上的投资者。Karpathy在社交媒体上分享了自己为什么要投MatX的想法。他觉得现在对token的需求暴涨,这正好是个重新配置底层内存和计算资源的好机会。 这其中有个让人头疼的问题是,受限于芯片制造工艺,内存池往往会分成两个截然不同的部分:一个是紧邻计算单元的片上SRAM,速度超快但容量小得可怜;另一个是片外DRAM容量大却很难获取内容。再加上脉动阵列设计、数值计算等一堆复杂细节要考虑,“这一切都是为了快速、低成本地获取大量token”。 Karpathy认为在紧凑的智能体循环中对长token上下文进行推理解码的流程非常难搞,“是目前HBM优先的英伟达阵营和SRAM优先的Cerebras阵营最难同时实现的”。官网显示,对于大型100层MoE模型,MatX的芯片每秒能输出超过2000个token。这东西横向扩展互连能力还很强,可以支持包含数十万张芯片的集群。 相比之下,现在英伟达和谷歌的芯片主要靠HBM来处理训练需求;还有一些公司用SRAM来更快地处理推理需求。MatX却觉得“实际上可以在同一个产品中同时实现这两点”。Reiner Pope在社交媒体上回复网友时说得很清楚:“与其他HBM厂商不同,我们拥有足够的SRAM和互连带宽”,能让权重存储在SRAM中,“密集读取可以预取”。 外媒报道说MatX预计今年就能搞定芯片的最终设计,希望能在2027年开始出货。他们计划找台积电来生产这个产品。说到具体表现,“这个规划芯片的性能可以超越英伟达即将推出的Rubin Ultra”。MatX One这块大模型芯片基于可分割的脉动阵列设计,既能高效利用面积又有良好的能效表现。公司宣称它能实现远超其他芯片的吞吐量,“延迟也是最低”。 他们是在2022年成立的目标就是打造一款最适合大语言模型的芯片。这次B轮融资完成后公司估值直接上了几十亿美金。除了Situational Awareness还有Jane Street领投外还有Andrej Karpathy等大佬站台助阵。 要知道MatX这个团队从2022年刚成立时才几个人发展到现在100多人规模不容易。他们的这款MatX One预计一年内就能完成流片生产工作。Andrej Karpathy提到的那种需要同时兼顾高速计算和大容量存储的需求确实挺让人头疼的。 这些特性加上对数值计算的新诠释使得它在大语言模型上的吞吐量高于任何已发布的系统。“这些特性加上对数值计算的新诠释”这句话也是原文里的信息点需要保留下来。