传meta为给ai 训练芯片扩建自家基础设施

3月5日的消息说,Meta为了给未来训练AI模型打下基础,正在拼命扩建自家的AI基础设施,里面还包括定制芯片的开发。虽然网上最近有人猜Meta会放弃自研AI训练芯片,不过首席财务官Susan Li在会议上说,公司与顶级芯片厂商签了大单,自研芯片的野心却越来越大。她表示,有些工作负载很适合用自家芯片来做,像排名和推荐这类任务是必须大规模上定制芯片的地方。Susan Li还提到,虽然现阶段主要用在这些任务上,但随着时间的推移,范围肯定会扩大,最终也会用来训练模型。 资料显示,Meta第一代AI芯片MTIA v1在2023年初才发布。那时候它用的是RISC-V架构,是台积电7nm工艺造出来的。芯片内部是8×8的处理单元矩阵,每个单元都配了两个RSIC-V CPU核心,其中一个还有向量数学扩展功能。这些核心集成了128MB的片上SRAM,还支持128GB的LPDDR5内存。到了2024年,第二代MTIA v2把工艺升级到了5nm,核心数更多了,片内存储翻倍到了256MB,off-chip LPDDR5也提高到了128GB,主频从800MHz涨到了1.35GHz,功耗也加到了90W。 不过第三代芯片到现在还没影儿。据内部爆料说,公司一开始做了个叫“Iris”的新版本,但后来又放弃了。接着他们又搞了个代号“Olympus”的训练芯片,但现在这项目好像也要黄。因为研发风险太大、可能要重做设计,团队内部都在怀疑能不能做出跟英伟达水平相当的芯片。那人还说这活儿得要有庞大的工程师队伍来设计调试才行,不然功耗太高中不了用。Iris用的是SIMD计算方法,虽然硬件好做但软件难写;Olympus用的是跟英伟达一样的SIMT方法,硬件难搞但软件方便。 本来Olympus打算最早在2026年第四季度做好设计的。不过报道说从设计到量产通常还得九个月或者更久。它的核心GPU用的是Rivos公司的内核设计——Meta去年收购的那家公司说他们的GPU能跑英伟达的CUDA代码。CUDA现在可是搞AI的主流软件。Meta本来想拿Olympus组大规模服务器集群的,但高管们觉得这风险太大——毕竟他们现在跟OpenAI和Google都在死磕呢。所以就有了传闻说要去买谷歌的TPU。 不过从Susan Li最新的说法看,自研芯片还是要继续搞下去。这主要是为了少依赖第三方厂商的高成本GPU。据说每年Meta在这上头花掉了50到70亿美元呢!自家的ASIC要是能做出来,成本说不定能降个40%到60%。Susan Li说他们现在买的不同类型的芯片都要用来干活。“根据目前知道的情况和需求来看,哪种最适合我们的用例就用哪种,定制芯片也是必不可少的一部分。” 还有最新的传闻称,Meta正在弄一个原型设计叫MTIA 3的芯片。这个设计也是基于RISC-V构架的Rivos内核。技术参数上看,它能有超过1,000颗核心和超过200 TFLOPS的运算能力——这对Meta的AI训练竞争力绝对是个大提升。现在他们正和博通合作设计芯片,找台积电代工制造。早期测试已经在跟美国和欧洲那边的2.4万颗GPU丛集整合了。预计这款芯片会在2026年第三季开始量产。目标是到了2026年底要达到超过100 exaFLOPS的计算能力。