传meta为给ai 训练芯片扩建自家基础设施

3月5日的消息说，Meta为了给未来训练AI模型打下基础，正在拼命扩建自家的AI基础设施，里面还包括定制芯片的开发。虽然网上最近有人猜Meta会放弃自研AI训练芯片，不过首席财务官Susan Li在会议上说，公司与顶级芯片厂商签了大单，自研芯片的野心却越来越大。她表示，有些工作负载很适合用自家芯片来做，像排名和推荐这类任务是必须大规模上定制芯片的地方。Susan Li还提到，虽然现阶段主要用在这些任务上，但随着时间的推移，范围肯定会扩大，最终也会用来训练模型。资料显示，Meta第一代AI芯片MTIA v1在2023年初才发布。那时候它用的是RISC-V架构，是台积电7nm工艺造出来的。芯片内部是8×8的处理单元矩阵，每个单元都配了两个RSIC-V CPU核心，其中一个还有向量数学扩展功能。这些核心集成了128MB的片上SRAM，还支持128GB的LPDDR5内存。到了2024年，第二代MTIA v2把工艺升级到了5nm，核心数更多了，片内存储翻倍到了256MB，off-chip LPDDR5也提高到了128GB，主频从800MHz涨到了1.35GHz，功耗也加到了90W。不过第三代芯片到现在还没影儿。据内部爆料说，公司一开始做了个叫“Iris”的新版本，但后来又放弃了。接着他们又搞了个代号“Olympus”的训练芯片，但现在这项目好像也要黄。因为研发风险太大、可能要重做设计，团队内部都在怀疑能不能做出跟英伟达水平相当的芯片。那人还说这活儿得要有庞大的工程师队伍来设计调试才行，不然功耗太高中不了用。Iris用的是SIMD计算方法，虽然硬件好做但软件难写；Olympus用的是跟英伟达一样的SIMT方法，硬件难搞但软件方便。本来Olympus打算最早在2026年第四季度做好设计的。不过报道说从设计到量产通常还得九个月或者更久。它的核心GPU用的是Rivos公司的内核设计——Meta去年收购的那家公司说他们的GPU能跑英伟达的CUDA代码。CUDA现在可是搞AI的主流软件。Meta本来想拿Olympus组大规模服务器集群的，但高管们觉得这风险太大——毕竟他们现在跟OpenAI和Google都在死磕呢。所以就有了传闻说要去买谷歌的TPU。不过从Susan Li最新的说法看，自研芯片还是要继续搞下去。这主要是为了少依赖第三方厂商的高成本GPU。据说每年Meta在这上头花掉了50到70亿美元呢！自家的ASIC要是能做出来，成本说不定能降个40%到60%。Susan Li说他们现在买的不同类型的芯片都要用来干活。“根据目前知道的情况和需求来看，哪种最适合我们的用例就用哪种，定制芯片也是必不可少的一部分。” 还有最新的传闻称，Meta正在弄一个原型设计叫MTIA 3的芯片。这个设计也是基于RISC-V构架的Rivos内核。技术参数上看，它能有超过1,000颗核心和超过200 TFLOPS的运算能力——这对Meta的AI训练竞争力绝对是个大提升。现在他们正和博通合作设计芯片，找台积电代工制造。早期测试已经在跟美国和欧洲那边的2.4万颗GPU丛集整合了。预计这款芯片会在2026年第三季开始量产。目标是到了2026年底要达到超过100 exaFLOPS的计算能力。