上个月,黄仁勋在演讲中提到的一款芯片,其代号叫Feynman。这款芯片的研发目标很明确,就是要把GPU和LPU结合起来,搞出一种新的异构设计,同时还得解决传统GPU在推理任务中遇到的数据搬运问题。按照黄仁勋的说法,这是个大家伙,他称其为"世界从未见过"。 在这个项目中,台积电A16工艺发挥了关键作用。这种工艺可以把晶体管的尺寸缩小到1.6nm,密度比之前的5nm工艺高了很多。把这些计算单元堆到一起,就能塞进更多的运算器。这不仅能提升性能,更重要的是能改善能效。 不过,要想把这个思路变成现实并不容易。Feynman架构采用了chiplet设计,也就是把不同的模块像乐高积木一样拼接起来。这种做法虽然能分摊风险,但对封装技术的要求极高。一旦有一个模块出了问题,整颗芯片就报废了。所以英伟达必须提前锁定台积电的产能,确保有足够的晶圆供应。 Groq的LPU单元是Feynman架构的核心组成部分之一。这个LPU单元的特点是低延迟、高带宽,特别适合处理大语言模型。英伟达把这种单元通过先进的封装技术和主芯片连接起来,再加上SRAM进行混合键合。这种设计思路和AMD的X3D处理器有点像,都是为了缩短数据传输的距离。 对于AI推理来说,延迟和带宽是两个必须要克服的难题。传统GPU在处理大模型时经常会出现瓶颈,因为它的显存架构不够灵活。Feynman架构通过3D堆叠技术解决了这个问题,把数据处理单元和存储单元紧密地结合在一起。 英伟达这次的转型很有意思。以前他们的产品主要关注浮点运算的性能,现在他们把重心转向了推理任务。OpenAI的大规模采购订单就证明了市场的需求在哪里。消费者更想要的是能够快速响应查询的推理引擎,而不是单纯追求算力的硬件怪兽。 从Hopper到Blackwell再到Feynman,英伟达的架构更新速度确实很快。但这次最大的不同在于它彻底把目标从训练转向了推理。这是一个战略上的转变,标志着英伟达开始重新定义整个AI计算的成本结构。 在这次合作中,台积电的A16工艺提供了强大的晶体管密度支持。相比现有的5nm工艺,1.6nm能在同样的面积上塞进更多的计算单元。这对于需要处理海量参数的推理任务来说至关重要。同时A16工艺的低电压特性也有助于提升能效比。 不过这一切都有代价。先进制程往往伴随着良率的问题。台积电的A16生产线还没有完全成熟,这意味着初期的Feynman芯片供应量可能会比较紧张。有分析师担心这会导致价格上涨,反而背离了降低成本的初衷。 当Groq的LPU技术被整合进英伟达的生态体系时,一个更深远的变化发生了。这不仅是硬件架构的革新,更是整个AI基础设施的价值重构。英伟达似乎在为推理时代打造新的行业标准。而OpenAI的站台无疑给了这个标准很高的权威性。 在AI算力的竞争中,制程优势有时候是把双刃剑。如果Feynman架构的1.6nm豪赌成功了,英伟达就能拉开与追赶者的身位;如果良率问题持续发酵,这场革命可能就成了纸上谈兵。下个月的GTC大会我们就会知道答案了。 台积电的A16工艺就像一颗定时炸弹一样悬在头顶。尽管它的晶体管密度提升了很多,但良率问题仍然存在。这个问题就像达摩克利斯之剑一样让人提心吊胆。 从一个宏观的角度来看,这次变革给整个行业带来了深远的影响。CUDA生态的建立曾经改变了很多东西,现在英伟达似乎又在做同样的事情——为推理时代建立新的标准。 最后的胜负手还是看良率能不能搞定。只要这个问题解决了,英伟达就能再次领先其他厂商一大截。反之如果一直搞不定良率问题的话,这场所谓的革命可能就只是说说而已。 不管怎么说这次GTC大会肯定会非常精彩。我们期待看到黄仁勋能拿出什么杀手锏来证明他之前的那些大话没有白说。