ai 硬件可能要走向终极分化：云端搞通用大模型，边缘搞专用芯片

Jim Keller原本跟Ljubisa Bajic搭档在AMD搞设计，后来两个人理念不合分道扬镳，Jim去了Tenstorrent做CEO，Ljubisa则在多伦多创办了Taalas。现在这家公司搞出了一个叫HC1的芯片，打算用一种前所未有的方式来解决AI的速度问题。以往大家都在为了英伟达高端GPU争得头破血流，Taalas却另辟蹊径，把AI大模型直接给固化进硬件里去。他们是怎么做的呢？把Llama 3.1 8B模型的每个权重参数直接映射到特定的晶体管上。这就好比把交响乐现场演奏变成黑胶唱片播放一样，运算完全不用软件调度，而是通过物理电路来完成。结果就是处理速度直接飙升到每秒17,000 tokens，比现有的最快方案快近10倍，比英伟达旗舰产品B200还快50倍。这种设计不仅快，成本也大幅下降。他们把液冷系统和HBM显存都给省了，制造成本就降到了传统方案的1/20，功耗也减少到1/10。只要用十块芯片组成计算集群，靠2.5千瓦的空气冷却就能跑起来，比同等性能的传统系统节能90%。现在官网有个叫chatjimmy.ai的体验平台，用户能实时感受这种"光速"交互。不过这项技术也引起了很大争议。支持者觉得像自动驾驶、工业控制这些需要毫秒级响应的领域，这种专用芯片很有前途；反对者却觉得一旦模型过时了，价值几百万的设备可能瞬间就变成电子垃圾。还有小模型容易出错的问题在超高速下也可能被无限放大。其实这种分歧就像人脑研究一样。哈佛团队花了十年画了一张人脑图谱，发现生物神经网络的精密与能效本质上也是某种形式的"硬件固化"。这也挺像咱们人类大多一辈子只说一种语言、做一份工作，跟芯片固化特定模型有点像。所以行业观察家认为，AI硬件可能要走向终极分化：云端搞通用大模型，边缘搞专用芯片。在智能体实时交互或者高频交易这些需要极致速度的地方，"电子工匠"芯片可能会占据主导地位。不过随着模型迭代越来越快，怎么平衡性能提升和硬件寿命就成了关键难题。