ai 硬件可能要走向终极分化:云端搞通用大模型,边缘搞专用芯片

Jim Keller原本跟Ljubisa Bajic搭档在AMD搞设计,后来两个人理念不合分道扬镳,Jim去了Tenstorrent做CEO,Ljubisa则在多伦多创办了Taalas。现在这家公司搞出了一个叫HC1的芯片,打算用一种前所未有的方式来解决AI的速度问题。以往大家都在为了英伟达高端GPU争得头破血流,Taalas却另辟蹊径,把AI大模型直接给固化进硬件里去。 他们是怎么做的呢?把Llama 3.1 8B模型的每个权重参数直接映射到特定的晶体管上。这就好比把交响乐现场演奏变成黑胶唱片播放一样,运算完全不用软件调度,而是通过物理电路来完成。结果就是处理速度直接飙升到每秒17,000 tokens,比现有的最快方案快近10倍,比英伟达旗舰产品B200还快50倍。 这种设计不仅快,成本也大幅下降。他们把液冷系统和HBM显存都给省了,制造成本就降到了传统方案的1/20,功耗也减少到1/10。只要用十块芯片组成计算集群,靠2.5千瓦的空气冷却就能跑起来,比同等性能的传统系统节能90%。现在官网有个叫chatjimmy.ai的体验平台,用户能实时感受这种"光速"交互。 不过这项技术也引起了很大争议。支持者觉得像自动驾驶、工业控制这些需要毫秒级响应的领域,这种专用芯片很有前途;反对者却觉得一旦模型过时了,价值几百万的设备可能瞬间就变成电子垃圾。还有小模型容易出错的问题在超高速下也可能被无限放大。 其实这种分歧就像人脑研究一样。哈佛团队花了十年画了一张人脑图谱,发现生物神经网络的精密与能效本质上也是某种形式的"硬件固化"。这也挺像咱们人类大多一辈子只说一种语言、做一份工作,跟芯片固化特定模型有点像。 所以行业观察家认为,AI硬件可能要走向终极分化:云端搞通用大模型,边缘搞专用芯片。在智能体实时交互或者高频交易这些需要极致速度的地方,"电子工匠"芯片可能会占据主导地位。不过随着模型迭代越来越快,怎么平衡性能提升和硬件寿命就成了关键难题。