mit搞出了个颠覆性的东西:在transformer 里面塞下一台完整的计算机,这就直接让大语言模型(

MIT博士搞出了个颠覆性的东西:在Transformer里面塞下一台完整的计算机,这就直接让大语言模型(LLM)有了能跑原生计算的能力。这意味着以后的模型不光能瞎猜文字,还能实打实干活。 研究团队直接把WebAssembly(WASM)的解释器硬编码到了Transformer的权重里,这就相当于给模型装上了个看不见的虚拟机。这么一来,模型根本不需要调用外部工具,自己在肚子里就能把账算清楚。实验显示,这东西在数独这类逻辑问题上达到了100%的准确率,百万级的复杂运算也能在几秒钟内搞定。 最让人心动的是,它在CPU上的解码速度达到了每秒3.3万个token,把MacBook M2 Pro那种每秒才27个token的速度甩在后面老远。以前那些老的LLM在算数这块儿总是掉链子,“9.11比9.9大还是小”这种问题都能把它们难住。现在人家直接把C代码变成了一连串的token给模型吃进去,让它自己去跑优化算法。 这个技术的核心在于弄出了个指数级加速的注意力机制。他们通过限制二维注意力头的数量来快速找到解码的路数,解决了标准注意力机制反应慢的老毛病。技术实现上也挺有意思的,就是专门弄了一条只增不减的计算轨迹。 团队的思路挺像图灵机的,让模型每吐出一个token都像是在操作一台虚拟机一样,比如切换指令指针或者搞算术运算。因为只让它回溯一点点前面的状态,所以就算是复杂的计算也能变成一串能让Transformer处理的序列。 这东西在金融建模或者密码学运算这些地方都很有用。跟以前那种还得找外部软件帮忙比起来,这种嵌在模型里的架构既安全又没延迟。团队特意强调这不是简单的算快一点,而是真的给AI系统装了个可扩展的计算引擎。 现在学术界也有别的路子在探索,比如有工程师搞了个领域专用指令集(PSVM)来优化特定任务。不过MIT这招更注重通用能力的构建。这两种方法都想突破Transformer原来的框框。 关于这个研究的具体细节已经发在学术博客上了,里面有完整的实现方案和性能对比数据。大家现在都在讨论这是个啥样的混合架构设计——把神经网络和计算引擎揉在一块——这种创新直接把下一代AI系统的架构讨论带火了。