大家好,咱们今天来聊聊AI领域里一个挺关键的进展,叫“Memory时刻7”,主角就是SRAM这个技术,它能让AI推理速度变快。这事儿得说到2026年,那会儿大模型到处跑,可推理速度太慢成了拦路虎。报告一共13页,把这事儿讲得挺透彻。 传统存储架构老套了,现在的新技术主打SRAM,这玩意儿就是在芯片里放内存,带宽高、延迟低,成了提升AI性能的“秘密武器”。你看现在的电脑,存储层级通常有SRAM、HBM、DRAM和SSD。其中SRAM是放在CPU或者GPU核心旁边的,访问速度快得很,而且很稳定。虽然比HBM容量小、成本高,但它适合大模型里快速调权重和数据。 研究发现,要是大模型光靠外面的HBM,容易出延迟问题,会影响第一个token出来的速度还有尾部延迟。这时候SRAM的片上特性就派上用场了,能让推理更流畅稳定。 有两家公司在这方面挺亮眼,一个是Groq,一个是Cerebras。Groq推出的LPU芯片里塞了230MB的SRAM,带宽飙到80TB/s,远超GPU用的HBM大概8TB/s。拿Llama3.3 70B模型来测试,在不同上下文字数下都能稳定跑到275到276个token每秒。 Cerebras的WSE-3更猛,单芯片塞了44GB SRAM,带宽达到21PB/s。在OpenAI GPT OSS 120B推理任务里,它跑了超过3000个token每秒,比主流GPU云快了15倍左右。这对大规模实时应用来说绝对是好事。 英伟达也来凑热闹了。2025年12月他们花了200亿美元拿了Groq的知识产权授权,还把核心团队拉过来了。这算是英伟达在补齐推理短板上的一步大棋。 Cerebras自己也不差。2026年2月他们完成了10亿美元的F轮融资,估值到了230亿美元。更猛的是OpenAI和他们签了100亿美元的大单,要部署750兆瓦的定制芯片。OpenAI在Cerebras加速器上跑的GPT-5.3-Codex-Spark预览版,代码生成速度能超过1000个token每秒,交互体验变得更实时流畅。 OpenAI说引入Cerebras的低延迟方案意味着响应更快、交互更自然。这也给更多人用实时AI打下了基础。 大模型越来越强,像AI Agent这种场景都要落地了,对计算和存储的要求肯定越来越高。SRAM作为“AI记忆层”的一部分变得越来越值钱。业内觉得SRAM的崛起改变了设计思路,也给半导体产业链带来了新机会。 芯片设计、制造到软件生态都得围着它转。这场变革正在从“算力为王”变成“存算一体”。掌握核心技术的企业以后肯定能占据更有利的位置。对于咱们开发者和用户来说,更快的速度和更低的延迟意味着更智能的体验正在到来。 最后这份报告共有13页内容,感兴趣的话我这里都有哦!