天呐!云天励飞这开局太猛了!拿下了湛江的一个超重磅项目,把4.2亿的大单收入囊中!就在前阵子,他们中标了湛江市搞的那个AI渗透支撑新质生产力的基础设施建设工程。照项目规划的说法,公司要把自己研发的国产AI推理加速卡拿出来,给那边建设一个超级大的算力集群。还打算推动DeepSeek这些国产大模型,去适配政务还有产业里的数字化应用,把算力基础设施给铺好。 咱们现在聊的这个推理算力集群,主要是为了跑大模型用的。大模型在推理的时候,不同阶段对资源的需求差别挺大。现在业界都流行那种“Prefill和Decode分开”的架构,把资源分阶段配置,这样运行效率就高。Prefill阶段主要是处理长的上下文理解和计算,对算力和带宽要求高;Decode阶段就是不停地生Token,对系统延迟特别敏感。这次建系统的时候,肯定会根据这些不同特点来调配资源和优化系统。 再说个关键的点,随着模型上下文越来越长,会有大量的中间状态需要用KV Cache存起来。针对这个情况,这次系统设计上把计算、存储和网络之间的协同做了优化,好让数据访问更快一点。在网络架构这块,系统用了统一的高速互联结构,通过400G光网络把物理层建起来,这样节点之间的通信带宽高、延迟低。而且这套系统还能从单节点几十块卡的规模一直扩展到上千块卡的集群规模,不管是小应用还是大应用都能应付。 整个项目弄完以后,就能给大模型推理任务提供一个稳定的算力基础。而且根据规划,这次的AI推理算力集群要分三期建起来,并且全部用上云天励飞自己造的AI推理加速卡。第一期就先把X6000推理加速卡给装上;以后的话,会把公司最新一代的芯片先放上去。 在芯片研发这块儿,云天励飞也在持续发力。他们打算推出专门针对Prefill阶段优化的芯片和针对Decode阶段低延迟需求的芯片。比如他们的DeepVerse100芯片就是给长上下文推理场景优化的,估计今年就能流片出来了。 对于长远的打算,公司提出了一个“1001计划”,目标就是把“百亿Token一分钱”给搞出来。说白了就是要通过芯片架构和算力系统的配合优化,把大模型推理的成本压下来。未来这家公司肯定会继续在这方面使劲研发,好让AI技术在各行各业都能落地应用。