在短视频与社交平台的内容分发、电商商品匹配、在线观影推荐等场景中,用户“点开即得”的体验背后,是算法对海量数据持续进行特征提取、模式发现与快速决策。
随着数据规模增长和模型迭代加速,传统数字芯片在通用算力供给上面临两道现实门槛:一是复杂计算任务对并行度和存储带宽提出更高要求;二是能耗与散热压力上升,使得“算得更快”往往伴随“耗得更多”,成为制约实时智能服务的重要因素之一。
如何在保障精度的同时提升计算效率与能效,成为学术界与产业界共同关注的方向。
此次研究聚焦机器学习中的关键工具——非负矩阵分解。
该方法可将高维、稠密且噪声较多的数据表示为若干非负基向量及其组合权重,便于发现潜在结构与可解释特征,广泛用于图像分析、文本与用户行为聚类、个性化推荐等。
其难点在于求解过程需要在约束条件下同步迭代两个矩阵,计算链条长、更新频繁,且对数据搬运极为敏感。
在通用数字计算架构中,这类任务常因串行瓶颈、存算分离导致的数据往返开销而效率受限,难以在大规模训练与实时响应之间兼顾。
为突破上述瓶颈,研究团队将路径转向模拟计算,并以阻变存储器(RRAM)阵列为基础构建专用求解器。
阻变存储器具备以电导状态表征权重、在阵列内实现并行乘加的潜力,可减少数据在存储与计算单元之间的频繁搬运,从架构层面降低延迟与能耗。
团队通过电路设计与算法协同优化,在RRAM阵列上实现高度紧凑的模拟电路组织,并提出电导补偿等关键技术,使得若干核心更新步骤能够在硬件中以更少的迭代与更高并行度完成,从而将“为通用而牺牲效率”的模式转变为“为任务定制而释放性能”的模式。
在系统验证方面,研究团队搭建原型系统并开展多组测试:在彩色图像分解任务中,分解质量保持较高水平,信噪比损失较小;在电影推荐数据集训练任务中,训练精度与数字方案接近。
系统级评估进一步表明,在面向大规模推荐数据集的训练任务中,该模拟求解器较先进数字芯片计算速度提升约12倍,能效比提升超过228倍。
相关成果发表于《自然·通讯》。
从影响看,这一进展为约束优化类问题的实时求解提供了新的技术路线:通过把核心计算环节压缩到存算一体的模拟阵列中,减少数据搬运与无效能耗,有望提升推荐、聚类、图像处理等应用的响应能力与部署效率。
更重要的是,在算力需求持续增长的背景下,高能效专用架构为缓解算力与能耗矛盾提供了“结构性增益”,有助于在边缘端、数据中心等不同算力场景中探索更经济的性能提升方式。
同时也应看到,模拟计算走向更大规模应用仍需在工程化层面持续攻关,包括器件一致性与漂移带来的误差控制、模拟噪声与温度变化对稳定性的影响、与数字系统的协同调度与软件栈适配、以及可制造性与良率提升等。
面向产业落地,可通过“应用牵引+软硬协同”的方式推进:一方面优先在矩阵分解、特定优化求解等边界清晰、收益明确的场景部署;另一方面完善编译、校准与容错机制,使其能够与现有数字加速器形成互补,而非替代关系。
展望未来,随着器件技术、封装互连与算法适配不断完善,围绕特定核心算子与优化问题定制的高能效芯片,有望在个性化推荐、图像理解、数据挖掘等方向扩大应用,并为更大规模模型训练与推理提供更节能的算力支撑。
在新一代智能计算竞争中,能效优势正成为与算力规模同等重要的指标,面向关键任务的专用架构探索或将成为提升体系化竞争力的重要路径。
在全球算力竞争日益激烈的背景下,这项突破性研究不仅展示了我国在前沿计算技术领域的创新能力,更预示着专用计算架构在人工智能时代的广阔应用前景。
随着技术的进一步成熟和产业化推进,此类高能效芯片有望成为支撑数字经济发展的新基石,为智能社会建设注入强劲动力。