西湖大学等提出“纯图像”训练新路径：降低图像生成模型数据成本并提升画面质量

人工智能快速发展的背景下，高质量图像生成仍卡在关键技术瓶颈上。传统训练方法依赖海量“图像-文本”配对数据，标注成本高，同时核心数据集被商业机构掌握，也在一定程度上限制了科研推进。以QwenImage为代表的部分现有模型，仍普遍存在生成细节不足、语义匹配不够准确等问题，根源在于训练范式对文本描述依赖过重。针对该难题，我国科研团队提出IOMM（纯图像训练统一多模态模型）方法体系。研究负责人表示：“类似传统书画学习强调‘师法自然’，我们让模型先从视觉观察中建立创作规律。”该方法采用两阶段训练架构：第一阶段利用数百万张无标注图像进行自我监督学习，建立视觉认知基础；第二阶段引入少量标注数据，实现更精确的可控生成。其主要技术进展体现在三上——基于遮罩建模的语义理解机制，使模型可自主解析图像结构；残差查询适配器技术提升特征提取效率；分层渐进式训练策略将计算资源消耗降低47%。实验数据显示，新方法在COCO等国际标准测试集上，图像生成质量评分较传统方法提升28%，语义一致性指标提高35%。更重要的是，该方法降低了对大规模标注数据的依赖，使中小机构也具备开展前沿研究的条件。中国科学院计算技术研究所专家评价：“这项研究从认知科学视角重构了训练逻辑，为计算机视觉提供了具有原创性的训练方法。”行业分析认为，该技术有望在医疗影像分析、工业设计辅助、文化遗产数字化等领域带来持续影响。预测显示，基于该方法的商用图像系统开发周期可缩短60%，或将加速我国AIGC产业化进程。目前，研究团队正与故宫博物院合作，探索其在古画修复与数字复原中的应用。

从“必须依赖海量图文标注”到“先用纯图像打牢基础、再用少量数据精准对齐”，此研究为图像生成模型训练提供了新的路径：把稀缺资源投入到最关键的对齐环节，把更易获得的资源发挥到最大。面向未来，能在降低成本的同时提升质量与安全性的方案，更有可能推动涉及的技术在更广泛场景中稳健落地。