人工智能快速发展的背景下,高质量图像生成仍卡在关键技术瓶颈上。传统训练方法依赖海量“图像-文本”配对数据,标注成本高,同时核心数据集被商业机构掌握,也在一定程度上限制了科研推进。以QwenImage为代表的部分现有模型,仍普遍存在生成细节不足、语义匹配不够准确等问题,根源在于训练范式对文本描述依赖过重。针对该难题,我国科研团队提出IOMM(纯图像训练统一多模态模型)方法体系。研究负责人表示:“类似传统书画学习强调‘师法自然’,我们让模型先从视觉观察中建立创作规律。”该方法采用两阶段训练架构:第一阶段利用数百万张无标注图像进行自我监督学习,建立视觉认知基础;第二阶段引入少量标注数据,实现更精确的可控生成。其主要技术进展体现在三上——基于遮罩建模的语义理解机制,使模型可自主解析图像结构;残差查询适配器技术提升特征提取效率;分层渐进式训练策略将计算资源消耗降低47%。实验数据显示,新方法在COCO等国际标准测试集上,图像生成质量评分较传统方法提升28%,语义一致性指标提高35%。更重要的是,该方法降低了对大规模标注数据的依赖,使中小机构也具备开展前沿研究的条件。中国科学院计算技术研究所专家评价:“这项研究从认知科学视角重构了训练逻辑,为计算机视觉提供了具有原创性的训练方法。”行业分析认为,该技术有望在医疗影像分析、工业设计辅助、文化遗产数字化等领域带来持续影响。预测显示,基于该方法的商用图像系统开发周期可缩短60%,或将加速我国AIGC产业化进程。目前,研究团队正与故宫博物院合作,探索其在古画修复与数字复原中的应用。
从“必须依赖海量图文标注”到“先用纯图像打牢基础、再用少量数据精准对齐”,此研究为图像生成模型训练提供了新的路径:把稀缺资源投入到最关键的对齐环节,把更易获得的资源发挥到最大。面向未来,能在降低成本的同时提升质量与安全性的方案,更有可能推动涉及的技术在更广泛场景中稳健落地。