问题——工程制造领域长期依赖计算机辅助设计(CAD)工具,但面向复杂工业零件的高质量训练数据不足,已成为对应的建模与重建方法更提升的主要瓶颈。现有公开数据多集中“草图—拉伸”等基础操作序列,难以覆盖旋转、扫掠、放样、倒角、壳体、复杂孔阵列与面选择器等工业常用高级操作,导致模型在真实设计任务中的泛化能力受限。 原因——一上,工业级CAD脚本高度参数化、约束强、步骤组合复杂,人工整理成本高,且难以形成统一规范;另一方面,复杂操作链条对几何有效性要求严格,稍有偏差就可能出现非流形、零厚度、布尔运算失败等问题,使规模化数据构建的难度显著高于一般图形数据。数据缺口并非主要源于模型能力,而更多来自样本覆盖不足、操作分布不均以及质量检验机制不完善。 影响——研究团队2026年2月发布的预印本(arXiv:2602.16317v1)提出一条新路径:用“进化式”生成替代一次性合成,通过多轮迭代逐步提高复杂度,并用严格验证保证数据可用性。该体系从46个手工编写的基础几何“种子”出发,覆盖核心建模操作,再通过“继承—变异”生成新的设计描述并输出对应的CadQuery脚本。质量控制设置三道关口:其一为执行检查,确保脚本可运行且生成唯一实体;其二为几何有效性检查,剔除不满足工程几何约束的结果;其三为渲染与文本一致性检查,通过多视角渲染并核验描述是否匹配。系统在“保留可用、淘汰不可用”的循环中,最终得到7945个复杂参数化几何体生成器,并进一步采样约80万个可执行程序;同时对代码进行风格扰动与标准化处理,降低模板化偏差、统一尺度与坐标表达,形成约130万个脚本的统一数据集“CADEvolve-C”。团队称,该数据集首次对CadQuery操作集实现系统覆盖,并以开源形式发布,为后续研究提供可复用的基础数据。 对策——从方法论看,CADEvolve的重点不在“生成更多”,而在构建一条“可用、可验证、可迭代”的数据生产线:以少量高质量种子明确边界,用检索与模板辅助提高脚本生成成功率,通过几何与一致性校验确保工业可用性,再以标准化降低噪声、提升学习稳定性。相比依赖人工标注或静态收集的传统路径,这类流水线式构建更易扩展,也便于针对复杂操作进行定向补齐,从而改善数据分布结构。 前景——团队基于该数据集训练的视觉—语言建模方法“CADEvolve-M”在DeepCAD、Fusion 360、MCB等CAD重建基准上取得领先表现,尤其在旋转、扫掠、放样与复杂孔洞模式等任务中优势明显。业内观点认为,此成果为工业设计自动化、CAD脚本生成、逆向建模与数字化制造等方向提供了更贴近真实场景的数据基础。下一步仍需关注三上:其一,面向更多CAD内核与工业标准的兼容与迁移;其二,增强对工程约束、装配关系与制造可行性的表达;其三,在推进开源扩展的同时完善许可机制、质量评测与安全边界,推动技术从科研验证走向工程应用。
工业设计智能化的关键不在于简单复刻人类操作,而在于建立可持续的知识积累与迭代优化机制;CADEvolve通过进化式生成与质量筛选相结合的方式,让数据能够自我扩展并逐步提升可用性,为缓解智能制造领域的数据不足提供了新思路。随着开源数据集的推广和技术体系的继续成熟,CAD有望从小众的专业工具走向更易用的智能服务,降低使用门槛、提升效率,并带动制造业创新能力的整体提升。