俄高校联合团队突破工业设计瓶颈首创"进化式"CAD数据生成技术

问题——工程制造领域长期依赖计算机辅助设计（CAD）工具，但面向复杂工业零件的高质量训练数据不足，已成为对应的建模与重建方法更提升的主要瓶颈。现有公开数据多集中“草图—拉伸”等基础操作序列，难以覆盖旋转、扫掠、放样、倒角、壳体、复杂孔阵列与面选择器等工业常用高级操作，导致模型在真实设计任务中的泛化能力受限。原因——一上，工业级CAD脚本高度参数化、约束强、步骤组合复杂，人工整理成本高，且难以形成统一规范；另一方面，复杂操作链条对几何有效性要求严格，稍有偏差就可能出现非流形、零厚度、布尔运算失败等问题，使规模化数据构建的难度显著高于一般图形数据。数据缺口并非主要源于模型能力，而更多来自样本覆盖不足、操作分布不均以及质量检验机制不完善。影响——研究团队2026年2月发布的预印本（arXiv:2602.16317v1）提出一条新路径：用“进化式”生成替代一次性合成，通过多轮迭代逐步提高复杂度，并用严格验证保证数据可用性。该体系从46个手工编写的基础几何“种子”出发，覆盖核心建模操作，再通过“继承—变异”生成新的设计描述并输出对应的CadQuery脚本。质量控制设置三道关口：其一为执行检查，确保脚本可运行且生成唯一实体；其二为几何有效性检查，剔除不满足工程几何约束的结果；其三为渲染与文本一致性检查，通过多视角渲染并核验描述是否匹配。系统在“保留可用、淘汰不可用”的循环中，最终得到7945个复杂参数化几何体生成器，并进一步采样约80万个可执行程序；同时对代码进行风格扰动与标准化处理，降低模板化偏差、统一尺度与坐标表达，形成约130万个脚本的统一数据集“CADEvolve-C”。团队称，该数据集首次对CadQuery操作集实现系统覆盖，并以开源形式发布，为后续研究提供可复用的基础数据。对策——从方法论看，CADEvolve的重点不在“生成更多”，而在构建一条“可用、可验证、可迭代”的数据生产线：以少量高质量种子明确边界，用检索与模板辅助提高脚本生成成功率，通过几何与一致性校验确保工业可用性，再以标准化降低噪声、提升学习稳定性。相比依赖人工标注或静态收集的传统路径，这类流水线式构建更易扩展，也便于针对复杂操作进行定向补齐，从而改善数据分布结构。前景——团队基于该数据集训练的视觉—语言建模方法“CADEvolve-M”在DeepCAD、Fusion 360、MCB等CAD重建基准上取得领先表现，尤其在旋转、扫掠、放样与复杂孔洞模式等任务中优势明显。业内观点认为，此成果为工业设计自动化、CAD脚本生成、逆向建模与数字化制造等方向提供了更贴近真实场景的数据基础。下一步仍需关注三上：其一，面向更多CAD内核与工业标准的兼容与迁移；其二，增强对工程约束、装配关系与制造可行性的表达；其三，在推进开源扩展的同时完善许可机制、质量评测与安全边界，推动技术从科研验证走向工程应用。

工业设计智能化的关键不在于简单复刻人类操作，而在于建立可持续的知识积累与迭代优化机制；CADEvolve通过进化式生成与质量筛选相结合的方式，让数据能够自我扩展并逐步提升可用性，为缓解智能制造领域的数据不足提供了新思路。随着开源数据集的推广和技术体系的继续成熟，CAD有望从小众的专业工具走向更易用的智能服务，降低使用门槛、提升效率，并带动制造业创新能力的整体提升。

俄高校联合团队突破工业设计瓶颈 首创"进化式"CAD数据生成技术

俄高校联合团队突破工业设计瓶颈首创"进化式"CAD数据生成技术