我国首个开源数据集工作组成立政企学研携手共建数字生态新格局

（问题）随着人工智能技术加速迭代，数据集作为模型训练与行业应用的重要基础，其开放共享与高质量供给的需求持续上升。但实践中，开源数据集仍存在标准口径不一、质量不稳定、合规边界不清、跨主体协同不足等问题，影响数据复用和产业落地效率，也制约开源生态的规模化发展。，开放原子园区行（上海站）开源数据集专场活动3月16日在上海市徐汇区举行。活动以“激活数据价值、共筑开源生态”为主题，聚焦人工智能开源数据集建设与发展，搭建产业界、学术界与开源社区的沟通对接平台。活动现场，由开放原子开源基金会牵头，联合产业、科研、标准制定等多方力量组建的开源数据集工作组正式启动。（原因）业内人士认为，开源软件经过多年发展，已形成相对成熟的协作机制与治理经验，但数据集开源涉及数据来源、标注规范、许可协议、隐私保护、行业监管等多个环节，复杂度更高。尤其在训练数据快速扩张阶段，若缺乏统一规则与可落地的技术标准，容易出现数据不可用、不可控、不可追溯等情况，进而影响模型训练可靠性与应用安全。推动开源数据集工作组成立，正是为了在行业加速发展之际，尽快明确基础规则、建立协同机制。活动中，工业和信息化部信息技术发展司有关负责人表示，建设有影响力、带动能力强的开源社区，推动开源赋能产业创新，是完善高水平开源体系的重要内容。希望各方深入凝聚共识、深化协作，推动社区与产业更好衔接，探索开源价值转化路径，促进数据在流通中创造价值、在开放中形成可持续的商业闭环，为产业转型升级提供动力。（影响）开源数据集的规范化建设，既有助于提升模型训练质量，也是推动数据要素更高效配置、释放数据价值的可行路径。对企业而言，统一的技术规范与明确的合规框架可降低数据获取、清洗、标注与复用成本，提高研发效率；对科研机构而言，高质量开源数据集有助于提升研究验证与成果复现能力；对产业生态而言，清晰透明的规则将促使更多主体“敢开放、能开放、会开放”，推动形成以开源为纽带的协同创新网络。上海在活动中介绍了推进开源生态建设的阶段性进展。上海市经济和信息化委员会总工程师裘薇表示，上海正加快自主开源体系建设，打造具有国际竞争力的开源创新高地，并在高质量数据开放上形成一批成果，包括开源100万条高质量思维链数据、OpenLoong社区开放超10万条动作数据等。她表示，上海将围绕开源机制探索、人才集聚等持续推进，盘活开源要素资源，提升全球开源生态中的参与度与影响力。开放原子开源基金会理事长程晓明介绍，基金会坚持中立开放，已累计孵化52个开源项目，建设AtomGit人工智能开源平台，汇聚数百家生态伙伴，持续推动软件产业发展并服务各行业数字化转型。下一步，基金会将发挥平台与生态组织优势，携手产业各方推动开源数据集发展，并邀请更多政产学研力量参与，促进开源数据与人工智能深度融合。（对策）据介绍，新启动的开源数据集工作组将坚持“规则先行、技术引领”，重点推进三上工作：一是推动开源数据集技术规范与标准体系建设，提升数据格式、标注口径、质量评测与版本管理等环节的一致性与可复用性；二是完善安全合规体系，强化数据来源治理、授权许可、隐私保护与风险评估，提升可追溯、可审计能力；三是促进生态协同，通过共建共享机制吸引更多行业、机构与社区参与，减少“各自为战”的碎片化协作，形成协同创新合力。（前景）业内判断，随着大模型应用深入垂直行业，金融、制造、医疗、交通等领域对高质量且合规可用的数据集需求将持续增长。若开源数据集规范、安全与治理体系上取得突破，有望成为我国人工智能产业链的重要基础设施之一，并在国际开源合作中提供更具影响力的规则与组织能力。上海等地在开源机制探索、数据开放实践与人才集聚上的先行探索，也将为全国范围内的制度完善与产业推广提供可借鉴经验。

开源数据集建设既是技术工程，也是生态工程。以工作组启动为契机，把规则明确下来、把标准落到实处、把协同机制运转起来，才能让数据在更大范围内安全流动、高效复用、持续增值。面向未来，坚持开放合作与规范治理并重，才能把开源优势转化为创新动能，为新质生产力培育和产业高质量发展提供更稳固的支撑。

我国首个开源数据集工作组成立 政企学研携手共建数字生态新格局

我国首个开源数据集工作组成立政企学研携手共建数字生态新格局