我国首个开源数据集工作组成立 政企学研携手共建数字生态新格局

(问题)随着人工智能技术加速迭代,数据集作为模型训练与行业应用的重要基础,其开放共享与高质量供给的需求持续上升。但实践中,开源数据集仍存在标准口径不一、质量不稳定、合规边界不清、跨主体协同不足等问题,影响数据复用和产业落地效率,也制约开源生态的规模化发展。,开放原子园区行(上海站)开源数据集专场活动3月16日在上海市徐汇区举行。活动以“激活数据价值、共筑开源生态”为主题,聚焦人工智能开源数据集建设与发展,搭建产业界、学术界与开源社区的沟通对接平台。活动现场,由开放原子开源基金会牵头,联合产业、科研、标准制定等多方力量组建的开源数据集工作组正式启动。 (原因)业内人士认为,开源软件经过多年发展,已形成相对成熟的协作机制与治理经验,但数据集开源涉及数据来源、标注规范、许可协议、隐私保护、行业监管等多个环节,复杂度更高。尤其在训练数据快速扩张阶段,若缺乏统一规则与可落地的技术标准,容易出现数据不可用、不可控、不可追溯等情况,进而影响模型训练可靠性与应用安全。推动开源数据集工作组成立,正是为了在行业加速发展之际,尽快明确基础规则、建立协同机制。 活动中,工业和信息化部信息技术发展司有关负责人表示,建设有影响力、带动能力强的开源社区,推动开源赋能产业创新,是完善高水平开源体系的重要内容。希望各方深入凝聚共识、深化协作,推动社区与产业更好衔接,探索开源价值转化路径,促进数据在流通中创造价值、在开放中形成可持续的商业闭环,为产业转型升级提供动力。 (影响)开源数据集的规范化建设,既有助于提升模型训练质量,也是推动数据要素更高效配置、释放数据价值的可行路径。对企业而言,统一的技术规范与明确的合规框架可降低数据获取、清洗、标注与复用成本,提高研发效率;对科研机构而言,高质量开源数据集有助于提升研究验证与成果复现能力;对产业生态而言,清晰透明的规则将促使更多主体“敢开放、能开放、会开放”,推动形成以开源为纽带的协同创新网络。 上海在活动中介绍了推进开源生态建设的阶段性进展。上海市经济和信息化委员会总工程师裘薇表示,上海正加快自主开源体系建设,打造具有国际竞争力的开源创新高地,并在高质量数据开放上形成一批成果,包括开源100万条高质量思维链数据、OpenLoong社区开放超10万条动作数据等。她表示,上海将围绕开源机制探索、人才集聚等持续推进,盘活开源要素资源,提升全球开源生态中的参与度与影响力。 开放原子开源基金会理事长程晓明介绍,基金会坚持中立开放,已累计孵化52个开源项目,建设AtomGit人工智能开源平台,汇聚数百家生态伙伴,持续推动软件产业发展并服务各行业数字化转型。下一步,基金会将发挥平台与生态组织优势,携手产业各方推动开源数据集发展,并邀请更多政产学研力量参与,促进开源数据与人工智能深度融合。 (对策)据介绍,新启动的开源数据集工作组将坚持“规则先行、技术引领”,重点推进三上工作:一是推动开源数据集技术规范与标准体系建设,提升数据格式、标注口径、质量评测与版本管理等环节的一致性与可复用性;二是完善安全合规体系,强化数据来源治理、授权许可、隐私保护与风险评估,提升可追溯、可审计能力;三是促进生态协同,通过共建共享机制吸引更多行业、机构与社区参与,减少“各自为战”的碎片化协作,形成协同创新合力。 (前景)业内判断,随着大模型应用深入垂直行业,金融、制造、医疗、交通等领域对高质量且合规可用的数据集需求将持续增长。若开源数据集规范、安全与治理体系上取得突破,有望成为我国人工智能产业链的重要基础设施之一,并在国际开源合作中提供更具影响力的规则与组织能力。上海等地在开源机制探索、数据开放实践与人才集聚上的先行探索,也将为全国范围内的制度完善与产业推广提供可借鉴经验。

开源数据集建设既是技术工程,也是生态工程。以工作组启动为契机,把规则明确下来、把标准落到实处、把协同机制运转起来,才能让数据在更大范围内安全流动、高效复用、持续增值。面向未来,坚持开放合作与规范治理并重,才能把开源优势转化为创新动能,为新质生产力培育和产业高质量发展提供更稳固的支撑。