问题:数据资源“有量”不等于“可用”,行业数据供给仍存结构性短板;随着数字经济加速发展,数据正从“业务副产品”转变为关键生产要素。但实际应用中,不少行业仍面临数据分散在不同系统、标准不统一、质量参差不齐、更新机制不完善等问题,导致数据难以高效流通与复用,难以形成可直接支撑模型开发训练与行业应用的“高质量供给”。在新兴应用快速涌现的背景下,数据供给与需求之间的错配问题更加凸显。 原因:一是数据治理体系仍需完善。部分单位在采集、清洗、标注、脱敏等关键环节投入不足,缺少贯穿全生命周期的质量管理与安全管理机制。二是行业标准与应用牵引不足。不同领域数据口径差异大,跨部门、跨行业协同成本高,难以沉淀可复制、可推广的数据产品。三是创新应用对数据提出更高要求。低空经济、智慧驾驶、具身智能、生物制造等新领域对多模态数据、实时更新与场景适配提出更高标准,倒逼数据从“可存”向“可用、好用、管用”升级。 影响:启动行业高质量数据集征集,有助于从源头提升数据要素供给效率,推动形成可示范的行业数据产品体系。通知明确,征集领域覆盖科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理等重点领域,并延伸至低空经济、智慧驾驶等创新方向,体现出以需求为导向、以场景为牵引的布局思路。对入选数据集而言,若能够在技术先进性、模式创新性、应用示范性和动态更新机制诸上形成标杆,将带动上下游企业、科研机构和公共服务部门围绕数据标准、工具链与应用生态加快协同,促进数据要素价值释放,进而为产业转型升级提供更坚实的“底座”。 对策:本次征集对申报主体、数据规模与应用场景提出明确要求,表达出“以质量论英雄”的政策信号。申报单位需为省内注册独立法人,近3年经营状况良好,信用、质量、安全等上无不良记录,有利于把控数据合规与可持续供给能力。通知界定的高质量数据集强调全流程处理能力,即经过系统化采集、汇聚、清洗、标注等环节,可直接用于模型开发训练并提升性能;同时按知识类型分为行业通识与行业专识数据集,兼顾通用能力建设与垂直深耕。数据形态支持结构化数据、文本、视频、音频、图形图像等多模态,规模原则上达到TB级,并要求为已建成或在建项目且具备真实业务应用场景,意在推动“从项目到产品、从数据到能力”的转化。下一步,建议申报单位同步完善数据权属边界、共享开放方式、脱敏与安全审查流程,建立可追溯的数据质量评价与动态更新机制,确保数据集“可用、可信、可持续”。 前景:在全国加快推进数据基础制度建设、数据要素市场化配置改革的背景下,地方层面的高质量数据集培育,将成为构建数字产业竞争力的重要抓手。山西以征集行动聚焦重点行业与新兴赛道,既有利于形成一批可复制的行业样板,也有望推动数据与实体经济深度融合,在能源、制造等传统优势领域打造数字化新动能,并在低空经济等前沿方向提前布局数据能力。随着标杆数据集不断沉淀,叠加场景开放与生态协同,数据要素对科技创新、产业升级与公共治理的支撑作用将深入显现。
数据的价值在于流动和应用。山西此次行动既是对国家战略的落实,也是对区域经济转型的前瞻探索。当更多行业数据集实现从"能用"到"活用"的跨越,数字经济才能真正转化为现实生产力。