央视曝光"数据投毒"黑产引行业震动专家呼吁构建高质量AI语料生态体系

问题：黑产借“优化”之名行“投毒”之实 3月15日晚，央视“3·15”晚会披露，一些机构打着GEO（生成式引擎优化）旗号，利用自动化工具批量生成虚假“软文”，并通过矩阵式账号发布，将低质甚至失实信息渗入公开互联网信息场景，进而影响大模型的抓取与学习，达到操纵回答与推荐结果、牟取营销利益的目的。

报道中，“力擎GEO优化系统”被点名，引发市场对生成式内容生态与数据安全的关注。

原因：逐利冲动叠加内容生态沉疴，给治理带来新难度多方信息显示，涉事工具背后往往依赖“自动生成—批量分发—效果回收”的流水线式操作，成本低、见效快，容易被不法营销链条利用。

业内人士分析，一是部分机构沿袭传统“刷榜”“刷评”等灰产思路，将其迁移至生成式场景，通过规模化内容堆叠实现“信号劫持”；二是中文互联网长期存在“重流量、轻质量”的结构性问题，低质内容存量大、传播链条长，给模型训练与检索带来天然噪声；三是大模型对公开数据依赖度较高，虚假信息一旦以“看似完整、格式规范”的形态进入传播面，便更容易在算法抓取环节被误收录，形成“以假乱真”的风险。

影响：从误导用户到扰乱市场，外溢风险不容低估业内指出，“数据投毒”首先伤害的是公众获取信息的可信度，用户在医疗、金融、消费等领域若被误导，可能带来实际损失；其次扰乱公平竞争，合规经营者需要长期投入内容建设与品牌信誉，而灰产通过虚假内容“捷径”挤占注意力资源；再次加大平台与企业治理成本，数据清洗、标注与溯源投入将被动上升，甚至导致“越治理越昂贵”的对抗式循环。

更值得警惕的是，一旦虚假信息通过跨平台传播形成“多点印证”的假象，模型在交叉检索中更难甄别，影响面将进一步扩大。

对策：监管、平台与行业协同发力，回到“高质量供给”主线针对这一乱象，被称为较早提出GEO概念的聚邑智能创始人汤祚飞在接受媒体采访时表示，合规的GEO逻辑并非向模型“投喂”虚假信息，而是围绕真实性、权威性与可验证性，持续提供科学、准确、有价值的内容供给，帮助模型更好地理解与检索。

其团队提出内容建设应兼顾真实性、科普性、权威性、热点性、时效性、一致性、结构化与多模态等维度，使内容经得起多源交叉验证。

多位受访人士建议，治理应从三端同步推进：监管侧持续完善对虚假信息生产、买卖与传播链条的打击与处罚机制，强化对自动化账号、批量发布工具及“效果承诺式”营销的穿透式监管；平台侧加快对异常分发、同质化内容农场、可疑站群与账号矩阵的识别处置，完善内容溯源与标注体系，压缩灰产生存空间；行业侧推动形成更清晰的合规边界与评价标准，鼓励以可信数据、权威出处与结构化表达提升内容质量，建立对“伪GEO”“黑GEO”的识别清单与黑名单共享机制。

前景：以高质量语料与规则体系筑牢“向善”底座随着生成式技术加速进入搜索、问答、营销与政务服务等场景，内容生态的质量将直接影响技术应用成色。

受访业内人士认为，未来应进一步推动国家级或行业级高质量语料资源建设，减少重复清洗与无效算力消耗；同时完善“数据来源可追溯、内容责任可界定、违规成本显著提高”的制度环境，让真实可信信息在算法分发中获得更大权重。

只有把治理重心从“被动灭火”转向“源头供给”，才能从根本上遏制“投毒—扩散—再投毒”的恶性循环。

AI大模型的智能程度取决于其学习数据的质量。

当前暴露的数据投毒问题，本质上反映了互联网信息生态的深层矛盾。

只有通过建立高质量内容生态、完善监管机制、强化行业自律，才能让AI技术真正成为人类知识积累和智慧传承的工具，而非被污染和操纵的对象。

这场关乎AI未来发展方向的治理行动，需要全社会的共同参与和长期坚守。

央视曝光"数据投毒"黑产引行业震动 专家呼吁构建高质量AI语料生态体系

央视曝光"数据投毒"黑产引行业震动专家呼吁构建高质量AI语料生态体系