问题:黑产借“优化”之名行“投毒”之实 3月15日晚,央视“3·15”晚会披露,一些机构打着GEO(生成式引擎优化)旗号,利用自动化工具批量生成虚假“软文”,并通过矩阵式账号发布,将低质甚至失实信息渗入公开互联网信息场景,进而影响大模型的抓取与学习,达到操纵回答与推荐结果、牟取营销利益的目的。
报道中,“力擎GEO优化系统”被点名,引发市场对生成式内容生态与数据安全的关注。
原因:逐利冲动叠加内容生态沉疴,给治理带来新难度 多方信息显示,涉事工具背后往往依赖“自动生成—批量分发—效果回收”的流水线式操作,成本低、见效快,容易被不法营销链条利用。
业内人士分析,一是部分机构沿袭传统“刷榜”“刷评”等灰产思路,将其迁移至生成式场景,通过规模化内容堆叠实现“信号劫持”;二是中文互联网长期存在“重流量、轻质量”的结构性问题,低质内容存量大、传播链条长,给模型训练与检索带来天然噪声;三是大模型对公开数据依赖度较高,虚假信息一旦以“看似完整、格式规范”的形态进入传播面,便更容易在算法抓取环节被误收录,形成“以假乱真”的风险。
影响:从误导用户到扰乱市场,外溢风险不容低估 业内指出,“数据投毒”首先伤害的是公众获取信息的可信度,用户在医疗、金融、消费等领域若被误导,可能带来实际损失;其次扰乱公平竞争,合规经营者需要长期投入内容建设与品牌信誉,而灰产通过虚假内容“捷径”挤占注意力资源;再次加大平台与企业治理成本,数据清洗、标注与溯源投入将被动上升,甚至导致“越治理越昂贵”的对抗式循环。
更值得警惕的是,一旦虚假信息通过跨平台传播形成“多点印证”的假象,模型在交叉检索中更难甄别,影响面将进一步扩大。
对策:监管、平台与行业协同发力,回到“高质量供给”主线 针对这一乱象,被称为较早提出GEO概念的聚邑智能创始人汤祚飞在接受媒体采访时表示,合规的GEO逻辑并非向模型“投喂”虚假信息,而是围绕真实性、权威性与可验证性,持续提供科学、准确、有价值的内容供给,帮助模型更好地理解与检索。
其团队提出内容建设应兼顾真实性、科普性、权威性、热点性、时效性、一致性、结构化与多模态等维度,使内容经得起多源交叉验证。
多位受访人士建议,治理应从三端同步推进:监管侧持续完善对虚假信息生产、买卖与传播链条的打击与处罚机制,强化对自动化账号、批量发布工具及“效果承诺式”营销的穿透式监管;平台侧加快对异常分发、同质化内容农场、可疑站群与账号矩阵的识别处置,完善内容溯源与标注体系,压缩灰产生存空间;行业侧推动形成更清晰的合规边界与评价标准,鼓励以可信数据、权威出处与结构化表达提升内容质量,建立对“伪GEO”“黑GEO”的识别清单与黑名单共享机制。
前景:以高质量语料与规则体系筑牢“向善”底座 随着生成式技术加速进入搜索、问答、营销与政务服务等场景,内容生态的质量将直接影响技术应用成色。
受访业内人士认为,未来应进一步推动国家级或行业级高质量语料资源建设,减少重复清洗与无效算力消耗;同时完善“数据来源可追溯、内容责任可界定、违规成本显著提高”的制度环境,让真实可信信息在算法分发中获得更大权重。
只有把治理重心从“被动灭火”转向“源头供给”,才能从根本上遏制“投毒—扩散—再投毒”的恶性循环。
AI大模型的智能程度取决于其学习数据的质量。
当前暴露的数据投毒问题,本质上反映了互联网信息生态的深层矛盾。
只有通过建立高质量内容生态、完善监管机制、强化行业自律,才能让AI技术真正成为人类知识积累和智慧传承的工具,而非被污染和操纵的对象。
这场关乎AI未来发展方向的治理行动,需要全社会的共同参与和长期坚守。