newsguard做了个很有意思的测试，然后让三款主流ai 聊天机器人来帮忙鉴别。你猜怎么着？

这就不得不让人担忧了，最近新闻媒体Newsguard做了个很有意思的测试。他们拿OpenAI旗下的视频生成模型Sora制作了20条明显虚假的视频，然后让三款主流AI聊天机器人来帮忙鉴别。你猜怎么着？这三款助手——OpenAI的ChatGPT、谷歌的Gemini还有xAI的Grok——居然全都栽了跟头！识别失败成了普遍现象，最惨的Grok有95%的视频都没认出来；ChatGPT也错了92.5%，哪怕是表现最好的Gemini也才勉强及格，错误率高达78%。这结果真是挺讽刺的，尤其是ChatGPT，它自己就是用Sora的视频来做测试的。明明是同一个生态体系里的东西，怎么生成能力和鉴别能力就差这么多呢？为了防止AI内容被滥用，现在的防护手段倒是挺多。比如说Sora会在视频上加动态水印，还会嵌入C2PA标准的元数据。可是现实是这些方法基本没用，网络上早就有工具能把水印给抹掉了。就算水印没被破坏，用处也不大，Grok看着带水印的视频还是有30%的概率看不出来是AI生成的。更要命的是这些AI助手在面对无法确认的内容时表现得特别自信。比如有个伪造的视频说巴基斯坦给伊朗送战斗机，Grok不仅没说这是假的，反而还编了个根本不存在的“Sora新闻”来给自己撑腰。这种行为会让假新闻看起来更有说服力。以前Newsguard也做过类似的测试，结果都差不多。比如那个“美国移民海关逮捕六岁孩子”的假视频，ChatGPT和Gemini居然都被骗了。这说明问题很严重：本来指望AI帮忙辨别真假的，结果它自己都分不清真假了。现在像Sora、Veo这些生成模型发展得太快了，做得越来越精细。但识别技术根本跟不上节奏。这不仅是一个公司的问题，整个行业都在拼命跑“生成”这条路，却对“鉴别”这块投入太少了。要想让数字空间有安全感，大家得一块儿使劲。技术开发者、行业组织、监管机构还有普通网友都得参与进来。只有把生成和鉴别能力平衡发展了，完善了标准和规范，AI才能真正成为信息的守护者而不是制造混乱的源头。前路还很长，大家得多问问技术到底靠不靠谱、负不负责才行。