深度伪造技术大爆发:靠ai 生成的人脸、声音和全身动作

就在2025年,深度伪造的技术终于迎来了一个大爆发。靠AI生成的人脸、声音和全身动作,逼真程度已经超出了不少专家的想象。它们甚至被用来骗人,尤其是在低清视频通话或者社交媒体上分享的内容里,骗非专业观众简直易如反掌。对普通人来说,这些合成的视频和真人录音几乎没什么两样,有时候连机构都傻傻分不清。而且数量也是蹭蹭往上涨,根据网络安全公司DeepStrike估计,从2023年的大概50万个深度伪造开始,到2025年一下子飙升到了800万个,年增长率都快赶上900%了。作为一个搞这个领域研究的人来说,我看情况到了2026年只会更糟,因为到时候这些伪造技术完全可以变成能对人实时做出反应的“活”人。 这一切进步主要得益于好几个技术上的突破。首先是视频的真实感提升了不少,专门用来保持时间连贯性的模型让视频变得流畅连贯,人物身份也稳定下来。以前那种眼睛或下巴周围闪烁、扭曲的情况少多了。其次是声音克隆技术跨过了那个“无法区分”的坎儿。现在只需要几秒钟的音频就能生成一个非常自然的克隆音,包括重音、情感还有呼吸声这些细节。这也让大规模的欺诈变得更容易了。 而且消费者用的工具门槛也降得很低。像OpenAI的Sora 2、谷歌的Veo 3这些软件,加上一批初创公司的升级产品,让任何人都可以随便描述个想法。ChatGPT或者Gemini这样的语言模型就能帮你起草脚本,几分钟就能产出精美的视听内容。AI代理直接帮你把整个流程都自动化了。现在大家想大量生成连贯故事的深度伪造简直就像玩一样。 这种数量暴涨和高度逼真结合在一起,给检测带来了很大的麻烦。因为大家平时注意力都挺分散的,信息传播得比验证还快。现实中已经有人因此遭殃了——错误信息、针对性骚扰甚至金融诈骗都有不少是这种技术干的坏事。而且这些伪造在你知道是怎么回事之前早就传开了。 未来肯定是向着实时合成发展的。明年的趋势很明显:深度伪造会朝着能实时产生和人类长得一模一样的视频方向走。现在的目标已经不再是静态的图像有多真了,而是看时间和行为上的一致性怎么样。模型要生成的不是预先做好的片段,而是实时或者接近实时的内容。身份建模也会变成一个统一的系统,不光抓外貌还要抓动作、声音和说话习惯。 我估计到时候视频通话里的参与者全都是实时合成出来的人;互动的AI演员会根据提示瞬间调整自己的脸和声音;骗子也会用上能反应的头像而不是死画面。随着这些能力越来越成熟,合成媒体和真人类媒体之间的那条界限会变得越来越模糊。光靠人去判断肯定是不行了。以后得靠基础设施层面的防护来兜底。 比如说用加密签名过的媒体作为安全来源;还有用联盟规范来管住AI内容工具;还有像Deepfake-o-Meter这种多模态的取证工具也得靠上。光是看像素早就不够用了。