说起来,论文这块现在大家都挺头疼的,因为AI生成内容(AIGC)越来越多,不仅高等教育里泛滥,连学术出版也难逃其扰。这就给学术诚信、版权归属、数据安全啥的带来不少麻烦。大家就想弄明白,到底怎么才能揪出这些AI造的假。目前市面上能用的检测工具其实没几个是专业干这个的,像Turnitin、IThenticate、MasterAI率检测这些算比较出名的,还有知网、维普、万方这些老牌查重系统。 虽然它们作用挺类似,但各家用的原理还是有点不一样。第一个路子是用机器学习搞个分类器。具体做法就是把海量的人类写作和AI生成的文章搜集起来当训练样本喂给模型,让它慢慢学两者的差别。等模型训练好了,你只要把待查的文章扔进去,系统就会把它和预设的模型算一遍,最后给你个概率值,告诉你这篇文章是AI写的可能性有多大。 第二个招数是做零样本检测。说白了就是不预先训练模型,而是利用AI和人类写作在句式结构、语法特征、写作风格上的固有差别来判断。比如用困惑度、复杂程度这些统计学指标建模分析。AI写出来的东西通常结构比较死硬,句子变化少;用Transformer架构的模型会挑概率高的词直接输出,导致熵值低、分布均匀。相比之下人类的语言熵值忽高忽低,看起来更混乱一些。检测工具有时候会直接看文档里的文字生成时间序列,要是发现有大段文字在极短时间内被加进去,就会觉得这部分内容可能是AI弄出来的。 第三个办法是用水印标识技术。简单说就是在生成的文本里藏个特定记号或者标志。这种技术就是在文章里做手脚,比如改变字体、颜色、间距或者加个不可替换的背景图片。不过这种检测现在有点鸡肋,市面上的大模型很少主动往里塞水印。 说实话,这几类方法都挺绕的,但说白了就是想找到一种办法,把AI搞出来的东西跟真人写的区分开。至于具体怎么选工具来查?CheckVVIP这篇文章里说得挺详细的,有兴趣的可以去看看。