2月20日这天,美国的《科学日报》网站上刊登了一篇报道,标题就很有意思,“科学家揭示人类语言为何不同于计算机代码”。文章里说,要是用1和0这种二进制的方式来表达,确实能把信息挤得更紧凑。可哈恩和富特雷尔在文章里说,那对我们大脑来说负担太重了。他们俩一个是德国语言学家,一个在加州大学欧文分校任教。理查德·富特雷尔跟迈克尔·哈恩搭伙做了个数学模型,解释了这背后的道理。 新的研究发现,虽说代码在理论上更节约空间,但这得让说话的人和听的人都得费不少脑子。反倒是人类语言更讲究熟悉的词和现实世界的模式,这就让大脑能一直猜着下一个词是啥。大家肯定见过7000多种语言在世界上并存。有些语言只有少数人用,而像汉语、英语、西班牙语这些大语种,用的人多得数不清。 它们都是把词串成短语再拼成句子来讲事。哈恩就觉得很奇怪:自然界都讲究效率最大化和节约资源,我们的大脑干嘛非得这么复杂?非要用数字来编码不就简单了吗?但他说了,人脑是个懒惰的家伙,走那个看着更麻烦的路径反而更轻松。 虽然自然语言没被压缩得最极限,但它给大脑带来的压力小多了。因为人脑在处理词的时候总会跟我们熟悉的世界连在一起。要是光用数字代码传递信息可能更快点,但那玩意儿跟日常体验脱离了。哈恩拿上班路上通勤来打比方:你天天走那条路,开车都像自动驾驶一样熟门熟路,大脑清楚下一步路况是啥。要是你换一条更短但不熟悉的路走,感觉就累得多了。 换句话说,要是说话人和听话人都得听懂那堆0和1的二进制代码,两边都得费不少脑力。可咱们母语说了几十年早就滚瓜烂熟了,交流起来自然就顺溜多了。哈恩和富特雷尔用数学方法证明了这些模式的存在。 他们的研究表明,人类语言把减少认知负担放在了首位。这些发现没准儿还能给AI大语言模型提供点改进的路子。研究人员要是能搞懂人脑怎么处理语言,说不定就能设计出更符合咱们自然说话习惯的AI系统。(王会聪译)