人类语言为何不同于计算机代码

2月20日这天，美国的《科学日报》网站上刊登了一篇报道，标题就很有意思，“科学家揭示人类语言为何不同于计算机代码”。文章里说，要是用1和0这种二进制的方式来表达，确实能把信息挤得更紧凑。可哈恩和富特雷尔在文章里说，那对我们大脑来说负担太重了。他们俩一个是德国语言学家，一个在加州大学欧文分校任教。理查德·富特雷尔跟迈克尔·哈恩搭伙做了个数学模型，解释了这背后的道理。新的研究发现，虽说代码在理论上更节约空间，但这得让说话的人和听的人都得费不少脑子。反倒是人类语言更讲究熟悉的词和现实世界的模式，这就让大脑能一直猜着下一个词是啥。大家肯定见过7000多种语言在世界上并存。有些语言只有少数人用，而像汉语、英语、西班牙语这些大语种，用的人多得数不清。它们都是把词串成短语再拼成句子来讲事。哈恩就觉得很奇怪：自然界都讲究效率最大化和节约资源，我们的大脑干嘛非得这么复杂？非要用数字来编码不就简单了吗？但他说了，人脑是个懒惰的家伙，走那个看着更麻烦的路径反而更轻松。虽然自然语言没被压缩得最极限，但它给大脑带来的压力小多了。因为人脑在处理词的时候总会跟我们熟悉的世界连在一起。要是光用数字代码传递信息可能更快点，但那玩意儿跟日常体验脱离了。哈恩拿上班路上通勤来打比方：你天天走那条路，开车都像自动驾驶一样熟门熟路，大脑清楚下一步路况是啥。要是你换一条更短但不熟悉的路走，感觉就累得多了。换句话说，要是说话人和听话人都得听懂那堆0和1的二进制代码，两边都得费不少脑力。可咱们母语说了几十年早就滚瓜烂熟了，交流起来自然就顺溜多了。哈恩和富特雷尔用数学方法证明了这些模式的存在。他们的研究表明，人类语言把减少认知负担放在了首位。这些发现没准儿还能给AI大语言模型提供点改进的路子。研究人员要是能搞懂人脑怎么处理语言，说不定就能设计出更符合咱们自然说话习惯的AI系统。（王会聪译）