美国麻省理工学院有个研究组,给人工智能促进协会(AAAI)发了篇论文,说像OpenAI的GPT-4、Anthropic的Claude 3 Opus和Meta的Llama 3这些聊天机器人,虽然听起来很厉害,但对教育程度低或者英语不溜的用户来说,提供的信息准确性差得一塌糊涂。这些人本来就缺信息,现在反而更容易被忽悠。研究人员拿TruthfulQA和SciQ这两个数据集去测了测,发现模型给出的答案质量确实不行。尤其是那种既没怎么上过学英语又差的用户,受到的负面影响最大。 更让人意外的是,研究发现模型还特别偏心眼儿。比如Claude 3 Opus就很明显有歧视倾向,它对受教育程度低且不是英语母语的用户的拒绝回答率接近11%,而同样是这几个人问问题的拒绝率只有3.6%。而且拒绝的语气特别不好听,说话尖酸刻薄,有时候还故意模仿蹩脚英语。更糟糕的是,模型还会刻意隐瞒某些敏感信息,像伊朗、俄罗斯等国家的用户想了解核能或历史事件的真相时,就会得到错误的答案。 最让人担心的是这事儿以后会更严重。现在个性化功能越来越多,这些偏见和漏洞会被无限放大,最容易中招的恰恰是那些辨别能力差的弱势群体。这项研究发布在了IT之家上,提醒大家别小看这种不平等带来的问题。