剑桥大学这个AI安全研究中心,就是CAISH,他们和亚马逊云服还有谷歌这帮家伙一起搞了个叫SAHOO的框架。这主要是为了盯着AI自己变好的过程,别跑偏了。你想啊,AI自己要是不断修改程序,搞不好就忘了初心。这个SAHOO框架设了三道防线,第一道就是目标漂移检测,也就是GDI。它会盯着四个方面:语义、词汇、结构和分布。比如它会看你AI回答的意思有没有变,用的词有没有变,格式有没有乱,整体行为有没有不正常。要是这些东西加起来超过0.44分,系统就会响警报,让研究人员赶紧看看。 第二道防线是给AI设规矩的机制。比如让它写代码的时候,必须得语法正确,不能用不让用的库。这就让AI在创新和守规矩之间找到平衡。第三道防线是防止退步的。它会回头看看AI以前的表现,给下一次改进估个风险,别让它回到以前的差状态去。 这次测试发现,在写代码和数学推理这两块儿,SAHOO用得挺灵,AI能力明显变强了,也没违规。但在真实性这块儿,AI的改进就差了点意思,还会编造事实和太自信。这就提醒咱们在处理复杂问题的时候要小心点。 这个SAHOO的研究结果给咱们提了个醒:AI要更聪明,还得保证安全。以后AI助手不仅要聪明,还得可信可靠。这也让大家开始琢磨怎么给更复杂的伦理规矩设计检测机制,还有怎么在多个人工智能一块干活的时候用好这些安全原则。未来技术要是再进步点,SAHOO可能就是AI发展路上的一个重要里程碑啦!