Krisp Technologies Inc.发布了一项全新技术,让听者能在本地设备上实时调整听到的语音。这家总部位于加州伯克利的公司聚焦在降噪和转录上,这次的产品能在通话中帮人理解各种口音。它不用改变说话者的原音,只在听者这一侧进行处理。跟以前那些修改说话者声音的工具不同,这个系统不会让别人听到异样的声音。它的好处在于能在本地跑起来,处理音频的延迟非常短,只有不到200毫秒,对人来说根本感觉不到。这次发布的这个新功能改变了以往的模式,把修改的权限完全给了个人听者,而不是直接影响到说话者对所有人的声音表现。该公司宣称,口音问题会影响到AI的识别能力,也会让人在开会或者打电话时心里更累。他们提到随着语音变成主要的沟通方式,理解能力已经成了系统级的要求。这个系统在音素级别处理音频,不需要去转录或者做后处理,也不保存原始数据。所有计算都在自己的电脑或者Windows PC上完成,不用依赖云端。Krisp的联合创始人兼总裁Arto Minasyan是亚美尼亚人,他很清楚口音对生产力的危害。他曾亲身体验过在电话里重复自己的话有多难受,或者看到别人因为口音而分心。该功能已经通过Krisp的会议语音AI应用在苹果电脑和Windows系统上正式提供服务了。它也正在和公司的呼叫中心AI平台进行整合,并且会通过SDK公开给开发者使用。有不少人批评口音修改技术会让人被迫去迎合标准或者失去身份认同。Krisp说他们的系统不会打分排名,也不会强行规定一种标准。他们的模型是在多种英语口音上训练的,特别是在印度、菲律宾、拉丁美洲、非洲还有中文普通话方面表现特别好。Krisp成立于2017年,到现在他们的软件已经装在超过2亿台设备上了,每个月处理的语音对话时长超过800亿分钟。关于生产力损失的问题,2022年有研究显示沟通不好的话每个员工每周会损失超过7小时的时间。这个技术现在已经正式在苹果和Windows系统上提供给用户用了,开发者也可以用SDK把它嵌到自己的应用里。