在那个广州的街头,李子柒仿佛一脚踏进了桃花源,平静的稻田和远山让粉丝们惊呼不已。不过与此同时,同样输入"Facebook"的文字,系统却呈现出一只独眼和半截耳朵,在低饱和度的蓝幕中若隐若现,这种自带惊悚滤镜的画面让人脊背发凉。就在这个时候,TikTok把文字变画的功能搬到了发布页面,让用户能在5秒内看到属于自己的视频背景。这种方便操作的方式和算法层面的抽象画风结合在一起,节省了巨大的算力。虽然Dall-E和Google Imagen也能做类似的事情,但前者只提供积分兑换服务,后者甚至还在测试阶段无法实时输入文字。因为采用了抽象路线的做法,用户的理解成本大大降低,所以这款特效很快就在日活上亿的应用中落地了。有人把"苹果"和"中国"这两个词丢进系统,结果一边是成熟的红富士,另一边是青砖灰瓦的建筑。但当系统试图画出苹果公司的logo时,它却给出了厨房食材乱炖般的画面,这说明品牌关键词的精准度依然很重要。像Switch这样的关键词会让画面自带塞尔达林克风,而提到"广州"则会立刻浮现出小蛮腰与霓虹色彩的符号。为了防范Deepfake那样的风险,TikTok使用了审核前置的双重保险来锁定暴力或裸露的场景。现在市面上的OCR技术早就可以把图片里的文字一字不落地读出来了,可把文字翻译成画却成了一道AI圈里的难题。由于这次技术突破被放在了人人可触的发布页上,"文字变画"才真正变成了指尖操作。 要是这事儿放在Facebook平台上呢?那种独眼和半截耳朵的诡异画面肯定会引起轩然大波。幸好这次AI绿幕把关键词直接画成了蓝天、霓虹或者人脸建筑等元素,运气好的话背景与内容还能碰撞出惊喜。即便如此,像"阿里巴巴"、"腾讯"和"字节跳动"这些名字扔进去后产生的画面既像又不像,抽象到让人怀疑人生。为了防止暴力场景的出现,Dall-E在算法层面屏蔽了仇恨和成人等关键词,并用自动化与人工巡查把系统给锁住了。 假如我们今天在聊天群里说"我要测试下AI画画",把"李子柒"、"温格"还有"马云"这几个名字发进去会发生什么呢?李子柒的名字会让系统画出治愈系的稻田与远山;温格的照片被解构成了赛场剪影;而马云的画像延续了窥视主题;至于连续生成四张马斯克的形象却彻底翻车了。既然这样的功能这么快就出现了又是为什么呢?因为走抽象路线能省下大量的算力。 现在大家都知道了谷歌的Imagen AI也能生成图像了吗?其实它只在官网放出了预设模板,根本无法实时输入一句话就出图;反观TikTok把这个按钮放在了发布页上。这时候问题就来了:像这种实时生成的能力到底能不能广泛落地?答案似乎并不乐观。就连财大气粗的谷歌也只在官网上放了模板而已。所以说到底技术进步还是需要时间来验证的啊!