谷歌的imagen ai也能生成图像了吗？

在那个广州的街头，李子柒仿佛一脚踏进了桃花源，平静的稻田和远山让粉丝们惊呼不已。不过与此同时，同样输入"Facebook"的文字，系统却呈现出一只独眼和半截耳朵，在低饱和度的蓝幕中若隐若现，这种自带惊悚滤镜的画面让人脊背发凉。就在这个时候，TikTok把文字变画的功能搬到了发布页面，让用户能在5秒内看到属于自己的视频背景。这种方便操作的方式和算法层面的抽象画风结合在一起，节省了巨大的算力。虽然Dall-E和Google Imagen也能做类似的事情，但前者只提供积分兑换服务，后者甚至还在测试阶段无法实时输入文字。因为采用了抽象路线的做法，用户的理解成本大大降低，所以这款特效很快就在日活上亿的应用中落地了。有人把"苹果"和"中国"这两个词丢进系统，结果一边是成熟的红富士，另一边是青砖灰瓦的建筑。但当系统试图画出苹果公司的logo时，它却给出了厨房食材乱炖般的画面，这说明品牌关键词的精准度依然很重要。像Switch这样的关键词会让画面自带塞尔达林克风，而提到"广州"则会立刻浮现出小蛮腰与霓虹色彩的符号。为了防范Deepfake那样的风险，TikTok使用了审核前置的双重保险来锁定暴力或裸露的场景。现在市面上的OCR技术早就可以把图片里的文字一字不落地读出来了，可把文字翻译成画却成了一道AI圈里的难题。由于这次技术突破被放在了人人可触的发布页上，"文字变画"才真正变成了指尖操作。要是这事儿放在Facebook平台上呢？那种独眼和半截耳朵的诡异画面肯定会引起轩然大波。幸好这次AI绿幕把关键词直接画成了蓝天、霓虹或者人脸建筑等元素，运气好的话背景与内容还能碰撞出惊喜。即便如此，像"阿里巴巴"、"腾讯"和"字节跳动"这些名字扔进去后产生的画面既像又不像，抽象到让人怀疑人生。为了防止暴力场景的出现，Dall-E在算法层面屏蔽了仇恨和成人等关键词，并用自动化与人工巡查把系统给锁住了。假如我们今天在聊天群里说"我要测试下AI画画"，把"李子柒"、"温格"还有"马云"这几个名字发进去会发生什么呢？李子柒的名字会让系统画出治愈系的稻田与远山；温格的照片被解构成了赛场剪影；而马云的画像延续了窥视主题；至于连续生成四张马斯克的形象却彻底翻车了。既然这样的功能这么快就出现了又是为什么呢？因为走抽象路线能省下大量的算力。现在大家都知道了谷歌的Imagen AI也能生成图像了吗？其实它只在官网放出了预设模板，根本无法实时输入一句话就出图；反观TikTok把这个按钮放在了发布页上。这时候问题就来了：像这种实时生成的能力到底能不能广泛落地？答案似乎并不乐观。就连财大气粗的谷歌也只在官网上放了模板而已。所以说到底技术进步还是需要时间来验证的啊！