2025-08-17 09:30来源:本站
CNN新闻,约翰·托菲利报道
(CNN)谷歌最新的人工智能工具“Whisk”可以让人们上传照片,得到一个人工智能生成的综合图像,甚至不需要用户输入任何文字来解释他们想要什么。
用户可以输入描述主题、设置和风格的图像,然后Whisk将所有内容合并到一张图像中。
谷歌在一篇博客文章中说,Whisk是一款快速激发灵感的“创意工具”,而不是“传统的图像编辑器”。从本质上讲,Whisk是一个有趣的AI功能,而不是一个被认为是专业工作的东西。
b谷歌和OpenAI等大型科技公司正在竞相发布能够展示这项时尚新技术用途的消费产品,尽管反对者警告称,人工智能发展缺乏护栏会给人类带来危险。
自OpenAI于2021年首次推出其文本到图像的创作工具Dall-E以来,人工智能生成艺术品的概念已经淹没了社交媒体,成为消费产品的焦点。b谷歌的Whisk是一个图像到图像生成器,基于流行的文本到图像生成器概念。
使用Whisk的用户可以通过编辑输入和混合类别来“重新混合”最终图像,从而产生不同的图像,如毛绒玩具、珐琅别针或贴纸。用户可以添加文本,如果他们想直接的某些细节,但它不是必须创建一个图像。
谷歌Labs的产品管理总监托马斯·伊里奇(Thomas Iljic)在一份声明中说:“Whisk的设计目的是让用户以新的、有创意的方式重新混合主题、场景和风格,提供快速的视觉探索,而不是像素完美的编辑。”
谷歌于2014年收购了人工智能实验室DeepMind,谷歌的Whisk是基于该实验室开发的生成式人工智能。
Whisk的工作原理是使用b谷歌的核心人工智能产品Gemini(于2023年12月推出),并将其与DeepMind去年12月发布的最新文本到图像生成器Imagen 3配对。
当用户上传他们的图片时,Gemini会生成一个标题,并将其输入imagen3。这个过程捕捉了主题的“本质”,而不是精确的复制品,这允许重新混合最终图像,但也意味着最终产品可能会偏离提示。
谷歌在一篇博客文章中说,例如,生成的图像可能与提示图像有不同的身高、发型或肤色。
今年2月,当谷歌首次推出Gemini的文本到图像创建者时,该公司最初遭到了强烈反对,因为该工具产生的图像在历史上是不准确的。
该公司表示,Whisk首先在谷歌实验室以网站的形式提供给美国用户,目前还处于早期开发阶段。
OpenAI最近还发布了一款名为Sora的文本转视频生成器,突显了消费产品领域的竞争。
韦德布什证券的董事总经理兼高级股票分析师丹·艾夫斯告诉CNN, Whisk是bb100在人工智能和科技竞赛中的又一个“展示肌肉的时刻”。
艾夫斯表示:“DeepMind是谷歌的一项关键资产。”他指出,人工智能产品是谷歌2025年新产品“宝箱”的一部分,其中还包括与三星(Samsung)和高通(Qualcomm)合作开发的新的安卓(Android)操作系统。
The-CNN-Wire?&?2024有线新闻网,Inc.,华纳兄弟发现公司。版权所有。