人工智能快速出图!盘点款大厂出品的绘画神器优设网

大家好,我是和你们聊设计的花生~

在 6 月份的时候我写了一篇有关 AI 图像工具的文章,为大家盘点了当时热门的 4 款人工智能图像生成工具,分别是 Disco Difussion、Dall·E 2、Midjounery 和 Tiamat。自今年年初 Disco Difussion 出现后,AI 图像工具越来越受到大家的关注,各类具有强大图像处理功能的 AI 工具纷纷暂露头角。特别是 OpenAI 在今年 4 月份公布的最新技术成果 Dall·E 2,在外网引起热烈讨论,很多主流媒体争相报道,也因此引起不少互联网科技巨头的关注。

在 Dall·E 2 发布后的短短两三个月内,Google、微软、Meta(Facebook)三家互联网科技公司也纷纷推出自己在 AI 图像工具方面的研究成果,其中很多新的技术都令人眼前一亮,今天就和大家简单介绍一下这些新的 AI 图像工具。

大家好,我是和你们聊设计的花生~ 有关注 AI 绘画领域的小伙伴可能注意到,国内已经出现了能直接使用中文提示词生成 AI 图像的工具了,这就进一步降低了我们进入 AI 绘画世界的门槛,对设计师和创意工作者来说无疑是好消息。

Imagen 是一款文本-图像的扩散(CLIP)模型,由 Google Research 和 Google Brain 团队研发,打出的标语是“前所未有的写实感×深层次的语言理解”,即可以根据给定的提示词,生成高度契合文本含义及具有照片般真实感的图像。

我们之前介绍过,Dall·E 2 的功能包括根据文本生成具有图像、根据文本提示修改图像内容、根据一张图像延展出风格内容相似的多张图像。相比之下,Imagen 则更加专注于根据文本生成极具真实感的图像。

据 Imagen 官网介绍,为了比较 Imagen 与其他文本-图像模型(如 DALL-E 2)在图像生成方面的性能,Google 设立一个名为 DrawBench 的文本-图像模型评估基准。这是一个具有 200 个提示文本的列表,将这些提示文本分别输入不同的模型中输出图像,再由人类参与测评。Google 表示在此基准下,参与测试的人员普遍认为“在并排比较中,无论是在图像生成的样本质量还是在图像与文本的一致性方面,Imagen 都优于其他模型”。

Parti 是 Google 在推出 Imagen 不久后推出的另一款文本-图像生成模型。二者都是专注于通过文本生成逼真的图像,区别在于 Imagen 是扩散(CLIP)模型,而 Parti 是路径自回归文本-图像(Pathways Autoregressive Text-to-Image )生成模型,后者可实现高保真、极具真实感的图像生成。

据官网介绍,Parti 通过研究一组图像来训练自身模型来生成另一组新的图像,可供研究的图像数量越多,生成的图像就越逼真。而 Parti 则在训练过程中,将参照图像数量由 3.5 亿个提升至 200 亿个,这也使得生成图像与文本的契合度达到 75.9% 。

而且 Google 发现,在图片参照数量达到 200 亿的情况下,Parti 在生成有关抽象、世界通识知识、特定视角、书写和符号的图像时特别出色。同时也发现 Parti 可以处理长而复杂的提示,特别是这些提示涉及以下方面:

Google 还列出多组提示文本和输出图像作为例子,展示 Parti 是如何对参与者、活动、描述、地点和格式的变化做出反应的。

虽然在官网中 Google 展示了 Parti 在图像生成方面的优势,但也坦言这些展示出来的例子都是从很多实验结果中精挑细选出来的。并表示虽然 Parti 能根据宽泛的提示文本产生了高质量的输出,但其模型还是有许多限制,比如对文本数量、特征的错误呈现,以及对表示否定和不存在提示词的错误处理等

Make-A-Scene 是 Meta 在 7 月 14 日宣布推出的一项新的 AI 技术,其最大特点是可以在用户创作的粗略草图的基础上,结合文本提示生成具体的图像,让生成图像的可控性更高。

“为了充分实现人工智能促进创造性表达的目标,人们必须能够影响和控制这些智能模型产生的内容。用户应该能够以他们喜欢的任何方式来表达自己的想法,包括语音、文本、手势甚至是绘图,并且应该易于使用和直观。”这是 Meta 在 Make-A-Scene 的介绍文章提出的观点,也很好的表现了 Make-A-Scene 的意义所在。

与 Dall·E 2 和 Imagen 这种仅凭提示文本生成图像的模型相比,Make-A-Scene 创作出的图像有了更高的可控性。使用者可以通过草图控制最终图像的具体效果,包含元素数量、大小、形式、排列方式、构图、深度等各个方面。这项新技术使 Make-A-Scene 在与其他模型进行对比测试时,在图像与文本契合度方面的评价明显高于只根据文本生成的图像的模型。当然用户也可以选择不使用草图,直接通过文本生成所需的图像。

在给定的文本提示下,不同的形状草图可以生成不同的图像

在给定的草图下,不同的提示文本可以生成形式相同但风格不同的图像

为了进一步开发这种由草图生成图像的技术,Meta 邀请了几位著名艺术家进行合作,共同探索 Make-A-Scene 如何能更好地将人们的想象力变为现实;同时也让儿童参与到这个研究过程中,让 Make-A-Scene 将小朋友充满想象力的绘画的草图变为现实。

艺术家Crespo使用 Make-A-Scene ,用草图和文字提示创作新的生物插图,提示文本为:一幅夜间的有花瓣外形的外星水母的画。Crespo认为这种创作方式“这将有助于更快地发挥创造力,并帮助艺术家使用更直观的界面工作”

Meta 认为通过 Make-A-Scene 这类的 AI 项目,无论原本的艺术能力如何,人们都将能无限拓展创意表达的边界,而且无论是在现实世界和虚拟世界中,人们都能将自己的愿景变为现实。熟悉 Meta 的朋友可能知道其在元宇宙方便的布局,而人工智能图像工具的发展让人们通过语言或其他方式构建虚拟空间成为可能,这对 Meta 进军元宇宙的布局也有重要意义。

大家好,我是和你们聊设计的花生~ 有关注「神器挖掘机」阿文(微博 @Simon_阿文 )的朋友,可能已经了解到他最近正在疯狂安利一款 AI 绘画神器——Disco Diffusion。

初看到 NUWA 这个单词你会想到什么?没错,就是我们熟知的中国神话人物“女娲”。

NUWA-Infinity 是微软亚洲研究院联合北京大学、微软 Azure AI 一起推出的一款无限视觉合成的生成模型,能根据给定的文本生成任意大小的高分辨率图像或长时间视频,也是目前唯一一个能从文本生成的图像中生成长视频的 AI 模型。

NUWA-Infinity官网展示的根据《清明上河图》生成的新图像,新图像大小达到了惊人的 38912*2048 px。

之所以说是任意大小的高分辨,是因为前文提到的 Imagen 和 Parti 目前能生成图片大小为 1024*1024px,Meta 在其官方文章中表示 Make-A-Scene 的图像分辨率能达到 2048*2048px,而 NUWA-Infinity 则是真正任意大小的“ Infinity”。

在官网上,NUWA-Infinity 展示了其根据《清明上河图》生成的新图像,新图像的大小达到了惊人的 38912*2048 px。为了更好地适应页面,官方将完整的图像分割为 6 个部分,每个部分的分辨率为有 6485* 2048 px。NUWA-Infinity 还将 Windows 系统经典的草原壁纸延展为超宽的新图像,点开图片静静播放,你能体验到一种坐着绿皮火车穿过草原山川的感觉。

受动图大小限制是截取了一小段,强烈建议大家到官网感受一下

功能一:图像外延(IMAGE OUTPAINTING)

NUWA-Infinity 能根据给定的图像,通过学习、想象和生成新内容,将其扩展为任意大小和分辨率的图像。图像具有超大尺寸、自我创作能力、局部细节与全局一致这 3 点特征,且这种图像拓展不限方向。

NUWA-Infinity对图像进行不同方向拓展的演示,包括向左、向右、向下、向上以及向同时向四周拓展

功能二:图像转视频( IMAGE TO VIDEO)

NUWA-Infinity 可以将图像转化为视频,给静态图片带来显目的生动性。

左图为原始静态图片,右图为NUWA-Infinity根据静态图像生成的动态图像

功能三:文本转图像 (TEXT TO IMAGE)

只需简单的单词和句子,NUWA-Infinity 就可以生成各种令人叹为观止的高分辨率图像。

NUWA-Infinity根据文本提示生成的各种高清图像

除了以上 3 项主要功能,NUWA-Infinity 还在其论文中提到可以通过图像绘制和从自然语言描述中创建卡通动画,并希望这种技术能够帮助视觉内容创作者节省时间、降低成本,并提高他们的生产力和创造力。

本篇一共为大家介绍了 4 款由互联网科技巨头推出的最新 AI 图像工具,它们分别是:

相比 Dall·E 2,这 4 款 AI 图像工具在技术上都有不同程度的创新,虽然由于模型训练数据中存在社会偏见、害怕害怕产生有害的图像、会被公众滥用等各种原因,这些工具还不能对公众开放,但相信等未来技术更加成熟后,这些 AI 工具会给我们的工作和生活带来颠覆性的改变。

优设 推荐官

2012年成立至今,是国内极具人气的设计师交流学习平台

优设是国内专业设计师平台,2012年创办至今,作为行业风向标,我们13年来专注于设计师创作者的学习成长交流。 通过优设网、优优教程网、优创网分别沉淀优质内容。是一家集齐媒体、内容、服务的多元化平台。MCN矩阵@优设AIGC 在微博、微信、小红书、抖音、B站布局,全网粉丝过千万。

THE END
0.AI图像生成到视频转换:哪种模型最准确?imagetovideoai图像到视频(Image-to-Video, I2V)生成是AI视觉领域的一项重要进展,能够将静态图像转换为动态视频。然而,精确渲染人手和文本一直是这一领域的技术瓶颈。由于人手的复杂解剖结构和文本的精确排列要求,许多早期模型在处理这些元素时都会出现失真、畸变或无法正确呈现清晰文本。 jvzquC41dnuh0lxfp0tfv87723e:3;9:35>0c{ykenk0fnyckny03=;567<93
1.ImagetovideoAIAIMotionGeneratorImagetoAdvanced AI Motion Generation Our cutting-edge Image to video AI technology analyzes your images and generates natural, realistic movements that respect physics and maintain visual consistency throughout the video. Multiple Export Formats Export your generated videos in various resolutions and formats inclujvzquC41koghg6yq/xoegx2ck0vsq8
2.ImagetoVideoAIGeneratorTransform images to video with our AI image to video generator. Convert image to video online instantly using advanced AI video generator from images technology. Free trial available.jvzquC41koghg}txkfkp0rt1
3.ImagetoImage-to-Video Maker是一款多功能 AI 视频生成平台,支持将文本、图片或短视频片段快速转换为带特效、模板和高分辨率的动态视频。它集成了多款顶级视频生成模型(如 Veo 3、Kling 2.1、Hailuo 02、Seedance 1.0、Wan 2.2),覆盖从创意构思到成片输出的全流程,适合短视频创作、广告营销、数字人制作、影视特效等多种jvzquC41jd€hp7hqo1gseqnxgu572;80jvsm
4.ImageToVideoAI国外精选视频视频生成视频制作打开网站 ImageToVideo AI 是一款强大的在线工具,能够将静态图片转换为动态视频。它利用先进的人工智能技术,根据用户输入的文本描述和图像,生成高质量的视频内容。该工具的主要优点包括简单易用、支持多种图像格式、无需编辑技能即可生成视频,并且提供无水印的视频输出。它适合个人用户、内容创jvzquC41yy}/crgcug4dqv4|j1zpqu4582=5
5.ImageToVideoAI应用指南 ZH Image To Video 使用AI技术将静态图片转换成动态视频。 普通产品视频视频生成动画打开网站 Image To Video是一个利用人工智能技术将用户的静态图片转换成动态视频的平台。该产品通过AI技术实现图片动画化,使得内容创作者能够轻松制作出具有自然动作和过渡的视频内容。产品的主要优点包括快速处理、每日免费jvzquC41yy}/crgcug4dqv4|j1zpqu457583
6.深入探索视频生成:使用StableVideoDiffusionImageto在当今数字化时代,视频内容的需求日益增长。从社交媒体到影视制作,高质量的视频内容至关重要。本文将详细介绍如何使用 Stable Video Diffusion Image-to-Video 模型(简称 SVD Image-to-Video)来生成视频内容,这是一种创新的图像到视频生成方法,由 StabilityAI开发。 jvzquC41dnuh0lxfp0tfv8lkvdrpih54:4?0c{ykenk0fnyckny03=9565>47
7.制作AI视频的常见方法AI生成视频的质量依赖于输入提示词的精确性。尝试使用更详细的描述,例如场景、光线、动作细节,或提供参考图像以提高输出匹配度。部分工具允许通过参数调整(如帧率、风格强度)控制生成效果。 具体工具推荐 Runway ML 支持文本到视频(Text-to-Video)和图像动画化(Image-to-Video)。提供Gen-2模型生成动态内容,适合创意短片jvzquC41dnuh0lxfp0tfv8xjwp€igwFK1cxuklqg1fkucrqu13;57<;963
8.‎AuraAIText&ImagetoVideoAppto-image creation with advanced AI - Portrait and landscape video formats - Easy-to-use interface with intuitive controls - Save and share your creations directly to social media PERFECT FOR: - Content creators seeking unique video assets - Social media enthusiasts wanting to stand out - ArtistsjvzquC41crvt0jurng4dqv4ui1gqr8fwtc3bk6nocik.insgtczpt8nf38<63A7329Em?ƒm
9.‎AIVideoGeneratorChatAppMeet AI Video Generator and Image Generator – the ultimate mobile app that uses the power of AI to revolutionize your video and image creation, allowing you to generate videos from both text (AI text-to-video) and images (AI image-to-video). It also offers AI-driven image generation andjvzquC41crvt0jurng4dqv4m|1gqr8xvgxk.cr2ejcz.c|xkuvgov8nf86:8;B5995
10.AIImageXAI IMAGEX - VIDEO CREATOR & AI PHOTO ENHANCER Turn ordinary photos into stunning AI videos, animations and enhanced images in seconds! #1 All-in-one AI photo editor and video maker. DYNAMIC PHOTOS - Animate stiljvzquC41crvt0jurng4dqv4ck1gqr8fk/ksbin}/ck3wkmjq/ikog{fvqt5jf?;649664:6
11.ImagineArt:AIVideoGeneratorontheAppStoreImagineArt : AI Image & Video Generator Turn your photos into stunning AI videos, portraits, or creative edits with Imagine, your personal AI video and image a…jvzquC41crvt0jurng4dqv4wu1gqr8fk/cxu/pjpgtguq{2kocmjpn4kf3<76:7363?@nFj/Jgou6HP
12.FreepikAIImageGeneratorCreate AI images from any text prompt with our all-in-one image generator. Choose from multiple generation models and styles. Try now!jvzquC41yy}/h{jgrkq/exr1ck5jojlg/ikog{fvqt
13.AIGCAnimateAnyone阿里的图像到视频角色合成的框架论文解读Animate Anyone: Consistent and ControllableImage-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的目标是将静态图像转换成逼真的视频,这在在线零售、娱乐视频、艺术创作和虚拟角色等领域有广泛应用。 jvzquC41dnuh0lxfp0tfv8mylqqds8ftvkimg8igvcomu865;:?68<>
14.文生图图生视频文生视频语音生成虚拟人人物克隆语音克隆基本认知AI写代码python 运行 1 2 3 4 2. 图生视频(Image-to-Video) 基本原理: 从静态图像生成视频,通常需要预测图像的运动信息或利用生成对抗网络(GANs)。 工作机制: 图像编码:对输入图像进行编码,提取特征。 运动预测:预测图像中的运动信息,生成连续帧。 jvzquC41dnuh0lxfp0tfv8vsa6;12<:261gsvrhng1jfvjnnu17529=784<
15.如何从文本生成图像和视频?9个常用生成器一览!文本自动生成视频c#本文探讨了文本到图像和文本到视频的AI生成技术,介绍了前沿的AI生成器如DALL-E2、CogView2和Imagen,阐述了它们的工作原理、挑战及应用。文章强调了数据集需求、生成的可解释性、质量和速度之间的权衡,以及未来研究方向。 AIGCer使用过部分文本生成图片和文本到视频的技术,生成的内容确实有可圈可点的地方,这些技术现在jvzquC41dnuh0lxfp0tfv8FKIEks1jwvkerf1mjvckrt1:8685<94: