视频生成之人人都是动画师模型图像

导语|随着生图技术发展的如火如荼,生图模型的百花齐放,从图片到视频的需求越发强烈,本文将介绍视频生成相关技术如AnimateDiff,以及从文生成视频、图生视频、视频生成视频等多个角度来介绍此方面方案,抛砖引玉,大家共同进步

本文作者:venuszhang,腾讯运营开发工程师

一、视频生成方案

从图到视频多了时间上的连续性,最容易想到的方法就是把时间建模合并到生图的模型中,在基于视频数据做调参,即像训练文生图模型一样,训练视频数据,这样的方法一般代价比较大(资源和时间上),比如下面:

1. Structure and Content-Guided Video Synthesis with Diffusion Models

在架构上引入时间层及在视频和图像数据上【大规模无字幕视频数据集和配对的文本-图像数据】联合训练,将潜扩散模型到视频生成。

视频编辑是在推理阶段,根据实例图像或者文本指导下修改视频,经过训练的模型可进一步定制,微调一组图像来生成特定主体的更准确的视频。

2. Text2Live

是将给定输入图像或者视频和目标文本提示,然后编辑现有物体的外观或者增强场景具有语义意义的视觉效果。

举个例子,给已有图片/视频中主角穿衣服、戴帽子这样的操作。即生成一个编辑层,它在原始输入上进行合成。

3. Video Diffusion Models

是标准图像扩散架构的自然扩展,从图像和视频中联合训练,可用于空间和时间视频扩展的条件采样技术,可用于无条件视频生成、条件视频生成和文本条件视频生成的视频扩散模型

4. MagicVideo

基于潜扩散模型的有效文本到视频生成框架,可生成给定文本描述一致的平滑视频片段。设计点:1是逐帧轻量级adaptor,来用于图像到视频分布调整,2是有向时间注意力模块,捕获跨帧的时间依赖性。

一些动画生成效果展示:tune-a-video ,text2video-zero

5. Drag Your GAN

允许用户”拖动“任何GAN生成的图像中的任何点,指定目标点,即可让图像按照指定轨迹动起来。达到精确控制像素位置来变形图像,从而操纵姿势、形状、标签或者布局,此文引入新的点追踪方法。

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

更新网络中全部参数,需要更多的资源,也会损失模型原有领域知识,在T2I模型中Dreambooth基于基模重新训练整个模型,而像Lora或者Controlnet这种我们比较熟知的文生图微调方法,其实在视频这种需要更多资源【计算密集型】的情况下,可能更加适用。比如下面:

1. Align-Your-Latents

在图像上预训练LDM,通过为潜空间扩散模型引入时间维度和对编码的图像序列(即视频)进行微调,将图像生成器转换为视频生成器。

此方法只需要训练时间对齐层【较小的带标题的视频训练集】,然后将训练好的时间层【时间层学会以时间一致的方法对齐图像】迁移到不同微调的文生图模型,最后完成高分辨率、长期一致的视频生成。此方法测试了512x1024真实驾驶场景视频,然后合成了几分钟长度的视频。

2. AnimateDiff

通过添加时间感知结构和从大规模视频数据集中学习合理的运动先验来扩展原有的文生图模型;所以AnimateDiff训练了通用的运动建模模块,在推理阶段应用【保持原有模型的参数】。

这种方法的话,只要不断优化运动建模模块(原文使用vanilla temporal transformer,可捕获跨时间轴同一位置的特征之间的时间以及关系)和扩充运动轨迹,那就可以获得越来越多可得即可用的,将图片动画化的模型【也说明了目前模型的局限性,不过是可迭代性的很好的思路】。下面的部分介绍,均是基于AnimateDiff的。

二、实验环境前提

接下来实际操作环境使用的是Stable Diffusion WebUI(以下简称WebUI)和ComfyUI两种服务。

2. 对于ComfyUI一键复现效果,基于在线编码ComfyUI服务,只需要load(加载)对应json文件,然后选择对应的模型,调整参数(可选),然后点击Queue Prompt即提交了一次生成任务,等待结果生成即可复现效果~

三、文生视频3.1. 简单Prompt+AnimateDiff动态模块1. WebUI 上效果:

输入Prompt,enable AnimateDiff,点击生成,下面是此结果的LightDiffusionFlow文件 :

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

2. ComFyUI效果:

操作指引:打开ComfyUI服务,只需要load(加载)此Workflow json 文件,然后选择对应的模型,调整参数(可选),然后点击Queue Prompt即提交了一次生成任务,即可以直接复现;

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

3.2. 增加Motion LoRA

增加Motion Lora文件,可以产生camera movement(类似视频编辑软件里面常见的入场/出场动画那种),这里选了<lora:v2_lora_PanLeft:0.75>,会产生一种背景往右移的感觉(对应相机往左平移),调整lora比重,可以优化背景效果。

下面是此视频结果的LightDiffusionFlow文件 :

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

3.3. 增加Prompt travel

最上面这段Prompt被叫做Promptprefix,最后一行的Prompt叫做prompt suffix;他们被添加到Prompt的开头和结尾(你不用重复写,一个怎样的女孩,刚开始干嘛,后面怎么转换,最后怎么ending),然后中间1和8代表第1帧和第8帧,刚开始smile,后面arm over head

1. 对于WebUI来说已经直接集成了Prompt travel功能可以直接用,更多可通过链接了解:animatediff-cli-prompt-travel

可以直接复现效果的LightDiffusionFlow文件。

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

2. 对应ComfyUI来说,在下面video2video也会有一个对应利用Prompt travel的案例可直接复现,更多了解可通过ComfyUI_FizzNodes

四、图生视频4.1. WebUI方案

图生视频的方案一:你指定视频中最初和最终的图片(可以生成某个角色不同动作下的图片,当做开始和结尾图片,也可以从其他地方下载的图片),然后用img2img的页面,直接可生成,同时你还可以利用前面Motion Lora来增加运动。

这里需要多调节才可以生成比较好的效果,从下面截图可以看出其过程,可以直接复现效果的LightDiffusionFlow文件

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

方案二:基于Depth深度插件:stable-diffusion-webui-depthmap-

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

方案三:SadTalker ,基于图像生成视频并带配音的

下面是生成效果演示(记得戴上耳机~):

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

4.2. ComfyUI方案

可以一键复现的Workflow:img2video

重播分享赞

关闭

观看更多

更多

正在加载

正在加载

退出全屏

视频加载失败,请刷新页面再试

刷新

视频详情

五、视频生成视频5.1. Controlnet方案1. WebUI使用

对比之前基于ControlNet-M2M生成的视频生成:【随机闪烁比较严重,需要在Prompt上做比较精细的限制来改善这种结果】

2. ComfyUI使用

1. 通过骨骼图生成视频,可以直接复现的Workflow:girl_dance_workflow

2. 通过视频直接生成视频,可以直接复现的Workflow:girl_dance_workflow

六、如何快速制作动画短片?

目前关于AI视频制作方法越发成熟,也有越来越多的人在做尝试,前段时间比较火的《遥远地球之歌 》是北大AI学者陈刘芳1个人在20小时内完成。

其流程包括剧本构想、分镜场景、图片生成、动态视频片段生成、配音与BGM合成、剪辑和后期,通过Runway Gen-2生成视频、Midjourney生成图片来完成整个过程。

对于动画师来说,AI工具可以更好的协助其工作,对于小白来说,有了可以尝试的机会,赶紧来尝试制作你自己的动画吧~~

THE END
0.多张图片生成视频模型技术深度解析1. 技术原理和工作机制 多张图片生成视频模型是一种先进的AI技术,能够接收多张输入图像,理解场景变化关系,并合成具有时间连续性的视频内容。与传统的单图生视频模型相比,多图生视频模型能够更好地保留空间关系、处理多主体交互,并实现更复杂的场景转换。 jvzquC41dnuh0lxfp0tfv8|cp7;678ftvkimg8igvcomu86735=26:<
1.Ai视频结合度加的新玩法,生成视频小白轻松日入300+资源共享的时代,不要再单打独斗! (备注:素材入群)一起技术学习,资源分享 61.5W+人已阅读加盟知识付费,实测试一天1000到5000+真实靠谱+长期项目(可搭建同款)TOP1 AI合成视频+声音复刻+对口型软件,支持多语种声音高度还原,准备一段要克隆复刻的声音素材,即可合成想要的效果 5个月前61.2W+人已阅读TOP2 放飞直播助jvzquC41yy}/|ƒpkfg4dqv49677577mvon
2.百度发布黑科技AI短视频全自动合成平台可一键合成视频近日,依托强大人工智能技术和海量数据资源优势,百度研究院孵化出业界首个支撑通用型、大规模生产的智能视频合成平台VidPress,用户仅需一键输入新闻图文内容链接,其余全部工作则交由平台自动化完成,视频素材智能化聚合、解说词生成、语音合成、音视频对齐和渲染导出整套制作流程在9分钟以内能够高效实施,生产效率和质量得到大幅jvzquC41yy}/ezhd0eun1nukqt0cr44246.2=2421846;968avd0qyon
3.AI视频换脸技术滥用调查:名人“画皮”、换脸恶搞随着AI技术发展,视频换脸技术门槛降低,普通人也能制作换脸视频。记者调查发现,这项技术被用于恶搞视频、色情视频合成上,其不良效应也引发了社会的关注和担忧:放任自流,任其“异化”,可能成为侵害他人合法权益和危害社会公共安全的工具。 “你要的样子我都有”,AI“画皮”只需2.5元 jvzquC41pg}t0lhvx0ipo8r1c1oofn}0ujznnHnf?CXUKQFVDIQij|KxxwIwU]=sy3?17:9
4.谁是视频之王,国内外AI视频生成模型大对比从2024年开始,AI圈最热门目前,在AI视频生成领域的主流技术路线主要有5个。 1.生成对抗网络(GAN) 早期视频生成多采用GAN架构,算是继承了图像生成的思路:一个生成器不断尝试合成逼真帧,一个判别器则力求区分真实与合成,两者博弈推动整体质量提升。然而,标准GAN在长序列生成中普遍面临帧间运动不连贯和图像抖动等问题。为此,视频生成模型MoCoGANjvzquC41zwkrk~3eqo526A>43884388566962=;