9月17日, 即梦'数字人 1.5'全量上线了。
行者在即梦创作者群,提前给开内测了,看到这词更新信息两眼一亮。
更新亮点:这次数字人,增加了角色的动作模仿,也就是对比之前只能只能增加角色,现在的数字人可以让角色做出与音音频内容相关的画面动作了。
通过动作描述,你可以控制情绪、动作、走位、运镜。直白话说,数字人1.5,除了给角色配音,他还可以生成视频了。
行者之前做过一期AI音乐,受限于当时的条件,角色只能做很简单的动作。
既然即梦升级了,那重新整一个MV看看效果。
这个视频,是行者花一个晚上做的,一些细节并没有处理得很好。大家可以看下我上次做的MV,对比效果还是很明显的:
原本的视频,角色只能轻微变化,没有太丰富的表情。
现在的视频画面既可以让角色唱歌,也可以遵循动作提示:切换景别、可以走动,更加丰富的手势。
可以想象,数字人1.5必然会在AI 音乐、影视动漫、二创视频等多个场景带来新的玩法。
这篇文章,我就用我做的AI MV,做个玩法拆解。
首先,正确的打开方式是结合现在火热的「图片4.0模型」,输入一张参考图,自动生成一系列组图。
比如,行者拿了之前生成的MV 主图,来拓展场景,这是一位在录音棚录屏的小姐姐。
使用图片4.0生成分镜图:
提示词:唱歌的女生是一位歌手,她在录音棚中完整演唱一首歌,完成专辑录制,场景基调深情动人,镜头切换次数10次
操作很简单,上传参考图,输入上面指令,点击发送就可以。
细心的朋友有没有发现,即梦4 已经可以支持生成4K超清图片了。
生成好图片后,分别把图片保存到电脑中备用。行者是找了8个分镜图。
进入即梦官网,在生成页面,下拉就能看到「数字人」,打开后就能看到新增了「动作描述」。
操作要点:
1.左侧上传角色的图片
2.上传音频:这里面有2种模式,可以选择音色,输入文案。或者上传音频,行者是自己做好音乐了。
上传音频的示意图:
选择音色和输入文字的示意图:
3.动作描述:我们输入图生视频描述词就好了,一般是景别,运镜说明,人物动作描述
4.模式:1.5有3种模式,大师模式和快速模式,基础模式。大师模式耗积分
指定说话角色:如果上传的图片中有多角色,可以在「角色说」处,点击切换要说话的角色。
大家可以来看下生成的视频效果:
MV的第一个分镜:
数字人说话的视频:
备注:有人在视频评论区问,即梦怎么能生成超过15秒的数字人,是这样的,我用即梦4图片模型生成的是8张图,我把我的音乐拆成了几段了。
因为图是直接即梦4.0生成的,做好视频后我发现有个别分镜的人脸一致性有点问题,为细调图片,踩了一个小坑。
用大师模式的人物表情生动自然,效果更好,但是缺点是积分消耗高。
做视频,群里面问的最多的就是怎么写生视频提示词,写提示词需要你对镜头,人物动作,怎么转换的有感觉。
这里行者提供一个简单的图生视频提示词给大家,大家放到豆包AI中:
以这张图片为首镜头,生成一个5秒钟的视频分镜脚本,提供动效提示词,提示词结构:包括景别,视角,运镜,画面内容,人物表情,用词精练不能起过200字。最后再把生成的分镜提示词提炼成一段文字
对了,歌词和音乐,我是用 DeepSeek生成歌词,然后生成音乐的。
打开Deepseek,打开推理模型,把下面的歌词丢给AI:
帮我写一首的情歌,类似《错位时空》,描绘了男女主角之间深刻的暗恋情感,深情又富有感染力,年轻人喜欢的歌曲
《追寻你的温柔》
咖啡馆里 灯光下的倒影,
是我对着咖啡杯底 心事的沉积,
杯口一圈-一圈 是你的指纹,
将我环绕 我却触摸不到你,
.....
歌词满意的话,就到AI音乐,如Suno中去生成音乐,这篇主要是讲数字人的,所以就不介绍那么细了。
最后一步就是把生成的数字人音乐片段导入到剪映中,进行后期处理。
先把片段顺序调整好,使用智能字幕,识别出歌词。。
就这样,一个生动的AI音乐就完成了,看完是不是觉得很神奇,利用AI技术,像行者这样的理科男,也能创作出精美的AI 音乐。
小伙伴们,快来玩起来。
这是一个最好的时代,AI 工具在不断的进化,普通人学习 AI 的门槛被拉的很低,通过简单的学习,就能创作出精美的视频。
但是,这对创作力的要求也更高了,AI 视频比拼的创意、在美学、在场景和故事化。