只用一张照片,它居然自己唱完整首歌即梦数字人隐藏玩法曝光

9月17日, 即梦'数字人 1.5'全量上线了。

行者在即梦创作者群,提前给开内测了,看到这词更新信息两眼一亮。

更新亮点:这次数字人,增加了角色的动作模仿,也就是对比之前只能只能增加角色,现在的数字人可以让角色做出与音音频内容相关的画面动作了。

通过动作描述,你可以控制情绪、动作、走位、运镜。直白话说,数字人1.5,除了给角色配音,他还可以生成视频了。

行者之前做过一期AI音乐,受限于当时的条件,角色只能做很简单的动作。

既然即梦升级了,那重新整一个MV看看效果。

这个视频,是行者花一个晚上做的,一些细节并没有处理得很好。大家可以看下我上次做的MV,对比效果还是很明显的:

原本的视频,角色只能轻微变化,没有太丰富的表情。

现在的视频画面既可以让角色唱歌,也可以遵循动作提示:切换景别、可以走动,更加丰富的手势。

可以想象,数字人1.5必然会在AI 音乐、影视动漫、二创视频等多个场景带来新的玩法。

这篇文章,我就用我做的AI MV,做个玩法拆解。

首先,正确的打开方式是结合现在火热的「图片4.0模型」,输入一张参考图,自动生成一系列组图。

比如,行者拿了之前生成的MV 主图,来拓展场景,这是一位在录音棚录屏的小姐姐。

使用图片4.0生成分镜图:

提示词:唱歌的女生是一位歌手,她在录音棚中完整演唱一首歌,完成专辑录制,场景基调深情动人,镜头切换次数10次

操作很简单,上传参考图,输入上面指令,点击发送就可以。

细心的朋友有没有发现,即梦4 已经可以支持生成4K超清图片了。

生成好图片后,分别把图片保存到电脑中备用。行者是找了8个分镜图。

进入即梦官网,在生成页面,下拉就能看到「数字人」,打开后就能看到新增了「动作描述」。

操作要点:

1.左侧上传角色的图片

2.上传音频:这里面有2种模式,可以选择音色,输入文案。或者上传音频,行者是自己做好音乐了。

上传音频的示意图:

选择音色和输入文字的示意图:

3.动作描述:我们输入图生视频描述词就好了,一般是景别,运镜说明,人物动作描述

4.模式:1.5有3种模式,大师模式和快速模式,基础模式。大师模式耗积分

指定说话角色:如果上传的图片中有多角色,可以在「角色说」处,点击切换要说话的角色。

大家可以来看下生成的视频效果:

MV的第一个分镜:

数字人说话的视频:

备注:有人在视频评论区问,即梦怎么能生成超过15秒的数字人,是这样的,我用即梦4图片模型生成的是8张图,我把我的音乐拆成了几段了。

因为图是直接即梦4.0生成的,做好视频后我发现有个别分镜的人脸一致性有点问题,为细调图片,踩了一个小坑。

用大师模式的人物表情生动自然,效果更好,但是缺点是积分消耗高。

做视频,群里面问的最多的就是怎么写生视频提示词,写提示词需要你对镜头,人物动作,怎么转换的有感觉。

这里行者提供一个简单的图生视频提示词给大家,大家放到豆包AI中:

以这张图片为首镜头,生成一个5秒钟的视频分镜脚本,提供动效提示词,提示词结构:包括景别,视角,运镜,画面内容,人物表情,用词精练不能起过200字。最后再把生成的分镜提示词提炼成一段文字

对了,歌词和音乐,我是用 DeepSeek生成歌词,然后生成音乐的。

打开Deepseek,打开推理模型,把下面的歌词丢给AI:

帮我写一首的情歌,类似《错位时空》,描绘了男女主角之间深刻的暗恋情感,深情又富有感染力,年轻人喜欢的歌曲

《追寻你的温柔》

咖啡馆里 灯光下的倒影,

是我对着咖啡杯底 心事的沉积,

杯口一圈-一圈 是你的指纹,

将我环绕 我却触摸不到你,

.....

歌词满意的话,就到AI音乐,如Suno中去生成音乐,这篇主要是讲数字人的,所以就不介绍那么细了。

最后一步就是把生成的数字人音乐片段导入到剪映中,进行后期处理。

先把片段顺序调整好,使用智能字幕,识别出歌词。。

就这样,一个生动的AI音乐就完成了,看完是不是觉得很神奇,利用AI技术,像行者这样的理科男,也能创作出精美的AI 音乐。

小伙伴们,快来玩起来。

这是一个最好的时代,AI 工具在不断的进化,普通人学习 AI 的门槛被拉的很低,通过简单的学习,就能创作出精美的视频。

但是,这对创作力的要求也更高了,AI 视频比拼的创意、在美学、在场景和故事化。

THE END
0.五分钟生成漫威3D数字人!美队蜘蛛侠小丑都能搞定,高清还原面部该框架为解决复杂的3D生成任务提供了有效解决方案,有望推动更多类似的研究和技术发展。 此外,基于物理的材质扩散生成和动画能力生成将推动 3D生成技术在影视制作、游戏开发和其他相关行业的应用。 以上就是五分钟生成漫威3D数字人!美队蜘蛛侠小丑都能搞定,高清还原面部细节的详细内容,更多请关注php中文网其它相关文章!jvzquC41yy}/rqu0ep5gcz4753=:37mvon
1.DreamFace:一句话生成3D数字人?人工智能在科技迅速发展的今天,生成式人工智能和计算机图形学领域的研究日益引人注目,影视制作、游戏开发等行业正面临着巨大的挑战和机遇。本文将为您介绍一项 3D 生成领域的研究 ——DreamFace,它是首个支持 Production-Ready 3D 资产生成的文本指导渐进式 3D 生成框架,能够实现文本生成可驱动的 3D 超写实数字人。 jvzquC41yy}/rqu0ep5gcz4763<977mvon
2.逻辑:人人都可以使用的定制数字人照片生成数字人​ ​ ​ 文本驱动:通过DeepSeek-V3生成爆款文案,再调用豆包AI/Tacotron2转为语音; ​ ​ ​ 语音克隆:上传3分钟录音,用FishSpeech的FakeWAV技术生成个性化音色。 ​3.2 音画时长对齐:让数字人“说话不卡壳”​ ​静态图片处理 使用FFmpeg生成循环背景视频(示例命令) jvzquC41dnuh0lxfp0tfv8vsa6:69=8551gsvrhng1jfvjnnu1758<9975<