我用字节最强的数字人,让《银魂》主角出演了赵本山的经典小品卖拐埃隆马斯克数字人范伟赵本山银魂动画

如果让《银魂》主角演绎春晚经典小品《卖拐》,会是怎么样的?

下面就请欣赏,《银魂》「从未公开」的一集:《如果你觉得自己的脸越来越大了,那么没事就请多走两步》。

效果有些粗糙,但你应该会留意到,人物不仅对上了口型,表情和身体也会随之运动起来,看起来是比较协调的。

我们用到的工具是, 字节的 AI 数字人技术 OmniHuman-1。

它不仅让 AI 对口型更接近真人说话的状态,还将过程变得更加简单: 一张图片、一段音频,就能生成逼真的对口型视频,最长 15 秒。

OmniHuman-1 目前正在即梦内测,点击「视频生成」,再点击「对口型」,如果你的账号出现了「大师模式」,那么恭喜你,已经体验到了。

正脸侧脸,是人非人,都能对上口型

你可能会问,人物的图片好找,但没有现成的音频,怎么办?没关系,可以在即梦的「文本朗读」框输入文案,然后选择喜欢的音色。

如果没有合适的选择,即梦还支持创建音色,只需 5 秒的音频素材,于是我上传了马斯克的演讲片段,生成了他的音色。

然后,再随便找一张马斯克的图片,输入文案「全世界最聪明的 AI,Grok 3,现在免费,直到我们的服务器崩溃」。

接下来我们就可以看到,马斯克摇头晃脑地讲着歪果仁味道的中文,语气还怪礼貌的,背景里隐隐约约有汽车开过。

真人正脸,属于挑战性最低的测试了,动漫正脸,即梦也能轻松驾驭。

我上传了之前用 AI 生成的一张图片,让主角演绎《武林外传》郭芙蓉的经典台词,「姑奶奶今天不把你打得桃花满天红,你就不知道姑奶奶心花为谁开 」。

表情的变化和台词的语气是对应的,主角甚至还会耸肩,演技至少在小鲜肉的及格线水平。

继续上强度,如果一张图片里有多个人,而且是难度更高的全身,AI 基本都能让他们参演,但离画面较远的,或者嘴巴被遮盖的,可能就在状况外。

虽然美中不足,但即梦的细节又弥补了这一点:背景的火光和烟雾是自然运动的。

刁钻角度的侧脸图片,即梦也能对上口型。少女的珍珠耳环自然地晃动,因为说话才完整露出的牙齿也很清晰,但她的脖子和嘴唇有些用力过猛。

比起单纯的说话,有乐器伴奏的对口型表现稍微差了一些,但拉琴的动作大抵是到位的。

当主角不是人,问题也不大。《机器人之梦》的狗狗唱起了《甜蜜蜜》,机器人虽然没开口,但它的眼神和狗狗互动了。

基于实践,我们可以总结 OmniHuman-1 的几个特点:

正脸、侧脸、多人、单人、非人、全身、半身,都能对上口型。

说话、唱歌,都能对上口型。

除了口型,表情、手势、身体动作、背景也会保持动态。

有时候口型会过于夸张,或者不完全准确。

当嘴唇被口罩等物体完全遮挡,可能会对不上口型,甚至生成失败。

分分钟二创小品、MV,让整活视频变得更加简单

当 AI 让对口型变得更简单也更自然,做一些整活向的、鬼畜的视频,也就比以前更加容易,不用再逐帧编辑和手动调整,或者让配音去配合人物的口型。

操作起来也非常简单, 首先,我截取了《卖拐》里超级经典的 30 秒音频,把它切分成了一段段的台词。

还差一个开头,我上传了万事屋的图片,用即梦生成了简单的镜头拉进效果。最后,用剪映把所有片段拼接在一起。 视频里的片段,都只生成了一次,虽然粗制滥造 ,但有点内味了 。

甚至,我们还可以用即梦生成一个漫威宇宙的 MV,让每个英雄深情地唱着属于自己的歌词,方法也很简单,用到了四种工具。

DeepSeek:根据每个英雄角色的性格特征生成歌词。

Suno:导进歌词,然后生成歌曲旋律。

即梦:对口型,开头和结尾图生视频。

剪映:拼接视频。

OmniHuman-1 的创新之处在于,团队为不同的训练任务,分配了不同质量的数据,克服了从前端到端方法由于高质量数据稀缺而面临的问题。

最终,OmniHuman-1 在基于弱信号输入(尤其是音频)生成极其逼真的人体视频方面,显著优于现有方法,它支持任何长宽比的图像输入,在各种场景中都能提供较高质量的结果。

对于普通的用户而言,这就意味着,OmniHuman-1 把视频生成的门槛打下来了。当不要求必须是正脸图片,不要求必须是特写,生成的限制变得更少,想象空间变得更大,更多的镜头语言,可以被实现了。

我们或许真的会迎来,AI 数字人的规模化,演讲、直播、演唱会,都可以有它们的身影。爱因斯坦演说,霉霉唱日语歌,不存在的现实,可以由 AI 创造。现在的一些视频或许还能肉眼辨别,但当更多数字人能够自然地说话,我们也要准备迎接一个眼见不再为实、耳听也可为虚的未来。

THE END
0.数字人实操案例分享,亲测效果真赞面对市场上众多数字人工具,选择合适的平台至关重要。必火AI等成熟平台通常具备几个核心优势:首先是形象库的丰富度,能够满足不同行业和场景需求;其次是操作界面的友好性,降低学习成本;再者是技术稳定性,确保生成内容的质量一致性。 从实际应用角度,建议关注以下几点:一是平台的持续更新能力,技术迭代速度直接影响使用体验jvzquC41yy}/lrfpuj{/exr1r198;=987hhf6j
1.ai数字人火爆文案科技前沿:揭秘数字虚拟形象——AI数字人技术是什么,如何应用于直播视频? 在数字化浪潮的推动下数字人技术正以前所未有的速度崛起成为科技前沿的热点话题。这些虚拟的形象不仅拥有逼真的人类外观还能通过人工智能技术实现与人类的实时互动。从直播视频到虚拟助手数字人正逐渐渗透到咱们的日常生活中那么数字人技术究竟是什么它又是怎样去应用于直播视频的呢?jvzquC41yy}/{jsiiw4ux8|gdiuw1jn|jkyikƒy139>96B3jvor
2.虚拟数字人“出圈”重塑IP商业逻辑虚拟数字人是典型的多技术综合产物,计算机图形学与AI核心技术的高速发展,CG、语音识别、图像识别、动作捕捉等相关技术的共同成熟,为高质量、高效率、规模化的虚拟数字人内容生产奠定了基础。除CG建模﹢真人驱动的类别外,多模态技术与深度学习也是其核心点。 jvzquC41yy}/ewnk0eun0ls1iz~xy8wo{fh04974245u49742479a<::857/j}rn
3.数字人代理「割韭菜」背后,谁为糟糕的生态负责?反观大面积被封禁的直播带货的数字人,很多是完全用AI 驱动、没有真人参与的,也有很多是不进行注册和标识的。 而代理商们发现数字人能取代真人的商机之后,就不免夸大渲染其降本增效的卖点去说服商家购买、使用数字人,妄图走一条捷径,这难免让事情本身变了味儿。 jvzq<84yyy4ckjsgyu4dqv4pgyy0fnyckny@kmB392=35
4.哪个数字人最好用从实际应用层面观察,必火AI数字人已在多项垂直场景中得到验证。在智能客服、虚拟主持人及教育培训等领域,必火AI数字人均展现出良好表现。基于必火AI的解决方案,企业实现了用户互动满意度显著提升,测试显示,客户问题解决率提升了20%以上,同时系统响应速度提高了25%。 jvzquC41dnuh0lxfp0tfv8vsa68:4B98:1gsvrhng1jfvjnnu1766=:352?
5.必火AI|数字人一站式创作平台必火AI致力于打造AI数字人一站式创作平台,提供最真实的数字人解决方案,包括真人数字人、全能数字人、虚拟数字人,以及定位、文案、拍摄、剪辑全链路,我们的使命是用AI助力更多人做好短视频营销。jvzquC41yy}/drmwqco/exr1
6.亲测5款数字人:哪款最好用?克隆速度和相似度是数字人工具的核心竞争力。测试中,必火AI表现突出:仅需1分钟即可完成真人克隆,克隆相似度达99%,细节处(如微表情、语气停顿)几乎与本人无异。而其他4款工具中,最快的需要10分钟,最慢的甚至要30分钟,且相似度普遍在80%-90%之间,表情生硬、语气违和等问题明显。 jvzquC41dnuh0lxfp0tfv8qkrknf9@871cxuklqg1fkucrqu13;57;<945
7.必火AI|数字人一站式创作平台1M+ 数字人生成 累计创作数字人数量核心价值观 指引我们前行的价值理念 创新驱动 持续探索AI前沿技术,引领数字人创作革命,让每一次突破都成为行业新标杆 用户至上 以用户体验为核心,让AI创作触手可及,用技术的温度温暖每一位用户 开放共享 让AI技术惠及每个人,共建创作生态,携手构建数字化创作的美好未来我们jvzquC41yy}/drmwqco/exr1cduvv
8.虚拟数字人的变迁:从小众走向共生数字人新浪财经近五年,AI 在虚拟数字人生成和驱动上展现了较高的效率。在《企业级 AI 数字人数字经济发展“新动能”》中,根据数字人拟人化程度,以及生产制作的自动化水平两个维度,数字人被分成五个等级。 图:数字人L1-L5等级(商汤智能产业研究院) AI 快速发展和融入行业的态势使得虚拟数字人融入各个行业的发展成为可能。 jvzq<84hkpgoen3ukpg/exr0ep5cnxhmejgjp8wqnn532;7/283228iqe/onkƒruew<1:=94:0yivvq