从「对口型」到「会表演」,刚进化的可灵数字人,技术公开了动作段落可灵ai数字人图像生成基础模型

让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的,是当明快的旋律响起,它会自然扬起嘴角,眼神含笑;当进入说唱段落,它会随着鼓点起伏,肩膀与手臂有节奏地带动气氛。观众看到的不再只是嘴在动,而是整个人在表演。这种表现不仅限于几个片段,而是能够稳定地延续到分钟级长视频中,在整段时间里保持动作自然、镜头流畅。

近日,快手可灵团队把这一构想带到了现实。全新数字人功能已在可灵平台开启公测,目前逐步放量中。技术报告 Kling-Avatar 与项目主页也已同步发布。报告系统解析了可灵数字人背后的技术路径,阐明如何让一个只能跟着声音对口型的模型,进化为能够按照用户意图进行生动表达的解决方案。

首先看一些效果:

实现这些惊艳效果的背后,是快手可灵团队精心设计的一套多模态大语言模型赋能的两阶段生成框架。

多模态理解,让指令变成可执行的故事线

借助多模态大语言模型在生成与理解一体化上的能力,Kling-Avatar 设计了一个多模态导演模块(MLLM Director),把三类输入组织成一条清晰的故事线: 从音频中提取语音内容与情感轨迹;从图像中识别人像特征与场景元素;将用户的文字提示融入动作方式、镜头语言、情绪变化等要素。导演模块产出的结构化剧情描述,通过文本跨注意力层注入到视频扩散模型中,生成一段全局一致的蓝图视频,明确整段内容的节奏、风格与关键表达节点。

Kling-Avatar 方案框架。由多模态大语言模型 (MLLMs) 赋能的 MLLM Director 首先将多模态指令解释为全局语义和连贯的故事线,基于该全局规划生成一个蓝图视频,然后从蓝图视频中提取首尾帧作为条件控制,并行生成子段视频。

两阶段级联生成的长视频生成框架

蓝图视频生成后,系统在视频流中根据身份一致性、动作多样性、避免遮挡、表情清晰等条件,自动挑选若干高质量关键帧。每相邻两帧作为首尾帧条件,用于生成一个子段落。所有子段落根据各自的首尾帧并行合成,最后拼接得到完整视频。为避免首尾帧处画面与实际音频节拍的错位,方法还引入音频对齐插帧策略,保证口型与声学节奏的帧级同步。

此外,团队还精心设计了一系列训练和推理策略,保证视频生成过程中音频与口型的对齐和身份一致性:

口型对齐:将音频切分成与帧片段对齐的子段,通过滑窗方式注入音频特征;自动检测嘴部区域加权去噪损失;通过对视频帧做手动扩展,增强画面中人脸占比较小情况下的对齐效果,进一步提升口型对齐任务在远景场景下的适应能力。文本可控性:冻结文本跨注意力层参数,避免基座视频生成模型在专门数据上过拟合而弱化文本控制。身份一致性:在推理阶段对参考图像构造 “退化负样本”,作为负向 CFG,抑制纹理拉花、饱和度漂移等身份漂移模式。

训练与测评数据管线

为了获得多样高质量的训练数据,团队从演讲、对话、歌唱等高质量语料库中收集数千小时视频,并训练多种专家模型用于从嘴部清晰度、镜头切换、音画同步与美学质量等多个维度检测数据的可靠性。对专家模型筛选出的视频,再进行一遍人工复核,得到数百小时高质量训练数据集。

为了验证方法的有效性,团队制作了一个包含375个 “参考图–音频–文本提示” 的测评基准,该测评基准包含了丰富的输入样例,图片涵盖真人 / AI 生成图像、不同人种、以及开放情境中的非真人数据;音频涵盖中 / 英 / 日 / 韩等多种语言,包含不同语速和情感的台词;文本提示包含多种多样的镜头、人物动作、表达情绪控制。该测评基准为现有方法提供了极具挑战性的测试场景,能够充分评估数字人像视频生成方法在多模态指令跟随方面的能力,将在未来开源。

实验结果对比

在定量验证方面,团队精心设计了一套基于用户偏好的GSB(Good/Same/Bad)测评体系。对每个样本,由三名评测者将 Kling-Avatar 与对比方法逐一比较,给出 “更好”(G),“一样”(S),“更差”(B) 的判断。最终汇报 (G+S)/(B+S) 作为指标,用以衡量 “更好或不差” 的占比。同时在四个维度给出分项结果:总体效果、口型同步、画面质量、指令响应、身份一致。对比方法选择最先进的 OmniHuman-1、HeyGen 等产品。

在构建的测评基准上与 OmniHuman-1 和 HeyGen 的 GSB 可视化对比。Kling-Avatar 在绝大多数维度上取得领先。

在全部 Benchmark 和各个子测评集的 GSB 指标对比。Kling-Avatar 全面超过 OmniHuman-1,并在绝大部分指标上超过 HeyGen。

在多种场景的对比测试中,Kling-Avatar 所生成的唇形不仅在时序和形态上与音频高度一致,面部表情也随着语音的起伏变化而更显自然。即使在发音难度较高的音节(如 “truth”,其标准发音为 [truːθ],[u:] 要求双唇前突、口型小而紧)或高频语音中的短暂静音段落,Kling-Avatar 均能够准确还原相应的口型状态。

在 “情绪、动作、镜头” 三类控制上,Kling-Avatar 能够更准确地体现文本提示中的意图,在歌唱、演讲等复杂场景下的动作与镜头调度更加贴合语义。下图展示了 Kling-Avatar 生成的一些视频示例,其中包含了人物的情绪控制如 “兴奋”,镜头控制如 “镜头缓慢上移”,生成结果均有良好的响应。

Kling-Avatar 的另一大优势是长时视频生成。因为采用两阶段生成 + 级联并行生成的框架,因此在首先获得蓝图视频后,可以从蓝图视频中选择任意多数量的首尾帧,并行生成每个子段视频,最后再完整拼接在一起,总生成时间理论上与一段生成时间相当,因此可以快速稳定的生成长视频。下图展示了 1 分钟长视频生成的例子,生成结果在动态性,身份一致性保持,口型等各方面都获得了令人满意的结果。

总结

从 “对口型” 迈向 “会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar 现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。

近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。除了 Kling-Avatar,团队前不久还提出实时多模态交互控制的数字人生成框架 MIDAS,二者分别在 “表达深度” 与 “响应速度” 上实现了重要突破。未来,团队将持续推进高分辨率、精细动作控制、复杂多轮指令理解等方向的前沿探索,致力于让数字人的每一次表达,都拥有真实而动人的灵魂。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.即创数字人成片创作遇瓶颈?加入组织三步破解"困局指南使用思维导图梳理核心观点,将数字人角色定位、场景需求、传播目标等关键要素可视化呈现。如科普类数字人需突出知识图谱,营销类则应强化产品逻辑链。其次采用模块化创作法,将长篇内容拆解为3-5分钟单元模块,每个模块设置独立主题锚点,通过转场动画实现自然衔接。最后运用AI工具进行智能优化,多数数字人生成平台配备结构检测jvzquC41o0ypj~3eqo5b1A<3;9:87=d344636<931
1.虚拟数字人全景解读:一文读懂数字人进化史动作捕捉技术是赋予数字人生动自然肢体动作的重要手段。通过该技术,演员的真实动作能够被实时捕捉并精确地映射到数字人身上,使数字人能够呈现出与演员相同的动作姿态和表情变化。 动作捕捉技术主要分为光学动作捕捉和惯性动作捕捉两种类型。光学动作捕捉系统通常由多个摄像头组成,通过拍摄演员身上佩戴的反光标记点的位置和运动轨迹,来计算出演员 jvzquC41dnuh0lxfp0tfv8xjk{uvvnhj1cxuklqg1fkucrqu13:649=676
2.数字人生成视频数字人生成高清原创视频下载新片场社区汇聚全球优秀创作人和海量作品精选出417条数字人生成等4K原创短视频,覆盖数字人生成相关的广告,宣传片,剧情短片,创意混剪,婚礼,纪录片,特殊摄影,旅拍,Vlog,影视干货教程,音乐MV等数字人生成无水印高清视频案例学习下载jvzquC41yy}/zrsrkctdjjsi0eun1|jcten03:=6977
3.如何使用ChatGPT制作免费的数字人2.数字人生成网站: http://heygen.com- AI Spokesperson Video Creato 2.1 注册过ChatGPT的应该都有Google,建议直接点击Google登录。 2.2进入界面之后,点击右上角的Creat Video 进入创建项目。 2.3 进入界面后,按下图所示,在红色数字1和2的位置可以上传在MJ或者Leo制作好的图片,建议是正面的头像,不然嘴型怪怪的jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:97:967
4.数字人——GPT4下的杀手级应用数字人新浪财经2 数字人生成关键技术 一个数字人从诞生到输出价值,离不开建模、动补、语言、语音、情绪这几个基础工作。建模用于创建高保真的数字人模型,包括面部、身体、服装、发型等细节。动补用于捕捉真实人物的动作和表情,并映射到数字人模型上,呈现真实、自然的连贯动画效果。 jvzq<84hkpgoen3ukpg/exr0ep5cnxhmejgjp872453156661fud/rr{mxkle>6;8;770|mvon
5.智能体验再升级,彩讯股份打造“5G新通话”全场景AIGC应用10月11日—13日,在2024中国移动全球合作伙伴大会上,彩讯股份推出的3D数字人生成、图生音乐彩灵、AI智舞、AI来电秘书等AIGC产品全面登场,打造贯穿“5G新通话”前中后外的全场景智慧应用。 随着通信技术的飞速发展,特别是5G时代的到来,传统的通话界面与功能已难以满足用户对多元化、个性化通信体验的需求。以往,通话仅jvzquC41yy}/ewnk0eun0ls1iz~xy8wo{fh04976325u49763275a?5925;/j}rn
6.上海发布元宇宙关键技术攻关两年行动方案—新闻—科学网·重点布局人工智能生成内容(AIGC)、跨尺度采集重建、数字人生成与驱动、虚拟空间三维引擎等关键技术研发。 ·面向“元宇宙”去中心化/多中心化的组织规则,基于异构多链融合技术路线,重点布局Web3.0网络操作系统、区块链数字身份、分布式可信存储、可信计算芯片等支撑技术和数字监管技术研发,构建高性能、可扩展和安全可控jvzquC41pg}t0|hkgpifpny0ep5ivvqpgyy0497518562;=440yivv
7.上海:加快“元宇宙”技术体系化突破主攻沉浸式技术与Web3技术面向“元宇宙”海量沉浸影音内容生产的需求,基于AI赋能虚实融合的技术路线,重点布局人工智能生成内容(AIGC)、跨尺度采集重建、数字人生成与驱动、虚拟空间三维引擎等关键技术研发,实现超写实“元宇宙”沉浸影音内容的自动化、低成本生产,支撑“元宇宙”内容创作生态建设。 jvzquC41pg}t0lsuvqil0lto1pkxu5gymz332;828/;19?6460nuo
8.小K播早报|“十四五”国家信息化规划:到2025年数字中国建设取得百度推出数字人生成平台“曦灵” 在百度Create 2021(百度AI开发者大会)上,百度CTO王海峰表示,为了进一步降低数字人的应用门槛,百度智能云正式推出数字人平台——百度智能云曦灵,为各行各业提供多种数字人生成和内容生产服务。数字人可以24小时无休为用户提供服务。 jvzquC41o071lzpc0eun0ls142823;7:1e<47==7928/uqyon
9.京东云言犀数字人3.0平台全新升级开启下一代智能人机交互全新发布的言犀数字人3.0平台,基于京东言犀大模型及多模态交互能力,实现了从单一产品到智能平台化的跨越。支持企业和个人用户根据自身需求,实现小时级、个性化、风格化的数字人生成。全新升级后,平台上线100+个性化角色,50+行业特定属性场景,实现零配置下覆盖90%的常见问询,商品推荐应答准确率超90%,让个性化、可定制的jvzquC41yy}/eww0ep5uglm1vgiirq4424:1:971v46369=24a;38A7:;79/uqyon
10.「科普大佬说」以计算机图形学的视点看元宇宙发展元宇宙基本要素:人、物和场景 数字内容创作的数量和质量决定了元宇宙体验的质量 基于动态纹理表达的数字人生成 核心思想 人体纹理特征同时包含静态外观信息和动态细节特征 神经网络易于拟合低频函数,增加数据流形复杂度有助于高频信号的学习 真实世界数字化-NeRFEditingjvzq<84yyy4uy€yp0eun1jwvkerf1;5442<04?::70nuou
11.中国图象图形学学会第六期学生会员分享论坛会议通知报告题目:Next3D: 超写实3D数字人生成与驱动 报告摘要:目前3D GAN在虚拟人生成上,无法对面部表情,眨眼,凝视方向进行细粒度控制。为了解决这些问题,我们提出了Next3D: 一种新颖的可驱动3D GAN框架。该框架可从非结构化2D图像中无监督地学习生成高保真和多视角一致的3D虚拟人像,并且在驱动处理上,可以实现全头旋转,面jvzquC41yy}/e|ni0qxh0ls144532;82;1;24B<0jvsm