长视频数字人来了!字节×浙大推出商用级音频驱动数字人模型nfinityuman手部技术

随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。

从静态图像到动态视频:

音频驱动的 "数字复活术"

只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专业级呈现。技术团队演示中,仅凭一段音频即可让电影中的人物复活 " 为动态数字人,视频效果生动自然,肢体动作与语音节奏高度同步。

该图由 AI 生成

核心突破:攻克长视频两大技术难关

InfinityHuman 的关键优势在于创造性解决了长期动画中的两大核心难题:

商用场景全面落地,推动数字人技术实用化

从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用:

技术细节与更多展示

如需了解更多技术细节和效果演示,可访问:

方法概述

如图所示,InfinityHuman 是一个统一框架,旨在通过单张参考图像、音频和可选文本提示生成长时间、全身的高分辨率说话视频,确保视觉一致性、精准唇同步和自然手部动作。该框架采用 “由粗到细” 策略:先通过低分辨率音视频生成模块得到含粗略动作的低分辨率视频,再由姿态引导细化模块结合低分辨率视频和参考图像生成高分辨率视频,同时引入手部校正策略提升手部动作的真实感与结构完整性。

低分辨率音视频生成模块基于 Flow Matching 和 DIT,融合参考图像、文本、音频等多模态信息,通过多模态条件注意力机制增强音频与视觉的对齐;姿态引导细化模块利用参考图像作为身份先验,结合低分辨率视频及其姿态序列,通过前缀潜变量参考策略和姿态引导确保长时生成中的时序连贯性与外观一致性;手部特定奖励反馈学习则针对手部易出现的畸变问题,利用预训练奖励模型进行偏好微调,提升手部结构的合理性与真实感。

实验结果

实验结果表明,InfinityHuman 在音频驱动全身说话视频生成任务中表现优异。在 EMTD 和 HDTF 数据集上的评估显示,该方法在视觉真实感(FID)和时序连贯性(FVD)指标上均优于 FantasyTalking、Hallo3 等主流基线方法,生成视频的整体质量显著提升。身份一致性方面,通过姿态引导细化模块有效维持了与参考图像的相似度,解决了长时生成中的外观漂移问题。针对手部生成这一难点,手部特定奖励反馈学习显著提升了手部关键点的准确性,减少了手指畸变、关节异常等常见问题,尤其在复杂手势场景中表现稳定。

消融实验进一步验证了核心模块的有效性:移除姿态引导细化模块会导致视觉质量下降、身份一致性减弱,视觉细节模糊且时序连贯性降低;取消手部奖励机制则使手部关键点精度下降,手部失真现象明显增多。

综合定量指标和定性分析,InfinityHuman 在高分辨率、长时长视频生成任务中实现了真实感、一致性与动作自然度的全面提升。

字节跳动 VIVID Avatar 团队:深耕音视频数字人技术,推动AI生成走向实用化

作为字节跳动旗下专注于音视频数字人生成的研发力量,商业化 GenAI 的 VIVID(Voice Integrated Video Immersive Digital)Avatar 团队始终站在技术前沿,致力于突破音频与视觉融合的技术边界。团队以 “让数字人更鲜活、更实用” 为目标,在语音合成与视频生成两大方向持续深耕,形成了从基础研究到商业化落地的完整技术链路。

THE END
0.展示技术与艺术完美融合出门问问AI数字人此外,「奇妙元」还为用户提供了多种数字形象克隆方案,包括“一张照片驱动”、“2.5D 真人克隆”、“3D 定制及 IP 活化”等,通过一站式数字形象编辑器,能够让企业像做PPT一样轻松制作数字人视频和直播。 除了动捕表演,大模型交互问答、现场 AI 写作也在大屏幕上轮番上演,工作人员现场为观众演示了「序列猴子」企业jvzquC41pg}t0|npc0ipo7hp1u~04975/2?.2=4fgvgjn6no|mt{{w79748227xjvor
1.数字人视频:重塑视觉体验,解锁创意无限无障碍 关怀版 登录 视频加载失败,可以 刷新 试试 00:00/00:00 数字人视频:重塑视觉体验,解锁创意无限 发布于:广东省 2025.02.10 18:14 视频:数字人视频:重塑视觉体验,解锁创意无限 +1 首赞 评论 收藏 分享 万彩动画制作 3188文章 0阅读 +订阅 相关推荐jvzquC41tqrm0|tjw0ipo8f1:7=64>927a733?:48;;
2.数字人素材视频数字人素材高清原创视频下载ai数字人线上平台展示数字人看展参观数字人数字人可以做什么数字人发展数字ip主持人ai数字人导游企业ip数字人数字人讲课绿幕直播数字人素材数字人绿幕素材数字人特效华夏数字人ai数字人直播宣传片数字孪生机器人ai数字人素材数字人说话视频素材数字人训练素材数字人训练素材视频数字人视频素材火柴人素材人的素材人屏互动jvzquC41yy}/zrsrkctdjjsi0eun1|jcten03:83568
3.如何在短视频中合成“虚拟数字人”?视频匹配数字人本文为阿里云智能媒体服务IMS「云端智能剪辑」实践指南第二期,讲述围绕效率化内容生产需求,运用数字人视频合成能力,实现高效、便捷的数字人视频制作体验。 欧叔|作者 随着虚拟数字人技术的发展,越来越多的企业把虚拟人应用到自己的业务场景中,通过创新的内容形态,提升制播效率和智能化水平。 jvzquC41dnuh0lxfp0tfv8[kfguDnxzfVgii1jwvkerf1mjvckrt1:8436952A
4.营销黑科技再升级:百度营销擎舵数字人4.0带来哪些惊喜?此外,声音与画面的和谐程度一直是衡量视频观感的重要指标。擎舵数字人4.0通过对人物面部表情、说话方式完美复刻,生成的唇形更逼真,使得口型与语音拟合度更佳,数字人使用更加自然,进一步提升数字人视频质量,帮助企业向消费者传递更全面的信息,带来更多商业转化。 jvzq<84f0{uvvq3ep1~x5?514284394v42843965a3:96=<8:0nuo
5.以数字人直播赋能数字经济联通元宇宙智播服务正式亮相!目前,联通元宇宙智播的数字人直播业务针对企业/品牌对打造专属数字IP资产,入局元宇宙数字人直播行列、元宇宙创意内容高效输出、传统直播行业痛点解决等需求,推出系列数字人直播产品:AI驱动型数字人直播、动捕驱动型数字人直播、数字人视频制作。 三大数字人产品全向发力,赋能虚拟直播 jvzquC41yy}/ewnk0eun0ls1iz~xy8wo{fh04975245u49752471a=97;39/j}rn
6.商汤:他永远关注人,大于关注技术和商业数字人新浪财经“大家好,我们又见面了。”熟悉的脸庞,熟悉的声音,熟悉的那身西装,商汤科技创始人汤晓鸥如约而至走向年会的舞台中央,说累了举起手边的矿泉水饮了一口。 汤晓鸥数字人参加年会 视频截图 每年年会,汤晓鸥都会用独属他的“汤式幽默”分享自己一年来的思考和感悟。在商汤科技,“有趣的灵魂”是大家对他的评价。 jvzq<84hkpgoen3ukpg/exr0ep5kl|14285/98/345eql2kpcs{tƒr9;481:B3ujvsm
7.创意兔数字人数字人系统数字人短视频数字人制作合伙人 成为创意兔合伙人,开启财富旅途!高额佣金保障,收入上不封顶 四大核心功能·赋能口播视频 视频创作更加高效、便捷,帮助企业和创作者提升内容质量与传播效果 数字人分身营销低成本、高增长 将文字、图片、视频等素材结合AI配音、数字人一键合成短视频 jvzquC41yy}/f~fpujoqkw3eqo5
8.创意兔数字人数字人系统数字人短视频数字人制作创意兔数字人系统,真人形象1:1复刻,原声克隆,支持多国语言输出,助力商家批量生产数字人短视频!jvzquC41yy}/eqzcpijv~3ep1
9.‎SuperAI超级助理图片数字人口播视频写作绘画App在App Store 下载“雪巩”开发的“SuperAI - 超级助理|图片数字人口播视频写作绘画”。查看屏幕快照、评分与评论、用户提示以及更多类似“SuperAI - 超级助理|图片数字人口播视频写作绘画”的游戏。jvzquC41crvt0jurng4dqv4wu1gqr8xwrgx.c|xkuvgov6xoctz.eqfv/duu1ri866>52A528Ar>|q