导读:本文介绍了在数字人AI技术发展迅猛,整体AI数字人市场呈现高速增长的趋势下,与强调高实时性互动的直播业务场景的结合与应用,通过数字人渲染技术、强大的AI全栈能力、算力为虚拟主播赋能,在面部表情、肢体动作、问答对话以及情绪反馈等交互效果上都达到了十分生动拟人的效果,同时结合智能剧本的驱动技术,更是在电商代班场景下实现了7x24小时虚拟主播不间断带货直播的能力,产生了真人主播无法达成的价值和效果。
01 背景
2022年开年以来,数字人几乎成为AI第一热门赛道,在诸多应用场景大放光彩。IDC 发布《中国 AI 数字人市场现状与机会分析,2022》报告。报告显示:中国 AI 数字人市场规模呈现高速增长趋势,到2026年中国AI数字人市场规模将达到102.4亿元人民币。目前市场上数字人种类繁多,有泛娱乐型数字人/企业级服务数字人,如浦发银行的智能数字人客服,以及百度智能云曦灵打造的 AI 手语主播,已经为2700万听障用户提供直播及赛事的手语服务;还有中之人/真人驱动的演艺型数字人,如其中几个突出的是百度云的希加加,快手的关小芳等等,数字人在一些领域已经发挥出明显的商业价值,尤其是音视频的实时直播场景,在这个背景下,基于目前的直播带货平台,应用数字人技术将会创造更多的产品和商业价值。
02 业务
百度电商直播平台是继承主播开播、带货、商品讲解、直播分发、下单购买的综合平台,依托百度流量池,基于众多百家号创作者和UGC主播通过线上直播丰富的内容形式,给用户提供更个性化、更生动、更高效的消费体验。与数字人的结合主要是基于代班主播的产品形态,提供虚拟数字人主播直播带货的能力:
△高精数字人:BoBo
在直播层面,同真人主播相比,数字人可实现24小时全程直播,且可控性强、形象稳定,能有效避免人设“塌房”,可以作为品牌先行试水元宇宙的切入口和纽带。
7月19日,百度APP AI探索官度晓晓携手龚俊数字人举行了一场:数字人脱口秀直播,并将带货内容拓展至元宇宙。百度此次用数字人脱口秀打开直播带货,就是Web3时代下探索数字人可能性的创意尝试,为直播带货带来了新鲜感。直播平台还内置了丰富精美直播间场景,从演播厅到舞台,可按需匹配,一键解决搭建直播场景投入大、质感不高的难题;不仅如此,便捷的开播平台编辑器可预设直播模版,任意组合脚本、商品、才艺,降低直播的准备门槛。对于商家而言,拥有一个稳定、高效、可控的数字人主播,和不受时间空间限制的直播间,大幅降低企业运营成本,是性价比之选。
03 整体架构
3.1 功能模块结构
整体功能模块分为三层:
数字人资产:主要包括数字人形象的生成、资产管理、个性化捏脸能力;数字人声音系统(包括语音合成(多音色支持)语调语速等能力配置,以及唇动服务);数字人动作系统(指令触发的各种身体、手势、面部的动作);
直播互动:支持数字人直播间内的功能和音视频等互动能力,支持B端的剧本编排,直播间内玩法功能互动,主播AI智能对话问答,以及中之人、真人接管能力;
流媒体控制:将渲染的音视频数据进行编码推流,以及通过导播台对音视频做一些插入修改等丰富的功能,如混画合流、字幕插入等能力。
3.2 概要流程设计
剧本系统
剧本系统支持B端主播配置自己的代班主播剧本,即直播间内一系列有序的任务编排和互动效果配置;数字人驱动服务为剧本编排服务提供了队列配置和运行调度的能力支撑,剧本编排服务通过该能力能够灵活组织数字人直播间需要执行的内容。
基于此,剧本系统服务支持了素材库配置:
1、商品:挂接商品、商品转场等;
2、营销活动:抽奖、优惠券、红包雨等;
4、为说话、动作、表情、切换背景、插入图片视频、位移、缩放等。
另外编排上可以支持:
1、创建编辑剧本基本信息;
2、编排剧本:可以通过选取素材库中的各种素材,组合生成剧本。
实时交互:除了既定剧本顺序执行以外,数字人主播还会对用户进行实时的交互,以达到更真实拟人的效果;实时交互的处理分为以下两类:
并且任务编排系统可以智能的根据数字人实时的渲染状态,选择最合适的打断实际插入对应的互动,且不影响后续剧本进行,达到和真实主播最接近的效果。
数字人音频服务会整合众多AI能力,其中包括通过TTS语音合成,生成支持多种可定制的音色的音频数据;通过VTA服务,生成与对应模型适配的唇动渲染数据;基于百度unit进行对话配置以及意图模型训练,支持和主播提问,闲聊等智能问答功能
驱动服务根据剧本任务下发动作渲染指令和直播间信号指令,以及数字人音频服务下发的每一帧音频和唇动数据,整合下发到云渲染服务的会话中心;会话中心负责与上游(直播业务)、下游(渲染引擎)、其他模块(导播台)等建连,维持心跳,收敛会话服务;收集包装驱动数据下发给云渲染服务:
云渲染服务通过接受会话中心的数据,包括各种动作指令,各种部位骨骼bs驱动数据来实时渲染数字人模型(渲染引擎包括自研、UE4、unity3D等),同步生成视频流数据,返回到BRTC服务模块进行编码推流到LSS,LSS云导播台依托百度智能云的音视频直播、媒体、AI等技术,支持强大的直播实时编辑能力,如数字人直播的一些视频混画,背景合成,字幕插入等功能;编辑之后进而推流通过CDN的边缘节点,最终到直播源站。
△直播间内画面多层混合
04 技术实现详述
4.1 服务端架构
基于ACG-云渲染方案
基于AR-端云一体渲染方案
主要功能包括:
目前这一层只有直播电商,未来根据需要也可以接入咨询,媒体、演艺秀场等其他业务。
4.2 数字人驱动服务
驱动服务维护两个先进先出队列,分别为:剧本队列、实时交互队列。
开播前预先编排好的队列,数字人直播间启动后,主节点会启动剧本队列消费,然后数字人按照预先编排好的内容执行,例如:开播中需要数字人演示的商品讲解、抽奖、红包雨等,会提前同步到剧本队列中。
未当选为主节点的节点,它只负责定时参与选举。
当选为主节点的节点,作为消费者,消费生产者产生的队列,主要支持:
同一个集群中每个worker实例都有一个取值一致的env环境变量,作为所在集群分布式锁标识。此时还未产生master节点,集群分布式锁还是处于释放状态。
初始状态下,集群内所有正常运行中的实例会定时通过redis的setnx指令抢占集群分布式锁进行选举。
抢到锁的则成为master主节点,当选为主节点后,会定时执行心跳,给抢到的锁进行续期,主节点会维护与数字人渲染引擎的长连接、执行队列消费、直播间自动开关播。
未抢到锁的则依旧继续担任worker节点,会定时进行选举,除此之外没有其他操作。
主节点异常,则会没有心跳,此时,变成初始状态、进行选举,集群中其他某个worker节点抢到锁之后会成为主节点。
整体依靠各层级的调度实现,层级关系如下图,以下各层级的调度均使用golang的channel以生产者消费者模型实现。
一个直播间可以关联多个剧本,多个剧本可以按顺序编排,每个剧本可以执行1次或多次。
被调度的剧本分以下三种情况:
1.按重复执行次数逐次调度的剧本;
2.按编排顺序逐个调度的剧本;
2、调度流程
队列中的指令顺序通过seq_no指定,会被按照从小到大的顺序依次执行,每次调度按照如下流程:
其中:如果drml指令渲染失败,3会返回RENDER\_ERROR;
交互队列调度和剧本队列调度并行启动执行,执行流程如下:
长连接在初始化的同时,master会启动一个协程,该协程每隔3s向数字人渲染引擎发送心跳。如果数字人渲染引擎如果30s内没有检测到心跳,会自动释放资源。
这一点在 “容灾 - 数字人渲染引擎异常” 中描述。
在需要多主节点的场景中,例如:划分预览机和线上,或者需要增加集群处理能力的情况下,可以通过给实例设置不同的env,来达到划分出多集群多主节点的目的,不同集群之间互不影响,原理是:
在百家号平台开播数字人需要先创建预约直播间,预约创建完成后,支持以下两种方式启动数字人直播间:
master到点自动启动数字人推流并开播,具体如下:
master在所有队列执行完毕后,会停止数字人直播间推流,具体如下:
如需要手动停止数字人推流:
以下列出了各种异常情况,及其对应的处理策略
部署多套渲染引擎实例,使用同一套mysql数据库,使得多套渲染引擎的配置保持同步,使同一个appid、appkey,可以在不同实例上均可使用
逻辑同剧本队列调度异常恢复。
这里的“现场”指的是数字人在执行中的人像位置坐标、人像大小、直播间背景等信息,这些信息数字人驱动服务会在数字人DRML执行过程中进行保存。在数字人驱动服务在遇到异常恢复时,如果不做现场恢复,会造成异常恢复后人像坐标、大小、背景等元素与预期不符的情况,因此,在异常恢复时,数字人驱动服务会先读取保存的现场信息,并通过执行现场信息对应的DRML恢复现场。
05 小结
本文详细的阐述了基于数字人云渲染技术方案在直播业务架构中的应用,以及与众多AI能力的相结合,虚拟主播在今年是热门IP,强互动的直播场景无疑是数字人渲染的重点关注对象,后续渲染技术进一步完善和创新,将数字人直播间更加拟人化、生动、吸引眼球是我们规划的方向,尽可能应用到更大更多的场景里面。
特别感谢:感谢AIG增强现实技术团队与ACG智能云团队为云渲染服务共建提供技术支持。
————————END————————
推荐阅读:
4月25日, Create AI 开发者大会举办,众多前沿技术与创新应用纷纷亮相。在《如何让Deepseek发挥实战价值》的分论坛,Baidu资深研发工程师叶翔结客悦·ONE的落地实践,分享了DeepSeek深度融入服务营销场景的系统技术实践。本文将对叶翔的分享进行整理,让更多朋友深入了解DeepSeek与智能客服、智能营销等产品深度融合的核心技术路线、业务逻辑和实际效果。
引言随着人工智能(AI)技术的迅猛发展,AI数字人正逐渐成为我们生活的一部分。从虚拟助手到虚拟主播,AI数字人在多个领域展现了巨大的潜力。最近,硅基智能推出了全球首个开源AI数字人平台DUIX(Dialogue User Interface System),让开发者能够轻松打造个性化的AI数字人伴侣。本文将详细介绍DUIX平台的特点及其应用。DUIX数字人平台简介DUIX是硅基智能开发的AI
直播场景实时截图的意义我们在做音视频直播技术方案的时候,直播播放端截图在数据分析中具有广泛的应用价值,可以为用户行为分析、内容分析、产品优化、市场研究和合规与风险控制等多个方面提供有力支持,帮助企业和相关机构更好地了解用户需求、优化产品和服务、把握市场趋势、控制风险,从而在激烈的市场竞争中获得优势。实时直播流的截图功能,在数据分析中具有多方面的应用价值,以下就几个维度,做个详细解析:一、用户行为分
导读 本文介绍了在数字人 AI技术发展迅猛,整体AI数字人市场呈现高速增长的趋势下
虚拟数字人(Virtual Digital Human),指的是一种基于数字技术创建的虚拟人物,他们有自己的外貌、声音,甚至是性格。虚拟数字人通常是通过计算机图形学、人工智能和其他先进技术来实现的。人们可以与这些虚拟数字人进行交流、互动,就像现实世界里的人一样。在虚拟数字人场景中,RTMP直播可以用于实现实时的视频、音频和互动内容的传输和展示。以下是在虚拟数字人场景中使用RTMP直播的方案:1.
视频直播是当前比较火的互联网应用场景,越来越多的人通过直播进行娱乐和营销带货。国家规定,直播带货类需提供不低于3年的存档回看能力,而其他直播内容也需要提供不低于60天的视频保存能力。具体要求可参看:
在数字化转型的浪潮中,数字人技术正成为人机交互领域的核心突破点。用户对交互体验的需求已从简单的信息传递升级为情感化、拟真化的深度互动。传统的3D数字人虽能满足基础功能,却因表情僵硬、响应延迟等问题难以建立用户信任。而基于先进AI技术的2D写实生成式数字人,通过多模态融合与实时响应能力,正在重塑行业标准,为政务、金融、医疗、教育等领域提供高效、自然的交互解决方案。一、核心技术:构建拟真交互的基石2D
在数字人直播技术日益普及的今天,如何利用 Java 实现高效的数字人直播功能,成为了许多开发者关注的话题。本文将围绕“数字人直播 Java”展开,详细记录从环境预检到版本管理的过程。以下是整个过程的详细步骤:## 环境预检在开始之前,我们需要确保开发环境满足以下系统要求:| 系统要求 | 描述 || ----
本文概览:1. 推荐系统是什么?推荐系统是帮助用户发现内容,克服信息过载的重要工具;它通过分析用户行为,对用户兴趣建模。从而预测用户的兴趣并给用户做推荐;信息过载: 信息过载是信息时代信息过于丰富的负面影响之一。指社会信息超过了个人或系统所能接受、处理或有效利用的范围,并导致故障的状况。人们接受了太多信息,却无法有效整合、组织及内化成自己需要的信息,以致影响到人们的工作、生活以及人际关系等。信息过
数字人直播的插件实现流程---为了帮助你理解如何实现数字人直播的插件,我将为你提供一个详细的流程。在开始之前,请确保你已经掌握了Java编程语言的基础知识。整件事情的流程如下所示:```mermaidjourney title 数字人直播的插件实现流程 section 准备工作 开发环境的搭建 --> 插件框架的选择 --> 数字人的资源准备 --> 直
随着人工智能技术的飞速发展,数字人技术已经从概念走向现实,成为推动社会数字化转型的重要力量。在众多应用场景中,政务领域因其服务性强、流程标准化等特点,成为数字人技术落地的重要方向。本文将重点探讨数字人实时交互技术在政务领域的应用现状、技术优势以及未来发展趋势。一、数字人实时交互技术概述数字人实时交互技术是指通过人工智能、多模态融合、大语言模型等技术,构建能够模拟人类外观、语言和行为的虚拟形象,实现
一、政策背景与市场机遇近年来,国家及地方层面密集出台支持数字人产业发展的政策措施。北京市发布的《促进数字人产业创新发展行动计划(2022-2025年)》明确提出数字人技术的发展目标和扶持措施,国务院《"十四五"数字经济发展规划》也强调加快数字人技术研发与应用。在政策推动下,中国AIGC产业规模预计将从2023年的143亿元增长至2030年的万亿元规模,其中数字人作为重要组成部分展现出巨大市场潜力。
对于许多行业来说,数字孪生技术是未来。数字孪生定义数字孪生不仅仅是某物的副本或克隆,它是对象或系统的动态实时表示。数字孪生是一种虚拟模型,旨在准确反映物理对象。是物理对象、流程、服务或环境的数字表示,其行为和外观与现实世界中的对应物相似,可用于理解和优化其性能。借助传感器、执行器和其他连接设备,数字孪生还可用于实时控制物理对象或系统。这使得在现实世界中实施新想法和策略之前,可以在虚拟环境中进行测试
随着人工智能技术的飞速发展,数字人实时交互技术正逐渐成为各行各业数字化转型的重要推动力。其中,在展厅场景中,数字人技术的应用不仅为参观者带来了全新的互动体验,也为展方提供了更高效、更智能的展示解决方案。本文将重点探讨数字人实时交互技术在展厅领域的创新应用及其带来的变革。数字人技术发展背景与现状近年来,数字人技术迎来了爆发式增长。从政策层面看,国家和地方政府相继出台了一系列支持数字经济发展的规划文件
活,人们对于直播与短视频的质量要求也越来越高。是否能够匹配用户的兴趣,满足用户的需求,已经成为决定平台增长的关键因...
5G助力电力通信网络发展,支撑电力智能化变革应用分布式清洁能源接入需求快速提升、智能电网精准控制对时延要求更低,以及新型商业模式对网络要求标准更高使得电力通信网络建设面临诸多新的需求。5G...
导读:火山引擎正在打造完善的虚拟数字人技术和应用体系,那么火山引擎是如何定义虚拟数字人的呢?火山引擎 2D 虚拟数字人和 3D 数字人采用了怎样先进的技术?火山引擎数字人有哪些应用和前景展望?今天我们就来一起探秘火山引擎虚拟数字人技术与应用。 今天的介绍会围绕下面五点展开: 火山引擎虚拟数字人简介
视频监控场景下报警功能的技术特点及场景应用视频监控报警功能是近年来发展起来的新一代报警技术。与传统报警技术相比,视频报警技术不仅实现了报警的可视化,而且更智能,并与互联网应用相融合,为用户提供低成本、全方位、全天候的安全防范服务,在保障安全生产、保护生命财产方面起到了重要作用。SkeyeVSS视频共享融合赋能平台,基于先进的通信技术实现对前端监控设备所采集到的图像进行处理、分析以及自动判断,并进行
智慧华盛恒辉数字孪生技术在军事中有着广泛的应用,以下是数字孪生技术在军事中的一些主要应用: 模拟战斗环境:数字孪生技术可以通过数字仿真,同步复制与实战环境一致的虚拟场景,辅助指挥员实施远程高效的作战指挥。数字孪生技术可以搭建融合武装力量、武器系统、战场设施、战场环境甚至社会文化、政治经济等要素信息为一体的智能模拟平台,其价值突出体现在虚实映射、实时联动上。在智能化系统的支持下,模拟平台打破了
前言 在数字化浪潮的推动下,电商平台已经彻底改变了我们的购物方式。从简单的在线交易到复杂的用户交互,电商平台积累了海量的用户数据。这些数据,如同隐藏在深海中的宝藏,等待着被发掘和利用。通过分析用户的浏览、搜索、购买等行为,商家可以更准确地理解用户需求,提供个性化的推荐和服务。这不仅能够提升用户的购物体验
WxJava是一个功能强大的开发Java SDK,它支持支付、开放平台、、视频号、企业、小程序等多个功能模块的后端开发。通过WxJava,Java开发者可以更加便捷地接入生态,实现各种功能需求。同时,WxJava社区也提供了丰富的文档和示例代码,帮助开发者快速上手。WxJava作为开发的Java SDK,为Java开发者提供了一个高效、便捷的开发工具。通过本文的深入解析,相信读者已经对WxJava有了更加全面的了解。
第八章 矩阵按键1. 导入在第七章中,我们学习了独立按键的使用,每个按键占用一个I/O口,当按键数量较多时会迅速消耗单片机资源。为解决此问题,本章引入矩阵按键(也称行列式按键),通过“行线+列线”组合识别多个按键,显著节省I/O口。矩阵按键广泛应用于键盘、遥控器、控制面板等设备中。本章目标:理解矩阵 ...
今年7月份vivo迎来了新入职的大学生,现在需要为每个新同事分配一个工号。人力资源部同事小v设计了一个方法为每个人进行排序并分配最终的工号,具体规则是:将N(N<10000)个人排成一排,从第1个人开始报数;如果报数是M的倍数就出列,报到队尾后则回到队头继续报,直到所有人都出列;最后按照出列顺序为每个人依次分配工号。请你使用自己擅长的编程语言帮助小v实现此方法。import java.i