深度剖析机会,数字人智能对话系统:未来的人机交互新范式腾讯云开发者社区

作者:邓恺俊,Datawhale成员

随着人工智能时代的到来,大模型的技术日新月异,我们不仅仅满足于文字之间的交互,希望能够有更近一步的交流。既然现在文字已经能够很好的模拟人类了,那随之而来的,是不是我们能够通过模拟人类交流的方式来交互。

随着技术的发展,那我们能不能以数字人作为媒介来进行一个面对面交互呢,这样我们就不仅仅可以通过文字交流,通过语音交流,还能以自然流畅的语音进行回应,同时结合数字人,增强交流的真实感,就好像一个人真切的站在我们前面进行对话,这是多么有意思的一件事情呀!

在大模型出现之前,这样的技术是受限的,因为还是基于简单的 QA 来设定对话,并没有智能的感觉,但是,随着 ChatGPT 的出现,为数字人赋能成为可能,大家认为这样的一件事情是可以实现,人们认为 AI 数字人可以实现虚拟陪伴,智能数字人助手等功能。

因此在人工智能时代,带来了一种新的人机交互的范式,可称为“数字人智能对话系统”,根据其功能,整个系统大概需要五大块组成:

💡 自动语音识别(ASR):将用户的语音输入转换为文本,能够更流畅的进行语音对话。

💡 大型语言模型(LLM):作为系统的语言处理中枢为数字人赋能,负责理解用户的输入并生成合适的回应。

💡 文本到语音转换(TTS)/ 语音克隆 (Voice Clone):将系统生成的文本回应转换为语音,使用户听到流畅自然的语音输出。

💡 数字人生成(TFG):结合语音特征与数字人技术生成数字人的形象和动作,提升交流的互动性。

💡 音视频流式服务(streaming):利用流式服务提高交互体验,能够达到实时的效果。

数字人智能对话系统

本文将详细介绍数字人智能对话系统,包括:

🔹 ASR:语音识别技术(第1节)——同数字人沟通的桥梁

🔹 LLM:大语言模型(第2节)——大语言模型为数字人赋能

🔹 TTS:语音合成技术(第3节)——赋予数字人真实的语音交互能力

🔹 Voice Clone:声音克隆技术(第4节)——在对话中模仿用户的声音

🔹 THG:智能数字人构建(第5节)——打造智能数字人

🔹 Streaming:音视频流服务(第6节)——提供流式音视频服务

🔹 总结(第7节)——综合回顾

🔹 未来展望(第8节)——探讨未来的发展方向

与此同时,基于此简单的想法,结合现有的较为不错的多个领域类的开源模型,我实现了一个数字人智能对话系统 Linly-Talker,融合了最新的人工智能技术,包括大型语言模型(LLM)🤖、自动语音识别(ASR)🎙️、文本到语音转换(TTS)🗣️和语音克隆技术🎤。这个系统通过 Gradio 平台提供了一个交互式的 Web 界面,允许用户上传图片📷与 AI 进行个性化的对话交流💬。

系统的核心特点包括:

1. 多模型集成:Linly-Talker 整合了 Linly、OpenAI、Gemini Pro、Qwen、ChatGPT 等大模型,以及 Whisper、FunASR 等语音识别模型和 SadTalker、ER-NeRF 等数字人生成模型,实现了高质量的对话和视觉生成。

3. 语音克隆:利用 GPT-SoVITS 等语音克隆技术,用户可以上传一分钟的语音样本进行微调,系统将克隆用户的声音,使得数字人能够以用户的声音进行对话。

4. 实时互动:系统支持实时语音识别和视频字幕,使得用户可以通过语音与数字人进行自然的交流。

5. 视觉增强:通过数字人生成等技术,Linly-Talker 能够生成逼真的数字人形象,提供更加沉浸式的体验。

Linly-Talker 的设计理念是创造一种全新的人机交互方式,不仅仅是简单的问答,而是通过高度集成的技术,提供一个能够理解、响应并模拟人类交流的智能数字人。

现已完成多个模型的集成,并且有对应的部署教程,小白易上手,点击访问项目地址即可查看项目详情,一键运行 Linly-Talker WebUI,欢迎 Star~~~

更加详细的信息和 demo 可以查看 bilibili 演示视频:

跟着 Kedreamix 探索 Linly-Talker

01、ASR - 同数字人沟通的桥梁

在数字人智能对话系统中,自动语音识别(ASR)是与数字人沟通的重要桥梁。用户通过语音进行对话,我们需要将语音转成文字,以便后续的大语言模型(大脑)能够理解和学习,从而实现更好的沟通和交流。

在现有开源 ASR 模型中,比较好的分别是 OpenAI 的 Whisper 模型[1]以及阿里达摩院的 FunASR 模型[2]。

参考地址:

Whisper:

FunASR:

通过这些 ASR 模型,我们能够实时将语音转换为文字。在 GPT4o 的语音对话系统中,可能使用的就是 Whisper 模型。我们也可以使用 Whisper 模型或 FunASR 模型来搭建自己的智能语音助手。

Whisper 和 FunASR 都提供了良好的 API 接口,使我们能够快速搭建系统。以下是关于 Whisper 和 FunASR 的两个演示,只需安装相应的环境,即可快速使用这些强大的开源语音识别模型。

02、LLM - 大语言模型为数字人赋能

通过语音识别(ASR)将语音转化为文本后,智能数字人对话系统会将文本输入到大语言模型中。大语言模型可以视为数字人的大脑,利用大语言模型为数字人赋能。随着人工智能的发展,大语言模型的发展的速度也是越来越快,因此在 LLM(大语言模型)部分有很多选择,在 Datawhale 的课程中也能看到许许多多有关于大语言模型使用和学习的教程。

可以利用 OpenAI 和 Google 的 API 直接调用 LLM,也可以使用诸如百度和 kimi 等开放平台提供的接口。在资源允许的情况下,还可以在本地部署开源大语言模型,如 Llama[3]、Qwen[4]、Linly[5]、ChatGLM[6] 等,以确保对话过程中个人信息的安全。此外,还可以采用 langchain 等方法来扩充知识库,甚至定制适用于自身需求的大语言模型。在 Linly-Talker 项目中,已经集成了多个大语言模型,用户可以选择使用适合自己需求的大语言模型来与数字人进行对话,从而充分利用大语言模型为数字人赋能,实现更加优质的对话体验。

03、TTS - 赋予数字人真实的语音交互能力

在大语言模型生成文本结果后,需要通过 TTS(文本转语音)技术将文字转化为语音,从而赋予数字人真实的语音交互能力。这正是 GPT-4o 所在进行的工作。通过整合文本生成、语音合成和数字人驱动技术,GPT-4o 能够将大语言模型的反馈转化为语音,并使用先进的语音生成模型提高交互的真实性。

04、Voice Clone - 对话时悄悄偷走你的声音

除语音合成之外,大家还非常关注克隆声音的技术,不过这个也是一个充满风险的事情。在现有的开源方法中已经有一些相当不错的成果了,能够通过 10 s中的少样本语音来克隆声音,这是相当难以置信的,并且这样在未来会衍生出定制数字人的方案。通过克隆语音加上克隆数字人形象来定制一个完整的数字人,这个数字人不仅仅带有真实的面孔还有真实的声音。

参考地址:

XTTS:

GPT-GoVITS:

OpenVoice2:

接下来介绍一下现有语言克隆模型中比较好的一部分,实际上还有火山克隆等 API 的方式,效果也是比较不错的。

这些技术的应用不仅能够在对话中提供更加个性化和真实的语音体验,还为未来的数字人定制方案提供了强有力的技术支持。

05、THG - 打造智能数字人

在数字人智能对话系统中,最为重要的一环是构建智能数字人。Talking Head Generation(语音驱动人脸生成)一直是人工智能领域的热门研究方向,并且在近期取得了显著进展。简而言之,这项技术通过输入语音和图片/视频,让静态图像或视频中的人物“动起来”,使得数字人能够进行真实的表达。这一步骤的关键在于数字人能否精准对口型,并且达到高质量的生成效果。实际上,数字人的概念非常广泛,凡是通过数字技术创造出的人类形象接近的虚拟人物都可以称为数字人,而 TFG(Talking Head Generation)则是其中一种基于语音驱动的人脸技术。

现有的语音驱动人脸技术已有较多的方法和方案,整体来说分为三种:

▪️ 单图输入驱动数字人

▪️ 视频输入驱动数字人

▪️ 定制数字人进行驱动

前两种方法一般采用基于卷积神经网络(CNN)和生成对抗网络(GAN)的方法,最火的是就是 2020 的 Wav2Lip[7],它能够将语音与静态图像或视频结合,生成逼真的数字人视频,同样有趣的还有 CVPR2023 的 SadTalker[8],可以通过单图生成数字人。

第三种方法在 NeRF(神经辐射场)技术出现后取得了突破,以 AD-NeRF[9] 为范式,通过五分钟的视频训练即可重建一个高度逼真的数字人。最新的 CVPR2024 的 SyncTalk[10] 技术更是能达到每秒 40 帧的生成速度,几乎实现了实时效果。

此外,近期广受关注的还有阿里的 EMO[11] 和微软 VASA-1[12],不仅生成效果逼真,而且在多个方面表现优异。这些方法基于强大的扩散模型的能力(diffusion-based),进一步提升了数字人生成的质量和速度。此外,腾讯也开源了 MuseV 和 MuseTalk 的数字人生成技术解决方案,能够在实时条件下生成高质量的数字人视频。

通过这些先进的技术,数字人智能对话系统可以提供更加沉浸式和自然的人机交互体验,使得数字人不仅能“听”懂和“理解”用户,还能以逼真的语音和形象进行互动。

06、Streaming 音视频流式服务

在数字人智能对话系统中,音视频流式服务是确保实现实时交互的关键技术之一。通过这项技术,用户的语音和图像数据可以实时传输到系统,同时系统生成的音视频内容也能即时反馈给用户,从而保证了对话的连贯性和互动的自然性。

这一技术模块的主要目标是实现对话的即时性,使得用户能够与数字人进行流畅的交流。通过音视频流式服务,用户可以享受到更加沉浸式和真实的人机交互体验,从而提升了整体对话系统的用户体验。

音视频流式服务需要依赖高效的实时传输技术,如 WebRTC 和 RTMP。这些技术能够确保在低延迟、高带宽环境下传输音视频数据,从而实现实时的交互体验。

07、总结

本文介绍了一种在人工智能时代带来的新型人机交互范式——数字人智能对话系统。通过整合自动语音识别(ASR)、大型语言模型(LLM)、文本到语音转换(TTS)、语音克隆(Voice Clone)以及数字人生成(TFG)等多项技术,该系统实现了高度逼真的语音和视觉交互。

我们探讨了各个技术模块的功能和实现方式,展示了如何通过高效的音视频流式服务来实现实时、自然的人机对话。Linly-Talker 作为一个融合了最新人工智能技术的数字人对话系统,为用户提供了一个创新的交流范式,不仅能够理解和回应用户,还能通过逼真的数字人形象和语音增强互动的真实感。

08、未来展望

随着人工智能技术的不断发展,数字人智能对话系统将迎来更加广阔的发展前景,如以下几个方面:

🔸 更加智能的对话体验:随着大型语言模型的不断进步和优化,数字人智能对话系统将能够实现更加智能、自然的对话体验。系统将能够更好地理解用户的意图和情感,从而提供更加个性化、贴近用户需求的回应。

🔸 更加沉浸式的交互方式:随着语音克隆技术和数字人生成技术的不断发展,数字人将能够以更加逼真的语音和形象与用户进行交互,从而提供更加沉浸式、真实感的交互体验。

🔸 多模态交互的普及:未来的数字人智能对话系统将更加注重多模态交互,不仅支持语音和文字输入,还将结合图像、视频等多种输入方式,为用户提供更加丰富多样的交互体验。

🔸 个性化定制服务:数字人智能对话系统将根据用户的偏好和习惯,提供个性化定制的服务。系统将能够学习用户的喜好和行为模式,从而为用户提供更加个性化、贴心的服务和建议。

🔸 社交互动与情感陪伴:数字人智能对话系统将不仅仅是简单的工具,还将成为用户的情感伙伴和社交伙伴。系统将能够理解用户的情感和情绪,与用户进行情感交流和互动,为用户提供情感上的支持和陪伴。

总的来说,数字人智能对话系统将在未来成为人们生活中不可或缺的一部分,未来,我们将继续优化和完善这一系统,推动人机交互进入一个新的时代,为用户提供更加智能、个性化、沉浸式的交互体验,成为人们生活和工作中的重要助手和伙伴。

参考文献

[1] Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]//International Conference on Machine Learning. PMLR, 2023: 28492-28518.

[2] Gao Z, Li Z, Wang J, et al. Funasr: A fundamental end-to-end speech recognition toolkit[J]. arXiv preprint arXiv:2305.11013, 2023.

[3] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.

[4] Bai J, Bai S, Chu Y, et al. Qwen technical report[J]. arXiv preprint arXiv:2309.16609, 2023.

[5] Li Y, Zhang Y, Zhao Z, et al. CSL: A large-scale Chinese scientific literature dataset[J]. arXiv preprint arXiv:2209.05034, 2022.

[6] Du Z, Qian Y, Liu X, et al. Glm: General language model pretraining with autoregressive blank infilling[J]. arXiv preprint arXiv:2103.10360, 2021.

[7] Prajwal K R, Mukhopadhyay R, Namboodiri V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM international conference on multimedia. 2020: 484-492.

[8] Zhang W, Cun X, Wang X, et al. Sadtalker: Learning realistic 3d motion coefficients for stylized audio-driven single image talking face animation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 8652-8661.

[9] Guo Y, Chen K, Liang S, et al. Ad-nerf: Audio driven neural radiance fields for talking head synthesis[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 5784-5794.

[10] Peng Z, Hu W, Shi Y, et al. SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis[J]. arXiv preprint arXiv:2311.17590, 2023.

[11] Tian L, Wang Q, Zhang B, et al. EMO: Emote Portrait Alive-Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions[J]. arXiv preprint arXiv:2402.17485, 2024.

[12] Xu S, Chen G, Guo Y X, et al. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time[J]. arXiv preprint arXiv:2404.10667, 2024.

THE END
0.微美全息(WIMI.US)引领自然语言人机交互突破奋进AI时代而微美全息面对大模型机遇时,利用AI图像输入、识别及推理分析的功能,加入计算机视觉功能后大模型能够实现多领域开花,向“计算机视觉GPT”迈进。微美全息这一进步不仅仅是技术的飞跃,更预示着人机交互方式的根本性转变。 如今在计算机视觉技术的加持下,微美全息针对自然语言方面研究迎来了更为明确的发展方向。从早期jvzq<84hkpgoen3ukpg/exr0ep5kl|14284/:6/235eql2ko|zbzqz79;>88:3ujvsm
1.图书推荐AI时代信息素养书单第一篇——人机交互本期为第一期——人机交互篇,书单包括:《AI提示工程:基础·应用·实例》《一本书读懂AIGC提示词》《文心一言:你的百倍增效工作神器》《提示工程:方法、技巧与行业应用》《向AI提问的艺术:提示工程入门与应用》。 温馨提示:每期书单推荐图书放置于图书馆一楼大厅展示架,先到先得,欢迎借阅! jvzquC41pg}t0k|w0gjv0ls1kplp1:5431<83>70jvs
2.下一代人机交互方式是语音还是手势+眼动?因此,现阶段的手势+眼动并不能开启下一个人机交互时代,这套交互方案或许只是未来的其中一种。 不是没到,就是时候未到 事实上,很多科幻电影已经向大众展示了未来的人机交互方式,虚拟投影+AI人工智能体。可以肯定的是,未来的交互方式一定是在三维空间展开,和Apple vision Pro类似,但与之不同的地方在于电影里的空间jvzquC41i0vdqwqkpg4dqv3ep1~03@8:13=4:A86:0nuou
3.Association(CNFA)集团设立“AI办公新生活”沉浸式空间体验,提出从空间规划(展厅画面)、大数据采集&应用、行迹分析、AI智能、终端控制、原生自然、职员健康、办公效能、人机交互等九个维度出发,构筑AI时代办公生态;不断优化AI办公空间整体解决方案;提供更加自由和智能的商用需求环境,引领社会积极健康的人文生活观念。 jvzquC41yy}/ewkc0eun0ls1dtgofhigvcomu:950jznn
4.ai时代主要的交互方式:人机互动与人机交互方式概述在21世的科技浪潮中人工智能()作为一项颠覆性的技术正以前所未有的速度改变着咱们的生活。时代的到来不仅让机器变得更加智能也为人与机器之间的互动形式带来了革命性的变革。从最初的单向指令输入到如今的多模态交互人机互动与人机交互形式的演进不仅体现了科技的进步更揭示了人类对未来生活的无限憧憬。 jvzquC41yy}/{jsiiw4ux8|gdiuw1jnvqpm03;97:;4ivvq
5.人工智能训练师理论知识考试题库(浓缩500题).pdf17.AI时代主要的人机交互方式为()。 A、鼠标 B、键盘 C、触屏 D、语音+视觉 答案:D 1.下面不属于领域知识智能问答机器人的是()。 A、淘宝智能客服机器人 B、南航智能客服 C、分拣机器人 D、电信智能客服 答案:C 19.已知area=1963.4375000000002,执行print({:.2f}.format(area))语句, 输出结果为O0 1 AjvzquC41oc~/dxtm33>/exr1jvsm1;5461653;4:2361895792672>;0ujzn
6.AI时代,该做点什么?前端实现人机界面(UI),并通过API 调用后端系统。后端包括了各种信息服务,例如数据库系统。AI 逐步取代前端UI,成为新一代人机交互方式。要求后端系统采取更加开放的API ,比如最近热起来的MCP,也是一种API。另一方面,在AI 时代,难以通过广告来支撑互联网时代的免费模式。收费式信息服务将会增加。例如,目前专业的搜索jvzquC41dnuh0lxfp0tfv8~cqlobyjs1ctzjeuj1fgzbkux136=42=>9;
7.人工智能时代教育的转向、价值样态及难点关键词:人工智能;教育;价值样态;难点;人机交互 1.引言 随着物质和技术的发展,教育的媒介及场域不断改变,并逐渐切入教育内里,至智能时代,万物互联,新的教育组织形态和教育结构孕育催生,教育变革势在必行。VR(虚拟现实)与AI(人工智能)的融合,十分适用于分布式虚拟仿真条件下的教育场景应用,实现虚拟课堂、虚拟实验、虚jvzq<84yyy4tpwz0pgz0rxwvcn4qjyDoqfCwkn|(ckj>5@=4
8.秦和平)1.多模态LLM进化,颠覆性变革人机交互方式人机交互方式人机交互方式的变革,显著降低 AI 应用门槛,可能带来新一轮生产力革命。 回顾人机方式的变革:从命令行交互到图形交互,引爆了 Windows 等一系 列操作系统的推广;从图形交互到触控交互,引爆了智能手机的推广。新一 轮由 LLM 驱动的多模态交互方式,大幅提升了自然语言理解能力,加入视 觉感知能力,是对人机交互方式的又jvzquC41zwkrk~3eqo52698;5289688348;44:=
9.2024MWC上海展:移动AI时代渐行渐近  当前,生成式AI正在重构信息的生产、处理、传递和交互方式,为移动AI时代注入新动能,带来新流量、新连接、新业务的巨大发展机遇,同时也对差异化业务体验经营、网络自动化运维能力提出了更高的需求。基于对自研通信大模型的融合应用,华为升级自动驾驶网络解决方案,打造面向5大角色的Copilots(智能助手)及5类场景的jvzq<84yyy4ykwmwcpku0lto1vkdj87246682=46c8l6f=>2;8j58l>ccd94eBk8hg937j61e0nuou
10.人工智能时代的法律范文AI时代,互联网、金融、医疗、教育、物流、娱乐、传媒等行业都在加速自己智能化的进程。可以想见,未来人工智能带来的科技产品,将会是人类智慧的“容器”。 而与此同时,人类命运和机器智慧的冲突与共存,已经由人机大战开始不断升温。 “人工智能百年研究”项目jvzquC41yy}/i€~qq0ipo8mcqyko1;7392:/j}rn
11.座舱设计趋势研究:3D立体化融合式交互探索除概念车外,2022年也有多款创新车型上市,尤其是新势力车企,如理想L9、问界M7、阿维塔11、集度ROBO-01探月版等,其人机交互、显示屏、座椅、音效、氛围灯、智能表面等新产品,新技术、新场景、新模式不断涌现。 理想第二款车型L9于2022年6月上市发布,其内饰风格上通过全新科技思维进行布局,实现五屏三维空间交互,其jvzquC41yy}/fxsiejkek7hqo1gsvrhng1=29;953878998:43>43
12.超星尔雅学习通《人工智能与信息社会》章节测试答案超星尔雅学习通《人工智能与信息社会》章节测试答案.pdf,超星尔雅学习通《人工智能与信息社会》章节测试答案 超星尔雅学习通《人工智能与信息社会》章节测试答案 1. AI时代主要的人机交互方式为(D)。 A、 鼠标 B、 键盘 C、 触屏 D、 语音+视觉 2. 2016年3月,人工智能程序(jvzquC41o0hpqt63:0ipo8mvon532;8126831A5892783<52276727xjvo
13.人工智能技术的发展范文随着时代的发展,人工智能技术越来越成熟和完善,在国内外众多科技企业和高校联合研究的努力之下,已经出现了智能语音、智能图像、语义理解等先进的人工智能技术,它不仅可以改变了人们的生产生活方式,更重要的是为人工智能技术的不断地创新和融合发展,逐渐形成一体化的人工智能技术链奠定基础。jvzquC41yy}/i€~qq0ipo8mcqyko1<7797
14.AI时代,眼镜或将超越手机?人类已经进入智能社会。很快,基于大模型的我们每天都在与无数APP打交道,操作繁琐,体验有限。这种人机交互方式可以称之为“牛马模式”,因为用户需要主动操作各种APP才能满足需求。 而在AI时代,交互将变成“老板模式”。每个人对应一个AI助理或Agent,只需要下达指令即可完成任务,剩下的事情都交给AI处理。 jvzquC41zwkrk~3eqo588B83;9<:988454=62>8
15.人工智能时代高等教育创新发展新趋势盐城工学院在提升教育资源的智能化与增进各国教育合作的同时,AI系统还能为大学生提供跨文化沟通技巧、国际商务礼仪等方面的知识与培训素材,进一步提升他们的跨文化交流能力和文化包容性。 相较于传统的教学资源,人工智能时代智能化教学资源的交互性优势突出,有助于促进大学生进行更深层次的知识学习与技能运用,还能帮助大学生对他们jvzquC41yy}/{lnv0gjv0ls1kplp1:5761;8:?;0jvs