任务型对话生成冠军!京东云以产业率先领跑赛道财经

任务型对话生成AI冠军!京东云以产业AI率先领跑AIGC赛道

近日,京东云旗下言犀在国际上影响力最广泛的任务型对话数据集MultiWOZ上以103.4的分数斩获端到端任务型对话生成排行榜第一。

MultiWOZ数据集端到端任务型对话回复生成榜单(榜单自下而上)

超大规模客户服务实践锤炼 言犀算法挑战高难度任务型对话

MultiWOZ数据集是国际上影响力最广泛的任务型对话数据集,由剑桥大学提出,聚焦大规模多领域多轮次的任务型对话,数据集包含从旅游城市信息中心获取的游客和职员之间高度自然的对话,并考虑了多种可能的对话场景,从询问有关景点的基本信息到预订餐馆旅店等丰富情景。其中,70%的对话是包括2-5个领域的多领域对话,是自然语言处理领域最经典,挑战性最高的数据集之一。

由于其具有挑战性的设置,MultiWOZ任务型对话数据集一经发布吸引了全球众多高校和科研机构的参与,包括来自清华大学,香港科技大学,微软研究院,亚马逊,DeepMind以及Salesforce等多个研究小组。

言犀本次参与的是端到端任务型对话生成任务。该任务需要首先通过用户对话识别用户意图,生成对话状态;基于生成的对话状态查询数据库,实现实体匹配;根据查询数据库结果生成相应的系统对话策略,最后提供满足用户目标的自然语言回复。例如下图中,对话系统首先需要理解用户的对话意图,包括列车领域的出发地、目的地、到达时间以及餐馆领域的菜系、餐馆区域等信息,最后提供给用户满足条件的列车车次以及餐馆名称并完成餐馆预订。

本次言犀团队提出的Mars模型,创新性地利用语义感知的对比学习方法来增强对话上下文表征与对话状态和对话策略之间的关系建模,从而使对话系统更好地完成任务。除了总评分,Mars模型在三个分项评价指标Inform, Success和BLEU也分别以89.9、78.0、19.9排名第一。

这一成果是基于京东言犀在任务型对话生成方面的丰富实践。作为业内首个大规模商用的智能客服系统,言犀已支撑了京东客户服务全链条和全生命周期,日均生成1000万对话,服务京东5.8亿用户和17.8万商家。

扎实推进产业AI 基于数智供应链广泛布局AIGC赛道

2022年被称为AIGC(AI Generated Content)元年,生成内容也从单一的文本、对话生成扩展到了语音、代码、图像、视频、数字人、数字孪生等领域。作为一家新型实体企业,京东云旗下言犀坚持产业AI的推进路线,旨在将前沿的AI技术与数智供应链上广阔的产业相结合,进行融合创新,带来真正意义上的产业价值。

在文本生成领域,言犀目前可以实现短文、长文的生成,依靠领域性大模型K-PLUG,可以实现短文本和长文本的自动生成。目前言犀商品文案生成模型已经覆盖了京东的3000多个三级品类,累计生成文案30亿字,应用于京东发现好货频道、搭配购、AI直播带货等,累计带来超过3亿元GMV。

在语音生成领域,言犀使用基于端到端网络结构的声学模型,对于音调,音量,时长等信息进行了显式建模,同时使用了基于对抗神经网络的神经网络声码器,可以合成非常自然的并且高质量的语音。言犀语音合成技术大幅降低了语音合成模型对于训练数据的依赖,只需要30分钟训练数据可以生成定制化精品音色,同时只需要10句话就可以实现高质量的小样本音色克隆。

除外,言犀语音团队还推出了“语音编辑”的功能,让用户可以直接通过编辑文本进行音频内容的编辑操作,支持音频内容的删除、修改和插入三种常见操作,编辑区域的韵律保持和上下文一致,并且编辑边界过度平滑,编辑之后的音频可达到原音频音质。目前言犀语音合成API日均调用量超过20亿次,支持中文、英文、泰语,广东话、成都话等各类方言、音色。

在数字人生成领域,言犀面部动作方面通过自研的3DNeuralRender神经渲染器,可以高保真地合成主播面部细节。动作上,言犀研发的动作合成方案,基于RIFE插帧多插入点的快速动作过渡,可以让数字人的动作更加流畅自然;互动中,2D及超写实、高精度3D数字员工驱动方案,可以实现音唇精准同步。作为AIGC的集大成者,言犀目前拥有100+数字人形象,广泛的应用于政务、金融、零售直播等领域。

在数字孪生领域,京东云利用数字孪生技术对产线和制造工艺进行仿真优化,缩减现实世界中的调优试错环节,进而降低产业成本,提升产业效率。

未来,京东云将秉承开放共生的理念,将“更懂产业”践行到底,将“产业AI”扎根到底,激发更多的新模式、新业态,为各行业的高质量发展注入新动能。

参考文献

Haipeng Sun, Junwei Bao, Youzheng Wu, and Xiaodong He. Mars: Semantic-aware Contrastive Learning for End-to-End Task-Oriented Dialog

THE END
0.免费的AI数字人heygem保姆级教程:仅需8秒视频!让任何人开口说指定台词4.导入heygem 5.启动heygem 6.使用heygem做第一个视频 6.1 双击启动heygem 6.2 定制数字人 6.3 使用数字人生成视频 最后生成的效果: 原视频: 7.常见问题 正文: 准备工作 下载安装包: (2个安装包里的内容一样,选择一个下载即可。为了避免资源被封,所以传了2个地方) jvzquC41dnuh0lxfp0tfv8~gucoxgw4ctvodnn4fgvgjn|436;74;@77
1.太炸裂了!全网仅1%知晓的最强AI克隆数字人,无需视频就可以克隆数字人的平台是越来越多了,可见数字人的普及程度已经很习以为常了。 现在很多平台克隆数字人都需要拍摄一段视频,随的heygen偷偷摸摸的升级,直接给其它产品上了新的高度。 升级主要亮点:只需要几张图片+文字描述,无需拍摄视频,就可以创作出高质量AI数字人。 jvzquC41yy}/eunemu{o0ls1oky0dkx1ujuxdkx0cuv@kmB4:5>1
2.AI数字人,告别「印钞机」年代文|硅基研究室,作者|kiki2024年3降价之外,从去年下半年开始,数字人厂商也在掀起「开源热」。 比如硅基智能在近期开源数字人模型heygem.ai,阿里达摩院推出的 EchoMimic V2,专注在数字人半身动画视频生成;腾讯与浙大联合开源的 Sonic ,京东开源的普通话数字人项目JoyHallo、字节跳动推出的端到端唇形同步框架Latentsync等等,都在加速数字人技术的普及。 jvzquC41zwkrk~3eqo56:B>32:>6:884;;=73A=
3.AI成美妆、个护营销大战主角“一键生成脚本”为直播提效在武彬看来,不论是数字人还是真人,都是内容的方式或者载体,“我们其实看的是这个内容能不能变得更加丰富多样,所以数字人只是一种内容的生成方式。虽然直播会有部分限制,但是在短视频里,通过数字人生成内容会更搞笑,我们也大量使用了数字人技术。” 南都记者从多位业内人士处都了解到,其实抖音今年尝试了多种AI虚拟jvzquC41ycv/gjxvoqtf{7hqo1g04977278:5=69:8965>3jvor
4.AI驱动的视频内容革命:工具技术现状和未来的全景解析AI视频生成正逐步应用于虚拟现实、数字人讲解、虚拟偶像等,推动沉浸式体验和个性化内容生产。 Runway ML、Sora、万兴“天幕”具备复杂视觉特效和场景迁移能力,部分工具支持多媒体全方位生成。 HeyGen、Synthesia等在数字人生成、唇形同步、多语言支持方面表现突出,适合企业培训、虚拟代言等。 jvzquC41dnuh0lxfp0tfv8~wpvuoiuncpijb1jwvkerf1mjvckrt1:998::99A