进展下一代音频编解码标准,腾讯打好地基了!

AVS3音频编解码标准又向前迈进了坚实的一步!

第 87 次 AVS 工作组会上,《智能媒体编码 第 10 部分 实时语音》(以下简称AVS3P10)WD 1.0 通过全体会议审议;腾讯提交的技术方案,被选择为AVS3P10实时语音编码的RM0基线。

经过多方测试验证,RM0代表了目前AI Codec的最高水平!

AVS是国内多媒体领域最重要的标准化组织。2002年6月,国家原信息产业部科学技术司批准成立了数字音视频编解码技术标准工作组(AVS),面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准。

其中,AVS音频组负责组织制定音频编码技术标准。当前,AVS标准已经演进到第三代。

如今,实时语音通信技术(RTC: Real-time Communication)已广泛应用于在线会议、互动娱乐、社交等众多领域。在日常的视频会议、网络通话、游戏连麦场景中,经常受到来自复杂声学环境、接入设备的性能、网络信号差等因素的挑战,影响了用户体验。因此,在语音编码中,实现高质量、低延时、低带宽、高抗性是关键的一环。

今年的第85次AVS会议,正式立项了AVS3语音编码项目,并通过AVS音频组发出技术征集书;该项目预计明年中完成。该项目由腾讯会议天籁实验室牵头,协同腾讯标准事务中心主导发起,并负责推进维护。

该方案经由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证,覆盖不同带宽下的纯净语音、丢包语音、混合语音等多场景。

主观测试结果表明,AVS3P10 RM0在宽带和超宽带等多个主要测试场景均达到了4.0以上MOS分,体现出明显优势,最低码率可达5.9kbps。AVS3P10 RM0采纳了深度神经网络技术,自带的丢包损伤能力,有效提升了编码器在网络不佳时的质量。

此外,在ITU-T P.863客观质量评价实验中,AVS3P10 RM0也体现出了显著优势。第一,在所有8个测试码率中,AVS3P10 RM0均超过4.0MOS,最高在4.45MOS。AVS3P10 RM0的质量,可以对齐OPUS和EVS等传统信号处理编码器在中高码率的表现,达到运营级质量。在AI Codec领域,AVS3P10 RM0在相近码率下,质量优势在0.6MOS以上。上述测试结论均反映出,AVS3P10 RM0代表了目前AI Codec的最高水平。

本次AVS会议,腾讯侧提交的技术方案,来自于腾讯首款自研神经网络语音编解码器——Penguins。

传统的语音编解码器,包括AVS、ITU-T等标准语音编码器,在码率降低到10kbps以下时,语音质量下降明显,影响用户体验。

为应对此挑战,腾讯会议天籁实验室联合腾讯AI Lab,推出的腾讯首款自研神经网络语音编解码器——Penguins。作为新一代的AI Codec,实现了6kbps下的高质量通话,在主观质量上也非常接近原始参考信号,媲美OPUS在20kbps的质量。

Penguins作为新一代AI Codec,不仅能够将编解码效率提升300%,还充分考虑到了用户体验与使用场景,尽可能地降低码率和算力,维持与现有编码器同等音质的同时,普惠更多的接入机型。当前,Penguins已经在腾讯会议(驾驶模式、弱网模式等)和QQ等多个产品中规模应用,支持亿级用户的顺畅沟通。

此外,在保证高质量的前提下,更低码率的新一代编码器,在网络不佳时,会体现出极大的竞争力,比如降低网络损伤情况下的卡顿率,提升通话的流畅度和清晰度等。因此,Penguins可以相对传统编码器,可适应更多复杂的场景。

随着实时音视频通信技术的应用场景不断深入,对音频编解码也将提出更高的要求。腾讯首款自研神经网络语音编解码器Penguins,已经在多个场景下证明了,基于AI等新方法论的加持和工程方面的极致优化,低码率、高质量语音编码器具备很好的实用性。

AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。

后续,围绕AVS3语音编码标准项目的要求,我们将联合AVS音频组的专家,一起推动AVS3语音编码项目,进一步提升行业领域应对语音通信挑战的能力。让我们一起期待AVS3音频编解码标准的落地!

THE END
0.一文读懂丨巴菲特在股东大会讲了这些干货比尔·盖茨曾给他展示过最新的AI技术,当时盖茨特别告诉他AI还不能讲笑话。不过在意识到这个东西能做“各种各样”的事情后,巴菲特又感到有些担忧——毕竟人们不能在创造AI后,又把一切恢复到最初的状态(uninvent)。 3、芒格对人工智能的一些宣传持怀疑态度jvzquC41yy}/eww0ep5og€xegpzft8scvk|f1pi142842>591v814<5729e64?7657990|mvon
1.“目前最好的”AI聊天机器人,马斯克底气何在在OpenAI即将召开首届开发者大会,欲升级GPT-4和其他产品之前,马斯克提前一天官宣了自家xAI带来的大模型Grok,马斯克认为这是“目前最好的”AI聊天机器人。 马斯克的这个人工智能助手被称为 Grok,这是一个动词,意思是“搞清楚场合(再说话)”。牛津词典将其描述为“凭直觉或同理心理解(某事)”的能力。考虑到直觉是基jvzquC4158qs0lto1r537:8597?98@524;:
2.ZapierCentral,目前最被低估的AI工具之一!人工智能zapier与central的chrome扩展程序是目前最受欢迎的ai工具之一。它能够抓取您所在的任何网站,然后自动执行6,000多个应用程序中的操作。这使得操作变得更容易、更高效。 开发团队为了节省时间而实施的一个简单用例:在我们深入讨论之前,先简单介绍一下背景:@therundownai,我们有一个自动化的 AI 职位公告板,我们每天会从jvzquC41yy}/rqu0ep5gcz4:438327mvon
3.体验过NVIDIA的RTXAIPC后,我想未来已经触手可及这种筛选方式并非简单给文件打上不同类型的标签,而是ChatRTX通过AI主动识别文件的内容,从而做出最正确的选择。这种个人助理式的AI,不光可以帮助你省去很多麻烦,而且其目前已支持本地一键安装部署和运行,即便网络离线后依旧能使用,确保用户数据不会被泄露。jvzquC41yy}/5mricok/exr1qtohkwfn15=56@6;0jznn
4.罗博特科随着AIGC领域对算力和高速率光模块需求的提升,国内多家厂商如中际旭创、新易盛、剑桥科技、罗博特科、光迅科技、仕佳光子等公司相继布局硅光技术领域,未来有望进一步打开市场空间。 硅光这个领域里技术含量最高的就是设备。而在硅光设备里,A股只有唯一一个具有确定性的龙头公司——罗博特科。 jvzquC41ecogwqfq0ggtvvtpg{4dqv4pgyy0497625663B6542;27<588:6
5.全球要闻:美股走势分化道指续创新高苹果评级遭下调股价重挫3.6%导语:市场削减美联储降息押注,纳指跌超1.5%,道指尾盘惊险收涨续创新高;巴克莱5年来首次下调苹果评级至低配,后者股价创五个月最大单日跌幅;马士基决定继续停航红海;比亚迪正式登顶全球电车第一;中东局势升温。 当地时间周二,对于欧美股市2024年的首个交易日来讲,市场表现并不尽如人意。美股科技股集体走弱,纳指录得jvzquC41uvudm762lsqb0lto0et0w|xvqeq0497623641l;7599:;::0ujznn
6.《未来简史》赫拉利:这些职业将被人工智能取代棋牌何润锋:我们来谈一谈就业市场的问题。人类目前的职业中,最先被人工智能取代的会是什么? 赫拉利:无论是体力工作还是脑力工作,只需要单调工作的职业,不需要创造性和灵活性的职业,都将被取代。因为这些职业的思维是AI最容易替代的。 何润锋:我记得您说过,考古学被AI取代的可能性非常非常小。为什么?定义一种职业是否jvzquC41urusv|3ukpg/exr0ep5hq872393196631fud/rk{jykgr9:836=20|mvon
7.2022AACR总结:最值得关注的小分子药物研发方向TOP10勃林格殷格翰(BI)开发了全球首个进入临床的SOS1抑制剂,遗憾的是在ESMO2021会议上公布的数据没有显示临床活性,患者最好的响应状态为疾病稳定。2022 AACR,BI又带来了KRAS G12C抑制剂BI 1823911和SOS1抑制剂 BI 1701963的联用临床进展。除此之外,BI也在开发一种新的泛KRAS降解剂,目前仍处于临床前阶段。 jvzquC41zwkrk~3eqo59;?:96;<::87394685B>
8.如果《后翼弃兵》可有9.1分,那《棋魂》至少也当得起8.5以上(兼论褚嬴就是AI围棋最完美的样子与现实的呼应。回想起2016年李世石对阵alphago、2017年柯洁对阵alphago的画面,世界的顶尖人类棋手对阵代表AI的代棋手黄博士,难道不正是剧中代表围棋江湖最强的俞晓暘和代褚嬴执子的时光的对弈场景吗?褚嬴如alphago一样强,是沉淀了千年棋力的代表,杀遍网络棋手无敌手战绩全网第一被奉为神话jvzquC41oq|jg7iqwdgo0lto1tkwkn|134?:5:;71