本文将为您介绍如何快速创建音视频智能体。
为了使用阿里云AI实时互动服务,您需要满足以下条件:
若出现“您当前购买数量超过还可购买的数量余量,请重新选择数量!”,表明服务已经开通。
该节点负责将语音输入转换成可读的文字格式,支持多语种识别。
语言模型:您可以根据您的业务场景,选择不同的语言模型。
基于STT转换得到的文字输入,LLM可以使用大型预训练语言模型来理解和生成自然语言文本。
目前AI实时互动支持您接入通义千问(系统预置)、阿里百炼平台、阿里通义星尘以及自研接入(OpenAI规范)。
阿里云的大模型服务平台阿里百炼是一站式的大模型开发及应用构建平台。选择对接阿里百炼平台提供的语言模型和服务时,您可以选择对接阿里百炼模型中心或应用中心。
阿里通义星尘产品提供定制深度个性化智能体的能力,能够快速创造一个拥有自己独特的人设、风格的智能体,结合数字人语音实时交互能力,可以在指定的不同的场景中进行丰富的互动。
ModelId:目前阿里通义星尘有xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max五种模型供您选择。
AI实时互动也支持接入您自研的大模型,您可以按照OpenAI规范接入您的大模型。
OpenAI规范:如果您选择按照OpenAI规范接入,您需要填入以下参数:
名称
描述
示例值
ModelId
OpenAI标准model字段,表示模型名称
abc
API-KEY
OpenAI标准api_key字段,表示API鉴权信息
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目标模型HTTPS地址
OpenAI标准base_url字段,表示目标服务请求地址
该节点负责将处理后的文本转换回语音格式,以便用户听到系统的响应。
您可以选择适合您应用场景的文字转语音模型,包括:系统预置模板、自研模板、三方插件或百炼。
在TTS节点,您也可以对LLM输入的内容进行过滤。
文本归一化:将文本中的数字、符号等转换为统一标准格式,提升合成语音的质量。如"120°转为“幺二零。
该节点负责生成与处理后的文本和音频相对应的动作、表情和口型同步的数字人视频流。
当前支持在数字人节点中对接数字人插件、对接阿里灵境数字人:
对接数字人插件:
该节点负责从视频中抽取单帧或多帧的图片。
该节点负责识别视频内容中,是否存在特定行为。
基于前置节点对数据的处理,MLLM可以对输入的图片与文字进行理解,生成自然语言文本。您也可以通过选择不同类型的模型来控制模型的输入。
目前AI实时互动支持您接入通义千问(系统预置)、阿里百炼平台、阿里通义星尘以及自研大模型。
阿里云的大模型服务平台阿里百炼是一站式的大模型开发及应用构建平台。选择对接阿里百炼平台提供的语言模型和服务时,您可以选择对接阿里百炼模型中心或应用中心。
在创建智能体应用时,您需要选择多模态大模型qwen-vl-max或qwen-vl-plus,否则无法发布视频类型智能体。
通义星尘产品提供定制深度个性化智能体的能力,能够快速创造一个拥有自己独特的人设、风格的智能体,结合数字人语音实时交互能力,可以在指定的不同的场景中进行丰富的互动。
ModelId:目前通义星尘有xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max五种模型供您选择。
AI实时互动也支持接入您自研的大模型,您可以按照OpenAI规范接入您的大模型。
OpenAI规范:如果您选择按照OpenAI规范接入,您需要填入以下参数:
名称
类型
必填
描述
示例值
ModelId
String
OpenAI标准model字段,表示模型名称
abc
API-KEY
String
OpenAI标准api_key字段,表示API鉴权信息
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目标模型HTTPS地址
String
OpenAI标准base_url字段,表示目标服务请求地址
单次调用图片数上限
Integer
由于部分多模态大模型单次请求可接收图片帧数量有上限,您可以设置此参数来适配不同的大模型。在请求您的MLLM服务时,会自动按照该值对视频进行抽帧采样。
15
单击保存,完成音视频工作流创建。
配置基础信息,绑定音视频类型实时工作流。
绑定具体的音视频工作流,AI智能体将遵循工作流运行。
AI实时互动依赖于ARTC应用,ARTC应用作为通信桥梁,确保对话功能的正常运作。
当您绑定的工作流类型为语音通话时,可以在高级功能配置中上传自定义形象,以便在语音通话场景中展示该形象。
单击提交,完成音视频智能体创建。
消息对话智能体创建完成后,您可以通过扫描体验二维码来进行智能体的体验。
请使用钉钉、微信或浏览器扫描二维码,或将体验地址复制到浏览器中,以体验H5版本的Demo。
Region ID:智能媒体服务控制台上工作流、智能体所在区域。
地域名称
Region Id
华东1(杭州)
cn-hangzhou
华东2(上海)
cn-shanghai
华北2(北京)
cn-beijing
华南1(深圳)
cn-shenzhen
新加坡
ap-southeast-1
ARTC应用的AppId和AppKey
关注阿里云公众号或下载阿里云APP,关注云资讯,随时随地运维管控云服务