豆包端“开箱”,从语音卷到了方言

8月22日,火山引擎 AI 创新巡展上海站开幕,活动展示了豆包大模型在综合评分、语音识别等方面的效果提升,语音能力是此次发布重点。

大模型团队聚焦了对话式 AI 实时交互,产出 Seed-ASR ,这项成果或许可以对标OpenAI于7月31日发布的 ChatGPT 全新高级语音模式。

根据当时社交媒体上发布的视频,OpenAI 员工可以打断聊天机器人,并要求聊天机器人以不同的方式讲述故事,而聊天机器人则从容应对他们的打断并调整其响应。

简单来说,支持“边想边说”,具备更强的上下文感知能力,因而有着更优秀的推理能力,更准确的回答结果。

引人注目的是,豆包声称其语音能力支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。

这让我迫不及待想和它港言港语、川里川气几句。

接下来我将基于1.19.5_mac版本的豆包 AI PC端,测试AI文本伴读、截图识别以及日前大热的AI看视频、AI方言识别等功能,看看豆包相较于各家网页版AI大模型提供了哪些新的东西。

老规矩,着急的朋友可以直接下拉到总结环节。

AI 文本伴读

首先是AI 文本的伴读。

我打开一条新闻,下拉到总结部分,选中我想要辅助的段落,豆包自动出现了搜索、翻译、解释、复制等功能。

在发现更多技能中,是AI划词工具栏,下设文本的扩缩写、修正、润色等功能6项,改写为社交媒体文案或视频脚本等功能3项,生成周报、okr、代码纠错等功能4项,优缺点总结、抽取任务项、头脑风暴等6项,加之难以归类的,一共有22项模块功能可自定义置顶设置。

我选择了最基础的要求豆包解释,经过约25秒的等待,我获得了以下这些内容。

可以看出,豆包首先概括大意,接着是对话性更强的通俗阐释,亮眼的是,它主动识别并解释了所选文字段落的专有名词,如上文的“帕累托规则”。

至此,豆包这个模块所提供的22项功能是否能在智能化和个性化上显现出更深的理解能力,还有待观察,但可以明确的是,PC端后台运行时,我不需要复制粘贴到另一个窗口来搜索,甚至摘出专有名词单独搜索或提问了。

AI图片识别

当我使用豆包截图时,弹出了解题答疑、翻译、问问豆包3个功能项,于是我选择了一道高中数学题请豆包解题答疑。

豆包不仅提供了截图区域的一道题的解题过程和答案,还提供了几道类似的题目及其解答。

但当我使用翻译和问问豆包时,不仅无法智能断句,还频繁出错。

考虑图片识别的难度,我切换了成段落的文本,然而并没有改善。

我又尝试了问问豆包,下设整理图中核心内容和提取文字两个模块,我分别进行了尝试。

总的来说,核心内容整理功能的表现优秀,但文字提取甚至没有识别完整的图片,而这还是排列工整的铅字文。

AI看视频

于是我随机选择了《晚酌的流派》第三季·第7集的内容,经过了约20秒的等待获得了以下内容。

视频是日语配音,中文繁体字幕,大概也是为难豆包了。

视频开头对主旨有清晰概括,在右侧的文本总结中却并没有清晰体现。并且,在“对他人的感激”板块,视频中人物感谢的是鱼子小姐而不是牛田先生,豆包概括出错。

AI方言识别

语言识别没有问题,豆包理解了“我想吃粥底火锅”,甚至提供了“北京哪里有好吃的粥底火锅?”的选择搜索项,但消息发送后跳转到了AI搜索的对话界面,且回复我的是文本而不是语音。

另外,方言输入只在首页可以使用,我无法在对话界面继续以方言进一步输入。因此我需要一次次回到首页,而每一次的消息发送都将打开一个新的导航页窗口。。。

不过,能够方言输入仍然是较大的突破,总体表现差强人意。据了解,豆包的app端是支持语音回复的。

我尝试在手机app端以方言语音输入了同一句话,豆包以普通话语音回复了我,并提供了“北京哪里有好吃的粥底火锅?”的选择搜索项。

也就是说,豆包支持方言输入,暂不支持方言交互。这一功能更多停留在趣味性和商务场合应用,譬如对方言参会者的会议记录整理。

总结环节

在我的想象中,桌面有一个AI 电子人偶,它像我的猫一样为我提供情绪价值,还真正助理我handle我的一切。它像 Siri 一样容易唤醒,但比 Siri 更强大。

豆包的 AI 文本伴读在PC端可以跨应用服务,提供了22项模块功能,除了基础文本润色,还场景化了社畜、程序员、自媒体工作者的适用范围,它有着我想象中的基本面,但也有很大的探索和成长空间。

图片识别方面,解题答疑是不错的,相当于PC端的作业某帮和某猿。但考虑到PC端的用户群体,则期待豆包在高等数学+方面有深入的耕耘。毕竟,普通作业和试卷的解题答疑还是手机来得快,配合电子版题目或论文,才会产生PC端的需求。

AI看视频的分段和总结功能十分抢眼,尤其是科普视频,豆包大有可为。人文社科主题则是各家大模型的共同难题。

事实上,AI方言是我最期待的功能,毕竟,“乡音无改鬓毛衰”,故乡有时是一串长长的菜单,有时是熟悉的“那味儿”。但整体看来,豆包的方言交互生态还有一段路要走。

方言对话所识别的,不仅是现代都市人的故乡情思。更重要的,是科技穿透冰冷的屏幕,对那些无法说出通用“中文”的人的关怀,他们以生命书写着无声的历史,却常常被历史遗忘,他们同样需要AI,以及AI附带的一切价值。

当方言从识别走到交互,豆包也许也会因此而走得更远。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

THE END
0.如何用豆包AI快速制作视频?全程6个步骤详细拆解太爆裂了,豆包AI居然可以制作视频,速度比即梦还要快。想要制作视频的朋友们,抓紧时间看,学完记得收藏。 只要讲到AI制作视频,多数人都会想到的是即梦。然而,豆包AI经过几次升级,现在可以说与即梦已经不相上下。尽管都是字节旗下的产品,但两者定位有所不同。 jvzq<84d0sooi}jpil{ekjs0eqs0rjlg44:@c{ykenk`kmB;6;;
1.豆包怎么生成视频豆包怎么生成视频 豆包作为一款功能强大的AI视频制作工具,近年来受到了广大用户的青睐。它不仅能够根据用户提供的素材和指令快速生成视频,还提供了丰富的编辑功能,让视频创作变得更加简单和高效。下面,我们就来详细了解一下如何使用豆包生成视频。 一、下载安装与注册登录jvzquC41yy}/rltpnktf0lto0et0cr43;6703B9372>20qyon
2.如何用豆包AI文字生成动态视频直接把文字变成动态视频,豆包AI现在支持这个功能,操作也不复杂。下面一步步告诉你怎么用豆包AI把一段文字生成带画面、配音、字幕的动态视频。 1. 打开豆包AI并进入视频生成功能 打开豆包AI的官网或App,登录你的账号。在主界面找到“AI视频生成”或“文生视频”功能入口,一般会放在首页推荐或者创作工具栏里。 jvzquC41yy}/rqu0ep5gcz4378:79>3jvor
3.豆包可以生成视频吗豆包可以生成视频,用户可以通过文本或者图片来生成视频,并且可以进行剪辑、配乐等,操作简洁方便。 用豆包ai怎么制作视频 首先需要准备生成视频的原始素材,可以是图片、视频或者文本内容 如果需要用文本内容生成,则需要提前写清楚关键描述词和自己想要的内容方向 jvzquC41yy}/90eqs0i~nfg1krvƒ8;226/j}rn
4.豆包AI如何制作Vlog片头?片头模板套用教程制作豆包aivlog片头非常简单,只需几步:1.选择适合的模板,根据vlog主题和受众筛选;2.个性化定制,包括替换文字、图片和视频,调整颜色和添加音乐;3.解决常见问题,如元素替换和动画效果,通过检查模板版本和调整层级解决;4.导出片头,选择合适的格式和分辨率,并插入vlog开头。 jvzquC41o0jvq}j0eqs0vnhj146379;1:9869A3jvor
5.2025豆包新版AI制作视频图文教程怎么用豆包制作AI视频在AI技术飞速发展的当下,视频创作早已突破传统模式的局限,AI视频已经成为人们热议的话题,豆包作为一款全能型的AI软件,自然具备这一功能,下面天极软件品鉴官就为大家带来2025豆包新版AI制作视频图文教程。 提示:当前豆包教程版本是V1.59.3,使用AI视频制作工具请下载此版本。 jvzquC41o0fut~0eqs0pn|u14?:;=<0jvsm
6.22个视频疯狂涨粉33W!用豆包AI剪映制作日常治愈系动画Vlog,只需322个视频疯狂涨粉33W!用豆包AI 剪映制作日常治愈系动画Vlog,只需3步,轻松实现日更变现(直接抄作业)jvzquC41yy}/5?5fqe4dp8ftvkimg87992949;d337>22B;:60nuou
7.普通人如何用AI搞钱,做出爆款短视频如何利用豆包ai赚钱对于普通人而言,要想在 AI 风口下搞钱,最佳途径便是借助 AI 做自媒体。在当今自媒体时代,每个人都有成名机会,都有可能打造出属于自己的爆款作品。接下来,一起看看具体如何运用 AI 制作出属于自己的爆款视频吧。 第一步,借助 AI 捕捉大热门话题。 在豆包中输入提示词,让 AI 依据你的赛道,推荐十个爆款选题。例jvzquC41dnuh0lxfp0tfv8Ytd4622:81ctzjeuj1fgzbkux13679:>:27
8.如何运用豆包AI高效整合视频片段:全面解析编辑功能在数字内容创作的浪潮中,豆包AI以其智能化的视频处理能力脱颖而出,为创作者们提供了一站式的视频编辑解决方案。今天,我们将深入探索豆包AI的一项核心能力——多视频片段合并功能,这不仅是视频制作流程中的关键步骤,也是实现创意视觉叙事的重要环节。通过豆包AI的精细剪辑工具,即使是初学者也能轻松将多个视频片段无缝衔jvzquC41yy}/f~tvg0ipo8ygej532;:281>85;750jznn
9.如何用豆包AI文字生成教育视频先写好500–1500字的教学文案,分段落加小标题;用豆包AI教育模板粘贴文本,选语音风格、开字幕、自动匹配画面;预览后修正发音、替换画面、加片头结尾,导出1080p MP4视频。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ jvzquC41yy}/rqu0ep5gcz437:<26B3jvor