字节用卷起老本行:进军视频生成大模型,可自由切换镜头接近实拍效果张楠ai豆包

视频生成大模型领域迎来重要玩家。

9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,现场发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,同时面向企业市场开启邀测。

对于视频生成大模型而言,生成视频的时长十分重要。目前,PixelDanc视频生成时长为5秒或10秒,Seaweed为5秒。火山引擎总裁谭待对时代周报等媒体表示:“视频生成有很多难关亟待突破。火山引擎的优势包含指令遵循能力、运镜(多镜头下主体一致性)等,背后有技术突破和全栈能力等优势。此外,抖音、剪映对视频的理解也是优势。”

值得注意的是,新款豆包视频生成模型正在即梦AI小范围内测,未来将逐步开放给所有用户。

今年2月,抖音集团原CEO张楠突然宣布转战剪映,要在剪映推动AI应用。宣布负责剪映仅一周后,2月16日,OpenAI推出可生成1分钟视频的Sora,让文生视频功能再次火爆全球。与此同时,张楠作为剪映业务负责人在朋友圈宣布即梦上线,即梦也成为张楠调任后第一次重要的产品更新。

在AI创新巡展上,剪映和即梦AI市场负责人陈欣然介绍了两款APP“AI化”的最新情况。她表示,过去制作类似质量内容需要5-10人团队,包括制作故事线、打磨特效、包装剪辑等,协作流程复杂,制作周期长达1-2个月,还需大量金钱和资源投入。但在AI帮助下,大部分创作者一人就能完成创作,制作时长也缩减至1-2周。

谭待也在演讲中提到:“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”

无论如何,豆包视频生成大模型诞生并在即梦和剪映中使用,意味着字节跳动在用AI卷起视频“老本行”的道路上往前更近了一步。

可自由切换镜头

据火山引擎现场介绍,豆包大模型的使用量在急速增长。

截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首发时增长十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

在庞大的用户使用量下,豆包大模型再次带来新变化。不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态。

此前,视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互——不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。“这意味着豆包生成的视频攻克了多景别切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,这也是豆包视频生成模型独树一帜的技术创新。”谭待表示。

关于模型未来的方向,谭待表示火山引擎更关注基于现有模型更好地落地和加速创新,“技术要满足用户需求,新老技术要不断调整适配。大模型的成熟标准是孵化后用户体验过且有一定体量的真实且较好的反馈,而不是实验室里的反馈。比如即梦、豆包都有大量内测,用户反馈是重要评测标准。”

此前,豆包大模型定下低于行业99%的token定价,率先卷起降价潮的火山引擎。目前,豆包视频大模型的使用定价尚未公布。谭待对时代周报等媒体表示,视频模型和语言模型应用场景不同,定价逻辑也不同,要考虑“新体验-老体验-迁移成本”,最终能否广泛应用取决于比以前的生产力ROI提升多少。

探索AI原生产品

此前,即梦的普通用户已可以生成3秒的AI短视频,VIP用户则可以延长3秒。

今年3月开始,剪映密集更新AI功能,如智能字幕、视频翻译等功能。并且还与抖音打通,对使用剪映AI功能的短视频进行流量和现金奖励扶持,例如优秀作品可获得DOU+500元/条的流量扶持。当前,剪映的VIP会员定价为1年218元,平均每月18.17元,即梦的VIP会员月费则为69元。

如数字分身应用,可基于音色克隆技术在剪映上线定制数字人音色克隆功能。制作数字人只需录制或上传一段3分钟的高清正面视频,音色克隆只需5秒声音输入,就能生成自然流畅、毫无违和感的声音,还能做各种语言的翻译。“我们很关注隐私和安全问题,在产品设计和技术层面要求用户本人确认,也会关注行业新规,提升服务安全性和可靠性。”陈欣然说道。

此外,还有针对电商商家的“内容营销”创作神器。过去,商家可能要花几个小时刷抖音和TikTok分析爆款带货视频套路,拆解套路、仿写文案,还要花几个小时剪辑,现在只需几分钟,只要填写商品名、上传素材或者粘贴商品页链接,就能一键生成多个不同风格的带货视频。

陈欣然特别提到,除了在已有产品上应用AI,剪映也在探索GenA(生成式人工智能)I时代下AI native(AI原生)产品的可能性,“即梦ai就是这个方向的探索产品,目前正在接入两款视频生成大模型,进行内测的场景打磨和效果打磨。我们认为,创作不应受制作成本、风格或者文化背景的限制,它应该是有趣的、快乐的、自由的。”

谭待也表示,大模型的应用成本已经得到很好解决,“大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.全网最全豆包AI使用指南,学会了效率提升90%但是偶尔刷到网上的视频,看到人家已经用AI做出很酷炫的AI视频,看到已经有AI数字人能够代替真人去拍视频、去直播、去带货,又感觉到AI发展怎么那么快?仿佛大家用的不是同一个世界的AI? 但是有没有想过,是因为你还没入门,还没掌握到跟AI沟通的钥匙呢? jvzq<84yyy4489iqe0ipo8hqpvkov8771273385813:8:Ad336;13:>680yivvq
1.豆包AI如何创建虚拟主播?数字人像全流程人工智能阿里云-虚拟数字人是什么? 2 查看详情 语音合成与虚拟主播的个性化 语音合成是虚拟主播能够与观众交流的关键。豆包AI使用了深度学习算法,训练出能够模拟人类语音的语音模型。这不仅包括语音的音调和节奏,还包括情感表达和语调变化,使虚拟主播能够根据不同的情境做出适当的反应。个性化是另一个重要的方面,豆包AI会jvzquC41yy}/rqu0ep5gcz4352944@3jvor
2.豆包MarsCode豆包MarsCode是字节跳动旗下的公司推出的一个免费AI编程工具,既提供一个AI驱动的云端集成开发环境(IDE),也支持作为VS Code和JetBrains的智能编程扩展(Extension)使用。基于 豆包MarsCode是什么? 豆包MarsCode是一个集成了人工智能编程助手的智能开发环境(IDE),旨在通过代码补全、解释、调试等功能加速开发过程。 jvzquC41yy}/crle0et0urygu1<89A;0jvsm
3.万兴播爆官网,视频创作神器,AI数字人,多语言配音,场景化模板,智能标签:ai工具集ai数字人 3+3-001 链接直达 万兴播爆官网,视频创作神器,AI数字人,多语言配音,场景化模板,智能脚本等功能 万兴播爆简介 A股上市公司万兴科技(wondershare)旗下产品,ai数字人短视频营销神器。包含AI数字人、场景化模板、多语言配音、智能脚本等功能。 jvzquC41dkknq‚z0eqs0urygu1}bpnpiduccx3jvor
4.5款热门AI数字人原型模板推荐,亲测好用!这款AI数字人—豆包大模型原型模板,结合先进的人工智能技术,专为数字人创作打造。该模板集成创作、音色调整、作品管理和兑换码管理功能,帮助用户高效定制个性化数字人形象和声音,实现丰富多样的数字人应用。 核心功能模块: 创作:支持数字人形象与内容的快速创作,方便用户通过模板和工具生成专属数字人形象及交互内容。 jvzquC41oqjbq7npm1ge1kqqi1GJ/mnikvgm/qzocp3qtxyqv{vf0qyon
5.15天12W粉的道家数字人养生视频,1分钟利用ai工具教你快速制作,自动化批本篇将分享如何快速制作这种数字人养生视频,同时会分享如何自动化批量生产视频的思路,助大家快速涨粉。 实操教程 第一步、打开豆包平台 网址: https://www.doubao.com/chat/ 输入提示词:人有三宝,精气神有3种仙果是补精气神的,是哪三种呢?核桃是健脑的花生米是补心的花生,你看它有一个外壳,里边一个红的皮,jvzquC41dnuh0lxfp0tfv8|gkzooa<>548=898ftvkimg8igvcomu8665881;=9
6.世优科技携AI数字人产品和世优虫洞亮相荷兰IBC2023,展示最新科技世优AI数字人系统拥有行业领先的“双AI数字⼈”直播系统 ,利用世优自主研发的小模型能力,与真人复刻型数字人相结合,⽀持真⼈与数字⼈同屏在线交互,让数字人具有高度自我学习和深度理解能力,通过识别互动关键词、真人语义语境,以及后台实时运算,带来极具真实感的互动场景,让数字⼈直播远高于录播形式。 jvzquC41yy}/rqu0ep5gcz4834=437mvon
7.AIGC大模型豆包数字人图片生成文案创作视频制作虚拟数字人 AI数字人 助力企业更好品宣和变现 海量数字人形象,覆盖电商、直播、广告等领域,助力企业轻松生产口播类内容;利用数字人直播技术,搭建日不落直播间,助力GMV增长。 相关商品查看更多 闪剪- 分身数字人短视频创作 口播短视频 文档转口播视频,做视频像写文档一样简单;提供一段视频,轻松生成数字世界的你 ¥jvzquC41ocxlg}3xqnifppnpg0ipo8fkie
8.文小言如何制作数字人随着科技的飞速发展,数字人技术逐渐走进大众视野,成为连接虚拟与现实的桥梁。文小言作为一款创新的智能体生成平台,为用户提供了便捷的数字人制作工具。本文将详细介绍如何在文小言平台上制作数字人。 随着科技的飞速发展,数字人技术逐渐走进大众视野,成为连接虚拟与现实的桥梁。文小言作为一款创新的智能体生成平台,为用户提供了便捷的数字人制作工具。jvzquC41i0vdqwqkpg4dqv3ep1~03B:913?69=<5:0nuou