抖音离任，奔赴视频新风口|ai的发展趋势及前景视频下载_AI前景

抖音集团CEO官宣卸任，真是一石激起千层浪！

一方面，虽然字节高层要调整早有传闻，但靴子落地依然让人意外：为什么会是她？

要知道张楠，可是字节从零到一打造出抖音、火山等UGC视频产品的大功臣。

另一方面，她下一步去的是一个抖音“配件”项目——剪映，并且以始终创业的状态。

虽说变动如此突然，但其实在内部早有迹可循。

消息称，过去一年张楠将大多数精力都放在剪映任务上，并且亲自带队即将推出一个AI生图和视频的产品。

抛开外界各种对大厂组织调整的讨论，咱要是从技术和趋势来看，张楠下一站，妥妥是今年的AI风口。

春节前夕，张楠朋友圈官宣即将卸任CEO的决定，之后将更多精力放在剪映上。

不过之后，她还是继续向字节跳动CEO梁汝波汇报。

在梁汝波内部信中指出，是“结合业务发展需要和个人意愿”的原因，张楠不再担任抖音集团CEO，专注负责剪映业务。

对于接任者，他表示，目前抖音集团暂时还没有新设CEO的计划。

原本直接向张楠汇报的各业务负责人，现在汇报给抖音董事长、商业化负责人张利东，包括抖音负责人韩尚佑、番茄小说及今日头条负责人张超、抖音电商负责人魏雯雯、抖音生活服务负责人浦燕子以及抖音广告业务负责人赵修影。

此番字节高层变动之后，据晚点统计，目前抖音已完成高层大调整。

此前抖音的产品和商业化分别由张楠和张利东领导，如今由张利东来统筹这两大板块。

在此之前，抖音BU也完成了一系列的人员调动，比如字节商业化部门巨量引擎营销副总裁陈都烨转岗至抖音、抖音原增长负责人吴晓丹则转岗剪映，抖音开放平台原负责人常坤加入抖音生活服务部门……

抖音为什么调整？

当时，梁汝波提到，目前字节最大的危机感就是组织平庸化，“字节该有的大公司病全有了”。

但可能被忽略的是，如果从AI技术变革来看，字节正在面临挑战和机遇。这就是AI生成视频，而且剪映似乎就是字节最好的容器。

剪映有着天生的AIGC场景优势。

消息显示，截至2021年，剪映的月活用户已经突破1亿，是国内最大的移动视频编辑产品。去年11月，剪映测试了一个名为“Dreamina”AIGC工具。它能根据文字生成创意图像。

相信使用过的朋友都能感受到，剪映其实就是个“大AI”。

语音识别/生成、文本生成、虚拟人生成、AI配音等等这些基本实用的AI功能暂且不说，并且还会时常更新。

比如就有贴心的小伙伴整理了最新版本的新功能，像时空穿越特效、古风穿越特效、文字转视频、主题（标题）变视频、智能抠图、视频转手绘等等。

除此之外，剪映还同ChatGPT合作，选择他们的插件，一句话就可以做一条视频，并且支持各种细节修改。

处在AIGC视频生成风口的关键时刻，作为国内乃至全球短视频应用的顶流，无论是剪映、抖音还是背后的字节，这样的机遇当然不容错过。

而AI视频领域争斗变得愈加白热化，是从“老大哥”Runway发布Gen-2以后开始的。

无论是初创团队还是大厂，琳琅满目的视频生产工具如雨后春笋般竞相发布。

在竞赛的过程中，AI视频的画质、细节、时长等指标，快速地进行着一次又一次地飞跃。

像Stability、Runway这样的明星独角兽，估值都已达到了10亿美元量级，受到了谷歌等大厂的投资。

而在这些爆火的AIGC视频应用背后，主要有三条技术路线。

它们往往是通过非直接方式来生成视频内容，比如将运动和内容分解、把前景（移动物体）和背景分离。

这类早期方案虽然在清晰度、连贯性和时长上都不尽如人意，但也起到了抛砖引玉的作用，AI视频生成也是被GAN带火的。

△微软视频生成工具NüWA，早期版本基于GAN实现

进入新的阶段，自回归模型和扩散模型两条路成为了新的主流。

自回归模型根据先前的帧来预测下一帧，不断递归拼接，视频较为连贯自然，最典型的架构就是Transformer。

2021年，罗格斯大学的学者发表了首篇Transformer架构视频生成工具的论文，并被ICML所收录。

后来，新版本的NüWA模型也从GAN切换到了Transformer架构。

扩散模型的概念则最早在2015年的ICML上被提出，但直到2021年下半年，“Stable Diffusion”的前身“Latent Diffusion”才真正让扩散模型火了起来。

它的基本原理是通过逐步添加噪声和去除噪声来生成图像，生成图像的真实性高、细节更为清晰。

到2022年4月，扩散模型正式被谷歌应用到了视频生成领域，推出了Video Diffusion模型成为新的文生视频SOTA。

直到现在，AIGC视频领域的头部选手，大多都已采用Transformer或扩散模型作为底座。

而放眼AI视频生成的战场，不得不提的就是老牌厂商Runway了研发的Gen-2了。

Gen-2生成视频的效果已经克服了以往“一眼AI”的缺点，分辨率也达到了4k，是众多视频生成工具中清晰度最高的。

时长上，Gen-2可以一次支持18秒的长度，这在AI视频生成工具中也是前所未有。

Runway创始人兼CEO Cristóbal Valenzuela更是在?中表示，一个激动人心的新（创意）时代已经要开始了。

而在去年，Runway也迎来了一位强悍的挑战者——斯坦福华人博士郭文景（Demi Guo）休学创业做出的Pika。

它可以根据输入的图像或文本流畅地生成视频，而且可编辑性强，指定视频中的任意元素均可快速替换。

靠着Pika惊艳的效果，这家初创公司成立仅半年时，就新斩获5500万美元（约4亿人民币）融资。

其中个人投资者不乏各种大牛，如Quara创始人Adam D’Angelo、Perplexity的CEO Aravind Srinivas、GitHub前CEO Nat Friedman等等。

开源模型则有Stable Diffusion团队推出的Stable Video Diffusion，支持生成约3秒的视频，分辨率为576×1024。

除了这些专搞AI视频的初创团队，巨头大厂们也纷纷参与进了这场战争。

比如Meta于去年11月发布的Emu Video，同样支持4K画质的视频合成，在用户评估中号称打败（当时的）Gen-2、Pika等对手。

谷歌也在12月交出了自己的模型VideoPoet，它没有用常用的扩散模型，还零样本实现了SOTA。

相较于此前一些模型，画面更加稳定、动作更加逼真，清晰度也直线up。

就连主要经营硬件产品的英伟达，也推出了基于扩散模型的视频生成工具PYoCo，并被2023年的ICCV大会所接收。

不仅国际市场上的斗争火热，国内这边也同样激烈。

比如今年1月，字节就推出了AI视频生成模型MagicVideo-V2，支持4K、8K超高分辨率，测评效果超过Gen-2、Pika以及现有AI视频生成工具。

有研究者对比了MagicVideo-V2和其他大牌工具的表现，以细节写实能力为例：

小男孩在公园的小路上骑着自行车，车轮踩在碎石上发出嘎吱嘎吱的声音。

可以看出只有MagicVideo-V2和SVD生成的视频最贴合提示词，但MagicVideo又以更真实的脚步动作胜过了SVD。

（左：MagicVideo-V2，中：Stable Video Diffusion，右上：Pika，右下：Gen-2）

而像这样“长江后浪推前浪”式地竞相更新，更是最近这半年才有的事，这半年一个又一个模型相继涌现的过程中，几乎每个成果都可以说是颠覆性的。

在这样的浪潮当中，抖音当然不想成为被颠覆的一个，所以最好的方式，就是在被外部力量颠覆之前，实现自我颠覆。

字节把张楠从抖音一姐的位置换到剪映一姐，或许就是这个思路的一种反映。

— 完—

量子位

3050篇原创内容

公众号

科技前沿进展日日相见 ~

上一篇国内首个！最火的MoE大模型APP来了，免费下载，人人可玩下一篇3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

阅读 2.6万

量子位

写下你的留言

10条留言

欢乐马

浙江昨天

每个大厂都是抓住了一个主赛道起来的，但是能力延展确实不容易，字节的强项是媒介素养，敏锐度高。但媒介一成熟就会内卷，互联网大厂没有一家敢安于现状，必须主动出击探索新的媒介，所以大佬的行为就好理解了，苹果押宝MR头显，小扎改名Meta，字节为pico豪掷200亿，美璟世界将二维图文三维化，阿里布局AR生态，包括AI热潮，本质上都是在探索媒介进化的不同道路。宁可做错不可错过！

神经蛙

北京昨天

扎克伯格和字节都把重心从xr转移到AI上了，都在裁员xr部门，只有苹果还在全力押注xr，阿里本身就没咋布局AR生态吧，这里面啥都没成果的应该是tx了hhh

2条回复

momo

广东昨天

未来已来，全智能剪辑工具的诞生，让人人都可以生产高质量视频，短视频时代即将迎来第二春。

THE END

抖音离任，奔赴视频新风口

当焦虑成为“时代病”，心理健康行业有哪些发展新趋势

年中国专业音视频行业趋势分析：向超高清化深度融合虚拟现实与增强现实技术融合发展图腾讯云开发者社区

共研网发布的中国视频编辑软件市场全景调查与发展前景预测报告

抖音离任，奔赴视频新风口

视频制作的技术与应用前景，如何改变视频制作行业新媒体运营