pen发布“一镜到底”文生视频大模型人人都能创作短片

一夜过去,AI行业又迎来了重大技术突破,这次有可能被“颠覆”的是视频和电影制作。

北京时间2月16日凌晨,OpenAI在官网正式发布了文生视频大模型Sora,其可以根据用户提示生成长达一分钟的视频,同时保持视频中出现的人物、景色的连贯性,甚至即便切换镜头,人物依然能够保持一致。

OpenAI首席执行官山姆奥特曼在社交平台下场,对网友放言“留下想看什么的评论,我为你生成视频”,并在两小时内“现点现做”放出了十多条视频。这立刻引发了科技圈和影视圈的双重“震撼”,油管粉丝高达2.39亿的顶流网红“野兽先生”直接在山姆奥特曼的社交账号下哀求“求求你了山姆,不要让我没有工作。”

2月16日,DCCI互联网研究院院长刘兴亮在接受贝壳财经记者采访时表示,Sora无疑是人工智能领域的一次重大突破。这一技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业提出了前所未有的挑战和机遇。

天图万境创始人、导演图拉古则告诉贝壳财经记者,Sora 的潜力并不是代替拍摄或者创作,而是让每一个人成为创作者,这必然会产生新的业态。

这个电影预告片是AI做的?音视频行业迎来“iPhone”时刻

“一部电影预告片,讲述了30岁的太空人戴着红色羊毛编织的摩托车头盔、蓝天、盐漠、电影风格的冒险故事,用35毫米胶片拍摄,色彩生动。”

这是OpenAI官网展示的诸多视频生成提示语句之一,贝壳财经记者发现,根据该提示语句生成的视频不仅达到了语句的内容预期,还创造性地出现了多个镜头的切分,而且神奇的是,在不同角度的镜头中,视频主角“太空人”可以看出是同一人。

这在此前的AI生成技术中是无法实现的。有AI从业者表示,此前的AI视频往往都是单镜头生成,因为一旦镜头切换,角色可能就会发生变化,这对于AI图片生成同理。

贝壳财经记者曾使用AI大模型技术生成图片的技术辅助视频制作,但其中的痛点之一就是,如果想要让AI生成多个图片,比如同一个人物在不同场景下的不同动作,每当输入新的提示词,人物往往也会发生变化,让人觉得“不是同一个人”,因此AI难以直接取代传统方式的视频或者漫画制作。

但随着Sora的横空出世,这一切将可能迎来改变。

在另一个OpenAI提供的例子中,输入提示词“中国龙的农历新年庆祝视频”,就生成了一段人们舞龙的视频,贝壳财经记者发现,这段视频包含了庞大的庆祝队伍和人群,但他们也都能保持前后的一致和连贯。

OpenAI表示,该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色,“Sora还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。”

刘兴亮表示,Sora模型的发布标志着AI技术在内容创作领域的一个新纪元,“通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创意变为现实,而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

不过,据贝壳财经记者观察,目前Sora生成的还基本限于“短视频”,如果生成带剧情的长篇故事似乎还有更多挑战。

对此,图拉古告诉记者,Sora更大的潜力在于传递蒙太奇故事,而不是准确和具有节奏的叙事,“它准确地传递某一个人的百分之百的意图还是差一点,不过大部分创作者不会在意这些。也就是说,它其实能够传递某一个人90%的情绪感觉或者表达这已经足够了。”

Sora的发布让图拉古十分激动,他目前正在打造一个被称为“超感影游”的沉浸式线下体验项目,在他看来,未来很多人都可以成为创作者,而不仅仅局限于现在的专业人士,电影的“KTV时代”,随着AI的到来即将到来。

“技术总是跨越式进步,后面可能会更超乎我们的想象。”图拉古说。

“尽管Sora的技术创新带来了巨大的潜力,但它也对传统的影视制作行业提出了转型的压力。AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。然而,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。这种转型压力,虽然带来了挑战,但也为行业的创新和发展提供了机遇。”刘兴亮告诉贝壳财经记者。

如何克服一致性难题?让模型预见多帧内容 奥特曼:专注打造通用人工智能

那么,OpenAI是如何做到克服AI生成视频的一致性难题的呢?

根据OpenAI的技术解读文件,Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,不仅能够一次性生成完整的视频,还能延长已生成的视频,“通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。”

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。具体来看,OpenAI把视频和图像分解为较小的数据单元——“patches(小块)”,每个“patches”相当于GPT中的一个token(语句)。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型,覆盖了不同的持续时间、分辨率和纵横比,而这一技术在之前不可能做到。

此外,Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

OpenAI特别表示,Sora是能够理解和模拟现实世界的模型的基础,“我们相信这一能力将是实现通用人工智能的重要里程碑。”

例如,当输入提示语句“动画场景的特写镜头,一个毛茸茸的小怪物跪在一根融化的红蜡烛旁边。艺术风格3D、逼真,重点是照明和纹理,情绪包括惊奇和好奇……”时,Sora创造出了一个类似皮克斯和梦工厂电影中的动画小怪物镜头。

值得注意的是,该视频中,小怪物的毛发纹理极其自然。此前,移动中的毛发纹理效果往往会耗费动画公司极大精力,如皮克斯的《怪兽公司》中,技术团队为毛发纹理耗费了几个月的时间,但Sora仅仅依靠AI就生成出来。对此,OpenAI科学家Tim Brooks表示,Sora通过观察大量数据学会了关于3D几何形状和一致性的知识,“通用人工智能将能够模拟物理世界,而Sora是朝这个方向迈出的关键一步。”

北京时间2月16日早上8点,山姆奥特曼“趁热”在社交平台发布了招人公告,“OpenAI团队是我见过的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题。我们所有关键资源均已到位,专注于打造通用人工智能,你或许应该考虑加入我们。”

不过,OpenAI也坦承,目前Sora模型也有弱点,“它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。”

在刘兴亮看来,Sora模型及其带来的技术进步,也引发了一系列伦理和社会挑战,“随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。”

目前,OpenAI已经将Sora提供给了一些艺术家用于创作,但距离面向公众发行还需要一段时间,“我们将采取几个重要的安全措施,并进行对抗性测试,一旦公开发布,我们的文本分类器将检查违反使用政策的文本输入提示,例如极端暴力、色情内容、名人肖像等。”OpenAI表示。

“OpenAI的Sora模型不仅是技术创新的象征,也是对传统行业转型的推动力和伦理挑战的触发点。面对这些变化,社会需要采取积极的态度,拥抱技术带来的机遇,同时警惕和解决伴随而来的挑战,以确保技术进步能够惠及全人类。”刘兴亮告诉贝壳财经记者。

THE END
0.数字人实操案例分享,亲测效果真赞面对市场上众多数字人工具,选择合适的平台至关重要。必火AI等成熟平台通常具备几个核心优势:首先是形象库的丰富度,能够满足不同行业和场景需求;其次是操作界面的友好性,降低学习成本;再者是技术稳定性,确保生成内容的质量一致性。 从实际应用角度,建议关注以下几点:一是平台的持续更新能力,技术迭代速度直接影响使用体验jvzquC41yy}/lrfpuj{/exr1r198;=987hhf6j
1.ai数字人火爆文案科技前沿:揭秘数字虚拟形象——AI数字人技术是什么,如何应用于直播视频? 在数字化浪潮的推动下数字人技术正以前所未有的速度崛起成为科技前沿的热点话题。这些虚拟的形象不仅拥有逼真的人类外观还能通过人工智能技术实现与人类的实时互动。从直播视频到虚拟助手数字人正逐渐渗透到咱们的日常生活中那么数字人技术究竟是什么它又是怎样去应用于直播视频的呢?jvzquC41yy}/{jsiiw4ux8|gdiuw1jn|jkyikƒy139>96B3jvor
2.虚拟数字人“出圈”重塑IP商业逻辑虚拟数字人是典型的多技术综合产物,计算机图形学与AI核心技术的高速发展,CG、语音识别、图像识别、动作捕捉等相关技术的共同成熟,为高质量、高效率、规模化的虚拟数字人内容生产奠定了基础。除CG建模﹢真人驱动的类别外,多模态技术与深度学习也是其核心点。 jvzquC41yy}/ewnk0eun0ls1iz~xy8wo{fh04974245u49742479a<::857/j}rn
3.数字人代理「割韭菜」背后,谁为糟糕的生态负责?反观大面积被封禁的直播带货的数字人,很多是完全用AI 驱动、没有真人参与的,也有很多是不进行注册和标识的。 而代理商们发现数字人能取代真人的商机之后,就不免夸大渲染其降本增效的卖点去说服商家购买、使用数字人,妄图走一条捷径,这难免让事情本身变了味儿。 jvzq<84yyy4ckjsgyu4dqv4pgyy0fnyckny@kmB392=35
4.哪个数字人最好用从实际应用层面观察,必火AI数字人已在多项垂直场景中得到验证。在智能客服、虚拟主持人及教育培训等领域,必火AI数字人均展现出良好表现。基于必火AI的解决方案,企业实现了用户互动满意度显著提升,测试显示,客户问题解决率提升了20%以上,同时系统响应速度提高了25%。 jvzquC41dnuh0lxfp0tfv8vsa68:4B98:1gsvrhng1jfvjnnu1766=:352?
5.必火AI|数字人一站式创作平台必火AI致力于打造AI数字人一站式创作平台,提供最真实的数字人解决方案,包括真人数字人、全能数字人、虚拟数字人,以及定位、文案、拍摄、剪辑全链路,我们的使命是用AI助力更多人做好短视频营销。jvzquC41yy}/drmwqco/exr1
6.亲测5款数字人:哪款最好用?克隆速度和相似度是数字人工具的核心竞争力。测试中,必火AI表现突出:仅需1分钟即可完成真人克隆,克隆相似度达99%,细节处(如微表情、语气停顿)几乎与本人无异。而其他4款工具中,最快的需要10分钟,最慢的甚至要30分钟,且相似度普遍在80%-90%之间,表情生硬、语气违和等问题明显。 jvzquC41dnuh0lxfp0tfv8qkrknf9@871cxuklqg1fkucrqu13;57;<945
7.必火AI|数字人一站式创作平台1M+ 数字人生成 累计创作数字人数量核心价值观 指引我们前行的价值理念 创新驱动 持续探索AI前沿技术,引领数字人创作革命,让每一次突破都成为行业新标杆 用户至上 以用户体验为核心,让AI创作触手可及,用技术的温度温暖每一位用户 开放共享 让AI技术惠及每个人,共建创作生态,携手构建数字化创作的美好未来我们jvzquC41yy}/drmwqco/exr1cduvv
8.虚拟数字人的变迁:从小众走向共生数字人新浪财经近五年,AI 在虚拟数字人生成和驱动上展现了较高的效率。在《企业级 AI 数字人数字经济发展“新动能”》中,根据数字人拟人化程度,以及生产制作的自动化水平两个维度,数字人被分成五个等级。 图:数字人L1-L5等级(商汤智能产业研究院) AI 快速发展和融入行业的态势使得虚拟数字人融入各个行业的发展成为可能。 jvzq<84hkpgoen3ukpg/exr0ep5cnxhmejgjp8wqnn532;7/283228iqe/onkƒruew<1:=94:0yivvq