中金 | AI十年展望(六):ChatGPT兴起,创成式AI能否重塑工具软件底层逻辑?
摘要
风险
技术进展不及预期、商业化落地节奏不及预期、行业竞争加剧。
正文
AGI大模型渐入佳境,创成式AI深度赋能工具软件
ChatGPT向AGI更近一步,通用人工智能赋能应用软件成为可能
目前以ChatGPT为代表的AI大模型能力主要在于人机交互AI能力以及创成式AI能力等,而其与应用软件的结合主要涵盖以下几个方向:
图表:AI大模型与应用软件的主要融合方向
应用软件厂商在AI领域的投入将更专注于AI应用场景的探索以及与现有应用的融合。从整个AI产业链的分工来看,我们认为未来大模型厂商将会承担绝大部分的底层算法开发优化工作,而应用软件厂商则会更专注在应用场景的发掘、深耕,以及与现有AI大模型更深度的融合应用。对于通用人工智能未来能否实现产业化,我们认为先进的底层大模型以及与之相匹配的上层应用均缺一不可,AI厂商与应用软件厂商未来将会有更加紧密合理的分工合作。
在上述的应用方向与场景中,我们更为关注创成式AI与工具软件结合的可能性。以ChatGPT为代表的大模型应用中,创成式AI是较为突出的能力,且与现有的工具类软件(文字创作工具、图片创作工具、3D模型创作工具等)具有天然的契合性,下游应用场景广阔、颇具想象空间。因此在本篇报告中,我们将主要聚焦于创成式AI对工具软件的赋能,以及其长期重塑工具软件底层商业逻辑和产业生态的可能性。
创成式AI赋能工具软件将为其创造哪些可能性?从短期维度来看,目前创成式AI主要以嵌入到现有工具软件中的方式,作为创新性的辅助功能来帮助用户提升生产效率,厂商可以将其作为增值服务来额外收费;但从长期来看,如果未来创成式AI能够实现不依赖于用户引导的主动式创作,则其有望实现从生产工具向生产力的蜕变,真正意义上替代部分“创作人员”的工作。因此我们对于创成式AI的态度是,短期保守,长期不低估。
图表:全球范围目前已经或计划接入OpenAI、文心一言等语言类大模型的应用一览
短期维度:融合创成式AI提升生产效率,成为工具软件竞争的新焦点
目前创成式AI主要以嵌入现有工具软件的方式帮助用户提升生产效率。工具软件融合创成式AI后,能够在用户指定的框架、指令与引导下进行辅助式创作,进而帮助用户减少重复性、机械性、规则导向的劳作,甚至进而承担具有一定创造性的工作,比如基于指引在现有语料库基础之上收集归纳形成文字创作、基于文字描述生成图片与视频、在3D模型创作中辅助实现参数优化等。目前在文字、2D图片、3D模型、音频、视频等多个模态领域已有众多厂商选择参与探索实践:
创成式AI与3D模型创作:Creo、Autodesk Fusion360、Solid Edge、Solidworks等3D CAD产品目前已广泛集成AI Inside应用能力,主要用于辅助实现参数优化和草图生成;在EDA领域,Synopsys、Cadence等海外EDA厂商在AI赋能芯片设计上均有所探索,通过已有的设计数据训练模型,实现更高的设计效率。
工具软件与AI的融合能够优化用户体验与生产效率,提升产品竞争力。无论从带给用户“新奇感”还是从提升用户生产效率的角度,接入AI对于工具软件而言都是提升产品吸引力与竞争力的较优选择。同时由于短期接入大模型的试错成本较低,我们判断广大的工具软件厂商对于相关能力的接入都会抱有开放的态度,产业生态有望快速壮大。
但客观来看,目前的创成式AI仍具有多方面不足,主要作为辅助生产工具的形式出现。由于目前以ChatGPT为代表的创成式AI仍存在缺乏特定行业语料训练、语料库滞后、无法保证逻辑推理正确性等多种不足,因此短期仅作为辅助生产工具的形式出现,并不具备完全主动进行生产创作的能力。并且在使用的过程中,用户也需要额外注意可能存在的版权纠纷、敏感信息、偏见歧视等方面的问题。我们认为,创成式AI与应用软件融合仍处于起步阶段、提升空间广阔。
AI赋能工具软件后,短期会对行业生态及商业格局带来哪些影响?
产品价值角度,AI融合应用的功能或将成为工具软件的增量付费点。短期来看,工具软件厂商能够将与AI的融合应用作为差异化功能点和增值服务,向用户进行增量收费,进而打开产品付费天花板。比如微软发布的Teams Premium,需以每月10美元的价格订阅享用基于GPT-3.5的自动生成会议笔记等功能;同为微软旗下的辅助代码生成和修改应用Copilot亦需额外付费;Notion目前AI增强功能alpha测试版本免费,但官方表示未来正式版本将大概率收费。
图表:AI增强功能或将成为工具软件的增量付费点,进一步打开产品收入天花板
但随着创成式AI应用的普及,未来AI融合工具软件可能成为“标配”。由于工具软件厂商不需要在AI大模型开发上投入成本,而只需专注于AI融合应用的实践与适配,前期成本并不高,因此我们判断如果早期参与的工具软件厂商通过融合AI实现了商业成功,产业中的其他参与者将会快速跟进,AI融合工具软件或将成为“标配”。在这种情况下,我们认为,工具软件厂商可能将无法继续对AI增强功能进行单独收费,而厂商之间竞争的差异点也会从“有无AI增强”变为“能否用好AI”。
未来AI融合场景的应用深度将成为工具软件厂商竞争的新焦点。当AI融合应用成为工具软件厂商的“标配”后,厂商之间竞争的焦点将落在如何发掘更适合AI的应用场景、最大限度发挥创成式AI的效能上。在同样都能够接入AI通用大模型能力的前提下,我们认为未来能够将AI与现有应用场景更好融合、更大程度发挥AI价值的厂商有望在新一轮的竞争中胜出,一些领域现有固化的竞争格局也可能会受到冲击甚至的颠覆。
长期维度:创成式AI或将重塑商业逻辑,实现生产工具向生产力的跃迁
理想中的AGI能够将生产工具升级为生产力,重塑工具软件底层商业逻辑。长期来看,AGI(通用人工智能)融合工具软件应用具有较大的想象空间,产业中不乏将通用人工智能比作新一次“工业革命”以及“科技奇点”的观点。理想情况下,我们认为,未来真正的AGI将能够不依赖于人类用户的命令与引导进行创作,彼时,融合了AGI自主创作能力之后的工具软件将不再仅仅是辅助人类用户提效的“生产工具”,而成为独立的增量“生产力”。
AI赋能下的工具软件成为生产力后应直接参与生产价值的分配,生产价值由底层AI能力提供方与工具软件厂商共享。我们认为,未来,如果AI赋能下的工具软件能够完成生产工具提供方向生产力提供方的转变,其商业逻辑将不再是间接收取提供工具的费用,而应直接参与生产价值的分配,比如一本完全由AI赋能的文字创作软件撰写的书籍,底层通用AI能力提供方与文字创作工具软件提供方均有权从书籍销售额中获得分成。
图表:创成式AI将生产工具升级为生产力,带来商业逻辑质变
短期看,拥有稀缺AI融合场景的下游厂商更为关键;长期看,议价权向掌握底层通用AI能力的平台厂商转移。在AGI探索的早期阶段,适合的下游应用场景较为稀缺,底层通用AI平台厂商希望尽可能多的应用厂商接入,进而获得更丰富的在垂直应用场景训练大模型的机会。但长期来看,由于训练大模型的技术、成本要求较高,随着AGI应用逐步深入,我们认为,最终议价权可能会向少数拥有底层通用AI能力的平台型厂商转移,其有望在价值分配中获得更高的比例。但暂不论最终价值分配比例孰高孰低,我们认为,在这一过程中,工具软件厂商的商业逻辑都产生了质变——即有可能直接介入到生产价值的分享过程中。
图表:理想中AGI带来工具软件价值分配逻辑变化
产业结构角度,AI中的算力、模型、AI融合应用分别对应云计算中的IaaS、PaaS、SaaS。我们认为,与云计算的三层产业结构类似,AI模型的训练需要底层强大的硬件支持,算力层即对应云计算中的IaaS层;AI大模型则与基础软件类似,承担通用需求,同时目前大模型接口也正在尝试按量付费模式,MaaS(Model-as-a-Service)即对应云计算中的PaaS层;最上层应用软件调用AI大模型,直接面向企业、消费者提供融合AI能力后的垂直场景功能,即对应基于底层云计算基础设施和平台能力提供服务的SaaS软件。
图表:AI中的算力、模型、AI融合应用可以分别对应云计算中的IaaS、PaaS、SaaS
商业逻辑角度,云计算从销售产品向订阅服务转变,AGI有望带来生产工具使用付费向生产力直接参与价值分配的改变。云计算使得客户从一次性买断基础软硬件产品向持续性付费以享受云厂商提供的服务转变,订阅制对于供应商来说意味着更优的现金流和收入可持续性、以及更高的客户付费总量。正如我们前文的讨论,若未来AI赋能下的工具软件能够完成生产工具提供方向生产力提供方的转变,其商业逻辑将从收取工具使用费用,转向直接参与生产价值的分配,对于供应商来说也意味着更优的收入可持续性和更高的收入天花板。
竞争格局角度,新厂商的进入和传统厂商对于新技术的适应程度均使得现有格局产生变化。以数据库基础软件市场格局为例,过去十年的市场格局变化主要受云厂商和云原生独立数据库厂商进入以及传统数据库企业云转型成效优劣的影响。类比来看,我们认为,未来原生于AI的新工具类软件厂商进入,以及现有厂商融合AI的速度和能力优劣也可能重塑市场竞争格局。
价值分享角度,底层基础设施厂商提供通用能力,上层应用厂商聚焦垂直场景。云计算产业链中,IaaS、PaaS层厂商提供通用软硬件基础设施能力,SaaS层厂商聚焦于提供垂直功能应用。类比来看,AI底层平台型厂商提供通用大模型能力,上游工具类软件厂商寻找适合AI赋能、变现的落地场景。而在AI所需的算力成本方面,我们认为AI厂商将会承担训练成本,而后续的推理成本则会由AI厂商与应用软件厂商共同承担(类似于云计算的租用云计算资源,未来的AI产业会是租用模型和算力)。
图表:长期来看,AI有望与云计算一样带来工具软件的商业逻辑重塑
“上云”已成为应用软件的“必修课”,我们认为未来“AI+”也可能成为应用软件标配。目前支持云部署已经基本成为软件厂商的必备能力项,在2010年以后成立的多数软件公司均选择了云原生的技术路线;而传统软件企业亦积极转向云端,并在商业模式上也向订阅制转型。而从应用软件对AI的融合应用来看,同理我们认为也“AI+”有望成为新一代应用软件的标配,而应用软件厂商也将在与AI厂商的探索与磨合中形成新的一套成熟的商业模式。
图表:AIGC关键技术持续突破,AI融合工具软件想象空间宽广,我们强调短期不夸大、长期不低估的观点
创成式AI赋能工具软件的产业实践与应用趋势
创成式AI与文字创作:ChatGPT有望加速AI文字创作落地
写作:基于海量的语料库,Transformer神经网络拥有语言理解和文本生成能力,因此可以根据使用者的简单指令生成逻辑连贯、事实丰富的语段;
改写:与普通规模的语言模型相比,大型语言模型拥有一定推理能力,能够形成思维链来解决抽象问题,因此可以根据用户要求完成文本改写任务;
修正:通过在海量文本数据中对比学习和总结规律,创成式AI可以纠正所给文本的拼写、语法、标点等错误,使修改后的文本更加符合常用语言范式;
翻译:创成式AI可以利用循环神经网络和卷积神经网络拆解结构复杂的语段并联系上下文进行翻译,从而大幅提升翻译的整体性、准确性和可读性。
图表:创成式AI在文字创作场景中的四大能力
案例1:Notion AI优化文字创作
Notion AI能基于简单指令生成丰富的文字内容。Notion AI是用于Notion产品的人工智能工具,通过集成机器学习和NLP技术,帮助用户提高文字创作的效率和体验。在AI大规模语言模型赋能下,用户只需要罗列出基本需求,产品即可自动生成丰富的文字内容,文字内容的类型覆盖会议议程、销售邮件、新闻发布稿等多种场景。Notion AI还拥有总结、改错、翻译、续写、头脑风暴等功能;后续Notion AI还将会成为Notion知识库的接口,用户只需要输入搜索要求,Notion AI即会自动呈现相关信息。我们预期Notion AI的自动文本生成、文本摘要、文本编辑等功能或将大大优化用户的创作流程和使用体验,帮助Notion的产品力实现跃升。
案例2:微软AI与Office的融合计划
AI赋能下微软Office料将优化产品体验。微软2019年以10亿美元投资OpenAI并与之建立了较为深入的合作关系,近期微软计划将OpenAI的下一代语言模型整合进Office办公软件中的Word、PowerPoint、Outlook等应用程序,用户只需要输入简单指令,即可获得自动产生的文字内容。新版Office将拥有自动总结、内容建议以及文本生成功能,可提供类似Bing-ChatGPT侧边栏的体验,用户可在侧边栏中与聊天机器人交互。
庞大用户规模和训练数据有望助力Office AI应用能力快速迭代。Office办公软件用户规模优势明显(21年PC版全球装机量15亿套),我们认为OpenAI的人工智能技术与Office软件的融合一方面能让AI找到优质的落地场景;另一方面,Office软件庞大的用户规模有望为AI提供源源不断的海量训练数据,从而形成飞轮效应,不断改善AI的文字创作体验。
案例3:模力表格提供内嵌于表格场景的AI文字处理应用
模力表格通过AI大模型实现表格中文本内容的“批量化计算”。模力表格由面壁智能公司和大模型开源社区OpenBMB(主要成员来自清华大学)联合开发,其将AI大模型的文字处理能力嵌入到函数中,通过在表格中输入函数即可调用模型,目前支持的函数包括IE(信息抽取)、QA(问答)、MT(翻译)、SA(情感分析)、TG(标题生成)等,同时支持和Excel基础函数集成使用。我们认为通过表格中的AI文字处理应用能够实现文本批量化计算,大幅提升办公效率。
图表:模力表格实现表格场景下AI文字处理能力
案例4:第四范式满足企业场景AIGC需求
图表:第四范式“式说”产品工作界面
案例5:竹间智能借助AIGC赋能写作&对话&知识搜索等多场景
竹间智能推出类ChatGPT产品,赋能企业级AIGC应用。公司成立于2015年,为金融、企业、健康医疗、制造、智能终端、政务六大领域提供AI赋能解决方案。2022年9月公司推出AI SaaS产品,涵盖客户服务、销售服务、企业内部服务等多场景,为中小企业提供云端AI工具。在AIGC领域公司亦持续深耕,先前已推出Magic Writer等多款智能创作写作软件,并于近期推出企业级Gemini GPT产品系列,包括企业对话机器人KKBot、交互式认知搜索引擎ChatSearch,在销售客服、人机交互、知识探索等方面借助AI实现全面赋能。
案例6:印象笔记借助自研轻量化大模型辅助文字创作
基于自研“大象GPT”模型,推出“印象AI”创成式文字工具。2019年以来,国内笔记应用厂商印象笔记发力AI在笔记文字处理中的AI应用场景,陆续推出了智能推荐、智能标签、智能摘要、知识星图等AI工具。印象笔记同时持续投入大模型研发,于2023年推出了结合OPT、BLOOM等类GPT-3.5结构大语言模型自主研发构建的大语言模型“大象GPT”,并基于此推出“印象AI”创成式文字工具模块内嵌于自身的笔记产品中,实现了国内厂商通过自研模型实现AI文字创作的先发应用。未来印象笔记计划利用基于人类反馈的强化学习(RLHF)来优化模型,并计划与私人语料结合赋能具备个人风格文字创作。
案例7:Minimax打开C端落地新场景
区别于ChatGPT的专业知识问答,MiniMax推出的Glow主打聊天社交功能。公司成立于2021年年底,已自研文本到视觉、文本到语音、文本到文本三个模态的通用大模型。2022年11月,MiniMax推出首款AI对话机器人平台Glow,用户可选择已存在的智能体进行对话,或者通过简短描述创造智能体并在后续对话中实现优化调整,智能体的对话生成、人物头像生成、音色生成调用了MiniMax三大模态模型的能力。区别于ChatGPT聊天机器人倾向于问题搜索、文本生成等功能,由Glow生成的智能体拥有不同的背景和性格设定,与用户对话的内容也偏向于闲聊陪伴、情感互动、剧情演绎。我们认为,MiniMax的聊天机器人与用户交互效果较好、具备较强的用户粘性,打开C端落地新场景。
金山办公在AI领域已有扎实布局。国内办公软件龙头金山办公在计算机视觉、自然语言处理、语音处理等AI领域也都有广泛的技术与业务布局。公司自2017年开始搭建AI中台,围绕办公领域已经开发出近100项AI能力。在自然语言处理方向,金山办公已经开发出辅助写作功能,用户只需提供一个提纲,AI即可基于语料算法自动生成文本,用户可以将AI生成的文本作为底稿,大大提升写作效率。此外,金山办公也已实现AI校对、翻译、纠错等功能,并将其作为WPS办公软件套件的重要增量功能。
我们判断金山办公会在紧跟AI产业趋势的同时,适时切入跟进。我们判断金山办公会把主要发力点瞄准AI应用端。公司现有产品WPS积累的用户量级大、用户场景多样且复杂度高,我们认为金山办公若能深挖用户场景,将可以在邮件、办公、营销、政务、文学等各个细分场景中提供相应的AI文字创作服务,提升用户使用体验,加深产品护城河。未来我们判断公司会在充分考量国内各家AI大模型厂商的能力之后,适时尝试接入应用,尽可能地发挥AI大模型在办公软件领域的应用潜能。
创成式AI与音频生成:跨模态应用进军音频行业
海外案例1:谷歌不同团队均有音频生成研究成果
谷歌在2023年发布了不同的音频生成模型,并且有各自的特点。在此之前也出现过相关AI创作音乐的尝试,如可视化音乐创作模型Riffusion、谷歌发布的AudioML和OpenAI推出的Jukebox.而现在的研究成果基于Diffusion模型、标注好的音频数据,通过提取数据特征、文本和音频的配对,实现文本生成音频。
MusicLM:这是一种从文本描述中生成高保真音乐的模型,例如用户可以输入“平静的小提琴旋律伴随失真的吉他即兴演奏”。MusicLM将条件音乐生成过程转换为层次化的Seq-to-Seq建模任务,并能够保持24 kHz的频率生成一段几分钟的音乐,无论是文本描述还是音频质量都优于之前的模型。此外,MusicLM还能够基于文本的描述转变原来的旋律、根据图片画作和文字描述生成对应的音乐伴奏。
Noise2Music:连续应用Diffusion模型生成24kHZ的音频片段,使用两个深度模型伪标记大型伪标记音频数据集生成训练集,大预言模型生成音乐描述性文本,嵌入预训练的音乐-文本联合模型,通过zero-shot分类为音频分配相应文本。Noise2Music可以理解更加复杂的prompt语义,生成不同风格,如“一位女低音在现场表演中演唱一首慢速爵士民谣”;或者模仿不同的乐器,如钢琴、萨克斯、非洲鼓等。
SingSong:该模型可以根据人声自动生成伴奏,其技术基础建立在人声的音源分离和音频生成上。用户只需要输入其人声,就可以获得对应的乐器伴奏。研究人员召集了一批听众评估模型的效果,展示两个具有相同人声的10秒伴奏音频,SingSong获得的反馈明显优于其他基线模型。
海外案例2:英国学术机构提出AudioLDM,提升质量并优化算力消耗
AudioLDM模型解决了“文本到音频”的研究存在的质量有限、计算成本高的问题。英国萨里大学和帝国理工学院联合发布并开源了一个基于去噪扩散隐式模型和对比学习的框架:AudioLDM.该模型提升了文本生成音频的质量;训练过程中仅仅需要文本数据就达到了比使用音频-文本相当甚至更好的效果;此外模型训练计算资源消耗低,并且不需要额外训练就可以对声音风格进行变换或者模仿。
除了文本生成音乐以外,语音合成也是音频生成的重要方向。国内“独角兽”云知声提供语音合成产品服务,包括文本语音合成、音库定制和声音克隆。其中,语音合成可以将文本转换成自然流畅的语音,提供更多音色、不同情感并提供调节音量、语速、音高等功能;音库定制主要面向企业客户,提供定制化的音库服务,通过深度学习生成专属IP发音;声音克隆可以通过录制少量的用户声音,快速得到音色和发音风格与录音相似的声音模型。这些功能适用于智能客服、智能硬件、新闻播报、自媒体配音等各种有声场景。
创成式AI与图片创作:跨模态带来丰富想象空间
2022年,随着CLIP、Diffusion大模型的诞生与开源,DALL·E 2、Stable Diffusion模型落地进一步推动,文本生成图像等跨模态生成成为AIGC落地主线。OpenAI具备大模型基础、开源数据库中海量图文对应数据、头部厂商的算力支撑以及门槛降低三要素条件后,发布升级版“文生图”模型DALL·E 2,将AI作画(文本跨模态生成图像)推向落地,掀起AI作画浪潮;2022年8月,Stability AI开源Stable Diffusion模型,标志着AIGC在AI作画领域跨模态应用的门槛大幅降低,开启全民创作的“工业化生产”时代。海外应用层在此基础上催生出Midjourney、ChilloutMix、Controlnet等精调模型、插件,不断提高生成图像质量,逐步推动AI图片创作商业化。
海外案例1:“文生图”开山者DALL·E及DALL·E 2
DALL·E由OpenAI率先推出,并于2021年通过Azure OpenAI服务开始将其技术商业化,2022年4月发布升级版DALL·E 2。凭借OpenAI在2021年发布的基于GPT-3的图像文本匹配模型CLIP,DALL·E 2具备了联系文本和视觉图像的能力;又通过基于Diffusion的图像生成模型GLIDE,DALL·E 2能够按照文本生成逼真的图像,分辨率提升了4倍,准确率更高,并且业务更广,具备三种功能:1)根据文本提示生成图像,2)以给定图像生成新图像,3)以文本编辑图像元素。
DALL·E 2目前采取付费购买次数的商业模式:加入Open Beta项目后,首月50个免费点数,每一个点数对应一次绘图,之后每个月免费补充15个点数,目前的价格是15美元115个点数。相较于DALL·E,DALL·E 2不仅能够生成更真实、更准确的图像,还能够更完整地表达场景并通过自然语言描述对现有图像进行增删元素等编辑。而相较于该领域内其他模型,DALL·E 2的可控性较高,空间结构关系处理优异,高写实的图像仿真度较强。DALL·E 2的技术成熟和率先落地将AI作画从想象照进现实,2022年7月,DALL·E 2开启邀请制公测,为AIGC在2022年热度提升的重要推动力。
图表:DALL·E 2 通过文字添加图片元素
图表:DALL·E 2通过文字输入生成图片结果示例
海外案例2:Stability AI开源Stable Diffusion,以AI作画对外输出
Stability AI成立于2020年,2022年凭借推出并开源Stable Diffusion的底层能力,投后估值超10亿美元,在种子轮融资阶段即晋升为独角兽。Stable Diffusion主要基于潜扩散模型(Latent Diffusion Model),通过迭代“去噪”输入并解码输出来生成图像,使用空间降维解决内存和模型推理时长痛点,不仅使用户仅在消费级显卡上就能够快速生成高分辨率、高清晰度图像,而且建立开源生态,大大降低用户的使用门槛。至此,开源生态推动AIGC的数据、模型与算力问题初步解决,直接降低了使用者的门槛,渗透进多个垂直领域。
海外案例3:成功变现的商业模式,AI作图现象级应用Midjourney
国内案例1:百度基于文心大模型,AI作画能力对标海外
文心·一格是百度依托飞桨、文心大模型推出的首款AI作画产品。该产品支持文本生成国风、油画、水彩、水粉、动漫、写实等十余种不同风格的图像,为专业内容创作者提供创作平台的同时为入门级用户、大众用户实现想象力落地提供可能。而面对应用落地的三重挑战:创作需求理解、图像原创生成和创作需求满足,文心·一格进行了三大技术创新,分别是基于知识的prompt学习、文本跨模深度融合和文本驱动的图像编辑,实现了创意规划、细节刻画能力和多轮交互提升质量。
万兴科技深耕海外业务20年,接入OpenAI的API,打造出面向绘图创意领域的新型创作神器:万兴爱画。万兴爱画定位于专业打造“AI生成高品质艺术品”,提供随机生成与关键词创作两种AI文生图模式,用户可以自行输入关键词、选择图片比例和艺术风格,30秒就可以获得由AI生成的绘画作品,作品支持各种艺术风格,比如手绘、赛博朋克、二次元、CG数字渲染等。而且产品支持中文和英文双语创作,通过感叹号和括号强调关键词。
2023年2月,万兴爱画在业界率先推出“AI简笔画”。该产品成为全球首款通过用户交互并以此“图生图”的AI作画软件,标志着万兴爱画助力AI绘画进入新时代。相比之前的作画方式,简笔画对用户原先的prompt要求更低,如今只需简单几笔就能在5秒内生成高质量艺术画作;用户同样可以通过图片选择反馈使模型迭代升级。通过简笔画“图生图”,用户在创作中更具参与感,过程也更有趣味性。
图表:万兴“AI绘画”创作界面
图表:万兴爱画“特色艺术品”效果图
创成式AI与视频创作:跨模态阶跃尚处早期,有望打开应用天花板
海外科技巨头的标杆案例打开AI视频创作的想象空间。2022年9月,Meta发布了从文本生成视频的Make-A-Video,能够基于几个词或句生成数秒的短视频。仅一周后,谷歌发布Imagen Video、Phenaki,分别定位于生成高画质、长时段视频。目前AIGC跨模态生成视频领域仍存不足,利用AI生成的视频有明显的缺点,例如物体的模糊与扭曲,也不能生成更长的场景来详细、连贯的讲述故事,但我们认为AIGC视频生成有望在技术上实现突破,打开应用天花板。
案例1:Make-A-Video实现文本与视频之间的跨模态生成
Make-A-Video能够基于文本生成视频。Make-A-Video是2022年7月Meta发布的文本生成图像模型Make-A-Scene的进一步升级。通过向Make-A-Video输入文本即可生成数秒的视频,支持不同的视频风格。除了文本生成视频,Make-A-Video还能够实现输入单个或两个图像来创建运动,即图像生成视频。
图表:通过向 Make-A-Video 输入文本生成的视频
案例2:谷歌在视频的跨模态生成领域不断产出成果
案例3:Runway推出的GEN-1模型在生成视频质量上更胜一筹
由GEN-1模型生成的视频风格多样化。Runway成立于2018年,是Stable Diffusion的联合发布方之一。2023年2月,Runway推出AI视频生成模型GEN-1,通过将图像或文本提示的构图和风格应用于源视频的结构上以合成新视频,在生成视频的画质和长度上再迈进一个台阶。
国内厂商:亦处于早期探索期,辅助创作效率提升
国内厂商在生成视频领域也处于早期探索期。国内厂商在视频领域应用AIGC技术更多落在视频内容创作及品质升级的层面,实现视频的属性变化与“流水线式”内容创作,目前多应用于B端、为内容创作者提供生产效率的提升。
文本生成视频:2022年5月,清华大学联合智源研究院发布基于Transformer架构的CogVideo模型,该模型是业内首个开源的文本生成视频AI模型,但生成视频的分辨率较低、长度也较为有限,目前只支持中文输入。
视频自动创作:百度孵化的智能视频创作工具VidPress支持导入图文链接后自动实现配音、字幕、画面的视频内容生产,目前已为人民日报等媒体机构、百家号和好看视频等平台的终端用户提供智能生成视频功能。
智能脚本创作:商汤智影推出的“视频元素分析”能够提取并分析视频中多种元素,例如人物、场景、道具、台词等信息,自动生成分镜头脚本,准确率达98%,并提取视频爆款元素,有效减少脚本撰写时间,助力广告厂商节约内容制作成本。
此外,基于自研稀疏模型在垂直领域落地的厂商具备多模态矩阵,以出门问问为例,打造文本、图像、语音、视频、数字人等多模态AIGC产品矩阵,布局提供一站式内容生成工具。出门问问于2020年推出其第一款AIGC商业化产品——配音平台“魔音工坊”后,全面布局AI声音、AI写作、AI图片生成、声音与形象克隆、数字人视频等AIGC领域,多点开花聚焦广泛的商业场景。
创成式AI与3D模型创作:以参数化建模为基,GPT文字处理赋能
工业场景的3D建模对AI能力要求较高,现阶段创成式设计无法完全支持。区别于图片和视频的创作,3D模型主要用于生产工业场景,需要更加严谨理性的建模创作能力,而目前ChatGPT等AI工具的数学和逻辑能力有所欠缺,因此通过文字描述进行创成式AI直接建模的进展相对较慢。另一方面,大装配场景如飞机、船舶等模型的设计需要非常严谨的过程和参数,我们认为创成式AI设计在这类大型场景下的支持能力有限。目前我们观察到AI在3D CAD领域和EDA领域的主要落地仍然以“AI Inside”赋能为主。
3D CAD中的创成式设计:以参数化建模为基础的AI Inside赋能
3D CAD场景下的创成式设计(Generative design)主要借助AI的能力生成大量可供选择的模型。根据PTC官网介绍,三维模型场景下的创成式设计主要是通过设计师给定约束条件(包括空间、材料、制造方法、成本约束等)和目标,借助AI的能力来快速生成满足需求的目标模型,供设计师从中选择合适的模型进行进一步设计和优化,从而显著提升设计效率。我们观察到目前3D CAD中的AI应用主要分为两类:
AI辅助参数优化:通常用于3D CAD模型的改进过程,基于CAE仿真结果(如部分零部件应力过大或形变明显),可以通过对其他部位添加约束,对拟优化零部件生成大量潜在参数并进行选择,最终得到优化的结果。
AI实现草图生成:如Catia和Solidworks的Xdesign模块就引入了AI辅助创建草图功能,通过给定参数和材料得到系统给出的推荐的形状。其一定程度上能够帮助工程师进行底层几何图形,从而加快整体的设计进度。
3D CAD创成式设计基础是参数化建模。实际上参数化建模由来已久,1987年PTC公司发布的Pro/E首次引入了基于历史的参数化建模,至今主流3D CAD产品均有参数化建模功能。无论是AI辅助参数优化还是实现草图生成,其本质上都是基于给定的限制条件生成大量参数,进而基于这些参数生成设计方案供设计师选择。目前主流3D CAD产品如Catia、NX、Pro/E、Solidworks、SolidEdge等均具备AI模块,实现辅助设计功能。
EDA中的AI Inside:基于已有设计数据实现设计效率优化
AI赋能有望助力芯片设计实现真正的“自动化”。目前的EDA工具,即使是更加自动化的数字芯片设计流程中仍然需要大量设计师的人工操作场景,我们认为AI带来的自动化程度提升有望减少设计过程中的重复性劳动,进一步解放设计师的生产力。目前AI对EDA设计工具的赋能可以分为AI Inside和AI Outside两个层面:AI Inside一般指AI赋能相应的设计软件,让设计工具更加智能和高效;与之相对应的则是AI Outside,即为让机器通过学习来积累经验,从而一定程度上能够代替人工成为新的“生产力”。
芯片设计后端(尤其是布局布线)是AI Inside在EDA中的主要应用场景。在数字芯片设计流程中,设计后端最重要的布局布线环节涉及逻辑器件的物理形状和摆放方式,工程师需要考虑综合考虑网表图节点、网格粒度、布线密度等多重因素。因此布局布线通常是数据芯片设计中的高耗时环节,通过AI的图像识别和优化算法有望实现设计效率的显著提升。目前海外Cadence、Synopsys等EDA头部厂商均具备AI Inside赋能芯片设计的能力:
Cadence:2020年3月Cadence发布了更新版数字全流程工具,通过iSpatial技术整合布局布线工具Innovus和前端的物理验证Genus工具实现打通,并集成机器学习技术,用户可用现有设计数据对iSpatial进行训练,实现布局布线流程中设计裕度的最小化。
展望未来,AI Outside有望在更高层面实现真正的“芯片设计自动化”。与AI Inside赋能EDA工具的理念不同,AI Outside则更加关注工具使用者的维度,指EDA工具通过学习人类的设计模式并积累设计经验,最终达到减少人工干预和释放生产力的效果。目前Synopsys和Cadence在AI Outside助力实现设计自动化上均有所探索,我们认为现阶段实现AI Outside面临的主要阻力在于数据获取成本。AI Outside训练过程对芯片数据可靠性要求较高,而芯片设计公司的数据较难获取,我们认为EDA公司依靠和晶圆厂的绑定关系或有望通过工艺数据实现训练,逐步向AI Outside目标迈进。
创成式设计与GPT大模型的融合:从文字到模型的潜在路径
创成式设计和GPT大模型的融合畅想:文字描述参数化。我们认为GPT等大模型在3D模型设计方面仍然有较大的应用空间。未来的潜在的方向可能是借助ChatGPT的文字处理能力来理解设计师的文字需求,即为将文字描述理解和转化为一系列的模型参数,通过3D CAD创成式设计得到相应的模型设计方案。
创成式设计是当前已经存在的技术储备。目前3D模型的创成式设计已经能够实现参数优化和草图的生成,我们认为随着技术逐步完善,从给定参数到3D模型生成这一步骤或许不是从文本到模型的瓶颈。
文字到参数的转化是文生模型过程中的最大难点。目前的Transformer模型更加擅长场景是自然语言处理,我们认为将文本转化为设计师需要的参数是较大的难点,打通文本描述到参数描述的瓶颈有望为文本到模型的实现铺平道路。2021年Deepmind论文论述了图形和序列打通的可能性,借助Transformer模型自然语言处理能力实现CAD草图生成。
图表:DeepMind论文中构建了图形和序列的映射
DeepMind借助Transformer模型自然语言处理能力实现草图绘制。草图设计是构成3D模型的骨架,其通过特定的约束来定义了实体如何在参数变换下保持原有的形状。DeepMind在2021年发表论文,论述了CAD草图绘制和自然语言建模的相似性,提出了能够自动生成CAD草图的机器学习模型,在无条件合成以及图像到草图的转换任务中表现良好。论文的亮点在于实现了图案和序列的对应,从而能够应用Transformer大模型实现对序列的处理。我们认为随着Transformer大模型应用逐渐深入,其与CAD融合应用或将持续推进,未来或将诞生基于文本实现更高级别模型生成的应用。
风险
技术进展不及预期:人工智能作为前沿新兴技术,仍处于技术的快速发展期,其进展有一定的不确定性,若技术进展不及预期,可能导致产业化进展缓慢。
商业化落地节奏不及预期:商业化落地是人工智能能否顺利走向下一阶段的关键点,若商业化落地节奏不及预期,对人工智能的进展将带来负面影响。
行业竞争加剧:人工智能是产业的热点,未来商业价值显著,科技巨头、初创公司均在此领域布局,未来垂类及应用层的行业竞争可能会进一步加剧。
(原标题:中金:关注创成式AI对工具软件赋能 短期保守、长期不低估)