a模型指令微调字节跳动多模态视频大模型alley论文详解陈城南

Valley: Video Assistant with Large Language model Enhanced abilitY

大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具,包括AI相关技术、ChatGPT、AI绘图等, 欢迎大家交流~。

近期基于LLaMA微调的模型有很多,Alpaca,Vicuna都是基于ChatGPT等数据进行文本场景指令微调,LLaVA也使用图文对数据进行了图文场景多模态能力的扩展(这几个模型往期文章都有涉及,不清楚/感兴趣的可以看)。

而本文提到的Valley则是字节发布的视频场景多模态指令微调LLaMA模型。

其中这几个指令微调版本的模型都大差不差,主要还是数据与训练的差异。本文描述Valley当然对标的是其类似模型LLaVA,原文introduction部分翻译修改后如下:

在Valley中,我们遵循 LLaVA 的先预训练然后指令调整的流程,采用一个简单的投影模块作为视频、图像和语言模式之间的桥梁。 我们采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器(与LLaVA一致),然后提出一种时空池化操作来统一视频和图像输入的视觉编码(模型差异点)。 通过更新投影模块进行预训练,以使统一的视觉嵌入与 LLM 保持一致,其中 Stable-Vicuna (Chiang et al., 2023) 由于其多语言能力而成为选择的 LLM。 此外,我们引入了从各种视频任务中收集的多模态指令跟踪数据集,包括视频问答、长描述、随意关系推理和动作识别。 经过指令微调,最终提出了我们的视频理解谷多模态基础模型。 作为人工智能助手,我们预计Valley将在各种视频相关任务中得到广泛的应用,并帮助用户以类似于在现实世界中与人聊天的方式更好地理解和解释复杂的视频。

结合论文内容,我对Valley的贡献作了概括:

现有的方法可以分为两种技术路线,一种是利用LLM作为调度器来调度现有的多模态模型,另一种是基于LLM来训练多模态模型。 前者在接收到用户指令和各个基础模型的功能后,将LLM作为控制器逐步调用相应的模型,并整合各个模型的输出内容生成结果(Wu等,2023;Shen等,2023)。 ,2023;Yang 等人,2023)。 例如,HuggingGPT(Shen et al., 2023)利用ChatGPT根据其功能描述在Hugging Face1中选择合适的模型并总结其执行结果。 后者为法学硕士配备辅助模块,帮助他们通过端到端训练理解多模态内容(Li et al., 2023c; Zhu et al., 2023; Zhu et al., 2023; Zhu et al., 2023; Liu et al., 2023; Su 等人,2023;戴等人,2023)。 例如,LLaVA (Liu et al., 2023) 和 MiniGPT-4 (Zhu et al., 2023) 通过投影层将 LLaMA (Touvron et al., 2023) 与视觉编码器连接起来,赋予其理解图像的能力 。 Video-LLaMA (Zhang et al., 2023) 通过 Q-Former 为 LLaMA (Touvron et al., 2023) 提供视觉和音频信息,赋予其基于视频的对话能力。

在LLaVA(如上图)基础上进行了扩展,将其单图扩展为多图(视频),如下图:

多帧的处理通过时空池化模块,具体:

空间tokens:256 patch(平均),时序tokens:T个CLS Token;这两个Token最终会经过映射层(Projection)与Text tokens衔接在一起送给大模型;

作者基于MSRVTT(10k)、VATEX(22k)、AativityNet(10k)、VIOLIN(5.8k)共多个数据集构建了视频中心多模态指令数据,包含3种上下文类型,这些对应的问答对生成通过stable-vicuna生成,如下图

参考LLaVA和VideoChat中生成Prompt的方式,作者也用了上面的3种上下文文本和Stable-Vicuna生成了指令微调数据,如下图。累积42k对话和5.8k的问答对,其中对话数据涵盖基础视频内容描述(目标信息等)、时间内容理解。问答数据包含因果推理、字符识别和视频复杂内容理解。

同LLaVA类似的两阶段训练方式,第一阶段通过预训练映射层来进行特征对齐;第二阶段再微调语言模型和映射层;

使用图文对、视频文本对两种数据进行预训练,其中图文对为LLaVA的595k CC3M数据,视频文本对为参考LLaVA过滤方法进行过滤的 702K WebVid2M 数据。两种类型数据的Prompt组织方式一致,均为:

如果输入单个图像,则帧数为1。图像-文本对和视频-文本对构建为单轮对话,使用各种问题询问视频内容,并使用相应的标题进行回答。

不止上面提到的42k对话和5.8k的问答对,为了增强对视觉内容的强调,还从LLaVA中收集了150k的图片指令数据、以及VideoChat收集的11k视频指令。

没有什么指标,给了几个case大家感受下性能就行

加入音频信息,构建 音、画、文三种模态可感知的多模态模型;

提供中文感知能力,构建更多的中文多模态数据来增强模型;

存在LLM固有的幻觉问题(hallucination problem)需要解决。幻觉问题指大模型的输出是错误的、无意义的、输出与输入是明显不符合的(比如在摘要生成任务上)等情况,详细可参考:

THE END
0.大学2025|对话舒德干院士:AI时代,知识积累仍然非常重要|舒德干|古近日,古生物学家、中国科学院院士、西北大学地质系教授舒德干在接受澎湃新闻采访时表示,在“AI(人工智能)+教育”成趋势的背景下,目前AI已经成功应用于化石的快速鉴定和分类等方面,今后将逐步深入到生物演化和生态环境重建。他希望青少年都多学些AI相关知识,以便应用到各个领域的研究中。同时,他认为,在AI时代,知识的jvzq<84m0uooc7hqo0io1jwvkerfa>5664>25:5a34ib;Bkfg2812;jhos4ivvq
1.河南事业单位公共基础知识:计算机网络相关知识【导读】华图河南事业单位考试网同步河南华图发布:河南事业单位公共基础知识:计算机网络相关知识,详细信息请阅读下文!如有疑问请加【河南事业单位考试交流群汇总】,备考河南事业单位考试,为你推荐事业单位备考用书,面授课程。更多资讯请关注河南华图事业单位微信公众号(hnsydw666),微信号:(huatuhn123) 。 jvzquC41jc4iwjyw0eun1;544173494727=15<3jvor
2.人工智能复习题(答案)要想让机器具有智能,须让机器具有知识。 人工智能复习题(答案) 一:单选题1. 人工智能的目的是让机器能够(D),以实现某些脑力劳动的机械化。 A. 具有完全的智能B. 和人脑一样考虑问题C. 完全代替人D. 模拟、延伸和扩展人的智能2. 下列关于人工智能的叙述不正确的有(C)。 A. 人工智能技术它与其他科学技术jvzquC41o0972mteu0tfv8iqe17e3?5;4:670qyon
3.人工智能知识大全.pdf(2)具有经验性及不确定性的知识,而且相关领域中对这些知识没有严格、统一的理论。如:医疗诊断、故 障诊断等方面的知识。 (3)领域问题的求解过程可被表示为一系列相对独立的操作,而且每个操作可被表示为一条或多条产生式规 则。 2.4 框架表示法 2.4.1 框架理论 1975年美国著名AI学者Minsky在其论文“A jvzquC41oc~/dxtm33>/exr1jvsm1;5431674A4842;15;6722644990ujzn
4.全球人工智能专利申请哪家强?腾讯排第二,第一你肯定想不到全球人工智能相关专利申请最多的国家或地区 通常,人们会认为孵化硅谷巨头的美国在人工智能相关知识产权方面遥遥领先,但银柿财经从全球人工智能创新数据监控平台获取的数据,着实让人眼前一亮。从2000年到今年6月底的数据显示,中国在人工智能相关的知识产权申请占比超过了50%,是美国的一倍多。 jvzquC41pg}t0qjzwp4dqv44249.2B22718229:376>/j}rn
5.AI的100个知识点7 数据挖掘(DM):从大量数据中提取知识和信息的过程。 8 数据科学(DS):使用数学、统计学和计算机科学等工具来分析和解决现实世界中的数据问题。 9 数据预处理(Data preprocessing):在进行机器学习或数据挖掘之前,对原始数据进行处理,包括数据清洗、特征选择等。 jvzquC41yy}/lrfpuj{/exr1r171g:ghdg9edB
6.科技文献知识AI引擎项目网站:https://sciaiminer.las.ac.cn/ 项目背景 科技文献蕴含人类知识、反映科研成果,是文献情报机构知识服务和情报分析的基础。项目针对文献情报机构迫切需要提升智能技术方法手段,将掩藏在海量科技文献中的深度知识内容有效挖掘出来并加以充分利用的重要问题,突破智能化关键技术,研发知识服务与情报分析自主软件。 jvzq<84uekkoirsg0ngt0jh0ep5Qtxogevy
7.AI知识库百聆・知识管家能整合各类资料,结构化萃取信息并校验一致性,帮你打造专属 AI 01:34 智效启迪·3天前 如果你希望你的企业也能在数字化浪潮中脱颖而出,不妨抓住这个时机,获取 AI 企业知识库的方案,开启本地知识库搭建之旅,让企业在知识管理和运营效率上实现质的飞跃。 36年老玩家·2个月前 评测国内主流AI知识库产品,聚焦数据整合、AI交互、jvzquC41tgsbtt3uqj{/exr1egrm1ufdgn576k=f6;716>g7928e89h58f7
8.AI知识汇总总结.docxAI知识汇总总结.docx 39页内容提供方:赤壁怀古 大小:3.29 MB 字数:约2.79万字 发布时间:2023-05-14发布于安徽 浏览人气:18 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)AI知识汇总总结.docx 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 衡量机器jvzquC41o0hpqt63:0ipo8mvon532;8127741>6323634<92328167xjvo