​医疗的基础模型​腾讯云开发者社区

正在进行的AI革命正在给我们带来各个方向的创新。OpenAI的GPT(s)模型正在领导发展,并展示了基础模型实际上可以使我们的日常任务变得更加简单。从帮助我们写得更好到优化我们的一些任务,每天我们都看到有新模型发布的消息。

许多机会在我们面前展开。可以帮助我们在工作中的AI产品将成为我们未来几年中最重要的工具之一。

我们将在哪些领域看到最有影响力的变化?我们在哪些方面可以帮助人们更快地完成任务?AI模型最令人兴奋的应用之一是医疗AI工具。

在这篇博客文章中,我将PLIP(病理学语言和图像预训练)描述为病理学的第一批基础模型之一。PLIP是一种视觉语言模型,可以用于将图像和文本嵌入到相同的向量空间中,从而实现多模态应用。PLIP源自OpenAI在2021年提出的原始CLIP模型,并最近发表在《自然医学》上:

Huang, Z., Bianchi, F., Yuksekgonul, M., Montine, T., Zou, J., A visual–language foundation model for pathology image analysis using medical Twitter. 2023, Nature Medicine.

在我们开始冒险之前,以下是一些有用的链接:

我们展示,通过在社交媒体上进行数据收集以及使用一些额外的技巧,我们可以构建一个可用于医疗AI病理学任务的模型,而无需注释数据。

虽然介绍CLIP(PLIP派生的模型)及其对比损失略超出了本博客文章的范围,但首次了解/回顾一下仍然是有益的。CLIP背后的非常简单的思想是,我们可以构建一个模型,将图像和文本放在一个向量空间中,其中“图像和其描述将会彼此靠近”。

上面的GIF还显示了将图像和文本嵌入到相同向量空间的模型如何用于分类的示例:通过将所有内容放在同一个向量空间中,我们可以通过考虑向量空间中的距离来将每个图像与一个或多个标签相关联:描述与图像越接近,越好。我们期望最接近的标签是图像的真实标签。

清楚一点:一旦CLIP被训练,你可以嵌入任何你拥有的图像或文本。请考虑,这个GIF显示的是一个2D空间,但通常在CLIP中使用的空间具有更高的维度。

这意味着一旦图像和文本位于相同的向量空间中,我们可以做很多事情:从零样本分类(找到与图像更相似的文本标签)到检索(找到与给定描述更相似的图像)。

我们如何训练CLIP?简单地说,该模型被提供了许多图像-文本对,并尝试将相似的匹配项放在一起(如上图所示),并将其余的所有内容远离。你拥有的图像-文本对越多,你将学到的表示就越好。

CLIP已经被训练成一个非常通用的图像文本模型,但它在特定用例(例如时尚(Chia等,2022))中效果不佳,并且还有一些情况下,CLIP表现不佳,领域特定的实现效果更好(Zhang等,2023)。

现在我们来介绍一下我们如何构建PLIP,这是原始CLIP模型的经过微调的版本,专门用于病理学。

尽管网络上有大量病理学数据,但它经常缺乏注释,并且可能以非标准格式(例如PDF文件、幻灯片或YouTube视频)存在。

我们需要在其他地方寻找,而这个其他地方将是社交媒体。通过利用社交媒体平台,我们有可能获取大量与病理学相关的内容。病理学家使用社交媒体在线分享他们的研究,并向同行提出问题(请参见Isom等人,2017年,有关病理学家如何使用社交媒体的讨论)。此外,还有一组通常推荐的Twitter标签,病理学家可以使用这些标签进行交流。

除了Twitter数据,我们还从LAION数据集(Schuhmann等人,2022年)中收集了一部分图像,这是一个包含50亿图像文本对的庞大集合。LAION是通过网络爬取收集的,用于训练许多流行的OpenCLIP模型。

病理学Twitter

我们使用病理学Twitter标签收集了超过10万条推文。这个过程非常简单,我们使用API来收集与一组特定标签相关的推文。我们移除包含问号的推文,因为这些推文通常包含对其他病变的请求(例如,“这是什么类型的肿瘤?”),而不包含我们实际需要来构建模型的信息。

我们提取具有特定关键词的推文,并删除敏感内容。此外,我们还删除所有包含问号的推文,因为这些推文通常用于病理学家向同事提问有关可能的罕见病例。

从LAION数据集中抽样

LAION包含50亿图像文本对,我们收集数据的计划如下:我们可以使用来自Twitter的自有图像,并在这个庞大的语料库中找到相似的图像;这样,我们应该能够获得相当相似的图像,并希望这些相似的图像也是病理学图像。

现在,手动执行这个任务是不可行的,嵌入和搜索50亿的嵌入是一项非常耗时的任务。幸运的是,对于LAION,有预先计算的向量索引,我们可以使用API来查询实际图像!

因此,我们只需嵌入我们的图像,然后使用K-NN搜索在LAION中查找相似的图像。请记住,每个图像都附带有标题,这对我们的用例非常完美。

确保数据质量

我们收集的并非所有图像都是好的。例如,从Twitter上,我们收集了许多医学会议的集体照片。从LAION中,有时会得到一些类似分形的图像,它们可能模糊地类似某种病理模式。

我们做的事情非常简单:我们使用一些病理学数据作为正类数据,使用ImageNet数据作为负类数据,来训练一个分类器。这种分类器的精确度非常高(实际上很容易将病理图像与网络上的随机图像区分开来)。

此外,对于LAION数据,我们应用了一个英语语言分类器,以删除不是英语的示例。

数据收集是最困难的部分。一旦完成并且我们信任我们的数据,我们可以开始训练。

为了训练PLIP,我们使用了原始的OpenAI代码进行训练 - 我们实现了训练循环,添加了余弦退火以用于损失,以及一些其他小调整,以确保一切顺利运行,并且可以验证(例如,Comet ML跟踪)。

我们训练了许多不同的模型(数百个),并比较了参数和优化技术。最终,我们能够找到一个我们满意的模型。在论文中有更多的细节,但在构建这种对比模型时,其中一个最重要的组成部分是在训练过程中确保批处理大小尽可能大,这允许模型学习尽可能多的元素。

现在是时候测试一下我们的PLIP了。这个基础模型在标准基准测试中表现如何?

下面的GIF图演示了如何使用像PLIP这样的模型进行零样本分类。我们使用点积作为向量空间中相似度的度量(值越高,越相似)。

在图表中,你可以看到PLIP与CLIP在我们用于零样本分类的数据集中性能的快速比较。使用PLIP替代CLIP在性能上有显著提升。

PLIP与CLIP性能(加权宏F1)在两个零样本分类数据集上的对比。请注意,y轴在0.6左右而不是1。

使用PLIP的另一种方式是作为病理图像的特征提取器。在训练过程中,PLIP会看到许多病理图像,并学会为它们构建向量嵌入。

假设你有一些注释的数据,你想训练一个新的病理分类器。你可以使用PLIP提取图像嵌入,然后在这些嵌入之上训练逻辑回归(或你喜欢的任何类型的回归器)。这是执行分类任务的一种简单有效的方法。

为什么这样做?其想法是,为了训练分类器,PLIP嵌入是病理学特有的,应该比CLIP嵌入更好,CLIP嵌入是通用的。

以下是CLIP和PLIP在两个数据集上的性能比较示例。虽然CLIP获得了良好的性能,但我们使用PLIP获得的结果要高得多。

如何使用PLIP?以下是一些如何在Python中使用PLIP的示例,以及一个可以用来播放该模式的Streamlight演示。

我们的GitHub存储库提供了几个额外的示例,你可以遵循。我们已经建立了一个API,使你能够轻松地与模型交互:

你还可以使用更标准的HF API来加载和使用模型:

我们还相信PLIP和未来的模型可以有效用作医疗AI的教育工具。PLIP允许用户进行零样本检索:用户可以搜索特定关键词,PLIP将尝试找到最相似/匹配的图像。我们构建了一个简单的Streamlit网络应用程序,你可以在这里找到。

虽然我们的结果很有趣,但PLIP有很多不同的限制。数据不足以学习病理学的所有复杂方面。我们构建了数据过滤器来确保数据质量,但我们需要更好的评估指标来了解模型做得对和做得错的方面。

更重要的是,PLIP并不能解决当前的病理学挑战;PLIP不是一个完美的工具,可能会出现许多需要调查的错误。我们看到的结果确实很有希望,为将来结合视觉和语言的病理学模型打开了一系列可能性。然而,在这些工具可以在日常医学中使用之前,还有很多工作要做。

THE END
0.永遠不怕突然無法使用Illustrator!修正Illustrator啟動錯誤!當您啟動 Adobe Illustrator 時,會載入必要的外掛程式、字型、驅動程式及其他協力廠商元素,且它們也必須運作正常。過去,當 Illustrator 發生錯誤 (例如毀損的字體或不相容增效模組) 時,應用程式會當機,而難以診斷引發問題的原因。 安全模式是新的功能,能夠: jvzquC41jgrqz7ffqdk/exr1jme{j8nnnwyutjyqt1{tkwl1uclf/vtfg/omn~xvtczpt6ikcitpu}ne/uzbt}zr/vktv|3jvor
1.带有问号的蓝粉渐变色魔方及星球元素画面ai绘画这是一副由ai生产的带有问号的蓝粉渐变色魔方及星球元素画面图片,图片描述了问号、魔方、蓝粉渐变色,图片可商用。作品带有问号的蓝粉渐变色魔方及星球元素画面格式为png,编号:1413020,尺寸:5312*5312像素,欢迎会员下载。jvzquC41yy}/7:rk|0ipo8xweco03=65246/j}rn
2.干货丨AI常见问题及处理方法ai色板为什么没颜色AI软件在运行时经常会容易报错或者操作不成功,问题及处理方法分享给大家 01 当AI中色板里面没有颜色可选 原因:将图片素材直接以新窗口打开,所以显示的是位图文件。 解决办法:重新新建文件,然后将图片拖入新建文件中 点击默认属性栏中的“嵌入”即可 02 视图出现线稿 jvzquC41dnuh0lxfp0tfv8hfahgsurljv1gsvrhng1jfvjnnu1742:9:288
3.Illustratorの不明なエラーの問題を回避策によって解決を試みますアドビ認定の Community Expert や他の詳しいユーザーから、アドバイスしてもらえます。 Illustrator フォーラム 「Illustratorで精密なデザインを 」 クリエイティブな自由度と正確性を追求して作られたベクターグラフィックツールで、アイデアを形にしましょう。 jvzquC41jgrqz7ffqdk/exr1lr5jnuzuvtguq{4md1ljz6zpmpuxp6jttqx.k|xwgu4ivvq
4.ai画图中的一些技巧俊杰的博客颜色取样器 [I] 油漆桶工具 [K] 剪刀、餐刀工具 [C] 视图平移、页面、尺寸工具 [H] 放大镜工具 [Z] 默认前景色和背景色 [D] 切换填充和描边 [X] 使用混合工具/在线条间增加线条 我们可能都看过很多别致的矢量图形作品,而且很多都是利用空间曲线环绕而成的复杂的图形,它们确实能帮助增加设计的动感和趣味而jvzquC41yy}/ewgnqiy/exr1dc{m1jwvkerfu86:63<877mvon
5.AI出现井号常见问题解答AI出现井号解决方法与技巧3D模型 SU模型 灵感· 案例 贴图材质 CAD VR全景 AI绘画 更多 溜溜问答 > 平面设计 > AI出现井号 AI出现井号浏览量:1091Excel出现井号 AI 打完字有井号 AI字体后面有井号 Word的井号怎么打 CAD井号怎么 Excel 井号 AI打字后面有个井号怎么办 CAD井号 jvzquC41yy}/5m;80eun1jsuygxta{jncvopp8wgnczjqwd:;:92;7mvon
6.AI技巧颜色取样器 【I】 油漆桶工具 【K】 剪刀、餐刀工具 【C】 视图平移、页面、尺寸工具 【H】 放大镜工具 【Z】 默认前景色和背景色 【D】 切换填充和描边 【X】 标准屏幕模式、带有菜单栏的全屏模式、全屏模式 【F】 切换为颜色填充 【<】 切换为渐变填充 【>】 jvzquC41yy}/fxzdcp4dqv4pqvk03B=5788688
7.室温超导引爆全网?!科学家:淡定!回到Dias团队的这项研究,我想给大家一个建议,可以关注,但没必要太激动。还是那句话,一种材料从研究到实际应用,往往是要经历漫长过程的。他们所报道的这种材料,是否能被重复实验,以后到底能不能大规模应用,目前看都是要打很多问号的。 问题六:“AI for Science”背景下,人工智能对超导领域的影响正在发生 jvzq<84uekio0lfucf4dc|3ep1}{1;5462=0v;5462=17h:246:767mvon
8.AI显示遇到未知阴影类型?因为它在处理未知或不常见的图像类型时没有足够的训练或经验。jvzquC41yy}/5m;80eun1jsuygxt1zzguvopph6656:157mvon
9.信创报表怎么接入大模型?AI驱动数据分析新体验AI驱动数据分析新体验 你有没有遇到这样的问题?数据报表每天都在做,汇总、分析、可视化,流程却还像“体力活”,无论是信创环境下的国产报表工具,还是传统的数据分析平台,真正让决策更智能,始终缺点什么。AI大模型来了,大家都在说“智能分析”“自动洞察”,可具体到信创报表怎么接入大模型、怎么真正让AI驱动数据分析jvzquC41yy}/hrsgtgvpt}3eqo5cnxl1ctzjeuj18:kg7k>:f4;39n5gd9;969j:
10.打开的白色问号盒子内有彩色球体和周围可爱星星元素ai绘画这是一副由ai生产的打开的白色问号盒子内有彩色球体和周围可爱星星元素图片,图片描述了白色盒子、打开的盒子、问号图案,图片可商用。作品打开的白色问号盒子内有彩色球体和周围可爱星星元素格式为png,编号:1425021,尺寸:5312*5312像素,欢迎会员下载。jvzquC41yy}/7:rk|0ipo8xweco03=77247/j}rn
11.ai怎么画一根骨头LOGO?ai绘制骨头图标的教程Illustrator教程好用的矢量绘图工具 Adobe Illustrator CS5(ai软件下载) 官方离线正式安装版 类型:图像处理 大小:111.56MB 语言:简体中文 时间:2013-08-09 查看详情 1、新建一个文档,颜色模式为RGB模式。 2、用矩形工具填充颜色并且绘制长方形作为背景。 3、用文字工具写出问号,然后调整大小和字体,然后扩展对象,取消编组,删除下面jvzquC41yy}/lk:30pku1Rqnwuzsc}tt18619A<0jvsm
12.问号怎么图片问号怎么素材问号怎么图片下载视觉中国为您找到11220个原创问号怎么素材图片,包括问号怎么图片,问号怎么插画,问号怎么模板,问号怎么元素,问号怎么图标等源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于问号怎么素材、图片、海报、背景、插画、配图、矢量、UI、PS、免抠,模板、艺jvzquC41yy}/xll0eqs0e{jcvk|f/rrcig57::7:;5
13.AI/EPS格式兰色问号素材兰色问号图片元素觅元素是设计素材的免费下载网站,提供AI/EPS格式兰色问号素材,兰色问号图片,兰色问号免抠素材设计元素,兰色问号png图片透明背景等素材免费下载。jvzquC41yy}/7:~wcpyv0lto1v{qkjs14:677<<386kg9ng:77i6h65/2/8.2661
14.使用生成式AIAdobe 帮助中心 Illustrator 桌面版帮助 新增功能 使用生成式 AI 疑难解答 添加和导入文件 创建和管理画板 绘制和填充 管理颜色 用文字设计 管理对象 衡量和对齐 快速入门 使用生成式 AI此页面有用吗? 是,谢谢不是太有用学习 通过应用程序中的分步视频教程和实践指导进行学习。 社区 加入讨论jvzquC41jgrqz7ffqdk/exr1ep5jnuzuvtguq{4fguquqy4wug3hgwjtcvowg6fk0jznn
15.清华新成立的这个系对标麻省理工心理学新浪财经“AI全面超越人类大概率是确定的事情。” “人要与AI共同发展才不会被淘汰。” …… 刘嘉并未止步于给出观点,他要把这些思考落地。今年4月18日,由刘嘉担任系主任的清华大学心理与认知科学系正式成立,这里将成为他践行思考的园地。 这也是清华大学再造心理学系的一大步。 jvzq<84hkpgoen3ukpg/exr0ep5ulq14285/9:/365eql2kpc|gerr2;3<93A3ujvsm