苹果联手加州大学研究人员推出图片处理模型初显技术家底

财联社2月8日讯(编辑 史正丞)看着三星刚发布的AI手机“画个圈就能编辑图片”,iPhone用户只能无奈地咽下口水。但最新论文却显示,苹果公司在AI领域的储备,显然要比市场预期得丰厚不少。

苹果与加州大学研究人员在本周刊发的论文中,公开了一项基于多模态大模型,能根据自然语言指示进行图片编辑的开源“MGIE”AI模型。开发人员直言,这个AI能够进行“Photoshop式的修改”、全局优化和局部编辑。

这项研究的突破之处在于,虽然现在多模态大语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面表现出了卓越的能力,但尚未被广泛应用于图像编辑任务。而从这篇论文给出的一系列演示来看,光是MGIE展现出来的AI图像编辑能力,就足以推出一系列有趣的AI应用。

这个AI能做什么?

使用多模态大语言模型编辑图像有两个好处:首先,模型能够将自然语言指令翻译成更容易让机器执行的命令。例如用户输入“让图片背景的天空更蓝一些”时,MGIE会将提示词转化为“将天空区域的饱和度提高20%”。其次,多模态大语言模型在视觉想象力、图片生成等模块本身也具有一定的优越性。

论文也给出了不少示例:

比如,“让图中食物变得更健康一些”,AI就会在纯肉披萨上,加一些小番茄和香草叶。

还有网友们需求极大的“P图”功能:将背景里的人去掉,这个AI也能抠得干干净净。

从多个同类AI的表现对比来看,MGIE在理解指令(例如在甜甜圈上覆盖草莓酱淋面)和执行P图命令(增亮、锐化图片)方面,也展现出了业界顶级的效果。

目前MGIE的开源文件已经被论文第一作者、加州大学圣塔芭芭拉分校的Tsu-Jui Fu上传到Github上,同时在“抱抱脸”平台上开放了试用demo。论文显示,Tsu-Jui Fu曾在2023年夏天在苹果公司实习,MGIE的研究工作也是在那个时候完成的。

围绕苹果的AI争论

MGIE和这篇论文,也展现了苹果公司近些年来在AI领域确有相当水平的积累。

在被华尔街诟病“没跟上AI时代”,以及科技爆料人嘴里“苹果高层惊慌失措”后,前不久才从世界市值第一上市公司的位置上掉下来的苹果,势将在今年对外展示iOS如何使用AI。外界普遍预期,每年6月苹果披露最新软件成就的WWDC,今年将会成为发布AI产品的主阵地。

在今年2月1日的财报电话会上,库克也明确表示,公司在生成式人工智能方面正在开展大量工作,同时在今年晚些时候,苹果将讨论一些“让我们感到无比兴奋的事情”。

值得一提的是,苹果公司在机器学习等领域一直都有投入,但在产品宣发层面却不太喜欢使用AI这个词。在去年WWDC上,苹果发布能够自动修正拼写错误的键盘功能,底层技术正是与ChatGPT类似的transformer模型,但是苹果在发布会上完全没有提AI,仅使用了更为学术化的称呼——机器学习。

THE END
0.记者暗访:“AI脱衣”技术正盯上学生群体南方+南都记者调查发现,随着AI技术的普及,其带来的隐患在网络中广泛存在。其中,AI绘图不仅轻松生成涉及未成年人的低俗色情图片视频,AI换脸生成说话视频仅需几十元,这些新技术的产生正在给未成年人带来看不见的隐患和风险。 部分“AI绘图”涉未成年软色情 2019年,国家互联网信息办公室发布的《儿童个人网络信息保护规定》于jvzquC41uvgukl3phcvq0|twvjio0lto1euovnsv146359<1425d9B6574
1.AI自动生成图片系统开发的技术挑战AI自动生成图片系统开发的技术挑战 “在这个万物皆可创作的时代,为什么有些AI生成图片系统能够画出令人惊叹的作品,而有些却连基本的构图都搞不定?难道背后隐藏着哪些不为人知的技术挑战?” 随着人工智能的迅猛发展,自动生成图片的技术成为了热议的话题。尤其是对创作者和企业来说,这项技术不仅可以提高效率,更可以开jvzquC41fqthi~fp03758@3eqo5jpot155974?870jzn
2.五分钟技术趣谈AIGC介绍与应用选型评估文本生成是指利用AI技术,根据给定的输入(如关键词、图片、语音等),自动生成符合语法和逻辑的文本内容,是AIGC的一个重要方面。 文本生成的应用场景非常丰富,包括新闻写作、小说创作、营销文案、客服问答、聊天机器人、教育辅导、知识图谱、摘要生成等。 ➤ 文心一言:由百度推出的支持多模态输出的AI大模型,能够进行文jvzquC41yy}/7:hvq0ipo8ftvkimg8<788:10qyon
3.四种AI技术方案,教你拥有自己的Avatar形象得益于 AI 技术的高速发展,我们现在已经拥有了制作虚拟人技术,但相信这一切只是开端。在可预见的未来,Avatar 将作为元宇宙数字居民的数字化身,越来越频繁的出现在虚拟世界中。而 Avatar 也将成为虚拟世界中的极其重要的一项数字资产。 最后引用扎克伯格对数字人的一段描述,“虚拟世界的特征是存在感,即你可以真切感受到jvzquC41yy}/kvtqe0ipo8ftvkimg88437>8
4.AI绘画(以后也叫AI视频)ai绘画csdn当前AI技术应用在不同的领域中,能够运用到的使用场景也不尽相同。比如在传统的绘画领域中,我们常常需要对物体进行各种处理才能让整个画面呈现在眼前,所以需要通过绘画模型进行优化,然后再对画面进行调整。而在 AI绘画领域,其应用场景更加广泛,比如在 AI图像识别方面,我们可以利用其深度学习的特性来处理人脸等物体的3D模jvzquC41dnuh0lxfp0tfv8r2a7?35>7671gsvrhng1jfvjnnu1744><:74=
5.AI换脸背后的技术攻防战尽管以上提到的生物识别技术各有门槛,但它们并非不可破解,在AI技术加速发展的当下,一些识别方式如同人脸识别一样,正在遭遇更大的挑战。 根据量子位的报道,斯坦福和普林斯顿大学等最新研究:给定任意文本,就能随意改变一段视频里人物说的话。并且,改动关键词后人物口型还能对得奇准无比,丝毫看不出篡改的痕迹——AI也能jvzquC4158qs0lto1r529;94:3?25<97
6.好未来AI开放平台好未来AI开放平台,依托多年教育行业经验与海量行业数据优势,深耕教育领域人工智能技术创新,为广大教育行业伙伴提供领先的AI能力与解决方案,助力教育智能化发展jvzq<84ck0~vgnwuk0ipo8