吴恩达最新演讲:gent驱动下一个创新浪潮

在2024年Snowflake峰会开发者日的Luminary演讲中,Landing AI创始人兼CEO吴恩达详细介绍了AI智能体工作流及其潜力。吴恩达认为,AI智能体工作流可能比下一代基础模型带来更大的AI进展。吴恩达在演讲中重点讲述了AI智能体工作流如何迭代地进行任务,从而比传统的零样本提示方式产生更优质的结果。

吴恩达还分享了Landing AI团队在视觉智能体方面的最新进展,并展示了视觉智能体在复杂任务中的应用,进一步证明了智能体工作流的有效性和广泛应用前景,并就其局限性和未来发展方向进行了分析和展望。他呼吁开发者们关注和参与AI智能体技术的发展,共同推动这一激动人心的趋势。

他表示,虽然目前技术依旧有缺陷,但AI智能体工作流已经开始从一种新奇的“玩具”过渡到真正的实用阶段,未来必将为开发者带来前所未有的高效创新体验。吴恩达相信,通过开源和社区合作,这些技术将不断进步,显著提升开发者的能力。

以下是演讲内容目录:

01 AI智能体工作流

02 视觉智能体

03 视觉智能体当前的技术不足

/ 01 / AI智能体工作流

因为这是一个开发者大会,我想借此机会和大家分享一些我对人工智能体 (AI agent) 感到兴奋的事情。实际上,我将分享一些从未公开过的新内容。大家都知道人工智能代理,对吧?我们很多人习惯于使用大型语言模型进行所谓的零样本提示,这意味着让它写一篇文章或者对提示做出回应。这有点像你去找一个人,对他说,请你写一篇关于某个主题的文章,从头到尾一次性写完,不允许使用退格键。尽管以这种方式写作是很困难的——我自己就不能这样写——但大型语言模型表现得相当不错。

相比之下,智能体工作流 (agentic workflow) 的工作流程要迭代得多。你可能会让一个语言模型先写一个文章大纲,然后问它是否需要进行网络搜索。如果需要,它会去网上搜索,获取一些信息,然后写出初稿。然后再读自己的初稿,看是否可以改进,之后再进行修改。

所以,智能体的工作流程看起来更像这样:模型可能会先思考一下,做一些研究,然后进行修改,再做更多的思考。

这种迭代循环实际上会产生更好的最终产品。如果你考虑用代理来写代码也是同样的情况,今天我们往往让一个模型直接写代码,这就像让一个开发者从头到尾一次性打出程序,并且运行代码,第一次和最后一次字符都是这样,虽然这样做效果也出奇的好。但是,代理的工作流程同样可以使工作效果更好。

我的团队收集了一些数据,这些数据基于一个叫做Human Eval的编码基准,这是OpenAI几年前发布的一个标准基准,里面有一些像这样的编码难题,比如给定一个非负整数数组,返回某些数据,结果是这样的解答。

事实证明,GPT-3.5在这个评价指标上的通过率是48%,也就是零样本提示下让它直接写出代码的准确率是48%。而GPT-4则好得多,准确率达到67%。但事实证明,如果你把GPT-3.5放入一个代理工作流程中,它的表现会更好。而GPT-4在这个流程中的表现也非常好。因此,我希望你们从中了解到的一点是,虽然从GPT-3.5到GPT-4的进步是巨大的,但与GPT-3.5在代理工作流程中的进步相比,这种进步其实显得相形见绌。对于所有正在构建应用程序的人来说,我认为这可能表明了代理工作流程的巨大潜力。

/ 02 / 视觉智能体

我的团队在Landing AI从事视觉AI的工作,我想与大家分享一些最新的进展,这是我以前从未展示过的。我们几天前刚刚开源了这个项目,我对此非常兴奋,即构建一个视觉智能体(visual agent)。

这个项目的负责人Dillon Laird是一个狂热的冲浪爱好者,他经常看鲨鱼视频。这是一条鲨鱼,而这是一位冲浪者在游动。Dillon对这类视频很感兴趣,比如这些鲨鱼离冲浪者有多近。这个视频是生成的,例如鲨鱼离冲浪者6.07米,7.2米,9.4米。现在鲨鱼离冲浪者足够远了,所以我们把颜色从红色变为绿色。当冲浪者离鲨鱼超过10米时,颜色就变成绿色。

如果你想写代码来实现这一点,你需要进行对象检测,进行一些测量,找到边界框,绘制一些东西。你可以做到,但这很麻烦,需要几个小时来写代码。现在我想展示一下我们构建这个视频的方式,我们编写了一个提示:你能在视频中检测到任何圆圈或鲨鱼吗?在视频中画一条绿色线表示冲浪者,假设30像素为1米,多条红线,等等。

这就是给视觉智能体的指令。根据这个自然语言提示,它会分解成一系列步骤的指令集,比如使用extract_frames工具来提取视频帧等等。这就是完成该任务所需的一系列步骤。之后会检索工具,也就是函数调用。比如save_video,这是一个实用函数,可以保存一系列帧。然后我们会检索save_video工具或save_video函数的详细说明。对于其他工具如closest_box_distance来测量鲨鱼和冲浪员之间的距离,也是如此。基于此,我们最终生成了代码,当运行这段自动生成的代码时,就会产生你之前看到的那段视频。所以我想再深入一些,解释这是如何实现的。

所以,我们构建的视觉代理是这样工作的。你输入一个提示。这是一个比我刚才用的提示稍微简单一点的提示,例如计算鲨鱼和最近的圆圈之间的距离。我们视觉代理的目标是编写代码来执行你提示的任务,这样你就可以输入单个图像,并生成所需的结果。

类似于编写非图像代码的代理工作流程,我们发现对于许多应用来说,这种方法比零样本提示要好得多。此外,我们还发现,对于许多图像用户来说,比如在Snowflake中如果你有10万张图像,那么拥有可以非常高效地在大量图像上运行的代码也很重要,因为一旦你有了代码,你就可以处理大量图像或视频帧,并通过相对高效的代码处理得到答案。

我想和大家分享一下视觉代理的工作原理。这是开源的,所以请看看,给我们反馈,也许可以帮助我们改进。视觉代理是用两个代理构建的。一个是编写代码的代理,另一个是测试代码的代理。给出一个像这样的提示,编写代码的代理首先运行一个计划程序,生成一个完成任务所需步骤的计划。比如加载图像,使用工具检测对象,计算距离等等。然后它会检索这些工具(即函数)的详细描述,最后生成代码。

不知道这一切听起来是否有点像魔法,但所有代码都在GitHub上。可以看看,看看我们使用的具体提示。当你看到细节时,可能会感到惊讶,虽然第一次看可能觉得这些东西像魔法,但看看代码和提示,也许你会发现其中的原理。当你这样做时,还有其他一些演示。比如检测每个人是否戴口罩,并将结果生成一个Python字典。生成了一堆代码,这是一个Python字典,八个人戴了口罩,两个人没有戴。

这是一个不同的提示,实际上生成了一个可视化,绘制了检测结果。所以这是自动生成的新代码。比如它漏掉了一些未戴口罩的人,未能检测到未戴口罩的人。

再举一个例子,这很有趣。分析视频,每两秒钟分类一次,看是否有车祸。输出一个JSON,显示是否有车祸。这个视频有16秒,我认为没有人受伤。当你这样做时,右边的代码会处理视频并生成一个JSON,显示在这个时间点没有车祸,在这个时间点有车祸。我的内部团队和一些用户给我的反馈是,虽然我自己也可以写这段代码,但这会花我几个小时。现在可以很快完成。

在计算机视觉领域,我们使用很多不同的函数。说实话,我经常记不住要用哪个函数,语法是什么。而这真的让构建视觉AI应用的过程变得更容易,只要它能正常工作。

现在我们的测试代码主要是类型检查,所以有些有限,但即便如此,我们也可以执行测试代码,如果测试代码失败,就把输出反馈给编写代码的代理,让它反思并重写代码。这可以进一步提高性能。

在学术文献方面,我们参考最多的两篇论文是Huang等人的代理代码论文和Huang等人的数据解释器论文。如果你想了解更多这些技术,可以看看这些论文。

最后展示一个演示,这是每两秒钟检测一次视频中的摩托车,并高亮显示。实际上这是为了处理闭路电视监控视频而制作的,就像特斯拉汽车那样拼接成视频,普通人认为需要高亮显示有趣的地方。

所以这是一个很长的提示和YouTube链接。它创建了指令,检索了工具。结果发现代码没有正常工作,对吧?所以这段代码实际上失败了几次。你可以看到这里有个索引错误的回溯。它将所有这些错误信息反馈给了大型语言模型。第三次失败时,没有名为PyTube的模块。

最后通过Pip安装PyTube解决了这个问题,成功运行了代码,并生成了突出显示监控摄像头视频中四个包含超过 10 辆车的视频片段的效果。我对这个方向非常感兴趣,它适用于许多应用,包括编程和视觉智能体。

/ 03 / 视觉智能体当前的技术不足

我对Landing AI和Snowflake的合作非常兴奋,我们最近构建了Landing Lens,这是一个Snowflake原生应用的监督学习计算机视觉系统。我认为通过监督学习,我们可以减少一些错误。但它在复杂推理上表现不好。比如说每只鸟重半公斤,栅栏上一共承重多少。系统会天真地检测到所有鸟,但不会意识到有一只鸟在飞,不会施加重量。但如果你修改提示,说忽略飞翔的鸟,它就能正确识别。我觉得今天发布的视觉智能体是beta版,有时能正常工作,有时不能,对提示的措辞也有些挑剔,有时需要更具体地描述步骤。

我看到AI智能体正在被用于许多不同的应用。我觉得你们中的一些人可能在社交媒体上看到了Devin做的演示,我看到有些团队在做法律工作,例如分析复杂的法律文件,使用智能体来分析复杂的法律文件。

我认为AI研究智能体已经可以上网进行网页搜索,综合大量信息并写出一份深入的研究文档。这确实已经开始流行起来了。我其实也经常玩一些Agentic平台,比如Quora、AutoGen,有时还有LandGraph和其他平台。很多人基于这些框架构建了很多应用。目前,我发现很多智能体都是为特定目的构建的,但看看是否会有一个非常通用的智能体是很有趣的。我认为这很令人兴奋。

对于很多智能体,我认为我们刚刚跨过了从玩具新奇到实用的门槛。例如,AI研究智能体,几个月前我还只是玩玩,上网搜索信息,为你写研究论文。大约三个月前,这还是很有趣的玩具。但就在过去几个月里,我的朋友,斯坦福大学的Monica Lam,她的研究实验室发布了Storm,这是一个开源软件,我感觉这个确实开始变得有用。

THE END
0.搞Agent智能体定制开发,到底能不能赚到钱?“搞智能体定制开发,到这才是客户想要的那种智能体嘛! 老顾觉得机会真的来了。 这个机会,就是从原来传统IT时代为客户提供软件工具,到现在Agentic AI时代,为客户提供端到端生产力/数字员工。 机会是机会,想要赚钱不容易 说干就干,下班后老顾喊住公司几个技术骨干,一边撸串一边开会,大家需要盘一盘,这件事的可操作性有多大。 jvzquC41zwkrk~3eqo52:=9;62<47885:6:67;8
1.科技观察|当AI已经不胡说八道,为什么整个行业都在关注智能体?怎么做智能体? 智能体不仅为我们带来工作效率的提升、生活方式的变化、生产能力的提高,而且我们每个人还能结合自己擅长的领域,开发自己的智能体。 就像众多“70后”“80后”,很多人当年在网站兴起的浪潮中攫取了他们的“第一桶金”,智能体的出现,也许就是AI浪潮带来的又一个新机会。相比之下,智能体的开发门槛更低jvzquC41yy}/ezhd0eun1|mw|kpjppok14636663/3;07?>;9:7/j}rn
2.AI写作智能体助手工具,AI智能体写作绘画助手工具创业赚钱商机黑喵大叔AI智能助手,创业商机好新项目、AI工具和AI写作助手,用AI绘图绘画工具做AI赚钱项目,各类热门赚钱教程、各种自学教程课程资源免费下载jvzquC4173pv|m3eqo5
3.2025加密货币的10个预测:哪些币会爆发?哪些币将暴涨10倍?目前智能体构建的重点是 DeFi,但我们相信AI智能体将超越金融活动。智能体可以充当社交媒体影响者、游戏中的计算机玩家以及消费者应用程序中的互动伙伴/助手。智能体已经成为重要的 X/Twitter 影响者,例如Bixby和Terminal of Truths,他们分别拥有 9.2 万和 19.7 万名粉丝。因此,我们相信智能体的巨大潜力将在 2025 年催jvzquC41yy}/lk:30pku1kqqemiicrs1;8;76@3jvor
4.AI能办专属信用卡:智能体自己赚钱自己花,OpenAI合作伙伴打造现在,给AI 办张银行卡,它就能帮我们完成最终支付了?! 事情是这样的。 支付公司 Stripe(也就是 Chatgpt 的支付服务商)专门为 AI 智能体发布了一个接口,它允许智能体使用一次性虚拟卡完成金融支付。 消息一出,不仅引来近百万网友围观,也迅速在开发者社区引起热议。 jvzq<84hkpgoen3ukpg/exr0ep5uglm1fkmj1;546/72/:>1fqi.kwhysm~t8;63;;:/uqyon
5.2025普通人必看!AI智能体赚钱全攻略,月入5万不是梦AI 智能体赚钱全攻略,月入 5 万不是梦 前言 人工智能技术正以前所未有的速度重塑全球经济格局,AI智能体作为最具商业价值的技术形态之一,正在创造大量低门槛的创富机会。本文基于对2024-2025年AI智能体市场的深度调研,系统梳理了经过验证的6大变现路径,旨在帮助普通人抓住这波技术红利。jvzquC41dnuh0lxfp0tfv8r2a7?35?;241gsvrhng1jfvjnnu175:?5::46