知识就是的力量:从知识工程到知识图谱全面回顾澎湃号·湃客澎湃新闻

知识工程是符号主义人工智能的典型代表,知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?复旦大学教授、知识工场创始人肖仰华,此前受邀在腾讯研究院×集智俱乐部AI&Society沙龙上发表以为题的演讲,笔者受肖仰华教授讲座启发,梳理了知识工程与知识图谱的发展历程。

以 ChatGPT 为代表的大语言模型被广泛应用于文本生成、机器翻译、关键词提取等领域。然而,大语言模型输出内容的真实性、一致性尚难以得到保证。是否可以将数据质量更高的知识图谱作为其知识来源?大语言模型内部蕴含的丰富知识又能否帮助提高知识图谱的质量和广度?在本周五集智俱乐部“”读书会中,我们将讨论大语言模型和知识图谱相互促进的可能形式与现有实践,欢迎感兴趣的朋友参与!

关键词:人工智能,知识工程,知识图谱,符号主义,语义网络

曹羽 | 作者

王怡蔺 | 编辑

智能是什么?半个多世纪以来,无数科学家钻研,各个派别涌现,然而众人的眼光似乎总是聚焦在当下“胜利”的那一方。过去几年,以深度学习为代表的连接主义取得了丰硕的成果,如今提到人工智能,都默认是基于深度学习和机器学习方法,而其它研究方向似乎被众人遗忘。

随着大数据红利消耗殆尽,深度学习模型效果的天花板日益迫近,人们四处寻找新的突破口,“得知识者得天下”的声势渐长。以知识图谱为代表的符号主义被打上追光,这个蕴含大量先验知识的宝库尚未被有效挖掘。

符号主义和连接主义此消彼长几十年,未来是否会继续重复这种对立,亦或者是找到两者有机的结合,走向合作发展的道路?

知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?本文将从历史出发,系统梳理知识工程近 40 年的发展历程,结合互联网大数据时代的技术和社会背景,展望知识工程和知识图谱的未来前景。

智能化的突破口:知识工程

一般认为,人工智能分为计算智能、感知智能和认知智能三个层次。简要来讲,计算智能即快速计算、记忆和储存能力;感知智能,即视觉、听觉、触觉等感知能力,当下十分热门的语音识别、语音合成、图像识别即是感知智能;认知智能则为理解、解释的能力。

目前的智能研究旨在通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。| © thoughtworks

落眼当下,以快速计算、存储为目标的计算智能已经基本实现。近几年,在深度学习推动下,以视觉、听觉等识别技术为目标的感知智能也取得不错的胜利果实。然而,相比于前两者,认知能力的实现难度较大。举个例子,小猫可以“识别”主人,它所用到的感知能力,一般动物都具备,而认知智能则是人独有的能力。人工智能的研究目标之一,就是希望机器将具备认知智能,能够像人一样“思考”。

这种像人一样的思考能力具体体现在:机器对数据和语言的理解、推理、解释、归纳、演绎的能力,体现在一切人类所独有的认知能力上。学界业界都希望通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。

知道了认知智能是机器智能化的关键,进一步我们要思考,如何实现认知智能——如何让机器拥有理解和解释的认知能力。

过去几年,由于大数据红利的消失,深度学习面临巨大的瓶颈,需要寻找新的突破口。以深度学习为代表的统计学习方法,严重依赖样本,只能习得数据中的信息。部分研究者已经关注到,另一个非常重要的突破方向在于——知识,特别是符号化的知识。

肖仰华教授认为,知识图谱和以知识图谱为代表的知识工程系列技术,是认知智能的核心。知识工程主要包括:知识获取、知识表示和知识应用。我们可以尝试突破的方向在于知识的利用,在于对符号知识和数值模型结合的应用。而这些努力,最终结果就是使机器具备理解和解释的能力。

肖仰华教授正在AI&Society第十五期沙龙上发表知识图谱主题演讲

知识工程的前世今生

知识工程起源

20世纪50年代—70年代初

知识工程诞生之前的早期人工智能

那么知识图谱到底将如何助力人工智能?回顾历史总能帮助我们更好的理解未来。把时间的车轮回滚到1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,几位心理学家、数学家、计算机科学家、信息论学家聚在一起,举办了一次长达2个月的研讨会,认真而热烈地讨论了用机器模拟人类智能的问题。他们为会议的内容起了一个响亮的名字:人工智能(artificial intelligence)。

人工智能学科自此诞生。

传统知识工程代表性人物与成就

其中,以Newell和 Simon为代表人物的符号主义学派,最先取得丰硕成果,最著名的代表为逻辑机LT。

符号主义最核心的思想是什么呢?符号主义认为人工智能源于数理逻辑,认为智能的本质就是符号的操作和运算。符号主义在后来几大门派的较量中,曾长期一支独秀,为人工智能的发展作出重要贡献。当然,也为后来红火一时的知识工程奠定了基业。

再把时间的焦点挪到20世纪60年代—70年代初,学界还在为人工智能发展初期取得的胜利高兴不已的时候,不切实际的研发目标带来接二连三的项目失败、期望落空。过高的期望总是带来更具破坏性的失望,终于,人工智能迎来第一次寒冷的冬天。

1977

知识工程诞生

在人工智能领域经历挫折之后,研究者们不得不冷静下来,重新审视、思考未来的道路。这时候,西蒙的学生,爱德华·费根鲍姆(Edward A. Feigenbaum)站了出来。他分析传统的人工智能忽略了具体的知识,人工智能必须引进知识。

爱德华·费根鲍姆(Edward Feigenbaum,1936-),美国计算机科学家,专家系统之父,知识工程奠基人,曾获得 1994 年图灵奖。他有一句名言流传甚广:“Knowledge is the power in AI”。

在费根鲍姆的带领下,专家系统诞生了。专家系统作为早期人工智能的重要分支,是一种在特定领域内具有专家水平解决问题能力的程序系统。

专家系统一般由两部分组成:知识库与推理引擎。它根据一个或者多个专家提供的知识和经验,通过模拟专家的思维过程,进行主动推理和判断,解决问题。第一个成功的专家系统 DENDRAL 于1968年问世。1977年,费根鲍姆将其正式命名为知识工程。

把知识融合在机器中,让机器能够利用我们人类知识、专家知识解决问题,这就是知识工程要做的事。

知识工程的兴起与发展

20世纪70年代—90年代

知识工程蓬勃发展

1977年知识工程诞生之后,这个领域还在不断往前发展,不断产生新的逻辑语言和方法。这其中有一节点比较重要。

上节已经提到专家系统的是如何形成的,而专家系统究竟发展的如何呢?知识工程又是否能产业落地?美国 DEC 公司的专家配置系统 XCON给出了初步的答案,当客户订购 DEC 公司的 VAX 系列计算机时,专家配置系统 XCON 可以按照需求自动配置零部件。在投入使用的6年间,共处理八万个订单,节省了资金。

至此,人工智能逐步开始了商业应用。

比较著名的专家系统还有cyc,由Douglas Lenat在1984年设立,旨在收集生活中常识知识的本体知识库。Cyc不仅包含知识,还提供很多的推理引擎,共涉及50万条概念和500万条知识。除此之外,还有普林斯顿大学心理学教授维护的WordNet的英语字典。类似的,汉语中的《同义词词林》及其扩展版、知网(HowNet)等词典。不幸的是,随着日本五代机的幻灭,专家系统在经历了十年的黄金期后,终因无法克服人工构建成本太高,知识获取困难等弊端,逐渐没落。

1998

万维网与连接数据

万维网的出现,为知识的获取提供了极大的方便。1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网。它的核心是:语义网可以直接向机器提供能用于程序处理的知识。通过将万维网上的文档转化为计算机所能理解的语义,使互联网成为信息交换媒介。但是,语义网是一个比较宏观的设想,需要“自顶向下”的设计,很难落地。

语义分析与知识网络

由于自顶向下的设计落地困难,学者们将目光转移到数据本身上来,提出了连接数据的概念。连接数据希望数据不仅仅发布于语义网中,更需要建立起自身数据之间的链接从而形成一张巨大的链接数据网。其中, DBpedia项目是目前已知的第一个大规模开放域链接数据。类似的还有Wikipedia、Yago等都属于这一类结构化知识的知识库。

2012-知识图谱

知识工程新发展时期

与维基百科同时存在的还有个 Freebase。维基百科的受众是人,而 Freebase 则强调机器可读。Freebase 有 4000 万个实体表示,在被收购后,谷歌给它起了个响亮的名字“知识图谱”。

为何传统知识工程困难重重?

在上世纪七八十年代,传统的知识工程的确解决了很多的问题,但是这些问题都有一个很鲜明的特点,它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。一旦涉及到开放的问题就基本不太可能实现,比如数学定理的证明,或是下棋。

传统知识工程为什么会有这么苛刻的条件呢?因为传统知识工程是一种典型的自上而下的做法,是一种严重依赖专家干预的做法。知识工程的基本目标,就是把专家的知识赋予机器,希望机器能够利用专家知识来解决问题。传统的知识工程里,首先需要有领域专家,专家能够把自己的知识表达出来;进一步,还需要有知识工程师把专家表达这个知识变成计算机能够处理的形式。

如此依赖专家去表达知识、获取知识、运用知识,就会存在很多问题,一方面,这个机器背后的知识库规模很有限,另外一方面,它的质量也会存在很多的疑问,这就是为什么我们说传统的知识工程困难重重。

除了上面介绍的一些问题,传统的知识工程面临着的两个主要困难:

第一:知识获取困难

隐性知识、过程知识等难以表达。比如如何表达老中医看病用了哪些知识;不同专家可能存在主观性,例如,我国有明确治疗规范的疾病占比非常小,大部分依赖医生的主观性。

第二:知识应用困难

很多的应用,尤其是很多开放性的应用很容易超出预先设定的知识边界;还有很多应用需要常识的支撑,而整个人工智能最怕的恰恰就是常识。为什么?因为常识它难以定义、难以表达、难以表征;知识更新困难,太依赖领域专家,还有很多异常或难以处理的情况。

互联网应用催生大数据时代知识工程

由于上节所述种种原因,知识工程到了上世纪八十年代之后就销声匿迹了。

虽然知识工程解决问题的思路极具前瞻性,但传统知识表示的规模有限,难以适应互联网时代大规模开放应用的需求。为了应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。

首先取得重大突破的,是谷歌。谷歌搜索是谷歌公司的核心产品服务,这类互联网的应用,主要有以下特点:

• 大规模开放性应用,永远不知道用户下一次搜索关键词是什么;

• 精度要求不高;大部分搜索理解与回答只需要实现简单的推理,复杂推理为极少数。

在这样的诉求下,谷歌推出了自己的知识图谱,使用语义检索,从多种来源收集信息,以提高搜索质量。而知识图谱的推出,基本上宣告了知识工程进入了一个新的时代,我们称之为大数据时代的知识工程阶段。谷歌利用一个全新名称表达与传统知识表示其毅然决裂的态度。

Google知识图谱截取

知识图谱引领知识工程复兴

大数据时代下知识图谱的出现,有其必然性,大数据时代给知识图谱技术的发展奠定了丰富的土壤。或许你会问,知识图谱和传统的语义网络有什么本质不同么?大数据时代能给我们带来什么特别的有利条件?前沿进展的回答是——

大数据技术使得大规模获取知识成为可能,而知识图谱即为一种大规模语义网络。这样的一个知识规模上的量变带来了知识效用的质变。

我们有海量的数据、强大计算能力、群智计算以及层出不穷的模型。在这些外力的支持下,解决了传统知识工程的一个瓶颈性问题——知识获取。我们可以利用算法实现数据驱动的大规模自动化知识获取。

以知识图谱为代表的符号主义声势渐长,这个蕴含大量先验知识的宝箱正被大数据技术开启。| ©ontotext

和传统知识获取不同,以前是通过专家自上而下的获取知识,而现在是利用数据自下而上,从数据里面去挖掘知识、抽取知识。另外,众包与群智成为大规模知识获取的一条新路径。高质量的UGC内容,为自动挖掘知识提供了高质量数据源。

总的来说,知识工程在知识图谱技术引领下进入了全新阶段,叫做大数据时代知识工程阶段。肖仰华教授提出了一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:

Small knowledge + Big data = Big knowledge

大数据知识工程这个词是BigKE,它将会显著提升机器认知智能水平,那么,大数据知识工程对我们人工智能最根本的意义是什么?是提升机器的认知智能水平。我们正在经历感知智能到认知智能的过渡阶段,未来最重要的技术即是实现认知智能。

知识图谱使机器语言认知成为可能。机器想要认知语言、理解语言,需要背景知识的支持。而知识图谱富含大量的实体及概念间的关系,可以作为背景知识来支撑机器理解自然语言。

知识图谱使可解释人工智能成为可能。在人工智能发展的任何阶段,我们都需要事物的可解释性,现在的深度学习也常因为缺少可解释性受人诟病。而知识图谱中包含的概念、属性、关系是天然可拿来做解释的。

通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力。

知识将显著增强机器学习能力。传统的机器学习都是通过大量的样本习得知识,在大数据红利渐渐消失的情况下,逐渐遇到发展瓶颈。而通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力,或许是连接主义和符号主义在新时代下的共生发展。

除了上述的种种优势,知识图谱在一系列实际应用上也非常有用,比如搜索、精准推荐、风险识别、深化行业数据的理解与洞察等,将在各种各样的应用场景发挥作用。

信息技术革命持续进行,数据将会继续向更大规模、更多连接的方向发展,在此背景下,知识图谱将引领知识工程走上复兴的道路,推动在机器身上实现认知智能。

参考资料

[1] [2] 集智俱乐部. 科学的极致:漫谈人工智能[M]. 人民邮电出版社 , 2015-07

THE END
0.晚报AI速递:今日热点一览丨2025年9月15日硅谷涌现20岁出头的AI创业者群体,他们每周工作超90小时,放弃休假与娱乐,以“苦行僧”模式追逐万亿市值梦想。常春藤辍学生居多,通过YC孵化器快速融资,吃简餐、住共享舱,将生活极致压缩。投资市场的高增长期待加剧竞争,他们认为这是改变世界必须付出的代价。详情>> jvzquC41pg}t0|npc0io1;547/6:/::1fgzbku2kphwrsnk673>39B3f0jznn
1.AIGC时代数据安全问题丛生?白皮书:以新技术化解新业态风险21世纪经济报道记者王峰北京报道数据是数字经济的关键要素,数据安全已成为数字经济时代最紧迫、最基础的问题之一。 “生成式AI服务出现,让数据的真实性遭到空前挑战。”中国科学院院士冯登国在近日举行的第六届中国数据安全治理高峰论坛上说。 此外,生成式人工智能还带来了新型数据泄露及滥用的风险。 jvzquC41uvgukl3phcvq0|twvjio0lto1euovnsv146359:1425d9@55:99/j}rn
2.时代文旅乘风而起书店导购记20年后的AI世界人文周刊荐读书中的设想不但构建于对现有AI所进行的技术分析的基础之上,还考虑到了在未来20年内有望出现或即将诞生的新技术。书中的故事勾勒出了2042年的世界面貌。估计在20年后,书里的场景可能有八成将成为现实,当然,不排除有些部分被高估或低估,但请相信,我是本着负责任的态度去畅想未来AI时代的所有可能性的。”jvzquC41yy}/zqg{0pku1rsfgz532;72;1z32;72;56`9@6599>/uqyon
3.腾讯入局月之暗面,中国互联网下一个激荡二十年开启了吗?可事实摆在面前,在AI时代,这些庞然大物们就是慢人一步,从弄潮儿变成了追赶者,只能通过入股和收购的方式来勉强跟上时代的节奏。 问题出在哪了呢? 从谷歌身上,我们或许能找到答案。 用AI大模型技术创始人之一艾丹·戈麦斯的话来说,“在谷歌这样的大公司,你并不能真正自由地去进行创新。从根本上说,公司的结构不支持创新,你必须离开,自己去jvzquC41pg}t0rwguggseq3ep1ipp}jpv1814=5:17669=70ujznn
4.AI与心理:学习与行为的重构——第十届网络时代的心理与行为前沿为积极推动人工智能和教育深度融合,促进教育变革创新注入强劲动能,2023年10月17日至10月18日,由华中师范大学心理学院承办的第十届网络时代的心理与行为研究前沿研讨会在南湖综合楼N8060报告厅顺利召开。10月17日上午,华中师范大学校党委副书记査道林、大会主席胡祥恩教授在开幕式上分别致辞。开幕式由华中师范大学心理学院jvzquC41eryz0lhpw0kew7hp1ktgq86224535;70jvs
5.全景记录丨深融十年,智驱未来!2023新型主流媒体建设天府年会2022年9月,小观数字人发布上线,成为川观新闻首位数字记者。随着川观新闻10.0版的发布,川观新闻首批20名数字记者正式亮相,这是川观新闻运用AIGC重塑内容生态、创新内容表达的尝试。 20名数字记者是川观新闻真人记者的数字化分身,探索担纲智慧内容生产,将以更为丰富、个性、年轻态的视频内容产品,带给用户全新体验。详情jvzquC41ukiiwjs0ueum0lto0et0ip}y146359>17:?86<650jznn
6.科技资讯AI速递:昨夜今晨科技热点一览丨2025年6月20日微软宣布进入逻辑量子比特时代 微软宣布量子计算进入逻辑量子比特时代,结束噪声易错量子机器阶段。其新型Majorana 1芯片通过分裂电子形成抗干扰量子比特,获DARPA认可。微软提出混合计算模型,量子处理器将与经典CPU、AI协同工作,Azure Quantum平台已整合多家量子技术。AI工具将简化量子编程,应用涵盖化学、医药、金融等领域。微软jvzquC41pg}t0|npc0ipo7hp1|~0f|4424;.2?2421jpe6nphcyjs|;7:5>557xjvor
7.AI服务器价格涨疯了不足一年涨了20倍什么原因?受AI(人工智能)大模型发展热潮影响,市场算力需求大增,AI服务器作为算力基础设施之一,由于具备图形渲染和海量数据的并行运算等优势,能够快速准确地处理大量数据,市场价值逐渐凸显,近来市场需求大增,外加AI服务器核心零部件GPU(图像处理器、加速芯片)芯片持续紧缺、GPU价格不断上涨等,近期AI服务器价格大涨。 有企业向证券时报·e公司记 jvzquC41hktbplj0gcyuoxsg{0ipo8f142842>6849845B=87;4ivvq
8.A股收评:沪指低开高走收涨0.5%大金融股午后拉升股票频道09:25 A股开盘,上证指数低开0.09%,深证成指高开0.02%,创业板指高开0.29%,英伟达概念股开盘继续活跃。 09:26 沪硅产业低开5.94%,公司公告,国家集成电路基金拟减持不超过3%股份。 09:27 宁德时代(300750)高开2.63%,消息面上,花旗指出,特斯拉不太可能放弃宁德时代而转向其他电池供应商。 jvzquC41uvudm7xvqeqtvjw0eqs0KP7245672A5223=68=3ujvsm
9.探寻AI时代短距高密通信“最优解”投资要点1、GB200创新使用铜缆铜缆是AI高速高密度场景下当前通信性价比最优解 聚焦铜互联:铜互联主要应用于芯片间互联及柜内互联等等短距离场景,传输距离通常在10米及以下。铜互连指的是主要使用铜作为材料的电信号通信方式(因其导电导热性能好,可塑性强),因此其涵义其实包括了芯片内互联走线(在芯片制造时实现)、芯片间(chiplet)走线(通常在基jvzquC41zwkrk~3eqo587:<;42>:;88228<25B:
10.人工智能是计算机学科的一个分支,二十世纪七十年代以来被称为世界2.2017年度中国媒体十大流行语:“十九大”“新时代”上榜 . [2018-1-8] 3.黄海涛 - Python 3破冰人工智能 从入门到实战 / 北京 - 人民邮电出版社 . 5. 计算机科学的一个分支 人工智能(英语:Artificial Intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的可以表现出智能的机器。通常人工智能是指通过jvzquC41yy}/5?5fqe4dp8ftvkimg86592?79:d336=25=5430nuou
11.“创新经济”开启下一个十年超级周期● 新人工智能时代 人工智能基础技术和市场应用空间巨大,有望引领第四次科技革命。强人工智能将在20年内逐步实现,软件、硬件与算法之间的隔阂将逐渐消除,万物互联共建智慧社会;国产替代在产业链基础层最具战略意义,在专用集成电路芯片领域成长可期;无人驾驶和智能汽车将引领出行革命,无人驾驶出行服务将彻底改变汽车业态jvzquC41ycrmu}wggvio0lto1cxuklqgu1975:824