相信大家都知道,每当谈到搜索引擎的时候,所想到的肯定是国内的百度和国外的 Google。
针对国内的一些用户,只能通过百度来进行搜索,如果想要通过 Google 搜索的话,大家也都知道,在这就不多说了。
如今,互联网时代的发展经历了翻天覆地的变化,但唯独国内的搜索引擎除百度以外,最近我还发现了一个搜索引擎是基于 AI 梳理互联网的知识引擎——Magi。
Magi是通过机器学习将互联网上的海量信息构建成可解析、可检索、可溯源的结构化知识体系。
这跟我们使用的传统搜索引擎不同,传统搜索引擎返回的是一系列的链接,要解读问题,还需要自己去点击网页挖掘有用信息。
这一引擎发布后,引来大批网友围观,把它的服务器玩挂了。Magi 作者发微博做了回应:“突然很多人关注到了我们,真的很感谢大家,其实搜索引擎真的不是我们的主业,我们自己没做任何推广,更没来得及准备应对这恐怖的流量……Magi 单次搜索的计算量比一般的网页搜索要重很多,请大家手下留情,同时再次表示抱歉!”
3.恳请各位爬虫大佬们别无节制抓我们网页了,网页的结果展示数量是限制了的,数据合作可以直接联系我们啊... 而且 Magi 是持续自动学习的,你今天抓到的明天也许就过时了;4.另外我要实名反对下面某个回答,请起码搞明白别人在做什么再下评论,“中间结果”、“聚合搜索”、“无监督=聚类”、“为下游提供迁移学习=用了预训练模型”等言论从技术角度明显是不负责任的误导。
How it works (灵魂手绘凑合看吧...)
本文仅引用一小段,更多关于技术内容请看👇
因此,我们也可以很简单地推导出一个结论:
mgai上面的内容,都是对的
据此,笔者在浏览magi,并进行合理推导的时候,学到了很多真实,有趣的信息
增长了知识,开拓了眼界。
如想了解什么是:电竞三丑,一般我们会百度“电竞三丑是什么梗”,但magi一查电竞三丑确有此人。
如果不是有人正好在“百度知道”这个百度亲儿子底下解释了一番。 怕是想知道“什么是电竞三丑”都有些费劲
搜索“孙笑川”,想查询"孙笑川是什么梗",在百度就只能等人解释。但在Magi就可以根据一系列词条联想出来
因为:孙笑川=白百何的出轨对象
且因为:人人都是孙笑川
所以:人人都是白百何的出轨对象
所以:人人都混娱乐圈
所以:世界上最发达的产业=娱乐产业
而且,有一说一,在查lol战队这种“具有大量二级分支”的数据时,magi的体验简直是完美:dwg战队
至于百度,他只会带着他的资讯聚合来吸引你的流量。看完毛都不懂什么的FPX
我真的不需要fpx的翻译,你可以带着你的百家号恰饭去了。
目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求。
其根本矛盾在于:读懂自然语言对人类来说不难,但人的精力有限,无法跟上有价值信息的产生速度,也不能保证稳定和客观;机器虽然不知疲倦且速度超群,但面对纷繁复杂的自由文本却难以利用,使得不可估量的价值被埋没于字里行间。
试想一下,假如有一个不断自动更新的数据库,包含着互联网各处的文本信息提取而成的便于程序和算法处理的数据结构,那么也许:
各种语音助手不会再对您说:“对不起,我不清楚。”;
商业智能可获得广泛的背景知识来做出更好的判断;
金融信息服务的数据收集与验证的效率将显著提升;
… …
在目前相关领域的尝试中,机器问答终究还是面向人类的服务,依照文本问题给出的文本回答并不能供下游任务直接利用。同时,问答模型本身无论从容量还是更新效率都无法满足规模化的需求,更致命的是模型中的知识存在于由浮点数组成的“黑箱”中,在我们看来将这些无法解读和溯源的信息直接呈现给用户并不是最负责任的做法。另外,基于文档检索的方案同样无法满足结构化的需求,在实时线上服务中效率限制会导致其难以评估全部文档来获得全局最优,而且其对用户输入的查询要求较高。
综上所述,我们认为知识提取的重要性远高于单纯地回答问题,主动发现潜在知识并持续提炼修正则显著强于被动地根据输入的问题去匹配结果。让机器去理解语言已经十分困难,而 Magi 更是选择面对其中最复杂的目标:开放领域的互联网文本,去直面规模化和准确度这一组知识工程中的核心矛盾点。
为了提升信息的利用率,Magi 必须尽可能彻底地从每一段质量参差不齐且主题各异的文本中提取出全部知识。这决定了一切现有的技术方案都不可用:这不再是一个清晰的序列标注问题,交错叠加的关系使得搜索空间爆炸式增长,不受限制的领域还意味着根本没有可用的训练数据。
这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视;其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果;而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果;…
Magi 现在还远算不上成熟,但其特性决定了它无穷的可能性和成长空间。
也许在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的结构化网络将成为通向可解释人工智能的基石。
如果你还在用百度的话,可以体验一下 Magi 的搜索引擎,相信会给你带来不一样的体验。