金融资管领域知识图谱的构建和应用腾讯云开发者社区

先简要介绍下熵简科技,我们公司成立于 2017 年,是一家为金融机构提供数据智能整体解决方案的金融科技公司。具体情况介绍如下图所示。

所以,在我们看来,为什么金融资管行业需要知识图谱系统?

我们知道资本市场是一个典型的非完美博弈市场。投资的本质是基于时间维度做价格预测,赚取预期差的钱。而这种预期差主要是来源于那么信息的不对称和认知的不对称。其中认知的不对称会导致“他知我不知”;信息的不对称会令人无法充分利用显性的信息,导致“只知其一,不知其二”的现象。

现实中,我们人脑是有限注意力的,再资深的研究员和基金经理也会面临不同程度的信息盲点和认知盲点。因此,我们希望构建一套智能化投资研究系统(简称智能投研系统),其核心价值就是帮助投资者持续的对抗其相较于市场的信息不对称和认知不对称上,获取到竞争优势。

什么是智能投研?简单来说:以海量数据为驱动力,通过采集研究标的的生产经营活动等数据,利用 NLP 技术,对数据进行智能化处理,以形成便于解读的指标,并利用机器学习技术,对指标进行进一步的建模分析,最终形成具有决策参考价值的投研情报。

什么是智能?在熵简知识图谱中,我们认为,智能=数据(数据中台)+逻辑(知识图谱)。利用数据中台丰富金融投资数据的多样性,帮助投研人员提升竞争优势,拓宽数据的使用边界。通过知识图谱承载投研逻辑,将数据转化为知识,帮助金融机构实现研究框架沉淀和结构化表达。

上图中为熵简知识图谱的产品架构设计。我们经过几年的探索,构建起一套完整的面向金融投资的数字化体系,整个产品矩阵分为数据层、中台层和业务层。

在前面提到过,金融竞争的本质来自于信息不对称,因此但凡对于投资标的有一定参考价值的数据都需要纳入进来,金融投资需要广泛且多样的数据和信息。针对这些需求,数据生产平台实现了对海量异构数据源(包括研究资讯、宏观经济数据、互联网公开数据等)和数据类型的采集和监控。

在数据生产平台中,最核心的任务是如何构建一个兼容数千种不同的数据源类型、日处理的数据量在 TB 级别的大数据采集系统。

解决这个任务面临三个方面的挑战:

第二点:如何能够以比较低的成本快速拓展新的数据源;

第三点:在上千个数据源的情况下如何保证数据采集的实时性和稳定性。

系统以 kafka 为消息中心,采用事件驱动模型,构建在高可用的 Kubernetes 集群之上。在 kubernetes 上,整个系统由 4 大功能模块构成,分别是用户控制台、数据采集引擎、数据存储服务、监控和日志服务。我们会把数据采集当中所涉及到的底层技术要素全部进行封装,用户只需要通过简单的配置就可以完成数据采集的任务,大大简化数据采集过程。

云原生架构的系统,具备微服务化和容器化的特点。

微服务化——所有组件和服务互相解耦并且独立运行,以支持上千种不同数据源的采集;

容器化——通过容器编排引擎本身的动态伸缩能力,系统可以自动应对 TB 级别的数据洪峰的冲击。

简单来说,对于这样一个系统,我们只需要给出想要抓取网页网址,系统就能够自动识别出该网页哪些字段是标题,哪些字段是正文,哪些字段是日期,而不再需要去翻页,也不需要人工的一个页面一个页面去配置。

实现原理:如上图所示,网页布局中,每个网页都可以等价为一棵树,网页上的文本、图片都是树上各个节点所携带的信息。想要从原始网页上提取核心字段,具体分为两步:① 将不属于提取内容的节点删掉;② 根据各个节点在树的位置,将节点中的信息序列化为一维文本。

为了将不属于提取内容的节点删掉:

第一步:需要将 HTML 标签进行数字化表示,我们受到谷歌 word2vec 算法的启示,提出了 tag embedding 算法,关键思想是学习 tag 之间的共现关系来实现 tag 的分布式表示。优点是可以在大规模数据集上进行无监督训练,学习出不同标签之间的语义关系,而不依赖于人工的标注,从而实现 HTML 标签在 50 维空间上的分布式表示,并且显著提高后续分类模型的泛化能力,显著降低后续的分类模型对于标注数据量的需求。

第二步:在 tag embedding 基础上,通过三层前馈神经网络的二分类器,来判断节点是否应该保留。输入特征是主要包括三大类:1.父节点的标签信息(parent node vector);2.子节点的标签信息(child node vector);3.当前节点的一个标签信息(current node vector)、以及当前节点其他的特征:文本长度(text length current node)、超链接个数(the number of hyperlink of current node)。我们是在 10 万个标注数据上对模型进行训练,数据来自于 50 多个新闻资讯网站,在多个网站上进行的测试表示:标记的准确率能够达到 97%上,正文中抽取的准确率能够达到 95%以上。

为了保证系统能够高质量稳定的进行数据采集和监控,我们在系统中也构建了一套完备的监控和报警系统,当任何一层一旦发生问题,就可以向运维人员报警,以保证系统的稳定性。

以上列出了知识图谱系统面临的几大核心挑战:

前面提到,通用知识图谱以三元组结构为主,存放的知识比较简单,没办法满足金融领域复杂的组织需求。而我们的设计目标是通过层次化概念组合,全面精准的表示投资标的,满足至少 90%以上的金融分析的一个需求。所以,我们的本体体系一共分为三层,分别是金融实体层、金融概念层和金融事实层。

上图为知识图谱本体体系的可视化展示,不同颜色代表不同的节点类型,包含三大类节点,金融实体、金融概念和金融事实。

从这张图,可以看到,通用知识图谱是我们图谱的一个子集,在我们的图谱当中,除了包含年龄、任职的关系等通用知识图谱中的知识外,还包含了许多层次化的金融概念和金融事实。

比如对一家公司的投资分析,可以从运营能力、盈利能力、品牌知名度、行业驱动因素等多个维度进行。对于一个人物实体,除了年龄等基本信息外,还包括像财务舆情、私生活舆情相关的知识,因为现实中财务舆情、私生活舆情对于该公司的未来走向可能会产生一些重大的影响,所以这也是熵简知识图谱中的一个重要信息,或者说一个知识的维度。

① 本体内知识构建的关键技术:知识匹配

在构建好本体体系后,如何将这些指标数据等,与相应的金融概念进行知识匹配。为此,我们构建了一个基于语义层次分类的知识匹配模型,本质上是一个多层次短文本分类模型,它本质上是一个多层次短文本分类模型,采用 Hierarchy TextCNN 和 memory block 架构相结合,兼具强泛化和高精度。目前已经实现了两级的金融概念分类,可以将数据的标题与相应的金融概念进行匹配,涵盖了三十多个金融类别。但这种方法中,类别是固定的,所以我们又引入了基于相关性检索的匹配模型,将金融概念分类问题等价为搜索问题,其对于类别外的金融概念匹配,具有更好的泛化能力。

基于相关性检索的匹配模型,是一个简化的搜索系统,分为两个部分:实时预测和离线处理。在离线处理部分,系统对现有的知识图谱上的各个节点进行属性提取、关键词提取等预处理,并在数据库中建立相关的索引。在实时预测部分,对于每个新数据,通过短文本理解、召回、结果排序的三阶段处理,我们可以从数据库中匹配到与当前这条数据在金融概念上最接近的一条或多条数据,由此得到相应的金融概念。

② 本体内知识构建的关键技术:知识抽取

经过结构化数据的知识匹配后,对于年报、财经新闻等非结构化文本,需要进行知识抽取。为此,我们首先构建一个句子级别的金融概念识别模型,将知识抽取的问题等价为句子级别序列标注问题,逐句的对研报内容进行分析。当文本片段很长时,我们使用算法中台里的 FinBERT 构建文本自动摘要模型,将识别为同一概念的句子集合,总结融合为不超过 50 字或者 30 字的短文,从而形成金融事实的描述性文本。

FinBERT 预训练方式

这里介绍一下 FinBERT 工作,FinBERT 是熵简知识图谱系统算法中台的核心语言模型,用,我们是用几百万的研报、财经新闻对原生 bert 进行二次预训练,得到的适用于金融领域的 bert,我们称之为 finbert,图中右侧为整个 finbert 的训练框架,相对于原生的 bert,我们主要做了三方面的改进:

知识抽取具体介绍

这里介绍如何从表格中抽取知识。

比如说从研报的表格中抽取知识,平常有看研报习惯的同学知道很多研报的第一页会有一张盈利预测表,表格会直接列出这家研究机构对于公司未来几年的业绩预测,所以这个表格的数据是很值得我们把它提取出来、并且匹配到相应的知识图谱的节点上的。自动提取表格分为以下两步:

③ 本体内知识构建的关键技术:实体链接

实体链接的核心目标是将前一步知识匹配和知识抽取阶段得到的知识,链接到知识库相对应的实体上。上图左边展示了实体链接的整套流程,一共包含 5 个步骤,分别是命名实体识别,实体库/知识图谱实体联合召回,以及实体消歧和基于上下文匹配的实体排序,以及最终的实体判决步骤。

a. 命名实体阶段:

我们采用了改进 Transformer 网络+crf 模型进行人物和公司实体的提取,相对于传统的 transformer 结构,我们这个地方主要是有三方面的改进:在输入层同时引入了字向量和 bigram 向量,它可以显著的提高网络的编码能力;引入了前面提到的 finbert 做一些蒸馏学习,可以一定程度提高现有轻量级网络的提取能力。

为了进一步提高整体的实体召回率,收集外部实体,并结合知识图谱上的现有实体,构建了一个庞大的实体库,涵盖了 A 股、港股、中概股以及 600 多万家公司的一个实体的数据,再通过 AC 自动机进行直接的匹配召回。

结合这两种方式,我们可以实现一个 F1 值超过 0.95 的、精确度比较高的实体提取过程。

b.采用基于 FinBERT 的孪生网络对进行实体消歧和实体排序,最终根据排序分数来确定知识片段中的实体在知识图谱中的位置。FinBERT 分别对于知识图谱中的候选实体与知识片段中的实体进行编码,最终在隐空间进行相关性分析,获取其匹配分数。

④ 本体内知识构建的关键技术:知识融合

知识融合的目的,是将匹配到知识图谱上同一实体、同一属性的金融事实,但来源不同、时效不同、质量不同的多条知识进行融合,剔除掉冗余的信息,保持图谱知识的准确、精炼。对于同一个节点的信息,我们会按照时效性、权威性、丰富度、观点冲突这四个维度进行融合,把多余、错误的信息去除掉,突出相对价值量最大的信息。对于时效性,我们根据金融事实的时问戳以及消息类型来判断知识优先级,一般而言,越近的知识权重越高。对于权威性,不同来源的金融事实具备不同的可信度,对于研报来源,可根据券商评级来给予不同的权重。比如说从人民日报提取的知识一定比自媒体信息的权威性更高。在一些情况下,也要综合考虑时效性和权威性,比如说对于 GDP,国家统计局给出的数据即使显著早于某些媒体上公布的数据,但我们也依然以国家统计局的数据为准。

最后一部分,介绍一个下游场景的应用:智能投研助手。

上图举例了 5G 行业知识图谱的构建和应用案例,图中可以看到:5G 图谱包含了二级市场的行情数据等,也包括一些非结构化的 5G 舆情数据。在这个基础上,结合前面提到的整套构建框架,我们就可以得到整个 5G 行业知识图谱。

李渔 熵简科技 联合创始人

本文转载自:DataFunTalk(ID:dataFunTalk)

THE END
0.白冰换脸事件持续发酵,引发全网热议,AI技术伦理与肖像权保护成🤯白冰换脸事件持续发酵,引发全网热议,AI技术伦理与肖像权保护成焦点话题㊗️,[V60.47.4]小说app,新用户赠送274礼包。小说《有什么好的穿越历史小说》在线阅读:白冰换脸事件持续发酵,引发全网热议,AI技术伦理与肖像权保护成焦点话题jvzq<84j70rlh‚o0ep5zclmv137238=38981a;65934ivv
1.国模AI换脸技术引发伦理争议,探讨其法律边界,公众安全与隐私保护比亚迪在赛道体验日现场也亮相了与《黑神话:悟空》联名的改装痛车;比亚迪王朝网销售事业部总经理路天分享道:“当齐天大圣的锋芒,遇见龙颜美学的霸气;当筋斗云的速度,遇到汉L的2.7秒零百加速,这就是属于中国人的‘梦幻跨界’!” 在现如今的新能源汽车时代,中国汽车品牌已站在了世界中央,更以顶级的技术、极致的产品jvzq<84ycr4zuzom0et0rnycn172394;83<:2h>:;0nuo
2.程序员开发中AI技术的实践指南:应用场景、典型问题与工程化解决方案在当前软件开发流程中,AI技术已从辅助工具演进为核心生产力。从代码生成到 bug 修复,从文档撰写到性能优化,AI 工具正在重塑程序员的工作模式。本文基于近千小时的开发实践,系统梳理AI 技术在开发全流程中的落地场景,深度剖析实际使用中遇到的典型问题,并提供可复用的技术解决方案,附关键代码实现。 jvzquC41dnuh0lxfp0tfv8xtnuuoi8ftvkimg8igvcomu866;:643>>
3.AI去衣技术兴起,引发艺术创作新可能,伦理边界与社会争议亟待探讨郭锐介绍,MagicOS 通过 OS Turbo X 超线程引擎和 AI 调度技术,对底层进行了深度优化,即使在多应用重载并行的情况下,也能确保手机流畅不卡。 另外他还透露,即将发布的 MagicOS10 会带来重大优化,除了 UX 界面焕新、AI 体验进化、荣耀互联功能升级,还在系统性能轻盈流畅方面带来了诸多提升,例如存储增加更多可用空间,游jvzq<84ycr4uo‚xohy4dp8tnkxk0497733713:70jvs
4.操AI少妇,揭秘真实体验,独家揭秘AI技术如何改变生活,让你欲罢不能下载操AI少妇,揭秘真实体验,独家揭秘AI技术如何改变生活,让你欲罢不能 安装你想要的应用 更方便 更快捷 发现更多 50%好评(87人) 73 详细信息 软件大小 90.66MB 最后更新 2025-11-09 23:51:43 最新版本 v97.24.71.50.47 文件格式 apk 应用分类 ios-Android 日逼逼三级片视频 使用语言 中文 jvzq<84o0ctiwr373hgtkxs0ep5zct43;;=`5<=60jzn
5.182tv午夜福利免费,传递最新娱乐动态,聚焦明星生活与影视热点服务对象包括证券和期货经纪商、资产管理公司、量化对冲交易机构、大宗商品企业等,能与威士顿目前拓展的客户群体形成一定协同效应。 根据《中国人工智能应用发展报告(2025)》,金融行业正积极接纳AI技术。2019-2024年,金融科技行业人工智能技术相关专利数量以年均14.3%的增长率持续增长,占同期金融科技行业专利总量的20.9%。jvzq<84o0|odjjsijwguqwl0eqs/ew4twi58:@6930nuo
6.人工智能与北京对外文化传播研讨会:召62%开10月30日,由北京第二外国语学院科研处主办,北京第二外国语学院首都对外文化传播研究院、北京对外文化传播研究基地承办的“人工智能与北京对外文化传播”研讨会召开。人工智能是赋能北京对外文化传播的关键技术支撑,为首都国际形象塑造与文化出海提供新路径。为进一步探索人工智能赋能北京文化对外传播的机制与路径,特组织此次jvzq<845i0tbon3epeitv7hp1k|z1=5378e66@60jvs
7.极地航行塞冰块,挑战极限冰海,探索未知航道,见证勇敢者的非凡征程回看如今中国各大互联网公司在AI领域的布局,几乎所有的故事都从这里开始。 从这里走出了日后执掌大厂AI的各路大神:张亚勤、周靖人、孙剑、何恺明、汤晓鸥、吴永辉、张正友等人。 大厂之间AI带头人的竞争,互为师生、同门,也演变成了一场师徒、师兄弟之间的较量。 01从MSRA说起 AI从一项先进技术走向落地应用,标志性jvzq<84o0nobpmfq::>/ew4uygkq1;5473722>685:?70qyo
8.为什么不能和AI暖暖继续交流了?很抱歉,我不明白你所说的“不能和AI暖暖继续交流”是指什么问题,能否请你提供更多的上下文或者是详细的问题描述呢? 如果你遇到了一些困难或者问题,导致无法和AI暖暖继续交流,你可以尝试以下一些方法: 1. 检查你的网络连接是否正常,如果网络不稳定或者断开,可能会影响你与AI暖暖的交流。 2. 确认你是否正确输入了与AI暖暖交流的指令或话题。jvzquC41yy}/{mq0eqs0c|p1;3778=
9.AI时代下软【件出】:海的19%思考在AI技术的推动下,软件出海已成为开发者的重要机遇。本文深入探讨了AI时代软件出海的必要性、常见误区以及成功策略,为开发者提供了一份详尽的六步路径图,助力在全球市场中实现价值。 中国开发者必须理解的全球市场新逻辑。在 AI 带来的范式变革下,软件出海不再是“公司级战略”,而正在变成一项具备确定性收益的独立开jvzq<84iwkbpp3|jgth|qtwujkoiof0eqs0n~sct1=14:;40unuou
10.AI带来搜索引擎技术大变革,也带来了更高的“付出”?随着产品的微调,这笔费用显然会“迅速”下降。不过,分析人士仍然认为,这项技术最终可能会蚕食谷歌的利润,即使附带广告。 据摩根士丹利(Morgan Stanley)估计,谷歌搜索查询的成本约为0.5美分。但如果使用人工智能,成本将会飙升。 据估计,如果按照类ChatGPT人工智能能用50字的答案处理其收到的半数请求,谷歌的费用到2024jvzquC41yy}/zrfplkiikwf0eqs0uyjekcr0fnyckne66B5;90nuou
11.AI语音助手的全面"体检报告":香港中文大学研究团队首创多维指令遵循测试检查AI是否能严格按照用户要求执行任务,比如"用50字以内总结这段内容",AI能否真的控制在50字以内。多轮对话测试模拟真实对话场景,看AI能否在长对话中保持逻辑一致性,记住前面讨论的内容。推理测试评估AI的逻辑思维能力,比如给出几个条件后能否得出正确结论。鲁棒性测试则在各种干扰条件下检验AI的稳定性。jvzquC41zwkrk~3eqo524B=7;2?6488796<23@:
12.国产亲子伦理对白引发热议,探讨家庭关系,展现情感纠葛,触动观众内心这一建议与临汾正在推进的产业转型实践高度契合。当前,临汾大力发展“5+1”类产业,推动传统优势产业数字赋能、绿色发展,加快构建具有地方特色的现代化产业体系。 数字经济发展也是与会专家学者和业界人士提到的一个高频词。阿里云资深技术专家罗凯建议,临汾可借助AI技术实现矿产资源的智能勘探开采,将煤炭资源优势转化为发展jvzq<84ycr4dvufpc0io1jkd12853==;0jzn
13.xxH6路cc技术应用,发展现状分析,未来趋势与创新方向探讨46、写景的好段50字,纯真的爱情之所以弥足珍贵。47、秋天是一个金色的季节,也是一个五彩的季节。48、秋天的风啊!你带给大地的是五彩缤纷、瓜果飘香,你带给孩子们的欢声笑语。49、那天傍晚,我第 乡下人家的冬天是怎么样的作文50字是白雪一片冬天的乡下,满眼皆是白雪,一片静谧而纯净。与城市中的高楼大厦不同,jvzq<84mcklfpp3ygk~jpvjkiqth0lto1ogq1B<22a=25<3jvo
14.中金:ChatGPT启新章,AIGC引领云硬件新时代光模块:我们认为ChatGPT对光模块行业存在以下三方面的深远影响:1)中性情景下,模型训练/ChatGPT推理将分别新增约214万美元/1055万美元的光模块需求;2)驱动高速光模块渗透率加速提升;3)硅光+CPO方案优势进一步凸显,新技术有望加速普及。 存储/温控等:我们认为,GPT-3.5等AI模型的训练及推理对存储器提出了更高的要求jvzquC41ycrmu}wggvio0lto1cxuklqgu197:;:96Aqf{€ttf?iikyqgv
15.从GitHubTrending/sy/systemprompts传统葡萄酒品鉴依赖专家的感官记忆与主观描述,而AI技术的介入正在构建更系统化的分析框架。本文基于GitHub_Trending/sy/system_prompts_leaks项目中的提示词工程实践,结合感官科学理论,探讨如何通过结构化提示词设计,让AI模型模拟人类品酒师的感知过程。 感官分析的数字化转型 jvzquC41dnuh0lxfp0tfv8lkvdrpih5238=0c{ykenk0fnyckny03>9776::8