document.write('
')
你的位置: 首页 >  常见知识 >  文章正文

关于金融知识图谱的探索与落地

时间: 2021年11月20日 20:18 | 作者:朗依制药 | 来源: 医药资讯| 阅读: 86次

导读:知识图谱可以将金融资讯大数据中的实体关系属性等信息,用极其简单的三元组的方式聚合在一起,形成一个金融语义网络。

金融行业是数据驱动的行业,很多传统金融业务对行情、资讯等金融数据已经形成了高度依赖。知识图谱作为人工智能时代的“知识工程”、“专家工程”,承载了对纷繁复杂、多源异构的金融资讯大数据加工整合的重任,已经得到行业从业人士的普遍认同

知识图谱可以将金融资讯大数据中的实体关系属性等信息,用极其简单的三元组的方式聚合在一起,形成一个金融语义网络。因为有统一的数据表示,所以可以形成统一的数据消费,这种机器可以看得懂的大数据,没有理由不在智能金融业务场景中大放异彩。在探索与落地的过程中,一些难点仍有待突破。

看见

语义鸿沟是一个人工智能专业术语,用来解释传统金融与智能金融的沟通障碍非常贴合。这里有两个层面的问题,一个是“看见”的问题,一个是“信任”的问题。

传统的金融IT是由业务部门提业务需求,IT部门负责转化为软件需求,IT供应商负责提供解决方案或者软件产品。这套方法在数字金融时代、互联网金融时代都非常有效,为何在智能金融时代就玩不转了呢?这里就存在着能不能“看见”的问题。

简单来说,人工智能的数据科学家看不见业务部门的业务,而金融机构的业务人员也看不见自己的某项业务问题还可以用人工智能的方法来解决,从而也提不出这样的需求。所以在人工智能团队和业务团队之间,必须有一类角色要解决这个问题,负责创造性地提出某些业务场景如何用人工智能(大数据技术)加以改造。这类角色最好是业务出身,并且懂一些人工智能技术,他们是典型的创新型人才,其当下的重要作用不亚于数据科学家。

信任

语义鸿沟的第二个层面是信任问题。人工智能结果的可靠性、质量的保障以及过程的可解释性,是产生信任问题的根源。举个例子,面对人工审核的合同和用AI审核的合同,即使后者的准确率能够高达98%,传统业务人员可能依然倾向于人工审核的合同,因为他需要关键条款不能出错,而不是一个针对通篇的高概率的正确。这背后,隐藏的是经年的用户教育问题。

数据质量

比之于语义鸿沟,数据质量对金融知识图谱的推广有更大的影响。知识图谱是一份“大而全”的数据,数据的增量部分是很少的,大部分数据是对已有数据的再组织,成果就是由“多源异构数据”转化为统一的schema。不过,数据的质量以及数据的缺失,影响了图谱的发力。

例如,下面这张图是典型的金融知识图谱schema:

关于金融知识图谱的探索与落地

展开全文

从schema构建来说,这张图已经清晰描述出了企业核心谱系,实体上,覆盖了公司、产品、行业、概念、地域,甚至资讯、研报、事件、指标也做了定义;关系上,股权关系为主,还覆盖了产业链上下游。但如果这个schema定义的知识图谱,实体关系只有1、2度这样的深度,那么他跟上市公司三方数据没什么区别。知识图谱的强大不在于信息的详尽,而在于信息的穿透。

以股权穿透为例,因为信息批露的原因,上市公司的一层股东关系很容易获得,诸如:10大股东、10大流通股东、联营公司、母公司、子公司。而在二层股东关系里,可能会有一些非上市公司,非上市公司没有信息批露的义务,所以有可能只能获取有限的工商股权数据。这就使得上图定义的如此强大的schema变得非常尴尬,当知识图谱schema定义的很多槽无法得到有效填充的情况下,知识图谱的信息穿透等分析能力就会大为减弱,这种数据的缺失,影响着金融知识图谱的发展。

我们曾率队做过一个股权方面的课题,业务本身比较简单,以股权投资超过一定比例作为控制逻辑,计算上市公司包含在哪些资本系里面,并给出实控公司、核心成员以及扩展成员。该课题实践下来,最难的不是连通子图的计算,也不是上下穿透的图分析,而是找到并清洗出一份合格的股权数据。这其中存在很多问题,例如某个公司股权信息为空,最大股权小于规定比例等等。

如果用工作量来度量下这个课题,算法占20%,应用开发占20%,数据源比对占30%,数据处理占30%。数据积累和沉淀,道路漫漫。

那么未来金融知识图谱的发展之路应该如何走呢?融合产业链数据与引入“事件”是两种值得思考与探索的方式。

融合产业链数据

文章标题: 关于金融知识图谱的探索与落地
文章地址: //www.pedca.com/zhishi/543177.html
Top
Baidu