1. 首页
  2. > 海外移民投资 >

股价财务中数字大写之规则(财务数字金额标准写法)


以上是从技术应用的角度分析知识图谱的应用,但所有的知识图谱最终都是要形成产品,提供服务的。


垂直领域的知识图谱是相对通用知识图谱而言的,面向特定领域的知识图谱,如电商、金融、医疗等。垂直领域的知识图谱不一定是从互联网等开放数据抓取,而更可能是企业内部的专业数据。



如果按照简化过的知识图谱定义,图谱中的两个节点和一条边就构成了一个实体,比如“水泥是建材的一个子类”,就可以表示为“水泥”和“建材”两个节点,以及一条由水泥指向建材的,属性为子类的有向边。


图:三元组


每一个RDF实例都可以看成一个知识单元,也是图谱的最小组成部分。


这里还有一个要点,即RDFS不是根据对象可能具有的属性来定义类,而是根据属性可能归纳的类型和取值范围来定义。


通过以上图表中的词汇,owl可以进行部分推理与展示,比如A的祖先是B,B的祖先是C,自然可以得到A的祖先是C。通过不同词汇的应用,相比于RDFs,owl的表示能力和推理能力有了很大的进步。


PREFIX部分进行命名空间的声明,使下面查询的书写更为简洁。


图:知识来源及抽取方法


关系抽取是从文本中抽取出两个或多个实体之间的语义关系,与实体识别关系密切,主要有以下几类方法:


事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等,如下图:


图:事件抽取


半结构化数据抽取主要是从网页中提取,一般通过包装器实现,包装器是能够将数据从HTML网页中抽取出来,并将它们还原为结构化数据的软件程序。


结构化的数据抽取一般是按照规则映射,W3C的RDB2RDF工作组于2012年发布了两个推荐的RDB2RDF映射语言:DM(Direct Mapping,直接映射)和R2RML。



归纳推理是一种自下而上的推理,是指基于已有的部分观察得出一般结论的过程,典型的归纳推理有归纳泛化(指基于对个体的观察而得出可能适用于整体的结论)、统计推理(将整体的统计结论应用于个体)。



图:问答系统


如果考虑在实际产品中涉及一个对话系统,通常需要考虑六大部分:


  1. [ 语音识别ASR ] 将原始的语音信号转换为文本信息;
  2. [ 自然语言理解NLU ] 将识别出来的文本信息转换为机器可以理解的语义查询;
  3. [ 对话管理DM ] 根据NLU模块输出的语义表示执行对话状态的跟踪,并根据一定的策略选择相应的候选动作。包括对话状态跟踪DST和候选动作选择Pollcy两部分;
  4. [ 自然语言生成NLG ] 负责生成需要回复给用户的自然语言文本;
  5. [ 语音合成TTS ] 将自然语言文本转换成语音输出给用户;
  6. [ 知识Knowledge ] 对话任务的完成离不开知识,不论是任务型中的意图及参数,问题型中的知识库,还是闲聊中的语料都属于知识(但是知识并不一定只有这三类)。对话系统结合知识后,能够形成完善的对话交互框架。

基于知识图谱的问答,是通过语义分析和答案排序完成的,即先将问题转化为知识图谱查询表达式,再通过检索和推理得到问题的候选答案集合,然后通过对不同候选答案实体进行打分,依据分数排序,选出最优答案。



3. 推荐系统

推荐系统是我们每天都能接触到的系统,如淘宝的千人千面,网易云音乐的个性化歌单,目前的个性化推荐算法中应用最广的是协同过滤算法。


协同过滤分为协同和过滤两个步骤,协同就是利用群体的行为来做推荐决策,而过滤就是从可行的推荐方案中将用户最喜欢的方案找出来。


通过群体的协同和每个用户是否喜欢推荐的反馈不断迭代,最终的推荐会越来越准确。


当前协同过滤算法主要包括基于用户的协同过滤和基于物品的协同过滤,其核心是怎么计算标的物之间的相似度以及用户之间的相似度。


将与当前用户最相似的用户喜欢的标的物推荐给该用户,这就是基于用户的协同过滤的核心思想;将用户操作过的标的物最相似的标的物推荐给用户,这就是基于标的物的协同过滤的核心思想。


推荐的过程可以简单理解为三个步骤:召回、过滤、排序。


  1. 首先系统根据获取到的信息,召回适合推荐内容,获取的信息可以是用户的搜索记录、购买记录、评论等。
  2. 召回的内容中有的是这个用户不关注的,需要根据过滤的条件,将不需要的内容进行过滤。
  3. 经过过滤产生的推荐集还需要根据内容的相关度进行排序,最后系统根据相关度的排序,将内容分配到对应的模块,这样用户就能看到自己感兴趣的内容了。

基于协同过滤的推荐系统,主要有以下问题:


(1) 数据稀疏/长尾/噪音问题


用于协同过滤计算的用户行为矩阵(用户和其对应有交互(如购买,点赞,收藏等)的物品矩阵),必然是一个稀疏矩阵,用较小范围的数据推测较大范围的数据,会存在预测不准确的问题。


(2) 冷启动问题


对于新加入的用户或者物品,系统没有其历史交互信息,很难对其进行准确建模和推荐,相对应的推荐准确率和多样性也会大打折扣。


(3)可解释性


协同过滤算法侧重输入和输出,与神经网络模型一样类似于一个黑盒,计算模型提炼出的有效特征是什么很难说明,即决策的依据模糊,缺乏可解释性。


知识图谱可以针对这些问题进行改善,知识图谱可以用来表示实体之间的关系,如推荐系统中物品与物品、用户与物品、用户与用户之间的关系。


这些关系信息可以表示用户偏好与物品相似度等信息,将这些信息引入推荐系统中可以显著缓解推荐系统面临的冷启动与数据稀疏问题。


以阿里巴巴电商知识图谱为例,该知识图谱以商品为核心,以人、货、场为主要框架,共涉及9大类一级本体和27大类二级本体。一级本体分别为人、货、场、百科知识、行业竞争对手、品质、类目、资质和舆情。


人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。


阿里巴巴电商知识图谱的数据来源包含国内-国外数据、商业-国家数据、线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边;主要靠机器维护,人工辅助。


有了这样规模庞大的知识图谱,可以对个性化推荐进行改进。


知识图谱可以增加更多的特征,提供了实体与实体之间更深层次、更长范围的关联,比如根据用户喜欢的物品进行推荐,有了知识图谱后,可以拓展该产品的更多属性,并且找到更多与其在属性上有关联的商品进行推荐。


同时,知识图谱还提供了与推荐实体的各种关联实体集合,可以通过语义来推荐相近的物品,比如买了羊肉卷推荐其关联商品火锅底料,或者买了手机推荐其图谱中的下位实体,如手机贴膜,耳机等。


最后,知识图谱是实体和关系的集合,且具有知识推理功能,因此推荐物品的可解释性也更好。



十、后记

知识图谱是一门比较复杂且发展中的科学,目前还有很多不完善和不成熟的地方,每一个步骤也有太多的方法和外延,涉及到语义,逻辑,自然语言处理,机器学习、深度学习和图算法,整体是艰深并不是容易掌握的。


之前看了几本书,也听了几门课,看了不少技术帖,但脑子里还是迷迷糊糊,没有一个整体的框架。


写这篇文章的过程,也是一个不断查漏补缺,逻辑自洽的过程,写这篇文章就像完成了一篇综述,现在我对于整体的流程以及一些基础的概念有了更多的理解,输出倒逼输入,确实有道理。


然而对于产品经理来说,了解技术的底层和概况是为了更好的设计产品,我们更应该关注的是设计产品的目的是什么,面向的用户是哪些,能够提供怎样的价值和解决什么问题,产品的交互与易用性如何等等问题。


了解技术只是为了知道产品设计的边界在哪里,以及实现某些功能的路径和成本,一切还是为了产品。


虽然还未成熟,但知识图谱已经展示出巨大的价值,各种各样的应用也在不断落地。


相信在不远的将来,以知识图谱为基础的人工智能会更大范围、更深程度的改变世界。


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至123456@qq.com 举报,一经查实,本站将立刻删除。

联系我们

工作日:9:30-18:30,节假日休息