我们经常听到的“大数据挖掘”其实是“大数据”和“数据挖掘”两个不同的概念,前者说的是数据的规模,而后者说的是数据的使用。
小韩:所谓大数据,银行自己不一直在做数据分析吗?
Raymond:大数据的“大”也指对数据的重视程度,不能重经验而轻数据,关键是如何优化自身数据,通过数据优化提升运营效率
老吴:现在很多银行都派出专人在学习大数据,但是很可笑的是他们连自身的基础性数据挖掘工作都没做,能先做好小数据的应用就很不错了。
Hellen:数据是死的,是堆在任何系统里的一堆数字而已。无论是银行、券商、保险等各类传统金融公司,还是电商等从网络上聚集来信息的各类公司,当决策者不知道该如何构架,将有用的数据剥离变成信息,再将信息运用到决策层面,从而带来商业利润,那无论如何什么数据都将是系统里的垃圾。
我们来看一个数据挖掘的例子。
案例:用洋葱预测通货膨胀, Premise的数据挖掘
公司: Premise
网址http://www.premise.com
一家名为PREMIS的数据公司,每天通过多个安装了自已开发应用的用户来实时上传各地区的不同产品的零售价格。他们在201年成动通过洋葱价格的起落,准确预测了印度通货膨胀率的趋势。
Premise的创始人, CEO David Soloff,曾在华尔街的投资银行做分析师。而另一位创始人是 CTO Joe Reisinger,是前Google员工,专门从事机器学习和大数据相关方面的工作。
Google Ventures, Andreessen Horowitz和 Harrison Metal都先后向 Premise做了投资。
Premise认为,本地商店一般都会根据经济环境的变化(其中包括批发价格和消费者信心等因素)及时调整商品售价。这是一种能够实时感知全球金融动态的有效渠道。数据的准确性和反应速度都要远远高于政府的数据渠道。只要能够采用合理的机器学习算法,去除无关的噪音,就能更快更准确地反映经济发展趋势。
Premise所提出的分析方法已经证明,根据他们自己所收集的数据,在部分经济环境中能够提前4~6周给出通货膨胀指标的预测。
点评
Premise的案例告诉我们,当我们充分地把数据用起来时,未必需要很“大”的数据量就可以提供结论。
在印度的食谱中,洋葱是一种很重要的原料,所以“洋葱”对于印度的意义要远大于任何其他农作物,对于印度民众来说,洋葱价格的变化就是通货膨胀的标志。我们看下面这张印度洋葱价格和印度卢比汇率对比的示意图
图4-2通过洋葱来预测通货膨胀率
(来源: Premise官方网站)
洋葱的价格从2013年五月开始攀升,而与此同时印度的卢比开始贬值,两条曲线的趋势和形状都很类似。最终,靠印度政府的介入才使得这次风波终于平息下去了。
像印度、中国这样的发展中国家,食物和蔬菜的价格变化经常是被忽略的,而从这次的“洋葱”引发的经济变动中,我们看到了数据的价值。
股票交易商可以利用数据挖掘来分析市场大体趋势,并预测公众对于市场的热切程度,综合个别公司的实际运营情况,从而判断股价未来的走向。要把数据挖掘应用到这个场景,可能需要
掌握的相关技术还有机器学习和自然语言处理。
所谓机器学习( Machine Learning),是在计算机学科里研究如何赋予计算机人类学习能力的一个领域,主要研究的是如何让机器模拟人类的学习行为,重新组织已有的知识结构使之不断改
善机器自身的业务处理性能的过程。机器通过对海量数据的学习,自动提炼出有用的知识,加速业务处理的过程,是大数据与互联网金融的产品的一个重要的结合点。
我们再来看机器学习( Machine Learning)中的一门分支技术,自然语言处理NLP。NLP( Natural Language Processing)是一门让机器理解人类语言的技术,是衍生自机器学习的一门学科。NLP融语言学、计算机科学、数学于一体。在NLP技术中最前端的一个方向是情感计算分析,也就是说不仅仅要让机器理解人类说了什么,而且还要让机器明白人类说话时表达的情感状态。
其中,有一家名为 SmogFarm的基于大数据进行情感计算分析的初创型公司,该公司走的是纯技术流路线,而他们的目的是通过分析人群的情绪来掌握“地球的脉搏”( pulse of the planet)。
Smog Farm的第一款名为 KredStreet产品被描述为“社交化股票交易员排名”,主要是根据社交投资网站 StockTwits的数据进行情感计算分析,对 Twitter上的数据进行采样,通过自然
语言处理的技术,用机器判定交易员整体是看涨或看跌。
这个数据可以同当前的股市与交易员过去的判断进行比对,从而根据准确率进行打分并排名。
小韩:通过情感分析做股市的大局判断应该还挺靠谱的吧?
Raymond:我是逆向投资者( Contrarian)理论的信服者如果大家都说要涨,说明该买股票的人都已经买了,所以股市反而会跌;而如果大家都说不能买,说明可能还有很多人没进场,所以股市会涨。其实从媒体的总体态度上可以有所判断,2007年当中国股市在阶段性的顶峰时,老百姓们是盲目乐观的。而在2014年的今天,大家对于股市是极度悲观的,所以可能是投资中国股市的好机会。
Hellen:任何投资都是套利行为,是因为时间、信息不对称,才会有人赚钱,可如今互联网时代,传统套利已很难赚钱。对信息数据定向挖掘,再根据行业上下游发展动态进行数据分析,对机构投资者有很大的帮助,而对个人投资者就是授机行为,等于赌博!
当我们对信贷市场、支付市场的运行状况进行全面、深入统计和分析时,可以整合出关于一家企业、一个行业,乃至国家宏观经济整体的发展情况和风险状况。
我们也可以按照不同的监管和研究需要,统计出不同地区、不同时间段、不同金融机构、不同行业、不同规模公司、不同人群的负债和消费水平等,从而得出有意义的结果。
例如,意大利的金融监管机构就使用它们的征信数据库来测算意大利商业银行的资本金要求和总体风险构成等,作为对商业银行进行监管依据的外部补充。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至123456@qq.com 举报,一经查实,本站将立刻删除。