1. 首页
  2. > 香港公司注册 >

相关性公式(成对数据的统计相关性公式)

条件概率中的条件,本身也是一种随机事件,它可以有不同的取值,因此条件概率在本质上揭示的是两个随机事件的相关性,当条件概率中的条件发生变化后,和它相关的随机变量的概率分布会发生巨大的变化。


在信息的世界里,信息本身也有这样的相关性,因此,利用条件概率,可以解决很多信息处理的问题。


为了理解这一点,我们先来看一个简单的例子。


假如我们看到汉语拼音 tian ql,不考虑音调,能想到什么样的汉字词语呢?通常大家能够想到的是“天气”这个词。如果我们搜一下读音为 tian qI的词,会找出很多个,为了简单起见,我们假定只有三个,“天气”、“田七”和“天启”。其中“天气”大约在所有汉语词中成对出现的概率超过千分之一,而“田七”和“天启”,不到百万分之一。为了简单起见,我们取个整,假定P(天气)=1%,而P(田七)=00001%,P(天启)=0.0001%。


接下来,我们假设 tian qi的前一个词是“中药”,这时后一个词是“田七”的可能性P(田七|中药)就比后面跟着“天气”的可能性P(天气成对|中药)大得多了,可能是1%和0.01%的差异:而后面是“天启”的概率虽然不是零,但已经小到可以忽略不计了。


从这个例子中我们可以看出,考虑和不考虑上下文的条序,两个词出现的概率可以差出很多数量级。原本是低频的词语,却可能发生,而原来以为是高频的词,可能根本就不会出现。利用这个特点,就可以将手写体识别、拼音公式输入、语音识别和印体文字(OCR)的错误率降低80%-95%,至于上述条件概率是如何得的,就需要用到我们后面讲的统计的方法了,简单地讲,当见到的文本足够多时,我们就可以用一个词出现的频率除以文本的总字数,当作这个词出现的频率。比如,我们见到的文本所有的统计词加起来出现了10亿次,其中天气出现了100万次,占了0.1%,我们就认为天气的概率P(天气)=0.1%。类似地,如果田七出现了1000它的概率P(田七)=0001。


类似地,我们还可以用这种方法,计算出在特定上下文条件下,天气和田七这两个词的联合概率。比如,“中药天气”出现了5次,“中药田七”出现了500次,于是“中药”和“天气”一同出现的概率,即联合概率为P(中药,天气)=



,而“中药"和“田七"一同出现的联合概率为(中药,田七)=10=




当然,我们也可以用统计的方法算出特定上下文条件下“中药”的概率。我们假定它出现了5000次,于是它的概率就是P(中药)y2102数据=



。根据以前学过式(4)我们可以推算出“天气”和"田七”分别在中药条件下的概率:



从上面条件概率的计算可以看出,相关性在自然语言中,一个词出现的概率,和上下文条件关系非常大。具体讲,它是否容易出现,取决于两个因素。首先是条件本身出现的概率,在上面的例子中就是“中药”出现的概率,它是计算条件概率的分母:其次是上下文条件和这个词一同出现的联合概率,在上面的例子中,就是“中药,田七”或者“中药,天气”出现的概率。条件概率就是后者对前者的比值。


在其他的信息处理中,类似上下文这种前后相关性也扮演着非常重要的角色,以视相关性图像压缩为例,视图中每一的图像和帧有很大的相关性,也就是说,后面一图像中出现前面一图像有过的或者相似的画面的可能性较大,而完全出现一个全新画面可能性较小,利用这个特性,就能够将视频图像压缩几百倍,类似地,预报天气所用到的各种信的息,比如云图信息,虽然是每时每刻随机变化的,但是今天的云图和昨天的有很强的相关性,也就是说头一天出现了什么情况,能够决定今天的变化。我们现在能够数据比较准确地预报大约10天的天气,靠的就是天气信息在时间和空同上的相关性。上述这些领域所用的信息不同,但是它们很多基础的概率事件模型却有相似之处,因为都用到了一个原理,就是一个随机事件概率分布受到前后条件的影响,而且这种影响是巨大的。


说到上下文的相关性,既然一个词出现的概率会受到前一个的影响,那么前一个词出现的可能性是否也会受到后面词的影响。


对于这个问题的答案是肯定的。我们在前面讲过,数学上的因果关系,原因和结果是可以互换的。我们可以根据前面一个词是“中药)推测后面一个词出现田七的概率比天气要大;反过来公式,我们也可以为后面一个词是田七、黄芪或者麝香,推断前面一个词出现中药的概率比“重要”这个同音词要大。我们甚至可以根据从中药的条件概率,倒推出后面一个词是田七的条件下,前面出理中药这个词的概率。这就要用到一个著名的公式一贝叶斯公式了。


据说《华尔街日报)上对纽约市天气的结果可以指导炒股,因为每统计年有70%的股市上涨发生在晴天,你觉得的是否应该根据天气决定是否买入?


见下回分解。


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至123456@qq.com 举报,一经查实,本站将立刻删除。

联系我们

工作日:9:30-18:30,节假日休息