文字、语言、数字、信息与数学的关系
通信的原理和信息传播的模型
说话人(信息源) 编码 信道(信息传播的媒介) 解码 接受者
(信源)编码和最短编码
我的理解就是:我们现在的语言和文字其实就是一种编码的成果,为啥我们不再写以前的繁体字了,就是因为它并不简单,最短编码就是将其尽量的简化。
解码的规则、语法
我们最开始接触学习这件事的时候老师就先教我们拼音,因为拼音就是我们中文的语法,只有懂了这规则才便于自学,而不是老师将所有的汉字都教于你。
聚类
词通过意思聚类成一个句子
检验位
避免信息在传输中出现错误。
双语对照文本,语料库和机器翻译
多义性和利用上下文消除歧义性
自然语言处理——从规则到统计
任何一种语言都是一种编码的方式,而语言的语法规则则是编解码的算法,只有懂得了语法规则才能得到有用的信息。
语法规则的基础不外乎一个基本的句子是有主谓宾组成,通过句法分析和语义分析来理解,可也正是因为这个原因,它最终不能用于没有句型结构的句子。
图灵测试:如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。
统计语言模型
广泛应用于机器翻译,语音识别,印刷体或手写体识别,拼写纠错,汉字输入或文献查询。
假定s表示某一个有意义的句子,由一连串特定顺序的词w1,w2,w3,,,,,,wn组成,我们想知道s在文本出现的可能性。
P(s)=P(w1,w2,w3,,,,,wn)=P(w1) P(w2|w1) P(w3|w1,w2) P(w4|w1,w2,w3) ,,,P(wi|w1,w2,w3,,,,,wi-1) N元模型
这个模型由马尔可夫简化为马尔可夫假设,假设任意一个词的出现是跟它前面的词有关
P(s)=P(w1) P(w2|w1) P(w3|w2) P(w4|w3) P(w5|w4),,,,,,P(wn|wn-1)二元模型
辅助公式 P(wi)=#(wi)/# P(wi|wi-1)=#(wi-1,wi)/#(wi-1)
谈谈分词
词是表达意思最基本的单位,再小意思就变了,就如同在化学里分子是保持化学性质的最小单位一样。
分词的方法:查字典和统计语言模型(消除二义性)
统计语言模型分词的方法
假定一个句子s可以有几种分词方法,(假定三种):
a1,a2,a3、、、、、、ak
b1,b2,b3、、、、、、bm
c1,c2,c3、、、、、、cn
其中a1,a2、、、、、、、b1,b2、、、、、、c1,c2、、、、、、等都是汉语的词,上述各种分词的结果可能产生不同数量的词串。最好的分词方法应该保证分词后这个句子出现的概率是最大的。若假定第一种分词方法是最好的,则其概率应该满足:
P(a1,a2,,,,,,ak)>P(b1,b2,,,,,bm)
且P(a1,a2,,,,,,ak)>P(c1,c2,,,,,cn)
用穷举计算量太大,用维特比算法(动态规划问题)
分词的一致性大部分原因是由于复合词的存在,比如“清华大学”,有的人愿意把它作为一个词,有的人认为是两个词,两者皆有道理,却导致了分词的不一致性,计算机上分词的统一处理是,把它看做是一个复合词,同时它又是由两个基本词组成。
词的颗粒度和层次也就是跟复合词有关,在机器翻译中,一般颗粒度大的翻译效果比较好,就根据复合词表建立一个语言模型,而网页搜索中小的颗粒度比大的颗粒度要好,所以就基本词表建立一个语言模型。
隐含马尔可夫模型
通信模型
通信的本质就是一个编解码和传输的过程。这跟自然语言处理的工作,比如语音识别,又有什么直接的关系呢?不妨换一个角度来考虑这个问题。所谓语音识别,就是听者去猜测说话者要表达的意思。这其实就像通信中,接收端根据收到的信号去分析、理解、还原发送端传送过来的信息。我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众的耳朵就是接收源,而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思,就是语音识别。如果接收端是一台计算机,那么就要做语音的自动识别。
雅格布森通信六个要素是:发送者(信息源),信道,接收者,信息,上下文和编码。
在通信中,如何根据接收端的观测信号o1,o2,o3……来推测信号源发送的信息s1,s2,s3……呢?只需要从所有的源信息中找到最可能产生出现观测信号的那一个信息。
P(o1,o2,o3,……|s1,s2,s3……) P(s1,s2,s3……)/P(o1,o2,o3……)
一旦信息o1,o2,o3……产生了,它就不会改变了,这时P(o1,o2,o3……)就是一个可以忽略的常数。因此上面的公式就可以等价成
P(o1,o2,o3……|s1,s2,s3……) P(s1,s2,s3……)