读google研究员吴军《数学之美》感悟对数学的信仰

这是本人在2014年早些时候发表在CSDN博客上的,时隔6年再读此短文,仍然感触良多。作为科学技术的相关从业人员,心中要有对美,真,和简约的信仰。Keep it simple and stupid。

1 复杂问题简单化
吴在书中给出一个自然语言处理的例子:
一个给定次序的句子出现的概率(可能性):
P(S)=P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)
这个计算起来太过复杂。如果引入马尔可夫假设,即对任意w(n), 其出现概率只与w(n-1)有关,如此上面的等式可以简化为:
P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
P(wi|wi-1) = P(wi-1,wi)/ P (wi-1) 

这个模型效果出奇的好。当然,也可以有二阶或者更高的马尔可夫模型,具体实施的时候情况会复杂一些。但是,无论怎样,基于概率的模型比语言学家的什么规则效果要好的多,由此可见数学的强大。

2 利用余弦定理判断文本的相似性
已知三角的3条边,可以求任意一个角的余弦,公式如下:

c2 = a2 + b2 − 2ab*cos(C)

如果用向量来表示,则有如下计算两个临边夹角余弦值:

Cosine similarity

显然,余弦约趋近于1,也就是2个向量的夹角越小,用该向量表征的两则文本约相似。即一个文本中所有次各自出现的次数构成的向量,没有出现则为0。

3 行星轨道(从托勒密地心说到哥白尼于开普勒的日心说)
吴军回顾了在这一问题上科学家走过的曲折。他指出:
“一个正确的模型应该在形式上是简单的。一个正确的模型在刚开始的时候可能还不如一个精雕细琢的错误的模型准确,但是大方向的正确才是重要的。大量准确的数据对于研发非常重要。正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。”

Leave a Reply

Your email address will not be published. Required fields are marked *