数学之美读书笔记.doc

资源描述

1、数学之美读书笔记数学之美读书笔记1数学之美，一个从事多年工作的谷歌研究员眼中的数学。令我大饱眼福的是，大学里面的数学知识竟能如此广泛运用到了计算机行业中。在语音识别、翻译，还有密码学领域，有着许多基于概率统计的模型和思想。当然，贝叶斯公式是基础，应用到隐含马尔科夫链模型，神经网络模型。在搜索中，一些相关性的计算，无不用到了概率的知识。在新闻分类中，用到了一些有关矩阵特征值、相似对角化的知识。当然，在图像处理方面，矩阵变换可谓是无处不在。另外，在识别方面，有一些通信模型，涉及到了信道、误码率、信息熵。最近刚开学也没什么事，所以就想随便找几本书看一下，但最好别是那种太艰深晦涩的书。8月份一直到现在

2、，吴军写的这本12年5月出版的数学之美一直盘踞京东、亚马逊等各大网上商城科技类图书的榜首，当然，还有早些时候出版的浪潮之巅也排在很靠前的位置。心想市场的力量应该能帮我挑出好书吧，于是就从图书馆借了一本来，一直到今天晚上把它给看完了。因此想写一点东西来总结、反思一下，反正刚开完班会也没什么事干。写在前面的建议：如果你不讨厌数学的话，强烈推荐这本书，网上也可以下到电子版，不过阅读感觉上还是很不一样的。废话就不多说了，数学之美其实是一本科普类的读物，所面向的是接受过普通高等教育的人，完全不需要在特定领域有很深的造诣就可以看懂，大概懂一点线性代数、概率统计、组合数学、信息论、计算机算法、模式识别最好(

3、虽然列举了这么多，其实有些不懂也没关系)，所以尤其适合信科的人看。内容大部分是和人工智能、计算机相关的，这并非我所学的专业，但作者比较擅长将看似复杂的原理用简明的语言表达出来，所以可读性还是很好的。吴军是清华大学毕业的，之前任职于Google，后来到了腾讯，这些文章都是发表在Google黑板报上的，后来经过了重写，所以网上下载的和书本内容有所差异。由于吴军本人是研究自然语言处理和语音识别的，所以统计语言模型的东西可能会多一点，不过我觉得这丝毫不妨碍全书数学之美的展现感觉收获还是挺多的，知识上的有一些，但更多还是思维方式上的。作者举了很多例子试图让人明白很多看似复杂的高科技背后，基本原理其实是出

4、乎意料简单的(当然，必须承认第一个想到这些方法的人还是非常了不起的)。比如高准确率的机器翻译，看上去好像是计算机能够理解各国语言，隐藏在背后的却是很多具有大学理科学历的人都非常清楚的统计模型和概率模型;再比如拼音输入法的数学原理，早期的研究主要集中在缩短平均编码长度，比如曾经流行一时的五笔输入法，而现今真正实用的输入法却是有很多信息冗余、编码长度比较长的拼音输入法，作者从信息论和市场的角度做了简单的阐述;又比如新闻的自动分类，许多非IT领域的人可能会认为计算机可以读懂新闻并进行分类，而实际上只是特征向量的抽取、多维空间中向量夹角的计算，非常非常简单，但凡学过一点线性代数的人绝对是一看就懂的当然

5、，完美的实现还需要考虑很多细节和现实的情况，但这并不是这本书所关注的地方，数学之美在于其简洁而不是繁琐。除了对于具体信息技术的剖析之外，作者还花了很大篇幅来讲一些杰出人士的成长过程，特别是把这些人的成长经历和中国学生的成长经历作对比。虽然作者并没有明说，但字里行间多少流露出对于中国高等教育以及很多中国企业的批评，一是教育的功利性，缺乏宽松的独立思考的环境，即使学了一堆理论也难有用武之地，自然也就缺乏创新性的成果;二是中国企业的短视，大部分都不舍得在新框架开发上投资，而是坐享学术界和国外企业的研究成果。总结一下呢，数学之美事实上不能带给你编程能力的提升，也没法让人的数学水平有显着的提升，但它在很

6、大程度上让你跳出教科书式的繁琐细节的束缚，能够从更宏观的角度来思考信息世界背后的数学引擎的运行原理，让人明白看似很高级、复杂的东西背后其实并不如我们所想象的那样复杂，而我们所学的“枯燥”的数学真的可以“四两拨千斤”，改变亿万人的生活。数学之美读书笔记2这本书一共3章，主要介绍了这些数学方法：统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。从第一章开始其明了幽默的语言就深深的吸引了我，让我觉得如果早一点看这本书

7、，也许数学之于我就是另一番天地。第一章里作者从原始人类的通信方式开始入手，人类最早利用声音进行的通信依赖于开篇给出的编码传输解码的基本原理，指出原始人的通信方式和今天的通信方式没什么不同，这世界上近现代最普遍的原理大部分都在人类发展的历史上被无意识的使用着。第六章信息论给出了信息的度量，它是基于概率的，概率越小，其不确定性越大，信息量就越大。引入信息量就可以消除系统的不确定性，同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量，这一点与热力学中的熵概念相同，看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的，要学会借鉴其他知识。这本书里也能找到

8、不少在学的课程知识，如大学专业课里，数电总是要比模电简单不少，而自然界里大部分的信号都属于模拟信号。所谓模拟信号，是指从时间和数值两种维度上看来都是连续变化的信号。在实际电路中，模数转换是一个很重要的过程，将预处理的模拟信号经过模数变换为数字信号，然后进行数字信号处理。而数字化处理有很多优点，比如功能强大、抗干扰能力强、易于传输等。简而言之，如果没有数学，就没有数字信号处理和传输的概念，而数字信号传输在当下大规模的集成电路里是必不可少的，这是通信成功的基本要求。作者把生活中遇到的复杂的问题，以简单清晰，直观的模型或者公式展现出来。我们可能过于注意生活中的种种奇妙现象，往往忽略了追求其理论逻辑的

9、演绎，而这，也是大部分问题的主要根源。罗素曾经说过：数学，如果正确地看，不但拥有真理，而且也具有至高的美;爱因斯坦也曾说过：纯数学使我们能够发现概念和联系这些概念的规律，这些概念和规律给了我们理解自然现象的钥匙。数学在所有科学领域起着基础和根本的作用。哪里有数，哪里就有美。在这里，我也想把数学之美真诚推荐给每一位对自然、科学、生活有兴趣有热情的朋友，不管你是从事职业，读一读它，会让你受益良多。吴军老师在数学之美中提到：这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及，再到落伍，追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余。回到我们日常的生活中，需

10、要学习的东西、技术太多太多，如果一味地只为去追技术的脚步，那么我们也会很累很累。然而基本的原理却是没有怎么变化的。只见森林，不见树木，难免迷失;站在高处向下看，也许我们一直看不到底，但是站在底处却是可以看见底的。数学之美读书笔记3数学之美是一本领域相关的数学概念书，生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识，可以作为数据挖掘、文本检索的入门普及书。另外，就像作者吴军老师提到的，关键是要从中学到道-解决问题的方法，而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。下面记录一下自己读这本书的一些感想：第一章文字和语言vs数字和信息：文字和语言中天然蕴藏着一些数学思想，数学可能不

11、仅仅的是一门非常理科的知识，也是一种艺术。另外，遇到一个复杂的问题时，可能生活中的一些常识，一些简单的思想会给你带来解决问题的灵感。第二章自然语言处理-从规则到统计：试图模拟人脑处理语言的模式，基于语法规则，词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度，而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程，找到统计的方法经历了20多年，非常庆幸我们的前辈已经帮我们找到了正确的方法，不用我们再去苦苦摸索。另外，这也说明在发现真理的过程中是充满坎坷的，感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃，真正的成长是在解决问题的过程中。事情不可能一帆风顺

12、的，这是自然界的普遍真理吧！第三章统计语言模型：自然语言的处理找到了一种合适的方法-基于统计的模型，概率论的知识开始发挥作用。二元模型、三元模型、多元模型，模型元数越多，计算量越大，简单实用就是最好的。对于某些不出现或出现次数很少的词，会有零概率问题，这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用，现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话：数学的魅力就在于将复杂的问题简单化。第四章谈谈中文分词：中文分词是将一句话分成一些词，这是以后进一步处理的基础。从开始的查字典到后来基于统计语言模型的分词，如今的中文分词算是一个已经解决的问题。

13、然而，针对不同的系统、不同的要求，分词的粒度和方法也不尽相同，还是针对具体的问题，提出针对该问题最好的方法。没有什么是绝对的，掌握其中的道才是核心。第五章隐马尔科夫模型：隐马尔科夫模型和概率论里面的马尔科夫链相似，就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型，就可以解决好多机器学习的问题，训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型，没有实际实现过，所以感觉好陌生，只是知道了些概率论讲过的原理而已。第六章信息的度量和作用：信息论给出了信息的度量，它是基于概率的，概率越小，其不确定性越大，信息量就越大。引入信息量就可以消除系统的不确定性，同理

14、自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量，这一点与热力学中的熵概念相同，看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的，要学会借鉴其他知识。第七章贾里尼克和现代语言处理：贾里尼克是为世界级的大师，不仅在于他的学术成就，更在于他的风范。贾里尼克教授少年坎坷，也并非开始就投身到自然语言方面的研究，关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生，对于学生的教导，教授告诉你最多的是“什么方法不好”，这很像听到的一句话“我不赞同你，但我支持你”。贾里克尼教授一生专注学习，最后在办公桌前过世了。读了这章我总结出的一句话是“思想决

15、定一个人的高度”。在这章中对于少年时的教育，以下几点值得借鉴：1、少年时期其实没有必要花那么多时间读书，他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。2、中学时花大量时间学会的内容，在大学用非常短的时间就可以读完，因为在大学阶段，人的理解力要强很多。3、学习（和教育）是一个人一辈子的过程。4、书本的内容可以早学，也可以晚学，但是错过了成长阶段却是无法补回来的。第八章简单之美-布尔代数和搜索引擎的索引：布尔是19世纪英国的一位中学教师，但他的公开身份是啤酒商，提出好的思想的人不一定是大师。简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1，为了适应索引访问的速度、附加的信息、更新要快速，改进了索引的建立，但原理上依然简单，等价于布尔运算。牛顿的一句话“（人们）发觉真理在形式上从来是简单的，而不是复杂和含混的”。做好搜索，最基本的要求是每天分析10-20个不好的搜索结果，积累一段时间才有感觉。有时候，学习、处理问题，可以从不好的方面入手，效果可能更好。第九章图论和网络爬虫：图的遍历分为“广度优先搜索（Breadth-FirstSearch，简称BFS）”和“深度优先搜索（Depth-FirstSearch，简称DFS）。互联网上有几百亿的网页，需要大量的服务器用来下载网页，需要协调这些服务器的任务，这就是网络设计和程

展开阅读全文