数学之美是一种独特的美,它是蕴涵在其中的美,深深地蕴藏在它的基本结构中,是内在的理性美。确切的来说,《数学之美》并不是一本书,它是吴军老师在谷歌黑板报上撰写的一系列文章组成的,每一篇文章都不长,但贵在精炼,用很多通俗易懂的案例介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用,系统地阐述了与现代科技领域相关的数学理论的起源、发展和作用。
读了《数学之美》,立即联想到了武侠小说中的武林高手,同样的一柄剑,在高手的手中就是杀人利器,在普通人手中连烧火棍也不如。一件武器它的威力如何,关键在于使用者,数学同样如此。
很多人无法想象余弦定理会和新闻的分类有着紧密的联系,甚至可以说,新闻的分类很大程度上依靠的就是余弦定理。我们知道现在AI已经可以写出很多以假乱真的文章了,但你可知道在2002年谷歌就推出了自己的自动新闻服务,不同于传统媒体,它发布的这些新闻其实很多都不是人工写的,而是由计算机自动生成的,由计算机来整理、分类并聚合各个新闻网站内容。这里的关键技术就是新闻分类,新闻分类就是要把相似的新闻归于同一类中,但如果让人工来做,则必须先要读懂新闻内容,再找出主题,最后根据不同的主题进行不同的新闻分类。如果让计算机来做,就必须把文字的新闻变成一组组可计算的数字,再设计算法来算出它们的相似性。首先根据新闻用词的重要性通过单文本词汇频率/逆文本频率值来计算出相应的特征向量。这样就可以定性的知道,两篇新闻的特征向量“长得像不像”决定了它们的主题是否接近。所以我们只需要定量的衡量它们特征向量之间的相似性就可以了。有了数字化的特征向量,我们就要用到余弦定理了,通过向量代数的知识我们可以知道,向量其实是多维空间中从原点出发的有向线段。所以向量的方向有很大的意义,两个向量的方向是否一致决定了这两个新闻用词的比例是否一致,这样就只需通过计算两个向量的夹角来判断这两个新闻的主题相似程度。余弦定理在数学中描述了三角形中任何一个夹角和三个边的关系,可以通过三角形的三条边求出三个角的角度。这里利用余弦定理,可以计算出两条新闻的相关程度。简单说来,根据新闻的主题词来反映每一篇新闻的特征向量,当用代表两个新闻的向量计算出它们夹角的余弦在0到1之间,当夹角的余弦越接近于1,说明两条新闻越相似,可以归成一类;同样,夹角的余弦越小,两条新闻越不相关。当夹角的余弦为零时,说明这两篇新闻毫不相关。然后根据弗洛里安和雅让斯基教授给出的自底向上不断合并的办法,不断做下去,类别越来越少。余弦定理就是这样通过新闻的特征向量和新闻分类联系在一起。
这只是《数学之美》中一篇非常普通的文章,却非常通俗易懂地阐述了数学在新闻分类中的重要应用。吴军老师的这本《数学之美》用最简单的事实和道理告诉我们,这个世界的所有科学知识,它的底层逻辑,几乎都离不开数学。一个用数学为基础的复杂结构打造了我们现代生活的方方面面,当你拿出手机点开美团准备点份外卖的时候,数学算法已经为你选好并推荐了最适合你的外卖品类,当你打开电脑进入游戏世界的时候,别忘了显示屏中展现得美轮美奂的画面和激烈的打斗场面其实都是数字的计算。现在,云计算大大提高了数据的处理和强大了网络服务,区块链技术正在改变世界经济的格局,人工神经网络正在解决更复杂的问题,大数据正在向你推送更适合你的服务,量子通信技术让我们的世界更安全。同时吴军老师在最后一章“数学的极限”中告诉我们计算机的能力也是有数学上的边界的,数学本身的限制在最根本的层面上限制了人工智能的能力。
数学,正在不断改变和影响着我们的世界,推动着人类的进步,让我们的世界变得更美好,变得更加稳定。
