不能说的秘密-序

2008年4月28日阅读(315)

不能说的秘密是什么呢？不能说的秘密就是不能说的秘密啦，^o^,说了就不是秘密了。

ok，为了不让如此冗长的文章不至于无趣，也不至于陷入下面那位老师的尴尬的局面，先说点有趣的吧。

上面说的老师的典故是这样的，一次某位上课的老师，看着下面的学生无奈的说道：”如果后排聊天的同学能够像中间打牌的同学那样安静的话，就不会吵到前排睡觉的同学了”。。。不过有点矛盾的是，如果这位老师如此幽默的话，状况应该不止于如此悲惨吧。。。

某次飞机导航失灵，眼看着要坠毁了，飞行员于是对着旁边大厦里的人大喊”请问能告诉我现在在哪里吗？”里面的人答道”你在距离地面100英尺的飞机上”。飞行员听了这话，竟然顺利的辨明了方位，使飞机转危为安…后来，人们谈及此事，倍感惊讶，”事情是这样的”,飞行员说道”通过那大厦里的人的回答，我知道他们是微软的员工，而机场与微软的相对方位我是知道的，所以我及时的确定了方位”，其实这个就有点禅宗的味道了。。。

下面还是尽量以通俗易懂而且扯淡的文字，^o^,去解析搜索引擎这如此现代and神秘的东西吧，也当是对资料的一个简单总结吧。所以呢，还是说说搜索引擎的那不能说的秘密吧。。。

传统的数据检索早就存在的了，比如在图书检索领域，但是web检索有其特殊性，数据是分布在世界各地的，而且是异常庞大的，网络状况是无法估计的，数据是动态更新的，每天都有众多的网页再更新，新的网页在诞生，老的网页在消失，用户也是分布在世界各地的。

现今的web搜索引擎不过有二十年的历史，而全文搜索引擎也不过10几年，最早的web搜索引擎是基于目录的，像早期的yahoo,sohu,所有的搜索是以站点为单位的，只能根据人工的力量对站点的信息进行摘要，说明进行检索。而现今的全文搜索引擎则是以文章为单位，全文搜索引擎的意思，是将网络上的所有网页作为搜索对象，给一个查询，需要返回含有该查询的所有网页。

根据调查，web上的数据以每年加倍的爆炸式方式增长，毫无疑问如此规模巨大的网络数据，使传统的检索方式变的无法适应。

其实作为web搜索引擎，在google，baidu之前早已出现了很多公司，而google则因为其良好的结果相关性，加之yahoo后来宣布采用google的技术，凭借技术和机遇一举成名。而baidu则占尽了中文商业搜索引擎的先机，继纳斯达克上市之后，逐步成长为全球最大的中文搜索引擎。而他们目前的业务也逐步扩大，早已超出搜索引擎的本职范围。

baidu的成功很大程度上与中文分词的特殊性相关（我想需要解释下什么是分词，分词就是把一句话中的词提取出来，对于英文来说很容易，因为它们自然的采用空格作为分割，比如I am stupid.单词都是用空格分离的，而中文：我是个笨蛋。笨蛋是一个词，但是要让计算机提取出来可不像stupid那么容易了奥），而baidu的名字也是取自那句”众里寻她千百度，蓦然回首，那人却在灯火阑珊处”，的确足够贴切。目前国内的搜索引擎，其他的还有中搜，采用海量科技的技术，中文分词做的很好。以及北大天网搜索，是国家科研项目的产物，不过基本没用过，还有前段时间比较热的搜狗。同时也出现了一些新类型的搜索，向专业化发展这也是搜索引擎的一个趋势吧，比如针对mp3的mp3搜索，blog搜索，阿里巴巴的商机搜索。。。

近来闻听，google与金山在金山词霸产品方面合作(听说的啦，不知道是不是真的)，进行在线翻译等方面的业务，估计此举应该对google的分词技术有所影响，因为在分词中，词典是很重要的一个基础。。。

目前网络上网页大概有100亿左右，这样的数据量真是足够庞大，而能够做到全文检索，也的确是足够强大。在如此复杂的网络环境中，却存在一个如同6度空间(就是地球上的两个人可以通过6个人将它们联系起来的那个，应该听说过的，^o^)那般震撼的事实：任何两个可以到达的网页(通过网页上的超链接点击)，他们的最短距离不超过17。而这意味着目前网页获取所采取普遍方式：链接追踪，很快就可以到达终点，深度不必很大。

现今对于每个上网的人来说，我想搜索引擎已经成了必不可少的工具了吧，以至于google，百度早已进化为动词。今天你google了吗？不用回答，我想如果你上网，你一定google了吧。。。当然啦，别跟我抬杠奥，比如你说你baidu了，没google。。。抑或是。。。

好吧，我还是承认上面的言论有点绝对吧。。。

我想目前对于广大网络使用者来说一个习惯性的动作，就是打开baidu or google的页面，然后在搜索框中敲入关键字，然后静待搜索引擎返回你查询的结果，然后察看摘要，点击链接。。。

可是你可曾想过，它是如何在那么短的时间内，在数10亿的网页中找到结果的？而且此刻不只你一个在提交查询请求。网页是存在数据库里的吗？它对你输入的关键字是如何处理的呢？返回结果又是如何排序的呢？杂乱，随机还是其他呢？{针对这个，已经出现了一个新的职业：搜索引擎优化(设计网站，使其在搜索引擎的结果中排的靠前)}。
当人家的网页更新后它又该是怎么处理的呢？好多疑问奥~

其实我们经常看到的只是搜索引擎系统的其中一个部分：查询模块。而一个完整的系统，要想完成如此巨大的任务，同时响应如此众多的查询请求，其所做的很多工作都是默默进行的，这可要依赖网络爬虫孜孜不倦的劳动，加上分析系统对网页的分析，索引系统的索引生成。而站在台前的人们只是惊讶，可不行奥。。。

好吧，在后面的部分就去理一下搜索引擎的技术和实现，当然会遇到那些很有名的东东吧，比如：爬虫，百度的竞价排名，google的pagerank，如此庞大数据的索引技术，还有你是如何可以看到已经删除了的网页内容(快照功能),以及很多其他我们在眼中看到的，到底在幕后它们是如何实现的？可以看到事情的真相，听起来好像有点意思了吧。。。

这其中的思想必然是很精密的奥，不过我现在得睡觉啦，哈哈。。。

duanple

不能说的秘密-序

duanple

不能说的秘密-序

You Might Also Like

关于内存泄露

路由算法 tcp协议

google搜索引擎的参数和页面布局(zz)

duanple

神作： <<人月神话>><<人件>>

se的秘密(一)：蜘蛛传奇