技术专题

不能说的秘密-序

2008年4月28日 阅读(243)

不能说的秘密是什么呢?不能说的秘密就是不能说的秘密啦,^o^,说了就不是秘密了。

ok,为了不让如此冗长的文章不至于无趣,也不至于陷入下面那位老师的尴尬的局面,先说点有趣的吧。

上面说的老师的典故是这样的,一次某位上课的老师,看着下面的学生无奈的说道:”如果后排聊天的同学能够像中间打牌的同学那样安静的话,就不会吵到前排睡觉的同学了”。。。不过有点矛盾的是,如果这位老师如此幽默的话,状况应该不止于如此悲惨吧。。。

某次飞机导航失灵,眼看着要坠毁了,飞行员于是对着旁边大厦里的人大喊”请问能告诉我现在在哪里吗?”里面的人答道”你在距离地面100英尺的飞机上”。飞行员听了这话,竟然顺利的辨明了方位,使飞机转危为安…后来,人们谈及此事,倍感惊讶,”事情是这样的”,飞行员说道”通过那大厦里的人的回答,我知道他们是微软的员工,而机场与微软的相对方位我是知道的,所以我及时的确定了方位”,其实这个就有点禅宗的味道了。。。

下面还是尽量以通俗易懂而且扯淡的文字,^o^,去解析搜索引擎这如此现代and神秘的东西吧,也当是对资料的一个简单总结吧。所以呢,还是说说搜索引擎的那不能说的秘密吧。。。

传统的数据检索早就存在的了,比如在图书检索领域,但是web检索有其特殊性,数据是分布在世界各地的,而且是异常庞大的,网络状况是无法估计的,数据是动态更新的,每天都有众多的网页再更新,新的网页在诞生,老的网页在消失,用户也是分布在世界各地的。

现今的web搜索引擎不过有二十年的历史,而全文搜索引擎也不过10几年,最早的web搜索引擎是基于目录的,像早期的yahoo,sohu,所有的搜索是以站点为单位的,只能根据人工的力量对站点的信息进行摘要,说明进行检索。而现今的全文搜索引擎则是以文章为单位,全文搜索引擎的意思,是将网络上的所有网页作为搜索对象,给一个查询,需要返回含有该查询的所有网页。

根据调查,web上的数据以每年加倍的爆炸式方式增长,毫无疑问如此规模巨大的网络数据,使传统的检索方式变的无法适应。

其实作为web搜索引擎,在google,baidu之前早已出现了很多公司,而google则因为其良好的结果相关性,加之yahoo后来宣布采用google的技术,凭借技术和机遇一举成名。而baidu则占尽了中文商业搜索引擎的先机,继纳斯达克上市之后,逐步成长为全球最大的中文搜索引擎。而他们目前的业务也逐步扩大,早已超出搜索引擎的本职范围。

baidu的成功很大程度上与中文分词的特殊性相关(我想需要解释下什么是分词,分词就是把一句话中的词提取出来,对于英文来说很容易,因为它们自然的采用空格作为分割,比如I am stupid.单词都是用空格分离的,而中文:我是个笨蛋。笨蛋是一个词,但是要让计算机提取出来可不像stupid那么容易了奥),而baidu的名字也是取自那句”众里寻她千百度,蓦然回首,那人却在灯火阑珊处”,的确足够贴切。目前国内的搜索引擎,其他的还有中搜,采用海量科技的技术,中文分词做的很好。以及北大天网搜索,是国家科研项目的产物,不过基本没用过,还有前段时间比较热的搜狗。同时也出现了一些新类型的搜索,向专业化发展这也是搜索引擎的一个趋势吧,比如针对mp3的mp3搜索,blog搜索,阿里巴巴的商机搜索。。。

近来闻听,google与金山在金山词霸产品方面合作(听说的啦,不知道是不是真的),进行在线翻译等方面的业务,估计此举应该对google的分词技术有所影响,因为在分词中,词典是很重要的一个基础。。。

目前网络上网页大概有100亿左右,这样的数据量真是足够庞大,而能够做到全文检索,也的确是足够强大。在如此复杂的网络环境中,却存在一个如同6度空间(就是地球上的两个人可以通过6个人将它们联系起来的那个,应该听说过的,^o^)那般震撼的事实:任何两个可以到达的网页(通过网页上的超链接点击),他们的最短距离不超过17。而这意味着目前网页获取所采取普遍方式:链接追踪,很快就可以到达终点,深度不必很大。

现今对于每个上网的人来说,我想搜索引擎已经成了必不可少的工具了吧,以至于google,百度早已进化为动词。今天你google了吗?不用回答,我想如果你上网,你一定google了吧。。。当然啦,别跟我抬杠奥,比如你说你baidu了,没google。。。抑或是。。。

好吧,我还是承认上面的言论有点绝对吧。。。

我想目前对于广大网络使用者来说一个习惯性的动作,就是打开baidu or google的页面,然后在搜索框中敲入关键字,然后静待搜索引擎返回你查询的结果,然后察看摘要,点击链接。。。

可是你可曾想过,它是如何在那么短的时间内,在数10亿的网页中找到结果的?而且此刻不只你一个在提交查询请求。网页是存在数据库里的吗?它对你输入的关键字是如何处理的呢?返回结果又是如何排序的呢?杂乱,随机还是其他呢?{针对这个,已经出现了一个新的职业:搜索引擎优化(设计网站,使其在搜索引擎的结果中排的靠前)}。
当人家的网页更新后它又该是怎么处理的呢?好多疑问奥~

其实我们经常看到的只是搜索引擎系统的其中一个部分:查询模块。而一个完整的系统,要想完成如此巨大的任务,同时响应如此众多的查询请求,其所做的很多工作都是默默进行的,这可要依赖网络爬虫孜孜不倦的劳动,加上分析系统对网页的分析,索引系统的索引生成。而站在台前的人们只是惊讶,可不行奥。。。

好吧,在后面的部分就去理一下搜索引擎的技术和实现,当然会遇到那些很有名的东东吧,比如:爬虫,百度的竞价排名,google的pagerank,如此庞大数据的索引技术,还有你是如何可以看到已经删除了的网页内容(快照功能),以及很多其他我们在眼中看到的,到底在幕后它们是如何实现的?可以看到事情的真相,听起来好像有点意思了吧。。。

这其中的思想必然是很精密的奥,不过我现在得睡觉啦,哈哈。。。

You Might Also Like