友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
合租小说网 返回本书目录 加入书签 我的书架 我的书签 TXT全本下载 『收藏到我的浏览器』

搜:通向世界的巨型引擎-第4部分

快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!


么都没有强。 

Archie这个名字里有奇异的吸引力,非常适合年轻的因特网。1993年,内华达大学的学生发明了Veronica。这个名字是对漫画书上这对夫妇名字玩笑式的模仿。Veronica的工作方式同Archie大致相同,但是它采用的是Gopher协议,而不是FTP。Gopher协议是一个比FTP更成熟的,且被普遍使用的因特网文件共享标准。Veronica使搜索更进一步接近我们目前对搜索的期待,因为Gopher协议使搜索用户可以直接同他查询的文件建立连接,而不是仅仅同保存这个文件的计算机连接。步子不大,不过毕竟是进步。 
 



 

 


第9节:早期的搜索2
作者:'美'约翰·巴特利

Archie和Veronica都缺乏语义功能,也就是说它们不能够索引文件全文,而只是索引文件名。这意味着,搜索用户必须知道或者推测出待查文件的文件名。如果你要找一个〃日程表〃,而文件的文件名是〃今天的任务〃,那么你肯定找不到这个文件,即使实际上这个文件的第一个词就是〃日程表〃。随着网络的兴起,人们很快就不再使用Archie和Veronica了。 

网络一出现,搜索这个基本问题就随之出现。当因特网的用户仅限于学术和技术工作者的时候,找东西的问题还只是局限在一定范围内。但是1993~1996年期间,网络上的网站数目从130激增到600000。马萨诸塞(Massachusetts)技术学院的研究人员马修·格雷(MatthewGray)一直在观察因特网的成长。作为一位先行者,他发明了最早的网络搜索引擎万维网Wanderer。 

格雷发现,人类的认识远远跟不上网络发展的步伐,Wanderer就是用来解决这个问题的。后来格雷在一篇文章中写道:〃我编写Wanderer的目的是让他系统性地在网络中来回移动,收集所有网站。鉴于网络成长迅速,我的重心很快转移到以图表记录网络的成长过程。 

Wanderer是自动捕获网站并生成网站索引的机器人。格雷还编写程序,制作了一个方便用户查找所有这些索引的界面。格雷的Wanderer程序还有一个之前人们没想到的作用。网络形成之初,频带宽度是一种稀缺资源。许多网站管理员都认为Wanderer在做网站索引的时候吃掉了太多处理和带宽资源。为了解决这个问题,后来格雷对这个网页捕获器做了一些细微的改进,采用一种宽度算法,使它在进行索引步骤之前先加宽网站的频带宽度。这种方法现在还因其高效率而被广泛采用。格雷说:〃这并非最好的搜索引擎,却是最早的。〃 

Wanderer很快就被许多性能更优良的引擎取代了。其中之一就是由华盛顿大学的研究人员布赖恩·平克顿(BrainPinkerton)开发的WebCrawler。平克顿是1994年在为史蒂夫·乔布(SteveJob)的公司Next工作时无意中发明WebCrawler的。(像大多数先驱计算机公司一样,乔布公司的Next机器及其开发的NextStep软件都领先市场水平五年左右。这家公司开发的许多项技术,包括内置以太网,高质量色彩等现在还是几乎每一台台式个人电脑都采用的技术。)当时,平克顿要同时应付学术研究任务和工作。他学术研究的课题是分子生物科技同计算机科学,而他的工作任务是为Nextstep操作系统开发新一代的网络浏览器,包括其内置的搜索功能。 

平克顿渐渐对搜索技术,尤其是其中对网页进行索引的技术着了迷。这一步并不太难,就是让网页捕获器像网络浏览器那样提取URL。平克顿创造出一个还处于雏形阶段的网页捕获器WebCrawler,并开始用它索引网站。 

当时,Google的PageRank算法还未问世,不过,平克顿已经注意到了链接的重要性。他采用下面的检验方法来测试自己于1994年3月新建成的这个数据库。他想知道哪些站点被其他站点引用的次数最多,或者说,在其他站点上拥有最多的指向该站点的链接(用今天的话讲,就是最Googlejuice)。排名第一的是CERN的一个万维网项目的主页。GERN是设在瑞士日内瓦的一所重要的原子物理实验室。 

WebCrawler在搜索引擎发展史上占据重要地位,因为是它开创了对网络文件进行全文索引的先河。1994年4月,平克顿把自己的这个课外发明上传到了网上。截至当年11月份,它接受的查询就多达一百万条。平克顿把这项发明称为〃核武器设计和研究〃。1995年6月,美国在线以100万美元的价格购买了WebCrawler技术。当时,美国在线还没有任何同网络相关的资产。这次收购也预示着同搜索相关的收购战役即将打响。平克顿回忆说:〃当时对于因特网将要变成什么样子,大家都茫然无知。〃 

WebCrawler为网上冲浪者们,尤其是美国在线的用户,开启了一个新世界。它提供全文搜索服务以及简单的以浏览为基础的界面。自此,网络迈出了重要的一步,不再局限于学术研究人员和技术精英的圈子,而是进入了主流消费市场。 
 



 

 


第10节:第一个真正好的搜索引擎
作者:'美'约翰·巴特利

第一个真正好的搜索引擎 

因特网还是新生事物之时,整个网络上不过有区区1000万张网页,雅虎只不过是一组时髦的链接,而'google'不过是一个巨大的数字的错误拼写形式。这个时候,路易斯·莫尼尔(LouisMonier)只用一台计算机就可以装下整个网络。 

对于AltaVista网站的建立有一个这样的传说:数字设备公司(DEC)刚刚开发出来处理速度非常快的阿尔法处理机,正处心积虑想要找到一种方式来证明它的威力。信息技术商务市场的核心问题就是对巨型数据库的处理,DEC需要一个庞大的数据库,在上面进行搜索。公司处境艰难,几乎没有什么好消息,所以期待出现一个公共关系天使,重塑其技术创新公司的形象,以鼓舞士气。DEC设在加利福尼亚州帕洛阿尔托的Western实验室的研究人员路易斯·莫尼尔建议开发一个搜索引擎:先把整个因特网这个巨大的数据库放到阿尔法计算机上,然后再开发一个程序来显示阿尔法速度的优越性(这就是搜索引擎了)。很快,AltaVista就诞生了,它的使命是证明DEC公司在硬件生产领域的统治地位。然而,同大多数创业故事(我想到易趣的PezDispenser糖果贩子传奇1。)一样,这个故事仅道出了一半的事实。 

〃这完全是事后的推论!〃路易斯·莫尼尔声明。在回忆AltaVista最初的日子的时候,莫尼尔从来不会含糊其辞。我们在帕洛阿尔托一家小咖啡馆喝咖啡时,他告诉我:〃DEC当时正陷入死亡漩涡。不管有多少东西,他们都能搞得一团糟。从莫内尔的名字可以看出来,他拥有法国血统,他的语调和说话方式都透出高卢式的轻蔑。〃DEC公司内没有人知道我在做什么。他们是错过机会的专家……他们只不过觉得这能够为所谓的硬件传奇提供佐证。〃 

事实上,DEC内部有不少人意识到莫尼尔的工作的重要性,然而不幸的是,这些人大都供职于技术部门。AltaVista诞生的经过在不同的人的叙述中有不同的版本。20世纪90年代初管理DEC网络系统实验室的布莱恩·里德(BrainReid)当然记得莫尼尔在建立AltaVista的过程中起到的作用。搜索引擎的主意就是在里德的下属们在一次晨会上提出的。当时,莫尼尔在场听到了这个想法并拿走了它。 

里德宣称,莫尼尔被认为是AltaVista的发明人,而〃AltaVista是在我的会议室里诞生的。我们当时在试图找到能够善加利用我们惊人的带宽资源的途径。我们拥有新的芯片,出色的员工,还有一家摇摇欲坠的公司。我们想为新的计算机找到一个新支点,希望它能够完成一项任务,做得比惠普和太阳的计算机都要好。〃在里德的讲述里,诞生故事的传奇版颇受质疑。 

当我问里德,莫尼尔的版本是否准确时,他停顿了一下,最后承认确实没有人真正明白这个搜索引擎最终会变成什么样子。〃关于它的诞生过程有很多历史争论。很多人不择手段地争抢对这个创意的所有权。〃里德解释说,在DEC这样一家大公司,要是有一个创意真正起到了作用,让公司看起来还不错,每个人都希望这个功劳能算在自己头上。在一个很短的时期内,AltaVista就是这样一个创意。2 

就像在信息产业常常出现的情况一样,几乎搜索行业的每一家知名企业都能在大学中找到他的根。因为大学是一个允许好主意不受商业需要束缚,尽情开花结果的地方。Google,Exite和雅虎都发迹于斯坦福大学;Inktomi来自伯克利的加州大学;Lycos是从卡内基梅隆大学起家的。 

很多时候,一项伟大的创新不是在大学中,而是在一家公司里成功的。为数不多的几家公司认识到了学术研究的重要性并注重学术氛围的营造。在这些公司,技术开发允许开放式的质询,有失败的自由,不受资源限制,也接受开放性的合作。 

不过,没有几家公司能负担得起纯科研型实验室这样的奢侈。而有足够的预见性和远见卓识来建立这样的实验室的公司就更是凤毛麟角了。那些投资于纯学术性研究的公司都抱有这样一个单纯的目的:实验室肥沃的土壤培育出来的创新成果能够有朝一日为公司架设一座通往未来的桥梁,作为公司在这个高度动荡的产业变幻莫测的洪流中的一条安全通道。当然还会期待中大奖的幸运:从理论上讲,纯学术性研究允许大幅度的进步。在这个进步中也许就蕴藏着可以燎原的星星之火为公司赚取上千亿美元的机会。这当然是一个大家都不会讲明的纯学术性研究的目的。但是,公司至少可以抱有这样的梦想吧! 

上世纪八十年代末,DEC是信息技术产业中少数几家进行长期性学术研究的大企业之一。曾经有一段时间,他设在加州帕洛阿尔托的最重要的Western实验室就提供了这样一座通往未来的桥梁。这就是被称为AltaVista的搜索客户程序。 

施乐公司也许会被指责自毁前程3,因为众所周知,施乐的PARC研究实验室发明了个人电脑和图形用户界面,可是它却以一个局外人的身份眼睁睁地看着苹果,IBM和微软共建个人电脑的宏图伟业。来简单地了解一下AltaVista的历史,你就知道施乐绝非唯一一家错失良机的公司。 

自从20世纪90年代中期,因特网生根发芽之后,信息技术行业内部规律性的大起大落,以及兴衰更迭的脚步都明显加快了。然而,AltaVista还是有理由受到特别的关注。借用现在的业界格局来说明,AltaVista就是它那个时代的Google。在1996年,它可以说得上是最受欢迎的网络产品品牌。当代搜索行业许多的创新和机遇在它身上已经初现端倪,其中包括自动翻译,影音文件查询以及搜索结果群集技术。作为一个业务部门,AltaVista曾经在短短三年内,在不同的东家的管辖之下,三次试图上市,却三次都失败了。也许AltaVista的故事中最具教育性意义的部分是将它开发出来的DEC公司的兴衰起伏。这家公司在其最初的经营领域取得了惊人的成功,最后却一败涂地。究其原因,还是因为其管理层墨守陈规,总是拘泥于过去的成功经验,不肯因时而动。 
 



 

 


第11节:莫尼尔描绘互联网1
作者:'美'约翰·巴特利

莫尼尔描绘互联网 

尽管对于AltaVista这个创意的所有权有许多争议,但是毋庸置疑的是,路易斯·莫尼尔才是那个把它从概念变成可操作的编码的人。讽刺的是,他是从施乐的PARC实验室转到Western实验室的。莫尼尔下定决心离开PARC,因为他觉得〃一次改组就已经足够了〃。(有趣的是,Google的首席执行官埃里克·施米特以前也供职于施乐)。 

莫尼尔告诉我:〃我一直都对解决困扰人类的大问题很感兴趣。〃搜索就是令人困扰的问题之一。1994年的时候,待解决的问题不计其数,更重要的是,市场上还存在对性能优越的搜索引擎实实在在的需求。莫尼尔回忆道:〃当时的搜索引擎简直是糟透了。雅虎是很好的地址目录,但是没有搜索功能。我的工作是从网页捕获开始的。〃 

我们在第二章已经说过,传统的搜索引擎的核心由三部分组成。首先是网页捕获装置(或者网络爬虫),它尽可能地收集网络上的每一张网页。然后是索引,也就是根据被捕获网页生成的巨型数据库。最后是用户界面和搜索软件,它们共同以智能化的方式为终端用户提供索引中相关的内容。 

1994~1995年间,互联网还是新生事物,没有人真正知道它到底有多大以及它成长得有多么快。但是,这个行业中的人都知道它大极了,而且它正在以一种令工程师和数学家们心悸的速度发展壮大。网络信息的数量在非常短的时间里就不断翻番,直至无穷大。莫尼尔觉得,如果可以发明一种机器来权威地为因特网的大小做个结论,那么他就可以名垂青史了。 

当时已经存在十几种搜索引擎了,但是它们都存在这样或那样的缺陷。有的用户界面非常糟糕,有的则缺少强有力的查询语言。大部分只索引URL,而不是网站的所有基本内容。莫尼尔利用阿尔法计算机强大的处理能力发明出一种新式的网页捕获装置。这一点对实现莫尼尔完整性的目标非常关键,他的目标是要建立整个网络的索引,而不仅仅限于URL。 

网页捕获以线形方式工作,也就是说,一个接一个地发现网站并储存它一路上找到的所有网页。如果局限于单一的查找链,一个网页捕获器永远也不能穷尽整个网络它需要花费太多时间来收集所有这些不计其数的链接。远在它完成这些工作之前,互联网已经又明显地长大了许多,收集所有网页的工作根本就没有可能了。 

要解决这个问题,就要求许多个网页捕获器同时作业,共同建立网络索引。仰仗阿尔法64位的内存,莫尼尔可以同时派出1000个网络捕获器,这是前所未闻的数量。它们所带回来的东西是在网络短暂的历史上所能见到的最接近完整的
返回目录 上一页 下一页 回到顶部 0 0
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!