● 搜索引擎歷史 |前生今世——搜索引擎發展史
前生今世——搜索引擎發展史
1990年以前,沒有任何人能搜索互聯網。
所有搜索引擎的祖先,是1990年由Montreal的McGill University學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie(Archie FAQ)。當時World Wide Web還未出現。Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件。
由于Archie深受歡迎,受其啟發,Nevada System Computing Services大學于1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后來另一個Gopher搜索工具。
由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱為spider(Spider FAQ)程序。世界上第一個Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯網發展規模。剛開始它只用來統計互聯網上的服務器數量,后來則發展為也能夠捕獲網址(URL)。
與Wanderer相對應,1993年10月Martijn Koster創建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當于Archie的HTTP版本。ALIWEB不使用網絡搜尋Robot,如果網站主管們希望自己的網頁被ALIWEB收錄,需要自己提交每一個網頁的簡介索引信息,類似于后來大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎開始紛紛涌現,其中最負盛名的三個是:Scotland的JumpStation、Colorado 大學Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。
1993年2月,6個Stanford(斯坦福)大學生的想法是分析字詞關系,以對互聯網上的大量信息作更有效的檢索。這就是Excite。后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線。除了網站搜索,它還支持Gopher和Telnet搜索。
1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo共同創辦了Yahoo。隨著訪問量和收錄鏈接數的增長,Yahoo目錄開始支持簡單的數據庫搜索。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄。搜索效率明顯提高。(Yahoo以后陸續使用Altavista、Inktomi、Google提供搜索引擎服務)
1994年初,Washington大學CS學生Brian Pinkerton開始了他的小項目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個服務器的內容。WebCrawler是互聯網上第一個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個字。(后來webcrawler陸續被AOL和Excite收購,現在和excite一樣改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一個重要的進步。Carnegie Mellon University的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創建了Lycos。1994年7月20日,數據量為54,000的Lycos正式發布。除了相關性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜索引擎的數據量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服務)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一個重要的搜索引擎,雖然公司聲稱1994年1月已創立,但直到年底它的搜索引擎才與公眾見面。起初,Infoseek只是一個不起眼的搜索引擎,它沿襲Yahoo!和Lycos的概念,并沒有什么獨特的革新。但是它的發展史和后來受到的眾口稱贊證明,起初第一個登臺并不總是很重要。Infoseek友善的用戶界面、大量附加服務(such as UPS tracking, News, a directory, and the like) 使它聲望日隆。而1995年12月與Netscape的戰略性協議,使它成為一個強勢搜索引擎:當用戶點擊Netscape瀏覽器上的搜索按鈕時,彈出Infoseek的搜索服務,而此前由Yahoo!提供該服務。(注:Infoseek后來曾以相關性聞名,2001年2月,Infoseek停止了自己的搜索引擎,開始改用Overture的搜索結果)
1995年,一種新的搜索引擎形式出現了——元搜索引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結果,集中起來處理后再返回給用戶。第一個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。
DEC的AltaVista(2001年夏季起部分網友需通過p-roxy訪問,無p-roxy可用qbseach單選altavista搜索,只能顯示第一頁搜索結果)是一個遲到者,1995年12月才登場亮相(AltaVista Public Beta Press Release )。但是,大量的創新功能使它迅速到達當時搜索引擎的頂峰。Altavista最突出的優勢是它的速度(搜索引擎9238:比較搞笑,設計altavista的目的,據說只是為了展示DEC Alpha芯片的強大運算能力)。 而Altavista的另一些新功能,則永遠改變了搜索引擎的定義。AltaVista是第一個支持自然語言搜索的搜索引擎,AltaVista是第一個實現高級搜索語法的搜索引擎(如AND, OR, NOT等)。用戶可以用AltaVista搜索Newsgroups(新聞組)的內容并從互聯網上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱是第一個支持用戶自己向網頁索引庫提交或刪除URL的搜索引擎,并能在24小時內上線。AltaVista最有趣的新功能之一,是搜索有鏈接指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區域下放了“tips”以幫助用戶更好的表達搜索式,這些小tip經常更新,這樣,在搜索過幾次以后,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。1997年,AltaVista發布了一個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜索結果中找到想要的。
然后到來的是HotBot。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier創立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜索引擎的新內容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設置。(Hotbot曾是隨后幾年最受歡迎的搜索引擎之一,后被Lycos收購)
Northernlight 公司于1995年9月成立于馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現身。它曾是擁有最大數據庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法,第一個支持對搜索結果進行簡單的自動分類。(2002年1月16日,Northernlight公共搜索引擎關閉,隨后被divine收購,但在Nlresearch,選中"World Wide Web only",仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大學的一個小項目BackRub。1995年博士生Larry Page開始學習搜索引擎設計,于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。
Google在Pagerank、動態摘要、網頁快照、DailyRefresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠改變了搜索引擎的定義。
在2000年中以前,Google雖然以搜索準確性備受贊譽,但因為數據庫不如其它搜索引擎大,缺乏高級搜索語法,所以使用價值不是很高,推廣并不快。直到2000年中數據庫升級后,又借被Yahoo選作搜索引擎的東風,才一飛沖天。
Fast(Alltheweb)公司創立于1997年,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,發布了自己的搜索引擎AllTheWeb。Fast創立的目標是做世界上最大和最快的搜索引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。
Teoma 起源于1998年Rutgers大學的一個項目。Apostolos Gerasoulis教授帶領華裔Tao Yang教授等人創立Teoma于新澤西Piscataway,2001年春初次登場,2001年9月被提問式搜索引擎Ask Jeeves收購,2002年4月再次發布。Teoma的數據庫目前仍偏小,但有兩個出彩的功能:支持類似自動分類的Refine;同時提供專業鏈接目錄的Resources。
Wisenut 由韓裔Yeogirl Yun創立。2001年春季發布Beta版,2001年9月5日發布正式版,2002年4月被分類目錄提供商looksmart收購。wisenut也有兩個出彩的功能:包含類似自動分類和相關檢索詞的WiseGuide;預覽搜索結果的Sneak-a-Peek。
Gigablast 由前Infoseek工程師Matt Wells創立,2002年3月展示pre-beta版,2002年7月21日發布Beta版。Gigablast的數據庫目前仍偏小,但也提供網頁快照,一個特色功能是即時索引網頁,你的網頁剛提交它就能搜索(注:這個spammers的肉包子功能暫已關閉)。
Openfind 創立于1998年1月,其技術源自臺灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先只做中文搜索引擎,曾經是最好的中文搜索引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜索領域,此后技術升級明顯加快。
北大天網 是國家"九五"重點科技攻關項目"中文編碼和分布式中英文信息發現"的研究成果,由北大計算機系網絡與分布式系統研究室開發,于1997年10月29日正式在CERNET上提供服務。2000年初成立天網搜索引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜索功能。
Baidu 2000年1月,超鏈分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關村創立了百度(Baidu)公司。2001年8月發布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發布Baidu搜索引擎。Baidu雖然只提供中文搜索,但目前收錄中文網頁超過9000萬,可能是最大的的中文數據庫。Baidu搜索引擎的其它特色包括:網頁快照、網頁預覽/預覽全部網頁、相關搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計劃(Blitzen Project)開始后,技術升級明顯加快。
他們如是說搜索(穿插)
l 雅虎搜索業務主管杰夫·維納:“搜索業務是我們更廣泛的經營戰略中的一個組成部分,并非所有的搜索服務都是同樣好的,只有幾家搜索網站能夠為用戶提供一站式搜索服務。現在有產品搜索網站,也有產品對比搜索網站,我們意識到將搜索與公司的其他業務融為一體至關重要。”
l “搜索是百度成功的所有秘密,”百度總裁李彥宏說:“這是互聯網用戶最常用的服務之一,而且可以對用戶形成很多的影響力。越來越多的影響著互聯網產業,百度就是一個明證。”
重要參考文章:http://www.ciweekly.com/article/20031114/20031114272124_1.xml
搜索百科知識(穿插)
參考:http://www.sowang.com/sousuo/20031008-4.htm
(需要補充)
搜索引擎的原理,可以看做三步:從互聯網上抓取網頁→建立索引數據庫→在索引數據庫中搜索排序。從互聯網上抓取網頁——利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,并沿著任何網頁中的所有URL爬到其它網頁,重復這過程,并把爬過的所有網頁收集回來。建立索引數據庫——由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數據庫。在索引數據庫中搜索排序——當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。最后,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
全球搜索引擎市場近期大事記
2002年12月24日,雅虎稱公司同意以大約2.35億美元的價格收購搜索軟件公司Inktomi。
2003年1月18日,Google收購博客網站Blogger.com開發團隊——網上出版軟件開發商Pyra Labs。
2003年2月19日,Overture服務公司表示,計劃以1.4億美元現金加股票從CMGI公司手中收購門戶網站AtaVista。
2003年2月26日, Overture同意以1億美元收購位于挪威的Fast Search and Transfer公司的網絡搜索部門。
2003年4月15日,新浪與中國搜索聯盟結成戰略同盟,至此,中國已有數百家網站結成搜索聯盟,以迎接國際巨頭Google挺進國內市場后的巨大壓力。
2003年4月21日,第二大互聯網搜索引擎提供商Ask Jeeves公司宣布對其Ask.com網站進行升級。Ask Jeeves是僅次于Google的第二大搜索引擎,也是互聯網上第五大搜索基地 (Google、雅虎、微軟、AOL、Askjeeves) 。
2003年6月18日,微軟公司表示其正在加大研發新型互聯網搜索引擎技術的力度,包括對一款功能更先進的技術原型進行測試。
2003年7月12日,從加利福里亞傳來消息,Google即將把總部從Bayshore Parkway搬遷至半里之遙的一個有四棟樓房的復式結構建筑中去,而這個建筑是由鼎鼎大名但目前卻陷入困境的硅谷圖象(Silicon Graphics)公司騰出來的。大衛.奎恩(David Krane)證實了這個消息,并解釋說,這樣能讓公司現有的800多員工更好的分工合作和管理。
2003年7月13日,百度推出圖象搜索,新聞搜索兩大搜索功能,以此來帶動搜索流量。同時,輔以百度的搜索風云榜,使得百度的信息搜索及信息評估的作用更加突出
2003年7月15日,全球最大的互聯網公司雅虎宣布,以16.3億美元收購在網絡搜索服務上的競爭對手—Overture公司,以期在同Google的競爭中取得優勢。
參考文章:
搜索引擎技術及趨勢:
http://www.webrank.cn/search_cyclopaedia/search_articles/se-jishuqushi.htm
他們如是說搜索(穿插)
l 雅虎搜索業務主管杰夫·維納:“搜索業務是我們更廣泛的經營戰略中的一個組成部分,并非所有的搜索服務都是同樣好的,只有幾家搜索網站能夠為用戶提供一站式搜索服務。現在有產品搜索網站,也有產品對比搜索網站,我們意識到將搜索與公司的其他業務融為一體至關重要。”
l “搜索是百度成功的所有秘密,”百度總裁李彥宏說:“這是互聯網用戶最常用的服務之一,而且可以對用戶形成很多的影響力。越來越多的影響著互聯網產業,百度就是一個明證。”
重要參考文章:http://www.ciweekly.com/article/20031114/20031114272124_1.xml
搜索百科知識(穿插)
參考:http://www.sowang.com/sousuo/20031008-4.htm