導航:首頁 > 網路連接 > 計算機網路的搜索引擎緒論

計算機網路的搜索引擎緒論

發布時間:2022-04-21 06:22:06

1. 請問BAIDU ,GOOGLE是什麼原理

這篇文章中,我們介紹了google,它是一個大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁並建立索引,它的查詢結果比其它現有系統都高明。這個原型的全文和超連接的資料庫至少包含24『000『000個網頁。我們可以從http://google.stanford.e/ 下載。
設計搜索引擎是一項富有挑戰性的工作。搜索引擎為上億個網頁建立索引,其中包含大量迥然不同的詞彙。而且每天要回答成千上萬個查詢。在網路中,盡管大型搜索引擎非常重要,但是學術界卻很少研究它。此外由於技術的快速發展和網頁的大量增加,現在建立一個搜索引擎和三年前完全不同。
本文詳細介紹了我們的大型搜索引擎,據我們所知,在公開發表的論文中,這是第一篇描述地如此詳細。除了把傳統數據搜索技術應用到如此大量級網頁中所遇到的問題,還有許多新的技術挑戰,包括應用超文本中的附加信息改進搜索結果。
本文將解決這個問題,描述如何運用超文本中的附加信息,建立一個大型實用系統。任何人都可以在網上隨意發布信息,如何有效地處理這些無組織的超文本集合,也是本文要關注的問題。
關鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰。Web上的信息量快速增長,同時不斷有毫無經驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網上沖浪,通常都以象Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護的代價高,升級慢,不能包括所有深奧的主題。基於關鍵詞的自動搜索引擎通常返回太多的低質量的匹配。使問題更遭的是,一些廣告為了贏得人們的關注想方設法誤導自動搜索引擎。
我們建立了一個大型搜索引擎解決了現有系統中的很多問題。應用超文本結構,大大提高了查詢質量。我們的系統命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大型搜索引擎不謀而合。
1.1網路搜索引擎—升級換代(scaling up):1994-2000 搜索引擎技術不得不快速升級(scale dramatically)跟上成倍增長的web數量。1994年,第一個Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個網頁和Web的文件。到1994年11月,頂級的搜索引擎聲稱可以檢索到2『000』000(WebCrawler)至100『000』000個網路文件(來自 Search Engine Watch)。可以預見到2000年,可檢索到的網頁將超過1『000』000『000。同時,搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份,World Wide Web Worm 平均每天收到1500個查詢。
在1997年11月,Altavista 聲稱它每天要處理大約20』000』000個查詢。隨著網路用戶的增長,到2000年,自動搜索引擎每天將處理上億個查詢。我們系統的設計目標要解決許多問題,包括質量和可升級性,引入升級搜索引擎技術(scaling search engine technology),把它升級到如此大量的數據上。
1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個能夠和當今web規模相適應的搜索引擎會面臨許多挑戰。抓網頁技術必須足夠快,才能跟上網頁變化的速度(keep them up to date)。存儲索引和文檔的空間必須足夠大。索引系統必須能夠有效地處理上千億的數據。處理查詢必須快,達到每秒能處理成百上千個查詢(hundreds to thousands per second.)。隨著Web的不斷增長,這些任務變得越來越艱巨。然而硬體的執行效率和成本也在快速增長,可以部分抵消這些困難。
還有幾個值得注意的因素,如磁碟的尋道時間(disk seek time),操作系統的效率(operating system robustness)。在設計Google的過程中,我們既考慮了Web的增長速度,又考慮了技術的更新。Google的設計能夠很好的升級處理海量數據集。它能夠有效地利用存儲空間來存儲索引。優化的數據結構能夠快速有效地存取(參考4.2節)。進一步,我們希望,相對於所抓取的文本文件和HTML網頁的數量而言,存儲和建立索引的代價盡可能的小(參考附錄B)。對於象Google這樣的集中式系統,採取這些措施得到了令人滿意的系統可升級性(scaling properties)。
1. 3設計目標
1.3.1提高搜索質量我們的主要目標是提高Web搜索引擎的質量。1994年,有人認為建立全搜索索引(a complete search index)可以使查找任何數據都變得容易。根據Best of the Web 1994 -- Navigators ,「最好的導航服務可以使在Web上搜索任何信息都很容易(當時所有的數據都可以被登錄)」。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經證實索引的完整性不是評價搜索質量的唯一標准。用戶感興趣的搜索結果往往湮沒在「垃圾結果Junk result」中。實際上,到1997年11月為止,四大商業搜索引擎中只有一個能夠找到它自己(搜索自己名字時返回的前十個結果中有它自己)。導致這一問題的主要原因是文檔的索引數目增加了好幾個數量級,但是用戶能夠看的文檔數卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。因此,當集合增大時,我們就需要工具使結果精確(在返回的前幾十個結果中,有關文檔的數量)。由於是從成千上萬個有點相關的文檔中選出幾十個,實際上,相關的概念就是指最好的文檔。高精確非常重要,甚至以響應(系統能夠返回的有關文檔的總數)為代價。令人高興的是利用超文本鏈接提供的信息有助於改進搜索和其它應用 。尤其是鏈接結構和鏈接文本,為相關性的判斷和高質量的過濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本(見2.1和2.2節)。
1.3.2搜索引擎的學術研究隨著時間的流逝,除了發展迅速,Web越來越商業化。1993年,只有1.5%的Web服務是來自.com域名。到1997年,超過了60%。同時,搜索引擎從學術領域走進商業。到現在大多數搜索引擎被公司所有,很少技公開術細節。這就導致搜索引擎技術很大程度上仍然是暗箱操作,並傾向做廣告(見附錄A)。Google的主要目標是推動學術領域在此方面的發展,和對它的了解。另一個設計目標是給大家一個實用的系統。應用對我們來說非常重要,因為現代網路系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬個研究。然而,得到這些數據卻非常困難,主要因為它們沒有商業價值。我們最後的設計目標是建立一個體系結構能夠支持新的關於海量Web數據的研究。為了支持新研究,Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環境使其他研究者能夠很快進入這個領域,處理海量Web數據,得到滿意的結果,而通過其它方法卻很難得到結果。系統在短時間內被建立起來,已經有幾篇論文用到了Google建的資料庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環境,在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。
2. 系統特點 Google搜索引擎有兩個重要特點,有助於得到高精度的搜索結果。
第一點,應用Web的鏈接結構計算每個網頁的Rank值,稱為PageRank,將在98頁詳細描述它。
第二點,Google利用超鏈接改進搜索結果。
2.1 PageRank:給網頁排序 Web的引用(鏈接)圖是重要的資源,卻被當今的搜索引擎很大程度上忽視了。我們建立了一個包含518『000』000個超鏈接的圖,它是一個具有重要意義的樣本。這些圖能夠快速地計算網頁的PageRank值,它是一個客觀的標准,較好的符合人們心目中對一個網頁重要程度的評價,建立的基礎是通過引用判斷重要性。因此在web中,PageRank能夠優化關鍵詞查詢的結果。對於大多數的主題,在網頁標題查詢中用PageRank優化簡單文本匹配,我們得到了令人驚嘆的結果(從google.stanford.e可以得到演示)。對於Google主系統中的全文搜索,PageRank也幫了不少忙。
2.1.1計算PageRank 文獻檢索中的引用理論用到Web中,引用網頁的鏈接數,一定程度上反映了該網頁的重要性和質量。PageRank發展了這種思想,網頁間的鏈接是不平等的。
PageRank定義如下: 我們假設T1…Tn指向網頁A(例如,被引用)。參數d是制動因子,使結果在0,1之間。通常d等於0.85。在下一節將詳細介紹d。C(A)定義為網頁A指向其它網頁的鏈接數,網頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個網頁中,因此所有網頁的PageRank和是1。 PageRank或PR(A)可以用簡單的迭代演算法計算,相應規格化Web鏈接矩陣的主特徵向量。中等規模的網站計算26『000』000網頁的PageRank值要花費幾小時。還有一些技術細節超出了本文論述的范圍。
2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設網上沖浪是隨機的,不斷點擊鏈接,從不返回,最終煩了,另外隨機選一個網頁重新開始沖浪。隨機訪問一個網頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網頁煩了的可能性,隨機另選一個網頁。對單個網頁或一組網頁,一個重要的變數加入到制動因子d中。這允許個人可以故意地誤導系統,以得到較高的PageRank值。我們還有其它的PageRank演算法,見98頁。
另外的直覺判斷是一個網頁有很多網頁指向它,或者一些PageRank值高的網頁指向它,則這個網頁很重要。直覺地,在Web中,一個網頁被很多網頁引用,那麼這個網頁值得一看。一個網頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。如果一個網頁的質量不高,或者是死鏈接,象Yahoo這樣的主頁不會鏈向它。PageRank處理了這兩方面因素,並通過網路鏈接遞歸地傳遞。
2.2鏈接描述文字(Anchor Text)我們的搜索引擎對鏈接文本進行了特殊的處理。大多數搜索引擎把鏈接文字和它所鏈向的網頁(the page that the link is on)聯系起來。另外,把它和鏈接所指向的網頁聯系起來。這有幾點好處。
第一,通常鏈接描述文字比網頁本身更精確地描述該網頁。
第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和資料庫。有可能使返回的網頁不能被抓到。注意哪些抓不到的網頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網頁,但是有超級鏈接指向它。然而這種結果可以被挑出來的,所以此類的問題很少發生。鏈接描述文字是對被鏈向網頁的宣傳,這個思想被用在World Wide Web Worm 中,主要因為它有助於搜索非文本信息,能夠用少量的已下載文檔擴大搜索范圍。我們大量應用鏈接描述文字,因為它有助於提高搜索結果的質量。有效地利用鏈接描述文字技術上存在一些困難,因為必須處理大量的數據。現在我們能抓到24『000』000個網頁,已經檢索到259『000』000多個鏈接描述文字。
2.3其它特點除了PageRank和應用鏈接描述文字外,Google還有一些其它特點。
第一,所有hit都有位置信息,所以它可以在搜索中廣泛應用鄰近性(proximity)。
第二,Google跟蹤一些可視化外表細節,例如字型大小。黑體大號字比其它文字更重要。
第三,知識庫存儲了原始的全文html網頁。
3有關工作 Web檢索研究的歷史簡短。World Wide Web Worm()是最早的搜索引擎之一。後來出現了一些用於學術研究的搜索引擎,現在它們中的大多數被上市公司擁有。與Web的增長和搜索引擎的重要性相比,有關當今搜索引擎技術的優秀論文相當少。根據Michael Mauldin(Lycos Inc的首席科學家)) ,「各種各樣的服務(包括Lycos)非常關注這些資料庫的細節。」雖然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有,對現有商業搜索引擎的結果進行傳遞,或建立小型的個性化的搜索引擎。最後有關信息檢索系統的研究很多,尤其在有組織機構集合(well controlled collections)方面。在下面兩節,我們將討論在信息檢索系統中的哪些領域需要改進以便更好的工作在Web上。
3.1信息檢索信息檢索系統誕生在幾年前,並發展迅速。然而大多數信息檢索系統研究的對象是小規模的單一的有組織結構的集合,例如科學論文集,或相關主題的新聞故事。實際上,信息檢索的主要基準,the Text Retrieval Conference(),用小規模的、有組織結構的集合作為它們的基準。
大型文集基準只有20GB,相比之下,我們抓到的24000000個網頁佔147GB。在TREC上工作良好的系統,在Web上卻不一定產生好的結果。例如,標准向量空間模型企圖返回和查詢請求最相近的文檔,把查詢請求和文檔都看作由出現在它們中的詞彙組成的向量。在Web環境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢詞再加幾個字。例如,查詢「Bill Clinton」,返回的網頁只包含「Bill Clinton Sucks」,這是我們從一個主要搜索引擎中看到的。網路上有些爭議,用戶應該更准確地表達他們想查詢什麼,在他們的查詢請求中用更多的詞。我們強烈反對這種觀點。如果用戶提出象「Bill Clinton」這樣的查詢請求,應該得到理想的查詢結果,因為這個主題有許多高質量的信息。象所給的例子,我們認為信息檢索標准需要發展,以便有效地處理Web數據。
3.2有組織結構的集合(Well Controlled Collections)與Web的不同點 Web是完全無組織的異構的大量文檔的集合。Web中的文檔無論內在信息還是隱含信息都存在大量的異構性。例如,文檔內部就用了不同的語言(既有人類語言又有程序),詞彙(email地址,鏈接,郵政編碼,電話號碼,產品號),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機器創建的文件(log文件,或資料庫的輸出)。可以從文檔中推斷出來,但並不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽,更新頻率,質量,訪問量和引用。不但隱含信息的可能來源各種各樣,而且被檢測的信息也大不相同,相差可達好幾個數量級。例如,一個重要主頁的使用量,象Yahoo 每天瀏覽數達到上百萬次,於此相比無名的歷史文章可能十年才被訪問一次。很明顯,搜索引擎對這兩類信息的處理是不同的。 Web與有組織結構集合之間的另外一個明顯區別是,事實上,向Web上傳信息沒有任何限制。靈活利用這點可以發布任何對搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經成為一個嚴重的問題。這些問題還沒有被傳統的封閉的信息檢索系統所提出來。它關心的是元數據的努力,這在Web搜索引擎中卻不適用,因為網頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。
4 系統分析(System Anatomy)首先,我們提供高水平的有關體系結構的討論。然後,詳細描述重要的數據結構。最後,主要應用:抓網頁,索引,搜索將被嚴格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結構概述這一節,我們將看看整個系統是如何工作的(give a high level),見圖1。本節不討論應用和數據結構,在後幾節中討論。為了效率大部分Google是用c或c++實現的,既可以在Solaris也可以在Linux上運行。
Google系統中,抓網頁(下載網頁)是由幾個分布式crawlers完成的。一個URL伺服器負責向crawlers提供URL列表。抓來的網頁交給存儲伺服器storeserver。然後,由存儲伺服器壓縮網頁並把它們存到知識庫repository中。每個網頁都有一個ID,稱作docID,當新URL從網頁中分析出時,就被分配一個docID。由索引器和排序器負責建立索引index function。索引器從知識庫中讀取文檔,對其解壓縮和分析。每個文檔被轉換成一組詞的出現情況,稱作命中hits。Hits紀錄了詞,詞在文檔中的位置,最接近的字型大小,大小寫。索引器把這些hits分配到一組桶barrel中,產生經過部分排序後的索引。索引器的另一個重要功能是分析網頁中所有的鏈接,將有關的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息,可以用來判斷每個鏈接鏈出鏈入節點的信息,和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件,並把相對URL轉換成絕對URL,再轉換成docID。為鏈接描述文本編制索引,並與它所指向的docID關聯起來。同時建立由docID對組成的鏈接資料庫。用於計算所有文檔的PageRank值。用docID分類後的barrels,送給排序器sorter,再根據wordID進行分類,建立反向索引inverted index。這個操作要恰到好處,以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表,建立反向索引。一個叫DumpLexicon的程序把這個列表和由索引器產生的字典結合在一起,建立一個新的字典,供搜索器使用。這個搜索器就是利用一個Web伺服器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級PageRank來回答用戶的提問。 4.2主要數據結構經過優化的Google數據結構,能夠用較小的代價抓取大量文檔,建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁碟尋道仍然需要10ms。任何時候Google系統的設計都盡可能地避免磁碟尋道。這對數據結構的設計影響很大。
4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統,用長度是64位的整型數據定址。多文件系統之間的空間分配是自動完成的。BigFiles包也處理已分配和未分配文件描述符。由於操縱系統不能滿足我們的需要,BigFiles也支持基本的壓縮選項。
4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個網頁的全部HTML。每個網頁用zlib(見RFC1950)壓縮。壓縮技術的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識庫用bzip的壓縮率接近4:1。而用zlib的壓縮率是3:1。文檔一個挨著一個的存儲在知識庫中,前綴是docID,長度,URL,見圖2。訪問知識庫不需要其它的數據結構。這有助於數據一致性和升級。用其它數據結構重構系統,我們只需要修改知識庫和crawler錯誤列表文件。
4.2.3文件索引文件索引保存了有關文檔的一些信息。索引以docID的順序排列,定寬ISAM(Index sequential access mode)。每條記錄包括當前文件狀態,一個指向知識庫的指針,文件校驗和,各種統計表。如果一個文檔已經被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標題。否則指針指向包含這個URL的URL列表。這種設計考慮到簡潔的數據結構,以及在查詢中只需要一個磁碟尋道時間就能夠訪問一條記錄。還有一個文件用於把URL轉換成docID。它是URL校驗和與相應docID的列表,按校驗和排序。要想知道某個URL的docID,需要計算URL的校驗和,然後在校驗和文件中執行二進制查找,找到它的docID。通過對這個文件進行合並,可以把一批URL轉換成對應的docID。URL分析器用這項技術把URL轉換成docID。這種成批更新的模式是至關重要的,否則每個鏈接都需要一次查詢,假如用一塊磁碟,322『000』000個鏈接的數據集合將花費一個多月的時間。
4.2.4詞典詞典有幾種不同的形式。和以前系統的重要不同是,詞典對內存的要求可以在合理的價格內。現在實現的系統,一台256M內存的機器就可以把詞典裝入到內存中。現在的詞典包含14000000詞彙(雖然一些很少用的詞彙沒有加入到詞典中)。它執行分兩部分—詞彙表(用null分隔的連續串)和指針的哈希表。不同的函數,詞彙表有一些輔助信息,這超出了本文論述的范圍。
4.2.5 hit list hit list是一篇文檔中所出現的詞的列表,包括位置,字型大小,大小寫。Hit list占很大空間,用在正向和反向索引中。因此,它的表示形式越有效越好。我們考慮了幾種方案來編碼位置,字型大小,大小寫—簡單編碼(3個整型數),緊湊編碼(支持優化分配比特位),哈夫曼編碼。Hit的詳細信息見圖3。我們的緊湊編碼每個hit用2位元組。有兩種類型hit,特殊hit和普通hit。特殊hit包含URL,標題,鏈接描述文字,meta tag。普通hit包含其它每件事。它包括大小寫特徵位,字型大小,12比特用於描述詞在文檔中的位置(所有超過4095的位置標記為4096)。字型大小採用相對於文檔的其它部分的相對大小表示,佔3比特(實際只用7個值,因為111標志是特殊hit)。特殊hit由大小寫特徵位,字型大小位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。對於anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用於表明anchor出現的哈希表hash of the docID。短語查詢是有限的,對某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲方式,以便解決地址位和docIDhash域位數不足的問題。
因為搜索時,你不會因為文檔的字型大小比別的文檔大而特殊對待它,所以採用相對字型大小。 hit表的長度存儲在hit前。為節省空間hit表長度,在正向索引中和wordID結合在一起,在反向索引中和docID結合存儲。這就限制它相應地只佔8到5比特(用些技巧,可以從wordID中借8bit)如果大於這些比特所能表示的長度,用溢出碼填充,其後兩位元組是真正的長度。 Figure 3. Forward and Reverse Indexes and the Lexicon
4.2.6正向索引實際上,正向索引已經部分排序。它被存在一定數量的barrel中(我們用64個barrels)。每個barrel裝著一定范圍的wordID。如果一篇文檔中的詞落到某個barrel,它的docID將被記錄到這個barrel中,緊跟著那些詞(文檔中所有的詞彙,還是落入該barrel中的詞彙)對應的hitlist。這種模式需要稍多些的存儲空間,因為一個docID被用多次,但是它節省了桶數和時間,最後排序器進行索引時降低編碼的復雜度。更進一步的措施是,我們不是存儲docID本身,而是存儲相對於該桶最小的docID的差。用這種方法,未排序的barrel的docID只需24位,省下8位記錄hitlist長。
4.2.7反向索引除了反向索引由sorter加工處理之外,它和正向索引包含相同的桶。對每個有效的docID,字典包含一個指向該詞所在桶的指針。它指向由docID和它的相應hitlist組成的doclish,這個doclist代表了所有包含該詞的文檔。 doclist中docID的順序是一個重要的問題。最簡單的解決辦法是用doclish排序。這種方法合並多個詞時很快。另一個可選方案是用文檔中該詞出現的次數排序。這種方法回答單詞查詢,所用時間微不足道。當多詞查詢時幾乎是從頭開始。並且當用其它Rank演算法改進索引時,非常困難。我們綜合了這兩種方法,建立兩組反向索引barrel,一組barrels的hitlist只包含標題和anchor hit,另一組barrel包含全部的hitlist。我們首先查第一組索引桶,看有沒有匹配的項,然後查較大的那組桶。
4.3抓網頁運行網路爬行機器人是一項具有挑戰性的任務。執行的性能和可靠性甚至更重要,還有一些社會焦點。網路爬行是一項非常薄弱的應用,它需要成百上千的web伺服器和各種域名伺服器的參與,這些伺服器不是我們系統所能控制的。為了覆蓋幾十億的網頁,Google擁有快速的分布式網路爬行系統。一個URL伺服器給若干個網路爬行機器人(我們採用3個)提供URL列表。URL伺服器和網路爬行機器人都是用Python實現的。每個網路爬行機器人可以同時打開300個鏈接。抓取網頁必須足夠快。最快時,用4個網路爬行機器人每秒可以爬行100個網頁。速率達每秒600K。執行的重點是找DNS。每個網路爬行機器人有它自己的DNS cache,所以它不必每個網頁都查DNS。每一百個連接都有幾種不同的狀態:查DNS,連接主機,發送請求,接收回答。這些因素使網路爬行機器人成為系統比較復雜的部分。它用非同步IO處理事件,若干請求隊列從一個網站到另一個網站不停的抓取網頁。運行一個鏈接到500多萬台伺服器的網頁爬行機器人,產生1千多萬登陸口,導致了大量的Email和電話。因為網民眾多,總有些人不知道網路爬行機器人是何物,這是他們看到的第一個網路爬行機器人。幾乎每天我們都會收到這樣的Email「哦,你從我們的網站看了太多的網頁,你想干什麼?」還有一些人不知道網路搜索機器人避免協議(the robots exclusion protocol),以為他們的網頁上寫著「版權所有,勿被索引」的字樣就會被保護不被索引,不必說,這樣的話很難被web crawler理解。因為數據量如此之大,還會遇到一些意想不到的事情。例如,我們的系統曾經企圖抓一個在線游戲,結果抓到了游戲中的大量垃圾信息。解決這個問題很簡單。但是我們下載了幾千萬網頁後才發現了這個問題。因為網頁和伺服器的種類繁多,實際上不在大部分Internet上運行它就測試一個網頁爬行機器人是不可能。總是有幾百個隱含的問題發生在整個web的一個網頁上,導致網路爬行機器人崩潰,或者更糟,導致不可預測的不正確的行為。能夠訪問大部分Internet的系統必須精力充沛並精心測試過。由於象crawler這樣大型復雜的系統總是產生這樣那樣的問題,因此花費一些資源讀這些Email,當問題發生時解決它,是有必要的。
4.4Web索引分析—任何運行在整個Web上的分析器必須能夠處理可能包含錯誤的大型集合。范圍從HTML標記到標記之間幾K位元組的0,非ASCII字元,幾百層HTML標記的嵌套,各種各樣令人難以想像的錯誤。為了獲得最大的速度,我們沒有採用YACC產生上下文無關文法CFG分析器,而是採用靈活的方式產生詞彙分析器,它自己配有堆棧。分析器的改進大大提高了運行速度,它的精力如此充沛完成了大量工作。把文檔裝入barrel建立索引—分析完一篇文檔,之後把該文檔裝入barrel中,用內存中的hash表—字典,每個詞彙被轉換成一個wordID。當hash表字典中加入新的項時,笨拙地存入文件。一旦詞彙被轉換成wordID,它們在

2. 常用的搜索引擎都有哪些基本類型

1,垂直搜索

垂直搜索引擎為2006年後逐步興起的一類搜索引擎。不同於通用的網頁搜索引擎,垂直搜索專注於特定的搜索領域和搜索需求(例如:機票搜索、旅遊搜索、生活搜索、小說搜索、視頻搜索、購物搜索等等)。

在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數千台檢索伺服器,垂直搜索需要的硬體成本低、用戶需求特定、查詢的方式多樣。

2,集合式搜索

集合式搜索引擎:該搜索引擎類似元搜索引擎,區別在於它並非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

3,門戶搜索

門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他搜索引擎。

(2)計算機網路的搜索引擎緒論擴展閱讀:

搜索引擎作用:

搜索引擎是網站建設中針對「用戶使用網站的便利性」所提供的必要功能,同時也是「研究網站用戶行為的一個有效工具」。高效的站內檢索可以讓用戶快速准確地找到目標信息,從而更有效地促進產品/服務的銷售,

而且通過對網站訪問者搜索行為的深度分析,對於進一步制定更為有效的網路營銷策略具有重要價值。

⒈從網路營銷的環境看,搜索引擎營銷的環境發展為網路營銷的推動起到舉足輕重的作用;

⒉從效果營銷看,很多公司之所以可以應用網路營銷是利用了搜索引擎營銷;

⒊就完整型電子商務概念組成部分來看,網路營銷是其中最重要的組成部分,是向終端客戶傳遞信息的重要環節。

3. 如何寫好有關計算機網路資源和搜索引擎的論文,主要要寫哪些方面,謝謝啦

,應包括(1)什麼(What)(2)為什麼(Why)(3)如何(How),必要時加上(4)何時(When)(5)何地(Where)(6)何人(Who)等

4. 求一篇計算機網路論文

我的建議:1.計算機畢業設計可不能馬虎,最好還是自己動動腦筋,好好的寫一寫。 2.網上那種免費的畢業設計千萬不能採用,要麼是論文不完整,要麼是程序運行不了,最重要的是到處都是,老師隨時都可以知道你是在網上隨便下載的一套3.如果沒有時間寫,可以在網上找找付費的,我們畢業的時候也是為這個頭疼了很長時間,最後在網上找了很久,終於購買了一套畢業設計,還算不錯,開題報告+論文+程序+答辯演示都有,主要的都是他們技術做好的成品,保證論文的完整和程序的獨立運行,可以先看了作品滿意以後再付款,而且同一學校不重復,不存在欺騙的性質,那個網站的名字我記的不是太清楚了,你可以在網路或者GOOGLE上搜索------七七論文網,一定可以找到的你想要的東西的

5. 1、 計算機網路搜索原理列舉幾個知名網路搜索引擎,並說出他們的歷史和區別 2、 如何選購電腦如何搭建

中國 soso yahoo 有道 搜狗 微軟 官方的 bing 外國 的 google 選購電腦嗎你就去電腦誠去把那裡的人會安你的要求去佩台式的你就組裝咯

6. 請幫忙將課程描述翻譯成英文,真的急急急啊!

Financial Accounting Practice "grasp the basic accounting theory, accounting six elements, namely, assets, liabilities, equity, revenue and expenses, and profits of specific accounting, balance sheet, income statement and cash flow statements, such as statements of accounting, cost accounting, the core is the day-to-day economic business accounting. Familiar with the proction of the enterprise's economic operations, accounting deal with the process, the proction process, the process of selling the business major economic accounting, master integrity of the accounting proceres.
Teaching goals: students through this course, familiar with the day-to-day economic business enterprise accounting, master and use all kinds of economic business accounting methods and accounting skills.

"Application Writing" includes: The documents, the Panel instruments, scientific and technological instruments, financial instruments, judicial instruments, as well as dissemination of manuscripts, such as word processing.
Teaching goals: French teaching and introced a style typical of articles and flawed a combination of articles to help students understand the text writing, so as to achieve practical Practical Writing capacity.

"Cost Accounting Practice," introces a cost-accounting enterprises of the basic theory and basic methods of operation. Main contents include: cost accounting principles, direct material cost accounting, manufacturing cost accounting, the loss of proction accounting, procts and the completion of the valuation in the proct cost, proction cost and type of method of calculating the cost of the accounting period, the cost of statements and cost analysis etc..
Teaching goals: Through the study cost accounting, the students will be able to understand enterprise cost accounting, cost accounting grasp the basic way to capture cost estimates, enterprise cost decision, plan, control and adaptation to the request made by the environment.

"Computerized accounting" main elements: computer applications and technical knowledge, accounts processing system, and an accounting statement system, the wage management system, fixed assets management system and practice simulation, and so forth. Comprehensive account of how using computer applications and financial software operating systems, enterprise operational matters will be adopted by the accounting recognition, measurement, recording, reporting proceres, to generate accounting information modern accounting techniques.
Teaching goals: learning the courses, master computerized accounting technology, accounting not only can improve their work efficiency and quality, but also to enhance the management level has a strong role in the boost phase.

"Statistical techniques" were mainly on the basic theory and basic methods. Include: introction, the survey, statistical data compilation, static analysis indicators, dynamic analysis indicators, statistical indicators, sampling inferred that significant inspection, Correlation and Regression, and the national economy accounting system.
Teaching goals: Through this course, so that students can correctly interpret and use the statistical indicators used to raise students with statistical data collection and the ability to use quantitative analysis method to solve the economic management of the practical problems for the management of the national economy provide authentic and reliable statistics, improving economic management level.

"Computer Network" main contents include: overview of computer networks, computer networking hardware, Internet and technological base, and all of the Internet technology, services and www browser, e-mail, file transfer, remote login, and BBS, search engines, computer network security , network communications, site planning and design and proction of Dreamweaver network instry.
Teaching goals: study of this course, find what they need through the Internet Society of the knowledge and tools needed to download and install the software, master personal websites and web design proction technology.

7. 如何利用百度搜索引擎搜索關於「計算機網路方面的教材相關信息且格式為PowerP

計算機網路這一關鍵詞太廣泛了,最好用具體的關鍵詞例如:計算機安全PPT,這樣搜索出來的內容就更為准確精細。

8. 搜索引擎技術的相關書籍

中文名: 《搜索引擎技術》 作者: 趙傑 / 趙傑 編 類別: 互聯網技術 價格: 25.00元 語種: 中文 出版社: 哈爾濱工程大學出版社 頁數: 181頁 開本: 16開 出版時間: 2007年11月1日 裝幀: 平裝 《搜索引擎技術》比較系統地介紹了互聯網搜索引擎的工作原理、信息預處理和查詢過程及其用到的關鍵技術。全書共分7章,從基本工作原理概述開始,到一個小型簡單專題搜索引擎實現的具體細節,進而詳細討論了歧義欄位自動識別技術和命名實體自動識別技術;最後基於Agent與Multi-Agent技術,闡述了基於Agent的個性化信息檢索系統的實現過程。《搜索引擎技術》層次分明,由淺入深;既有深入的理論分析,也有大量的實驗數據,具有學習和實用雙重意義。
《搜索引擎技術》可作為高等院校計算機科學與技術、信息管理與信息系統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料,對廣大從事網路技術、Web站點的管理、數字圖書館、Web挖掘等研究和應用開發的科技人員也有很大的參考價值。 第1章 緒論
1.1 搜索引擎的概念
1.2 搜索引擎的分類
1.3 搜索引擎的發展現狀
1.4 搜索引擎的發展趨勢
第2章 Web搜索引擎的工作原理
2.1 搜索引擎的基本要求
2.2 爬蟲
2.3 預處理
2.4 查詢服務
第3章 數據預處理
3.1 數據源
3.2 Web文本信息提取
3.3 去噪
3.4 分詞
3.5 特徵提取
3.6 文檔表示
3.7 降維
第4章 Web信息查詢系統
4.1 查詢系統的結構
4.2 檢索的定義
4.3 查詢系統的實現
第5章 自動分詞技術
5.1 引言
5.2 中文自動分詞方法
5.3 自動分詞詞典機制
5.4 歧義欄位自動識別技術
5.5 命名實體自動識別技術
第6章 面向專題的信息搜集和處理
6.1 專題搜索引擎的構建
6.2 專題搜索引擎的文本自動分類和專題分詞技術
6.3 基於向量空間模型的文本聚類
第7章 基於Agent的智能搜索引擎技術
7.1 Agent與Multi-Agent技術
7.2 Agent技術在信息檢索中的應用
7.3 Agent實現技術
7.4 Agent與智能信息檢索
7.5 基於Agent的個性化信息檢索系統

9. 計算機網路發展緒論怎麼

看那些從其他地方拷貝的東西沒什麼意思!
一般緒論都是論述一下發展過程中出現了什麼新技術,解決了前一代存在的什麼問題,以及發展的趨勢。其實緒論很好寫,你可以參考一些網路方面相關書籍的前言緒論等,關鍵是要自己理解,最好能用自己的語言寫出來,方能不失特色,不顯得呆板籠統。
以後有什麼問題可以交流哦。

閱讀全文

與計算機網路的搜索引擎緒論相關的資料

熱點內容
導航怎麼設置無法連接網路 瀏覽:506
網路鎖控板軟體 瀏覽:470
始終連接網路在哪裡設置 瀏覽:59
品牌網路公司哪個好 瀏覽:534
計算機網路管理和維護課程 瀏覽:929
航線網路結構都有哪些類型 瀏覽:340
網路安全預警分為 瀏覽:80
貴廣網路監控軟體 瀏覽:720
網路營銷在民營醫院 瀏覽:449
5G滿格信號沒網路 瀏覽:626
網路測速設置哪個最好 瀏覽:152
網路密碼怎麼弄開 瀏覽:498
家用路由器燈亮但無網路 瀏覽:506
徐州移動網路服務套餐 瀏覽:376
網路安全支付方式 瀏覽:846
在家裡玩lol網路不穩定怎麼辦 瀏覽:845
設置完愛快網路時快時慢 瀏覽:195
能打開網路共享的電視播放器軟體 瀏覽:19
如何監控企業網路安全 瀏覽:11
類似稀飯的網路用語有哪些 瀏覽:912

友情鏈接