PostRank

2009年6月12日 星期五

看不見的網頁

1 什麼是“看不見的網頁”

“看不見的網頁”(The Invisible Web),又叫隱形網頁,簡單說是那些因為各種原因,不能被普通搜尋引擎如google,Yahoo!等搜尋到的網頁。研究搜尋引擎的Bright Planet公司發表一份研究報告顯示,到2000年底,互聯網上未被搜尋引擎收錄的網頁是是被收錄網頁的500倍。雖然現在搜尋引擎技術日新月異飛速發展,但Bright Planet公司估計,相比較于被普通搜尋引擎收錄的10億網頁,仍有550,0億網頁未被收錄。而且“看不見的網頁”在網上增長最快,也就是說網上有更多的資源出現,但我們不能用普通的搜尋引擎查找到。 

2 為什麼會有“看不見的網頁”

“孤島網頁”。如果一個網頁沒有被其它網頁鏈接,網頁的主人又沒有把網址提交給搜尋引擎,搜尋引擎就無法收錄這些網頁。或者網頁主人有意設置口令保護、禁止索引的網站標記。
一些以非普通的html格式存在的網頁,搜尋引擎收錄存在技術問題。雖然搜尋引擎技術在不斷發展,象google等搜尋引擎已經可以搜到 pdf和MS Word,但對於網上其他格式如wkx,mw,flash,ps,rtf 及圖像、聲音、視頻等文件,一般搜尋引擎是很難搜到的。
專用網頁(The Proprietary Web),某些網頁只有註冊用戶才能瀏覽,需要填寫口令密碼,認證後才能訪問,搜尋引擎的Spider不會思考不會填表,當然也就沒法索引收集。
搜尋引擎無法找到“動態網頁” 動態頁面是在用戶“輸入內容”或者進行“選擇”時動態生成的,但是搜尋引擎的SPIDER也無法“輸入”和“選擇”。
另外還有實時信息,如最新新聞,某一時刻公司股票價格等,因為其實時在變化,搜尋引擎不去收錄,或者說收錄的都是過時的信息。

3 如何搜尋“看不見的網頁”

可以從網站目錄 、“看不見的網頁”搜尋站點(引擎)、免費網頁數據庫以及一些專業搜尋引擎來搜尋“看不見的網頁”,下面是一些列表:

• Direct Search ( http://www.freepint.com/gary/direct.htm )
• Profusion ( http://www.profusion.com )
• The Invisible Web Directory( http://www.invisible-web.net/ )
• Complete Planet ( http://www.completeplanet.com/ )
• Librarians' Index to the Internet( http://www.lii.org )
• Find Articles( http://www.findarticles.com/PI/index.jhtml )

沒有留言:

張貼留言