from:udn news
‧線上作家 2005/05/16
淹沒在網路海洋裡的使用者即將獲救!改良後的搜尋引擎,可望為網友找出量身訂做的搜尋結果...
作者:Javed Mostafa/翻譯:鍾樹人
短短不到10年的時間,網際網路的搜尋引擎已經徹底改變了人們蒐集資訊的方式。想找資料時,我們不必再往圖書館跑,只要在鍵盤上敲個幾下,就能把相關文件叫出來。「用Google」現在已經成了做研究的同義字,網路搜尋引擎正陸續展開升級行動,承諾提供更進步的方式,讓我們找到所需的資料。
為了改善搜尋結果的品質,更新後的搜尋引擎會進一步挖掘網路寶庫中的各種材料,並且改善搜尋結果的排序與表現方式,另外也會追蹤使用者的長期興趣,以便更精準地回應使用者的要求。未來,搜尋引擎還會擴大搜尋內容的範圍,不僅處理文字輸入欄內的關鍵字,還會自動把使用者的所在地點考慮進去。舉例來說,當你去旅行時,可以藉由無線個人數位助理(PDA)定位出離你最近的餐館。新系統也可以利用你的手稿比對出類似的圖形,更快找到正確的圖片;甚至能根據你斷續的哼唱,找出記憶中破碎的歌曲。
今天的搜尋引擎的根源,幾乎可回溯到50年前的運算主題,也就是「資訊檢索」(information retrieval)這個研究領域。在1966年9月號的Scientific American,利佩茲(Ben Ami Lipetz)於〈資訊的儲存與檢索〉一文中表示,當時最先進的資訊技術,最多也只能處理例行事務或文書工作;他並對此提出極具洞見的結論。利佩茲認為,等到研究人員對人類處理資訊的方式有更深入的了解,且能賦予機器類似的能力時,資訊檢索技術將出現突破性的進展。目前的電腦顯然尚未達到那麼精巧的程度,但在運作時,確實已經把使用者個人的興趣、習慣與需求考慮在內了。
溫故知新
在開始討論這個領域的新發展之前,最好先溫習一下目前搜尋引擎的運作方式。Google可以在約0.32秒內搜尋數十億筆文件,然後把結果呈現在使用者眼前。不過,這短暫的時間內究竟發生了什麼事?如果等使用者開始搜尋時,才把關鍵字拿來與各個網頁一一比對,顯然會耗去很長的時間,所以系統早在使用者進行搜尋之前,就已經採取了數個關鍵步驟。
首先,系統會持續不斷尋找並蒐集可能被使用的內容,藉由名為「爬蟲」(crawler)的特殊程式碼,偵測網路上發佈的頁面,並對這些頁面及頁面上所超連結的其他網頁進行檢索,同時把網頁集中放置在某個位置。在第二個步驟中,系統會利用各種統計技術算出相關字詞的頻率,並建立各字詞的重要性。第三,系統根據相關字詞,建立出高效率的資料結構(或稱資料樹),把字詞與特定網頁的關聯建立起來。當使用者送出查詢時,系統所搜索的並不是每個網頁,而是這棵事先建立好的資料樹,也就是一般所稱的索引。搜尋過程會從樹狀索引的根部開始,每遇到一個分枝(代表多個字詞與相關網頁),都會評估取或捨,因此搜尋時間會成指數遞減。
搜尋引擎具備各種排行策略以便好把相關性高的連結優先排列在檢索結果的前面。常見的排行方法之一是評估字詞的分佈與出現頻率,即詞頻與文件頻率倒數,然後為字詞建立權值,代表各字詞在個別文件內的重要性。出現頻率太高,或是許多文件內都含有的字詞,如「或」、「至」及「與」等等,比起語義重要或是只出現在少數文件內的字詞,權值會低上許多。
除了字詞權值以外,網頁也可根據其他策略來排行。例如連結分析,就是根據網頁之間的關係來決定網頁的特性,亦即許多網頁都會連結前往的權威網頁,或是會連結到其他許多網頁的樞紐網頁。Google就是利用連結分析,改善搜尋結果的排行。
技高一籌
在過去六年中逐漸取得主導地位的Google,具有競爭者所缺乏的兩項優勢。第一,它能處理極大規模的網路資料蒐集工作。第二,它的索引與加權方式能夠產生優良的排行結果。然而,搜尋引擎業者最近開發出的數種新型架構,不僅具有同樣強大的功能,有些架構在某些方面的表現甚至更好。
網路上有許多數位內容在今天還是無法取得,因為代管與處理這些資料的許多系統,並不是直接把使用者眼前所見的網頁儲存起來,而是等使用者與系統互動時,本來儲存的資源才依據使用者的需求而生成網頁。一般的爬蟲軟體會被這些資源困住,無法取得其中的任何內容。因此,使用者無法取得的資訊極其龐大,有人估計,這些資訊大約是一般網路內容的500倍。目前已有人展開研究,想讓這種「隱藏的網頁」變得像可見的網頁一樣容易搜尋。
為了達成目標,程式設計師根據網路資訊通常具有標準「文法結構」的現象,開發出通稱為「包裝程式」(wrapper)的軟體。不同的包裝程式採用的運作方式也互異:有些透過慣用的搜尋語法與網路資源的標準格式,取得隱藏的內容;其他系統所利用的,則是應用程式介面(API),也就是藉由標準的作業程序與指令,讓軟體彼此互動溝通。BrightPlanet公司的Deep Query Manager就是可取得隱藏網路資源的程式。這套包裝程式做成的搜尋軟體,所提供的個人化入口網站與搜尋介面,可搜尋到七萬筆以上隱藏在網路裡的資源。
排行系統在比較網頁時,若不對網頁類型設限,而單單利用連結或字詞建立排行,就有可能受騙或只能憑運氣運作,搜尋結果也會遭到誤導。舉例來說,如果利用Google、雅虎與MSN這三大搜尋引擎查詢〝miserable failure〞,最後出現在搜尋結果最上方的連結,都是來自美國whitehouse.gov網站的某個特定網頁。
有些搜尋引擎並不提供排行清單給使用者(這類清單相當容易遭到誤導),而是試著在最吻合搜尋條件的網頁之中尋找模式,以便把搜尋結果分類成更小的群組。分類模式可能包括常用字、同義字、相關字,甚至可能利用特殊的規則,辨識出高層次的觀念架構。這類系統會為每個連結群組標上相關字詞,使用者可選擇其中某個群組,進一步縮小搜尋範圍。這項技術的先驅首推Northern Light,它與Clusty這兩種搜尋引擎,都能提供群組式的結果。
另一種新引擎Mooter也利用群組技術,但還具有另外的好處:能以視覺方式把群組呈現在搜尋者眼前(參見左頁圖)。在搜尋結果頁面的正中央,有個代表所有結果的按鈕,周圍則是各個代表次分類的按鈕,看起來就像一個輪軸。只要點選群組按鈕,就可讀取相關連結的清單,新的相關群組也會列在一旁。Mooter還會記憶使用者選擇的群組,只要鍵入新的查詢項目,然後點選「縮小搜尋範圍」(refine),Mooter就會在先前選取的群組中進行新的檢索,為使用者找出更精準的結果。
Mooter是種新型態的搜尋引擎,會把蒐集到的訊息分類成不同的群組,最後在螢幕上顯示出各相關網站群組的按鈕,讓使用者更容易評估搜尋結果。最中間的按鈕代表所有的主題,外圍的按鈕則是各個次分類。只要點選按鈕,就可列出網頁清單及新的相關群組。
Kartoo與Mooter類似,也運用了視覺效果。這是一種所謂的「整合式搜尋引擎」(metasearch engine),可以把使用者的查詢傳送到其他搜尋引擎,然後以視覺方式呈現出匯整後的結果。Kartoo不僅列出了各網站的關鍵字,而且會顯示一張「地圖」。地圖中以圖示代表重要的網站,不同的網站之間連有路徑,並且在路徑上標示著網站之間的關係。使用者可點選標示,縮小搜尋結果的範圍。
電腦工具簡化搜尋過程的另一條途徑,是同時搜尋網路與使用者的硬碟。使用者目前必須透過另外的應用程式,才能搜尋個人電腦內的檔案。但以Google最近推出的Desktop Search為例,就把兩種功能整合在一起。使用者可把搜尋範圍指定在電腦硬碟或網路,也可同時搜尋兩者。微軟的新作業系統Longhorn,也打算提供類似的功能。Longhorn可能還會利用微軟的「我看到的東西」(Stuff Ive Seen)計畫所開發出來的技術,提供「內隱式搜尋」功能。使用者無需指定搜尋,系統就會自動取得相關訊息。據稱,這種內隱式搜尋功能可從使用者最近操作過的文字訊息中抓取關鍵字,比如電子郵件或Word檔案,然後從硬碟內的檔案中找出相關內容,顯示給使用者參考。微軟可能把這項搜尋功能延伸到網路上,並且提供更便利的方式,讓使用者把螢幕上的任何文字轉成搜尋條件。
找我!找我!
亞馬遜網路書店、Ask Jeeves與Google最近宣佈了新計畫,企圖藉由個人化的網頁搜尋來改善查詢結果。亞馬遜的搜尋引擎A9.com與Ask Jeeves的MyJeeves.ask.com,都能追蹤使用者的查詢與檢索結果,而且允許使用者以書籤方式把兩者永久儲存起來。在MyJeeves中,使用者可重新叫出儲存的搜尋條件,重新執行查詢,有組織地建立個人的子網頁。亞馬遜的A9也支援類似的功能,而且可根據個人的搜尋歷史,推薦額外的網頁。這種諮詢特性是利用使用者社群的查詢與購買模式達成,和亞馬遜知名的書籍推薦功能一樣,有時也被稱為「協同篩選」。
由於A9與MyJeeves的搜尋記錄並非儲存在使用者端,而是在搜尋引擎伺服器上,所以可保護資料的安全,而且之後使用者不管使用哪台機器,都能找到先前的搜尋條件。
Google的個人化搜尋功能具有預設的主題類別,使用者可挑選個人偏好的題材,並且調整自己對不同主題或領域的喜好程度。接著,系統再根據主題選項、喜好程度以及原始查詢展開檢索,然後列出排序過的結果。
這些搜尋系統雖然提供了新的重要特色,但改善的程度依然有限。假使搜尋引擎能把使用者的查詢背景列入考慮,比如:使用者最近查詢過的主題、個人行為與工作內容等,將可大幅提升搜尋引擎的效用。不過,想決定查詢者的背景,程式設計師必須先跨越可觀的工程障礙。首先,必須建立能自動監測使用者興趣與習慣的系統,好讓搜尋引擎確知使用者的查詢背景、運算平台的類型,以及使用者通常操作電腦的模式。這些訊息建立好後,可儲存在「使用者設定檔」內,之後,搜尋軟體就能據此找出個人化的適當資訊。不過,有關使用者的正確資訊可能很難取得與維護。畢竟,多數人除了願意在標準的搜尋過程中輸入資料外,不太可能再不厭其煩地輸入個人資料。
有關個人興趣的資訊,最好是從使用者瀏覽網頁的行為中取得記錄,或是觀察使用者與系統內一般應用程式的互動。當使用者打開、閱讀、播放、觀看、列印或共享文件時,引擎可追蹤使用者的活動,然後利用這些資訊引導特定主題的查詢,整個過程跟微軟的內隱式搜尋功能一樣。PowerScout與Watson這兩種系統,率先利用間接訊息來源,為使用者的興趣建立設定檔,然後整合到搜尋功能內。PowerScout目前尚未對外發表,依然是實驗室內的系統,但Watson似乎近期內就會商品化。程式設計師目前還在研發更精巧的軟體,希望能長期蒐集互動資料,然後產生持久的使用者設定檔,藉此推測使用者未來的興趣。
不過,以使用者設定檔為基礎的技術,並未受到廣泛採用。原因可能有幾個。其中之一,是關於設定檔在不同工作中的正確度,以及長期維護時所面臨的問題。系統必須一再執行評估程序,才可能建立穩定耐用的設定檔。由於使用者的興趣變化相當難以預測而且微妙,可能對檢索結果造成戲劇化的影響。
另一個原因則是隱私權保護問題。追蹤網路瀏覽歷史,或是把搜尋項目與使用者跟應用程式之間的互動儲存起來,可能導致個人機密資料大量外洩,甚至讓使用者的身份曝光。目前有許多軟體允許使用者以匿名的方式取得網站內容,主要是藉由中介或代理伺服器來傳輸並處理使用者的交易,因此存有資料的網站或服務,只能追蹤到代理伺服器的系統,無法把特定的查詢與個別的使用者連結在一起。比如anonymizer.com網站,就允許使用者以匿名的方式在網路上瀏覽。另一個例子是Freedom WebSecure,這套軟體支援多重代理伺服器,並且提供多層的加密程序。這些工具雖然提供了相當的安全性,但現存的搜尋軟體仍然無法同時提供個人化服務與隱私權保障。想在隱私權與設定檔的好處之間取得平衡,依舊是一大挑戰。
旅途上
我知道我們在哪裡:運算系統如果能感測自己的所在位置,比如馬里蘭大學研發出來的Rover技術,那麼,像PDA這類的無線手持式裝置就能持續追蹤自己在地圖上的位置。基於這項特性,Rover才能把有關當地的個人化訊息,提供給旅途中的使用者。
還有另一類具有偵測背景能力的搜尋系統,可把使用者的所在位置列入考慮。舉例來說,如果你帶著PDA一起去度假,而這台PDA又能夠接收與讀取全球定位系統(GPS)的訊號,或是利用射頻技術持續追蹤你的所在位置,那麼搜尋系統就可利用這項功能。美國馬里蘭大學的研究人員目前正在研發這類技術,他們的系統名字叫做Rover,能夠取得大範圍區域內的文字、視訊或音訊服務。Rover可顯示使用者所在區域的地圖,並且根據不同的特定主題「過濾」地圖,自動辨識並且標示出使用者可能有興趣的地點。
這個系統還能夠提供額外的訊息。比如,當Rover的用戶正在參觀博物館時,他手上的PDA即可顯現建築物的樓層規劃與周遭陳列。如果使用者走出戶外,PDA會改為顯示區域地圖,列出使用者可能有興趣的地點。Rover也允許操作者直接輸入自己的位置,然後從網路上的資料庫讀取個人化的訊息。Rover的研發小組與名為KoolSpan的私人網路公司,在2003年爭取到馬里蘭州政府的經費,將合作開發可兼顧無線數據傳輸安全以及使用者身份認證的應用程式。這項合作,應該能帶來更安全、且更為市場所接受的新版Rover。
不幸的是,GPS系統的定位誤差仍然相當大,達到3~4公尺遠。即使室內感測器與室外信標系統可改善GPS的精確度,但使用這些技術的費用仍然相當昂貴。另外,目前的手持式電腦或無線網路,也無法提供非文字的訊息傳輸時所需要的頻寬,特別是影像、音訊與視訊。「電機電子工程師協會」所提出的802.11b無線區域網路協定,最高能提供每秒11 Mb(megabit,百萬位元)的頻寬,已成功通過定位感知搜尋服務的測試,只是目前仍然不夠普及。
找圖片
查詢背景不僅包括使用者的個人興趣與所在位置。搜尋引擎所查詢的也不只是文字而已,還包括圖片。現在網路上有許多立體影像,但藝術工作者、插畫家與設計師卻無法透過關鍵字,有效找到他們想要的圖片或形狀。由普林斯頓形狀檢索與分析小組開發的「立體模型搜尋引擎」(3-D Model Search Engine),提供支援三種查詢圖形的方法。
尋找圖形:普林斯頓形狀檢索與分析小組的「立體模型搜尋引擎」,可以把使用者想要的圖形,拿來與網路上各種類似的形狀相比對,讓設計師、工程師與建築師可以更快找到相似的立體物件。
第一種方法使用名為Teddy的繪圖板工具,使用者可在上面畫出基本的平面圖形,軟體接著再拉動這些平面圖,產生虛擬的立體形狀。在第二種方法中,使用者可畫出多張平面圖形,大略描繪出同一個影像的不同投射面,然後搜尋引擎再把這些平面圖,與資料庫內預建好的投射面互相比較。資料庫內的每個立體物件,都具有13個投射面。理論上,這項功能還可以再進一步延伸,用來檢索任何一個平面影像資料庫。此外,使用者還能採取第三種尋找影像的方式,也就是把含有立體模型的檔案,上傳到搜尋引擎內。
這個目前仍在研發中的系統,在進行圖形查詢時,會先以一連串的數學函數來描述圖形,比如以調和函數描述立體影像,以三角餘函數描述平面圖像。接著,系統再根據每個圖形特有的相關函數,算出某種「指紋值」,也就是所謂的球面特徵(spherical signature)或圓形特徵(circular signature)。這些描述值具有兩種好處:不管是哪個視角的原始圖形與搜尋圖形,都可以互相比對;系統能夠快速地運算並比對這些描述值。
這是誰的歌?
音樂也已經納入搜尋引擎的領域了。想尋找特定的曲調,得解決一個關鍵問題,那就是如何進行查詢。其中一種解決方式是利用樂譜,或是簡譜式的查詢語言。使用者可以把代表音符的字母或數字輸入查詢欄,就等於輸入音樂的曲調。不過,對大部份的使用者來說,要把腦袋裡的旋律轉變成音符,恐怕困難。
紐西蘭數位圖書館計畫所設計的Meldex系統,解決了這個問題。該系統提供數種查詢音樂的方式。首先,使用者可在系統的虛擬鍵盤上彈出樂曲,錄下想查詢的曲調;或是對著電腦的麥克風哼唱。最後,使用者還可以在查詢欄內輸入歌詞,或是結合歌詞與曲調查詢。
紐西蘭的研究人員必須克服數種障礙,才能讓Meldex系統發揮作用,包括把查詢的曲調轉換成可計算的形式、以數位方式儲存並搜尋樂譜,以及把查詢的曲調拿來與資料庫內的音樂資料互相比對。系統中有種量化過程,可辨識曲調的音符與音調。接著,Meldex會分析波形結構,把聲波對應成數位音符,然後自動算出音調的時間函數。系統的樂譜資料庫內同時存有音節資料與完整的作品。Meldex利用資料串比對程式,從樂譜資料庫內找出與查詢的曲調相符的音節。由於查詢的曲調內可能有所錯誤,因此資料串比對功能還必須能夠包容「雜音」。
搜尋未來
未來的搜尋服務將不再受限於傳統的電腦平台。工程師已經開始把搜尋服務整合到汽車的行動數據通訊系統內,亦即所謂的「汽車通訊」,而且也可能把搜尋功能內建到娛樂器材裡,比如遊戲機、電視與高價位的音響系統。因此,搜尋技術未來可能透過智慧型網路服務,在使用者駕車、聆聽音樂或設計產品時,扮演隱形的輔助角色。
另外,新的商業契約未來將促使大量的出版品登上網路,包括電腦使用者目前仍無法取得的文字、影像與聲音資訊。網路搜尋功能將會為了因應這些新契約,而產生重大的變化。
諷刺的是,新一代搜尋技術在從事更精巧的工作時,將同時變得更顯眼,但也更隱匿。顯眼的是性能更強大的工具,這些工具將整合搜尋功能與資料探勘作業,形成專家系統,在不了解資料意義的狀況時,找出資料庫內的趨勢或反常現象。隱匿的則是大量的智慧型搜尋流程,這些流程可提供後端服務給各種應用程式與平台使用。由於資料探勘技術與使用者介面的進步,只要單一系統,就可能自動提供持續而精巧的搜尋服務,而且這些服務還能天衣無縫地與互動式視覺功能整合在一起。
透過先進的機器學習與分類技術,系統也能更深入地了解網路內容,並且提供更好的分類方式,所以程式設計師將能開發出好用的視覺化資料探勘功能,讓搜尋引擎更有可看性與互動性。產業分析師預料,未來將出現各式各樣的探勘功能,而且每一種都是用來搜尋特定領域或格式的內容,比如音樂或生物學資料。軟體工程師雖然面對龐大的資訊量,但他們設計出來的功能,還是必須能夠快速且便利地回應使用者的需求。網路上的搜尋者將可透過視覺效果豐富的介面,在龐大的資料寶庫中穿梭。搜尋引擎將把重心擺在建立資訊的廣泛模式,而不是追蹤個別使用者的記錄。最後,使用者恐怕將會難以區別,電腦從何時開始理解,又是從何時開始展開搜尋。
【本文原刊於《科學人雜誌3月號》】
No comments:
Post a Comment