明明有那封信卻搜尋不到 - Google

Susan avatar
By Susan
at 2006-08-04T02:51

Table of Contents


技術上的原因是,
處理中文時,會先把整篇文章indexing下來,
而如果做decompound的時候沒有考慮到那些詞/UTF-8斷字出問題(這比較不會發生),
那搜尋的時候當然就找不到了。

---

簡單說,中文搜尋是這樣做的:

如果corpus是「家庭圖書證」,
我們可以拆成 家 庭 圖 書 證 家庭 圖書 圖書證 家庭圖書 家庭圖書證,
這當然不能用排列組合的方式去做組合,一般都是用自己的字典;
如果用排列組合來處理,隨便就是個 O(N!) 的問題,
整個就死在那裡了...。

有了這些字詞的集合以後,就可以把這些結果index起來,
(據說Google內部的實做是用MySQL跟Oracle)
等到你要搜尋的時候,就把這個 DB 的東西丟給你。

至於牽扯到clustering端的技術,其實跟web search比較有關,
如果只是GMail裡的信件,clustering應該還是有用,
不過比起來就沒那麼要求了,畢竟整個網路上的資料,
跟GMail裡區區2G的玩意比起來根本不能比。



※ 引述《SYOTEN (曠工的礦工)》之銘言:
: 我的Gmail裡有一封信
: 主題是: 家庭圖書證
: 搜尋圖書 可以搜尋得到
: 沒想到用圖書證三個字卻搜尋不到
: 我還仔細檢查過字有沒有打錯
: 甚至直接從那封信的主題上複製這三個字去搜尋
: 一樣搜尋不到
: 怎麼會這樣?

--
Tags: Google

All Comments

Victoria avatar
By Victoria
at 2006-08-06T11:56
Oscar avatar
By Oscar
at 2006-08-06T21:19
應該是O(n^2)吧...雖然也是很大XD
George avatar
By George
at 2006-08-07T13:01
sigma(i=1..n){ C(n,i)} 所以是N!啊?
Emma avatar
By Emma
at 2006-08-11T02:18
不對,這要跟字跟字有沒有相連有關,吼,我數學太爛...

明明有那封信卻搜尋不到

Hamiltion avatar
By Hamiltion
at 2006-08-03T14:18
※ 引述《SYOTEN (曠工的礦工)》之銘言: : 我的Gmail裡有一封信 : 主題是: 家庭圖書證 : 搜尋圖書 可以搜尋得到 : 沒想到用圖書證三個字卻搜尋不到 : 我還仔細檢查過字有沒有打錯 : 甚至直接從那封信的主題上複製這三個字去搜尋 : 一樣搜尋不到 : 怎麼會這樣? 可能要打and#34; ...

明明有那封信卻搜尋不到

Valerie avatar
By Valerie
at 2006-08-03T13:36
我的Gmail裡有一封信 主題是: 家庭圖書證 搜尋圖書 可以搜尋得到 沒想到用圖書證三個字卻搜尋不到 我還仔細檢查過字有沒有打錯 甚至直接從那封信的主題上複製這三個字去搜尋 一樣搜尋不到 怎麼會這樣? - ...

Survey: How Often Do You Use These Google Products?

Blanche avatar
By Blanche
at 2006-08-03T08:03
有空投票一下囉 http://blog.outer-court.com/archive/2006-08-02-n67.html 或是你要直接看結果 http://blog.outer-court.com/googlesurvey/?mode=showResults - ...

Google Analytics

Robert avatar
By Robert
at 2006-08-02T11:08
請問 Google Analytics 可以看到個別訪客的資料嗎?  像是IP、停留時間、進入和離開頁面…等資料。  是個別訪客的資料喔,像是sitemeter的資料。 - ...

關於Yahoo!和Google

David avatar
By David
at 2006-08-02T06:55
※ 引述《WalkingIce (會走路的冰塊)》之銘言: : ※ 引述《fatal12 (winner takes all)》之銘言: : : po在這裡,單純只是因為我對網路使用者的思考模式很有興趣,如果不合版規請d : : po在很多地方,不過覺得這邊得到的回應應該會比較專業清楚一點... : : 最近 ...