請問 tag 和斷字的問題? - Google

By Jacky
at 2006-08-13T12:05
at 2006-08-13T12:05
Table of Contents
相關度當然跟字與字之間的距離有關;
有興趣可以找看看 tf-idf、information theory的論文來看。
比如說 I went to Yankee Stadium, where the baseball history lives.這句話,
baseball 跟Yankee的關係強不強呢?在information theory的角度來看,
這個字的相關性在三個字之間,當然比 "baseball team Yankees" 來得低;
不過要比起兩個句子分別提到,當然還是重要很多。
還有,Mariah Carey應該會是字典裡的字,作POS時應該要抓出來的。
如果你問的是information retrieveal,那問題應該是tokenize;
有沒有一個好的dictionary, 怎麼作part-of-speech當然是很困難的;
因為中文沒有歐美語系的字間間隔,所以要怎麼判定這是字/詞自然困難很多;
其實類似的問題德文也有;德文也有組合字的文法,
不過作decompound當然比中文整個tokenize來得簡單多了。
解決之道?我如果能全部解決裡面的問題,我早就去Google了...。 XD
※ 引述《chive (上!上!上!)》之銘言:
: 不知道適不適合在此發問,不適合將自刪
: -------------------------------------
: 1. Blog, 網摘(社會書籤),Flickr...etc.
: 都有提供 tag(標籤)的功能,通常每個標籤間以空一格來區分,
: 如果是外國人名呢? Ex:Mariah Carey,
: 這樣是算兩個標籤(Mariah 和 Carey)還是一個(Mariah Carey)呢?
: 如果是前者只要標籤有 Mariah 或 Carey的結果都會被搜尋出,
: 搜尋結果不是變多了但是相關度降低嗎?
: 2. 在資訊檢索時,中文搜尋的缺點「斷字」(不確定是不是這麼說),
: 是什麼意思?解決之道?
: (我用google搜尋過了,但是還是一頭霧水)
: 謝謝。
--
Tags:
Google
All Comments

By Ivy
at 2006-08-17T01:48
at 2006-08-17T01:48

By Kristin
at 2006-08-19T09:29
at 2006-08-19T09:29
Related Posts
請問 tag 和斷字的問題?

By Franklin
at 2006-08-13T02:51
at 2006-08-13T02:51
Gmail收信問題

By Lucy
at 2006-08-12T23:38
at 2006-08-12T23:38
Goodle Gadget: 英漢字典

By Thomas
at 2006-08-12T15:17
at 2006-08-12T15:17
請教關於用outlook收gmail

By Una
at 2006-08-12T11:34
at 2006-08-12T11:34
有沒有人覺得yahoo的新版首頁很贊

By Kyle
at 2006-08-12T10:50
at 2006-08-12T10:50