請問 tag 和斷字的問題？ - Google

Gary · 2006-08-14

Table of Contents

Post
Comments
Related Posts

2-gram的衍生當然就是n-gram，看用多少字做indexing，
這是業界比較常用的方法；
機率模型在NLP裡最常用的大概還是HMM，
Hidden Markov Model，然後用大量的corpus去train你的model，
因為不同的文章，比如新聞報導或者blog，所使用的字詞不同，
甚至不同人使用的字詞也不同，這可以讓你更接近「真實」的分析。

HMM使用的時機在英文的NLP裡很多，
比如說 "a red brick wall"，
要怎麼分析red/brick/wall的POS，就可以使用HMM來做training。
中文比較麻煩的是根本不知道字詞是怎麼被「正確」的斷字，
甚至會有之前那位版友所提供的例子裡「正確」的「誤讀」狀況產生，
所以要分析起來會更辛苦。

---
之前我記得UPenn有做一個類似的分析，
不過不是用HMM，
是真的找便宜耐操的研究生去分析一卡車corpus，
然後去得到這類的機率。

---
我覺得現在講的東西已經太專業了，如果原po有興趣，
最好還是想辦法去學校修NLP的課，

另外補充，原po在tagging那邊提出的search，
通常我們會以vertical search視之。
※ 編輯: Baudelaire 來自: 24.6.214.146 (08/14 02:10)

推 chive:謝謝。NLP=自然語言處理?vertical search可以舉例嗎？謝謝。 08/15 03:46

→ Baudelaire:NLP=Natural Language Processing 08/15 13:10

→ Baudelaire:vertical search是相較於單純文本的search來說的 08/15 13:12

→ Baudelaire:詳細狀況我不能講太多，因為我在Yahoo!就是做這個 08/15 13:12

→ Baudelaire:http://en.wikipedia.org/wiki/Vertical_search 08/15 13:13

推 chive:總之非常的謝謝你。我會繼續努力的自我摸索。 08/16 23:12

推 Baudelaire:不會，加油 :) 08/17 04:14

推 chris:推！ 08/17 23:48

Google