請問 tag 和斷字的問題? - Google

By Gary
at 2006-08-14T02:09
at 2006-08-14T02:09
Table of Contents
2-gram的衍生當然就是n-gram,看用多少字做indexing,
這是業界比較常用的方法;
機率模型在NLP裡最常用的大概還是HMM,
Hidden Markov Model,然後用大量的corpus去train你的model,
因為不同的文章,比如新聞報導或者blog,所使用的字詞不同,
甚至不同人使用的字詞也不同,這可以讓你更接近「真實」的分析。
HMM使用的時機在英文的NLP裡很多,
比如說 "a red brick wall",
要怎麼分析red/brick/wall的POS,就可以使用HMM來做training。
中文比較麻煩的是根本不知道字詞是怎麼被「正確」的斷字,
甚至會有之前那位版友所提供的例子裡「正確」的「誤讀」狀況產生,
所以要分析起來會更辛苦。
---
之前我記得UPenn有做一個類似的分析,
不過不是用HMM,
是真的找便宜耐操的研究生去分析一卡車corpus,
然後去得到這類的機率。
---
我覺得現在講的東西已經太專業了,如果原po有興趣,
最好還是想辦法去學校修NLP的課,
另外補充,原po在tagging那邊提出的search,
通常我們會以vertical search視之。
※ 編輯: Baudelaire 來自: 24.6.214.146 (08/14 02:10)
推 chive:謝謝。NLP=自然語言處理?vertical search可以舉例嗎?謝謝。 08/15 03:46
→ Baudelaire:NLP=Natural Language Processing 08/15 13:10
→ Baudelaire:vertical search是相較於單純文本的search來說的 08/15 13:12
→ Baudelaire:詳細狀況我不能講太多,因為我在Yahoo!就是做這個 08/15 13:12
推 chive:總之非常的謝謝你。我會繼續努力的自我摸索。 08/16 23:12
推 Baudelaire:不會,加油 :) 08/17 04:14
推 chris:推! 08/17 23:48
Tags:
Google
All Comments

By Anonymous
at 2006-08-16T07:52
at 2006-08-16T07:52

By Robert
at 2006-08-18T03:42
at 2006-08-18T03:42

By Callum
at 2006-08-21T16:49
at 2006-08-21T16:49

By Lauren
at 2006-08-25T07:49
at 2006-08-25T07:49

By Faithe
at 2006-08-27T05:36
at 2006-08-27T05:36

By John
at 2006-08-31T13:04
at 2006-08-31T13:04

By Hardy
at 2006-09-04T20:40
at 2006-09-04T20:40
Related Posts
請問 tag 和斷字的問題?

By Sarah
at 2006-08-14T01:47
at 2006-08-14T01:47
有人跟我一樣嗎(Calendar放在首頁=www.google.com/ig)

By Zenobia
at 2006-08-13T21:32
at 2006-08-13T21:32
信箱無法開啟?

By Kristin
at 2006-08-13T17:54
at 2006-08-13T17:54
請問 tag 和斷字的問題?

By Jacky
at 2006-08-13T12:05
at 2006-08-13T12:05
我想找某人的名字 叫 "李盛"

By Franklin
at 2006-08-13T09:22
at 2006-08-13T09:22