grep 和 big5 中文字 - Linux

Table of Contents

這個問題我 google 了幾天了都找不到解決方案

所以決定到版上來問問看

因為要做研究的關係我蒐集很多 .html 的網頁資料 (大概600筆左右)

全部都是 big5 中文碼

我想用 grep 抓關鍵字分析資料 沒想到 grep 居然抓不到 big5 的中文字
(utf-8 的中文和日文都抓得到)

詭異的地方在於 我之前用的系統
(Ubuntu 10.04 Lucid Lynx, i386; GNOME)

grep 抓得到 big5 中文字

換了電腦又升級系統之後
(Ubuntu 10.10 Maverick Meerkat, amd64; GNOME 2.32.0)

grep 就不認識 big5 中文字了

我不太知道這種問題要從什麼地方下手解決

google 的時候也是抱著亂槍打鳥的心情在找

希望版上有大大也遇到類似的狀況

指引小女子解決問題的一盞明燈 <(_ _)>

感謝!!

--

All Comments

Annie avatarAnnie2011-03-28
存檔編碼的關係。用iconv轉html成utf-8的編碼即可
Ula avatarUla2011-03-31
之前灌的系統語系是用big-5吧
Andy avatarAndy2011-04-03
所以也許可以LANG=zh_TW.Big5 grep "xyz" XYZ.html這樣用
David avatarDavid2011-04-07
用find -exec轉很快吧
但記得先備份