純文字環境下的分析網頁取得網址? - Linux

Table of Contents

請問版友,在linux 文字模式下

用curl取得網頁的原始碼後,有較方便快速的方式可以取得網址嗎?

在windows下,有用過dom的方式將特定的tag分析,大概幾行程式碼就可以

將所需要的超連結網址或是圖片網址給取出

目前在linux Command-line interface 打算的做法是

用curl抓原始碼後,再用shell script處理文字檔,以取得所需要的資訊

因為curl抓下的原始碼挺亂的,用shell script處理可能會有loss

想請問版友是否有更好的建議嗎? 感謝 ^_^



不好意思~再請問一下 有人可以解釋下面這段的意思嘛~
sed -n 's/.*\(href\)\=\"\([^[:space:]]*\)\".*/\2/p'



--
★正妹 你相信奇蹟嗎?
To 正妹: 原本不信,但現在我信。

--

All Comments

Irma avatarIrma2010-07-24
sed
Skylar Davis avatarSkylar Davis2010-07-26
perl regulaer expression
William avatarWilliam2010-07-28
想請教一下sed + regulaer expression的問題
用sed -n 's/.*\(href\)\=\"\([^[:space:]]*\)\".*/\2/p'
John avatarJohn2010-07-31
得到 ./viewtopic.php?f=57&t=38233&sid=f713efa0f4
Hamiltion avatarHamiltion2010-08-04
該怎麼修改才能得到 ./viewtopic.php?f=57&t=38233 呢?
Queena avatarQueena2010-08-07
去問regexp版會比較快,或是自己學一下regulaer expression
問的時候請附上範例