IMPORTXML&HTML 限制問題 - Google

Table of Contents

Hi ALL

小弟最近想做個資料分析,想抓一些yahoo 上的新聞回來分析

目前想用這個網址 https://tw.news.yahoo.com/world

所以有幾個問題,想請問
1. importxml 好像有網址長度的限制, 有什方式可解決?
系統說:指定網址內容的資源超出大小上限。

https://imgur.com/QpjwYsD

2. importxml or importhtml 有什辦法可取得資料時又同時取得網址?
又或者有什其它參數or 工具可取得?
https://imgur.com/ynz7L5x

3. importhtml 會只抓第一頁資料,有什方式可以讓它也會向下滾動,
可以去抓第二頁以上的資料?

像是https://tw.news.yahoo.com/world,他預設只能顯示一頁資料,可
必需要偵測到下滾的動作,才會顯示第二頁的資料。

4. importxml or importhtml抓的資料,會同一格去顯示多行的資料,有什
指令可以讓他切成多行?

請多指教,謝謝。


--

All Comments

Connor avatarConnor2021-08-04
1. 超出大小的是網頁內容,不是網址
Rosalind avatarRosalind2021-08-07
2. 用 XPath 自行篩選出超連結的 href 屬性
Rae avatarRae2021-08-10
3. 這種動態載入的網頁,要去找背後 XHR 的網址跟參數
然後再用該網址跟參數去抓資料
Oscar avatarOscar2021-08-12
考慮用傳統程式語言的方式去解決吧,不然 AppSheet 也好
Cara avatarCara2021-08-15
ㄟ等等,不是 AppSheet,我是說指令碼編輯器..
Catherine avatarCatherine2021-08-18
感謝兩位,偶會把他寫成AppScript,只是XHR還找不到範例
Necoo avatarNecoo2021-08-20
還不清楚要怎看XHR的網址跟參數
Zanna avatarZanna2021-08-23
最直接的方式就是用 Chrome DevTool 看 network
Frederic avatarFrederic2021-08-25
最保險的方式是從上面的方式再去追 source code 怎麼寫
Necoo avatarNecoo2021-08-28
但是有很高的機率不是你想像的那樣,除非 importXXX
不是我想像的那樣 XDDDD(謎之聲:哪樣?)