這是一個練習程式, 把漫畫網站的圖檔抓下來, 這樣就不用辛苦的一一點選上一頁/下一頁, 不過這程式有好幾個缺點。
- 需要使用 wget
- 只能針對特定網站, 可能需要改寫其他規則才能用在其他網站上。
- 依序把所有檔案抓下來, 前一個圖檔抓完, 才能抓下一個。
- 停止條件很粗糙。
- 若是網站圖檔 url 使用 javascript 產生, 那就無法處理了, 這需要一個 javascript interpreter, 這工程可能有點麻煩。
不過已經比慢慢等著圖檔傳輸, 按著上一頁/下一頁好很多了。
這裡有更多技巧:
http://www.pythonclub.org/python-network-application/observer-spider
沒有留言:
張貼留言
使用 google 的 reCAPTCHA 驗證碼, 總算可以輕鬆留言了。
我實在受不了 spam 了, 又不想讓大家的眼睛花掉, 只好放棄匿名留言。這是沒辦法中的辦法了。留言的朋友需要有 google 帳號。