擷取網站檔案

2011年12月31日星期六

擷取網站檔案

http_c0.py

  1 #!/usr/bin/env python
  2 #encoding=utf-8
  3 # -*- coding: utf-8 -*-
  4 #ref: http://www.cnblogs.com/chenzehe/archive/2010/08/30/1812995.html 
  5
  6 import httplib
  7 import commands
  8 import shutil
  9 import re
 10 import os
 11
 12 def get_fn(fp):
 13     a=fp.rfind('/')
 14     a+=1
 15     return fp[a:]
 16
 17 def get_href(page_html):
 18     #return get_page('href.*"', page_html)
 19     return get_page('[0-9_]*.shtml', page_html)
 20
 21 def get_page(page_pattern, page_html):
 22     s=''
 23     if (re.search(page_pattern, page_html)):
 24         m=re.search(page_pattern, page_html)
 25         #print "found:", m.group()
 26         s = m.group()
 27     else:
 28         pass#print "not found"
 29     return s
 30
 31 def get_next_page(page_html):
 32     return get_page('<a href=.*>下一页</a>', page_html)
 33 def get_previous_page(page_html):
 34     return get_page('<a href=.*>上一页</a>', page_html)
 35 def get_file_url(page_html):
 36     return get_page('http://.*.jpg', page_html)
 37
 38 #http://www.webxml.com.cn/WebServices/WeatherWebService.asmx?wsdl
 39
 40 #url = 'www.webxml.com.cn'
 41 url = 'www.google.com'
 42 #url = 'pic.076.com/ComicList/201008/2911_68.shtml'
 43 url='files.076.com'
 44 url = 'pic.076.com'
 45
 46 conn = httplib.HTTPConnection(host=url)
 47
 48 h={'User-agent': 'python-httplib'}
 49
 50 req_path = '/'
 51 #req_path = '/WebServices/WeatherWebService.asmx?wsdl'
 52 #conn.request("GET", "/", headers=h)
 53 #conn.request("GET", req_path, headers=h)

54 #path='2911_69.shtml'
55 path='/201008/20100830145757244358.jpg'
56 path='/ComicList/201008/'
57 p='2818.shtml'
58 #p='2818_32.shtml'
59
60
61 #conn.request("GET", path+p, headers=h)
62 #r1 = conn.getresponse()
63 #print r1.status, r1.reason
64 #print "msg:", r1.msg
65 #print "version:", r1.version
66 #print "headers:", r1.getheaders()
67 #data1 = r1.read()
68 #print type(data1)
69 #print "len:", len(data1)
70 #print data1
71
72 #f=open('c.jpg', 'w')
73 #f.write(data1)
74 #f.close()
75
76 #print get_file_url(data1)
77 #ppage=get_previous_page(data1)
78 #print ppage
79 #ppage_page=get_href(ppage)
80 #print ppage_page
81
82 move_dir = os.path.join(os.getcwd(), 'jpg/')
83
84 try:
85 os.mkdir(move_dir)
86 except Exception as err:
87 if err.errno != 17: # the directory already exists
88 print("warn", err)
89 else:
90 print("ERROR", err)
91
92 fc=0
93 while(1):
94
95 print 'req path:', path+p
96 conn.request("GET", path+p, headers=h)
97 r1 = conn.getresponse()
98 data1 = r1.read()
99
100 furl = get_file_url(data1)
101
102 fn=get_fn(furl)
103 print 'get file:', furl
104 print 'fn:', fn
105
106 # os.spawnl(os.P_NOWAIT, cmd)
107
108 cmd = "/usr/bin/wget " + furl
109 ( stat, output ) = commands.getstatusoutput(cmd)
110 if stat!=0:
111 print output
112 print "move", os.path.join(os.getcwd(), fn), "to", os.path.join(os.getcwd(), 'jpg/')+str(fc) + '.jpg'
113 shutil.move(os.path.join(os.getcwd(), fn), move_dir + str(fc) + '.jpg')
114 fc+=1
115
116 npage=get_next_page(data1)
117 print npage
118 # if npage.find('_101')!=-1:
119 # break
120 npage_page=get_href(npage)
121 print npage_page
122 p=npage_page
123 if fc > 100 :
124 break
125
126 #print data1

這是一個練習程式, 把漫畫網站的圖檔抓下來, 這樣就不用辛苦的一一點選上一頁/下一頁, 不過這程式有好幾個缺點。

需要使用 wget
只能針對特定網站, 可能需要改寫其他規則才能用在其他網站上。
依序把所有檔案抓下來, 前一個圖檔抓完, 才能抓下一個。
停止條件很粗糙。
若是網站圖檔 url 使用 javascript 產生, 那就無法處理了, 這需要一個 javascript interpreter, 這工程可能有點麻煩。

不過已經比慢慢等著圖檔傳輸, 按著上一頁/下一頁好很多了。

這裡有更多技巧:
http://www.pythonclub.org/python-network-application/observer-spider

沒有留言:

張貼留言

使用 google 的 reCAPTCHA 驗證碼, 總算可以輕鬆留言了。

我實在受不了 spam 了, 又不想讓大家的眼睛花掉, 只好放棄匿名留言。這是沒辦法中的辦法了。留言的朋友需要有 google 帳號。

人體汽肛 - 風馳電掣, 人車一體

blog 文章

2011年12月31日星期六