日韩精品在线国产丝袜_亚洲嫩模喷白浆在线观看_国产最新在线播放自拍_欧美性爱www.久久五月丁香六月_黄片一级免费视频观看大全_欧美一级特黄大片做受农村_边喂奶边中出中文字幕_少妇老师洗澡被躁爽A片软件_欧美日韩国产高潮一区二区_日本不卡网青椒午夜影院

信盈達—您身邊的嵌入式&人工智能專家

全國免費咨詢熱線：400-8788-909

您現(xiàn)在的位置在: 首頁> 學習經(jīng)驗>

時間：2019-05-25 00:00:00 來源：信盈達作者：信盈達

tica, Verdana, Tahoma, sans-serif"> 在一些網(wǎng)站上經(jīng)?？吹揭恍┖玫膱D片希望批量下載保存到本地，但是一個個右擊保存有顯的十分麻煩，這里可以通過python 來實現(xiàn)這樣一個簡單的爬蟲功能，把我們想要的代碼爬取到本地，功能有點類似我們之前學過的批處理。下面就看看如何使用python來實現(xiàn)這樣一個功能，主要分為三步，如下：

一. 獲取整個頁面數(shù)據(jù)

首先我們可以先獲取要下載圖片的整個頁面信息。

創(chuàng)建getjpg.py文件

#coding=utf-8
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = getHtml("http://tieba.baidu.com/p/2738151262")
print html

復制代碼

說明：

Urllib 模塊提供了讀取web頁面數(shù)據(jù)的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數(shù)據(jù)。

首先，我們定義了一個getHtml()函數(shù)；

urllib.urlopen()方法用于打開一個URL地址；

read()方法用于讀取URL上的數(shù)據(jù)；

向getHtml()函數(shù)傳遞一個網(wǎng)址，并把整個頁面下載下來。執(zhí)行程序就會把整個網(wǎng)頁打印輸出。

二. 篩選頁面中想要的數(shù)據(jù)

Python 提供了非常強大的正則表達式，我們需要先要了解一點python 正則表達式的知識才行。

re模塊中一些重要的函數(shù)：

假如我們百度貼吧找到了幾張漂亮的壁紙，通過到前段查看工具。找到了圖片的地址，如：src="http://imgsrc.baidu.com/forum/w%3D580/sign=750661a0fcfaaf5184e381b7bc5594ed/75fafbedab64034fc3ed0b80aec379310a551d11.jpg"

修改代碼如下：

import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

復制代碼

我們又創(chuàng)建了getImg()函數(shù)，用于在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式：

re.compile() 可以把正則表達式編譯成一個正則表達式對象.

re.findall() 方法讀取html 中包含 imgre（正則表達式）的數(shù)據(jù)。

運行腳本將得到整個頁面中包含圖片的URL地址。

三. 將頁面篩選的數(shù)據(jù)保存到本地

把篩選的圖片地址通過for循環(huán)遍歷并保存到本地，代碼如下：

#coding=utf-8
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'c:\Users\Administrator\Desktop\pic\%s.jpg' % x)
x+=1
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

復制代碼

這里的核心是用到了urllib.urlretrieve()方法，直接將遠程數(shù)據(jù)下載到本地。

通過一個for循環(huán)對獲取的圖片連接進行遍歷，為了使圖片的文件名看上去更規(guī)范，對其進行重命名，命名規(guī)則通過x變量加1。保存的位置默認為程序的存放目錄。

程序運行完成，將在目錄下看到下載到本地的文件。

效果如下：

聲明：本網(wǎng)站原創(chuàng)內(nèi)容，如需轉(zhuǎn)載，請注明出處；本網(wǎng)站轉(zhuǎn)載的內(nèi)容（文章、圖片、視頻）等資料版權(quán)歸原網(wǎng)站所有。如我們采用了您不宜公開的文章或圖片，未能及時和您確認，避免給雙方造成不必要的經(jīng)濟損失，請電郵聯(lián)系我們，以便迅速采取適當處理措施；歡迎投稿，郵箱：edu118@edu118.com。

想要了解嵌入式、物聯(lián)網(wǎng)、 PCB硬件、 python人工智能、企業(yè)培訓等課程,

敬請關注信盈達分享匯微信公眾號 或者添加楊老師QQ:914865590獲得更多資源福利！