廣州哪里學(xué)python
時(shí)間:2019-08-28 00:00:00
來源:信盈達(dá)
作者:信盈達(dá)
第一步,學(xué)會(huì)自己安裝python、庫和你的編輯器并設(shè)置好它我們學(xué)習(xí)python的最終目的是要用它來達(dá)到我們的目的,它本身是作為工具的存在,我們一定要掌握自己的工具的各類設(shè)置,比如安裝、環(huán)境配置、庫的安裝,編輯器的設(shè)置等等。當(dāng)然也可以用比如Anaconda來管理你的版本和各種庫!
第二步、學(xué)會(huì)一些基礎(chǔ)的模塊
我們有目標(biāo)網(wǎng)址,怎么寫爬蟲呢?這個(gè)時(shí)候,建議大家可以找一些簡單爬蟲的視頻或者文章,跟著老師一起寫代碼,先感受一下爬蟲是怎么一步一步的在你的手里完成的!
當(dāng)然這里不是說你照著老師的代碼敲一遍就算學(xué)會(huì)了,個(gè)人認(rèn)為,這里你最少要做三步:
所有你不知道的庫、函數(shù)、語法都需要記錄下來,自行學(xué)習(xí)掌握,并在以后的爬蟲中繼續(xù)這個(gè)步驟,很重要
要學(xué)會(huì)老師的思路。比如基本所有的教程并不是拿到url就開始寫代碼了,都有自己的分析過程,而思路在爬蟲中占到很大一部分的比重,有了思路,寫代碼就不難了
先模仿在獨(dú)立完成。先跟著老師做一些簡單的爬蟲,然后思路和代碼都掌握以后,就可以嘗試自行查找類似的項(xiàng)目去獨(dú)立完成一個(gè)爬蟲了!
推薦基礎(chǔ)模塊:re,requests,time等,自定義函數(shù)、類等語法以及報(bào)頭、cookie的寫入等等也需要了解
到這里,你應(yīng)該已經(jīng)掌握了
python的基礎(chǔ)模塊并寫出了你的簡單爬蟲,那么可以進(jìn)行下一個(gè)步驟的學(xué)習(xí)了
第三步、學(xué)習(xí)各種表達(dá)式,并精通1-2種!
學(xué)會(huì)了如何爬取網(wǎng)頁內(nèi)容之后,你還需要學(xué)會(huì)進(jìn)行信息的提取。事實(shí)上,信息的提取你可以通過表達(dá)式進(jìn)行實(shí)現(xiàn),同樣,有很多表達(dá)式可以供你選擇使用,常見的有正則表達(dá)式、XPath表達(dá)式、BeautifulSoup(bs4)等,這些表達(dá)式你沒有必要都精通,同樣,精通1-2個(gè),其他的掌握即可,在此建議精通掌握正則表達(dá)式以及XPath表達(dá)式,其他的了解掌握即可。正則表達(dá)式可以處理的數(shù)據(jù)的范圍比較大,簡言之,就是能力比較強(qiáng),XPath只能處理XML格式的數(shù)據(jù),有些形式的數(shù)據(jù)不能處理,但XPath處理數(shù)據(jù)會(huì)比較快,而且以后你學(xué)習(xí)爬蟲框架也會(huì)用到xpath。廣州哪里學(xué)python
廣州哪里學(xué)python,第四步、深入掌握抓包并分析提取需要的內(nèi)容
在我們練習(xí)的過程中,會(huì)經(jīng)常碰到有反爬措施的網(wǎng)站,而這些網(wǎng)站最常使用的措施就是隱藏?cái)?shù)據(jù),那么這時(shí)我們就要學(xué)會(huì)使用抓包分析,推薦大家一定要精通瀏覽器的開發(fā)者工具以及fiddler抓包工具,當(dāng)然其他抓包工具或者抓包插件也可以,沒有特別要求。
第五步、精通爬蟲框架
當(dāng)你學(xué)習(xí)到這一步的時(shí)候,你已經(jīng)入門了。
這個(gè)時(shí)候,你可能需要深入掌握一款爬蟲框架,因?yàn)椴捎每蚣荛_發(fā)爬蟲項(xiàng)目,效率會(huì)更加高,并且項(xiàng)目也會(huì)更加完善。
同樣,你可以有很多爬蟲框架進(jìn)行選擇,比如Scrapy、pySpider等等,一樣的,你沒必要每一種框架都精通,只需要精通一種框架即可,其他框架都是大同小異的,在此推薦掌握Scrapy框架.