本次爬取的站點(diǎn)選擇電影天堂,網(wǎng)址是:www.dytt8.net。爬取內容是整個(gè)站點(diǎn)的所有電影信息,包括電影名稱(chēng),導演、主演、下載地址等。具體抓取信息如下圖所示:小編推薦大家加一下這個(gè)群:103456743這個(gè)群里好幾千人了!大家遇到啥問(wèn)題都會(huì )在里面交流!而且免費分享零基礎入門(mén)料資料web開(kāi)發(fā) 爬蟲(chóng)資料一整套!是個(gè)非常好的學(xué)習交流地方!也有程序員大神給大家熱心解答各種問(wèn)題!很快滿(mǎn)員了。欲進(jìn)從速哦!各種PDF等你來(lái)下載!全部都是免費的哦!只為幫助大家快速入門(mén),所以小編在群里等你們過(guò)來(lái)一起交流學(xué)習呢!
由圖可知道,電影天堂有 5 個(gè)電影欄目,分別為最新電影、日韓電影、歐美電影、國內電影、綜合電影。每個(gè)欄目又有一定數量的分頁(yè),每個(gè)分頁(yè)有 25 條電影信息。那么程序的入口可以有 5 個(gè) url 地址。這 5 個(gè)地址分別對應每個(gè)欄目的首頁(yè)鏈接。
2.2 爬取思路

創(chuàng )建數據庫以及表,接著(zhù)再把電影信息插入到數據庫的代碼如下:


TaskQueue 類(lèi)
維護 floorQueue、middleQueue、contentQueue 三個(gè)隊列的管理類(lèi)。之所以選擇隊列的數據結構,是因為爬蟲(chóng)程序需要用到多線(xiàn)程,隊列能夠保證線(xiàn)程安全。
dytt8Moive 類(lèi)
dytt8Moive 類(lèi)是本程序的主心骨。程序最初的爬取目標是 5 個(gè)電影欄目,但是目前只現實(shí)了爬取最新欄目。如果你想爬取全部欄目電影,只需對 dytt8Moive 稍微改造下即可。。









https://github.com/monkey-soft/MoivesSpider 源代碼地址:
如有侵權請聯(lián)系小編刪除!

聯(lián)系客服