您現(xiàn)在的位置：首頁 > IT資訊 > 軟件研發(fā) > 使用Python進(jìn)行Web爬取和數(shù)據(jù)提取

使用Python進(jìn)行Web爬取和數(shù)據(jù)提取

2020-07-28 15:48:06　|　來源：中培企業(yè)IT培訓(xùn)網(wǎng)

　　今天為大家介紹的是關(guān)于使用Python進(jìn)行Web爬取和數(shù)據(jù)提取的內(nèi)容。我們首先是要清楚地了解任務(wù)。他們希望我們從中抓取數(shù)據(jù)，然后將其保存在CSV文件中，其中上面列出的我們將抓取信息：日期（“以下信息反映了終止{日期}的FMCSA管理信息系統(tǒng)的內(nèi)容”），運(yùn)行狀態(tài)，合法名稱，DBA名稱，實(shí)際地址，郵寄地址，USDOT號(hào)，動(dòng)力單元，車手。

　　步驟1：了解任務(wù)

　　我們可以提供100個(gè)DOT號(hào)碼的初始設(shè)置，以確保可以輕松地刮除上面的信息，從那里我們可以提供每天要刮擦的所有DOT號(hào)碼。

　　報(bào)告頁面可以通過點(diǎn)或其他名稱ID進(jìn)行訪問。每個(gè)頁面都有自己的ID（點(diǎn)）。因此，這些點(diǎn)位于Excel文件中。我們必須閱讀此文件并從中提取點(diǎn)，然后將其傳遞到URL以訪問報(bào)告頁面。

　　第2步：創(chuàng)建環(huán)境并安裝依賴項(xiàng)

　　現(xiàn)在，我們知道了客戶希望從我們這里得到什么，因此讓我們創(chuàng)建虛擬環(huán)境，然后檢查將要爬網(wǎng)的元素。

　　要?jiǎng)?chuàng)建virtualenv，請(qǐng)?jiān)诮K端中運(yùn)行以下命令：

　　虛擬環(huán)境

　　然后安裝BeautifulSoup（這是一個(gè)用于解析HTML和XML文檔的Python包）和xlrd（這是一個(gè)用于從Excel文件讀取數(shù)據(jù)并設(shè)置信息格式的庫）：

　　pip install beautifulsoup4 xlrd

　　步驟3：檢索數(shù)據(jù)

　　好了，開發(fā)人員！讓我們從打開項(xiàng)目描述的示例URL開始，剎車可以看到細(xì)分。

　　提示以查看示例URL

　　我們的第一個(gè)目標(biāo)是查找-日期（“以下信息反映了終止{日期}的FMCSA管理信息系統(tǒng)的內(nèi)容”）

　　以下信息反映了截止日期01/01/2020的FMCSA管理信息系統(tǒng)的內(nèi)容。

　　事實(shí)是，我們無法通過特定的類名或ID來檢索此元素。不幸的是，此報(bào)告頁面隱藏混亂。

　　但是，我們可以將它們?nèi)孔鳛槲谋具M(jìn)行爬網(wǎng)，并使用RegEx提取所需的數(shù)據(jù)。

　　正則表達(dá)式（RegEx）是特殊的字符序列，可使用模式中保留的特殊語法來幫助您匹配或查找其他字符串或字符串集。

　　日期位于之間。以下信息反映了FMCSA管理信息系統(tǒng)的開始日期，以及..（點(diǎn)）。因此，要輸入日期正則表達(dá)式將在這些字符串之間查找。

　　import re＃regeximport urllib.request from urllib.request import urlopen，Requestfrom bs4 import BeautifulSoupdef crawl_data（url）：

　　req = Request（URL，標(biāo)頭= {'User-Agent'：'Mozilla / 5.0'}）

　　html = urlopen（req）.read（）

　　bs = BeautifulSoup（html，'html.parser'）

　　＃查找所有粗體文本

　　bold_texts = bs.find_all（'b'）

　　對(duì)于b在bold_texts中：

　　嘗試：

　　＃在這些字符串之間看

　　date = re.search（'以下信息反映了FMCSA管理信息系統(tǒng)自（。*）起的內(nèi)容。'，b.get_text（strip = True，分隔符=''））。group（1）.strip（）

　　＃如果正則表達(dá)式找到多個(gè)點(diǎn)，則在第一個(gè)點(diǎn)之前提取字符串

　　如果len（date）> 11：

　　日期= date.split（“。”，1）[0]

　　打印（日期）

　　除了AttributeError：

　　通過

　　好吧，如果您運(yùn)行該程序，您將看到它正在打印日期。快速向您展示正則表達(dá)式的工作原理，因?yàn)槲矣行┤讼肓私狻?/span>

　　考慮以下代碼：

　　匯入

　　＃我們需要從字符串中提取“ coderasha”

　　data =“您好，我叫Coderasha。”

　　名稱= re.search（'你好我的名字是（。*）。'，數(shù)據(jù)）

　　打印（名稱）

　　＃輸出：<_sre.SRE_Match對(duì)象；span =（0，27），match ='你好，我叫Coderasha。'>

　　group（1）將其中正則表達(dá)式匹配的文本捕獲到一個(gè)編號(hào)組中，該編號(hào)組可以與編號(hào)后向引用一起重用

　　匯入

　　＃我們需要從字符串中提取“ coderasha”

　　data =“您好，我叫Coderasha。”

　　名稱= re.search（'你好我的名字是（。*）。'，數(shù)據(jù)）.group（1）

　　打印（名稱）

　　＃輸出：coderasha

　　因此，我正在應(yīng)用相同的邏輯來查找爬網(wǎng)的串行中的日期。

　　但是，我們必須使用RegEx再次查找數(shù)據(jù)，因?yàn)楸碓貨]有任何特殊屬性。

　　＃獲取表格內(nèi)的所有文本

　　信息= bs.find（'中心'）.get_text（strip =真，分隔符=''）＃使用RegEx查找字段

　　Operating = re.search（'Operating Status：（。*）Out'，information）.group（1）.strip（）

　　legal_name = re.search（'法律名稱：（。*）DBA'，信息）.group（1）.strip（）

　　physical_address = re.search（'Physical Address：（。*）Phone'，information）.group（1）.strip（）

　　mailing_address = re.search（'郵件地址：（。*）USDOT'，信息）.group（1）.strip（）

　　usdot_address = re.search（'USDOT號(hào)：（。*）國家運(yùn)營商ID號(hào)'，信息）.group（1）.strip（）

　　power_units = re.search（'Power Units：（。*）Drivers'，information）.group（1）.strip（）

　　drivers = re.search（'Drivers：（。*）MCS-150表格日期'，信息）.group（1）.strip（）

　　步驟4：以CSV格式寫入資料

　　抓取數(shù)據(jù)后，就該創(chuàng)建新的csv文件鏈接數(shù)據(jù)寫入其中了。我更喜歡創(chuàng)建另一個(gè)函數(shù)來處理此操作。

　　導(dǎo)入csvdef write_csv（日期，運(yùn)行，legal_name，物理地址，mailing_address，usdot_address，power_units，驅(qū)動(dòng)程序）：

　　使用open（usdot_address +'.csv'，mode ='w'，newline =''，encoding =“ utf-8”）作為csv_file：

　　字段名稱= [“日期”，“運(yùn)行狀態(tài)”，“法律名稱”，“物理地址”，“郵寄地址”，“動(dòng)力裝置”，“驅(qū)動(dòng)程序”]

　　writer = csv.DictWriter（csv_file，fieldnames = fieldnames）

　　writer.writeheader（）

　　writer.writerow（{''Date'：date，'Operating Status'：Operating，'Legal_Name'：legal_name，'Physical Address'：physical_address，'Mailing Address'：mailing_address，'Power Units：power_units，'Drivers'：drivers }）

　　CSV名稱必須唯一，因此我用usdot_address或使用已抓取數(shù)據(jù)的報(bào)告頁面的其他名稱ID。

　　步驟5：讀取Excel文件以抓取每個(gè)點(diǎn)的數(shù)據(jù)

　　最后一步是讀取excel文件，將這些點(diǎn)傳遞到URL的末尾以訪問頁面。我們可以用xlrd讀取Excel文件。

　　導(dǎo)入xlrd

　　點(diǎn)= [] def read_excel_file（）：

　　loc =（“ dots.xls”）

　　wb = xlrd.open_workbook（loc）

　　工作表= wb.sheet_by_index（0）

　　sheet.cell_value（0，0）

　　＃Excel中的前五個(gè)點(diǎn)

　　對(duì)于我在范圍（1,5）中：

　　＃將浮點(diǎn)數(shù)轉(zhuǎn)換為字符串并從.0清除

　　點(diǎn)= str（sheet.cell_value（i，0））。replace（'。0'，''）

　　dots.append（dot）

　　xlrd將數(shù)字讀取為浮點(diǎn)數(shù)，因此最好的解決方案是將數(shù)字轉(zhuǎn)換為字符串并使用

　　更換（）

　　刪除字符串.0結(jié)尾將這些點(diǎn)傳遞到url中的方法：

　　對(duì)于點(diǎn)中的點(diǎn)：

　　crawl_data

　　＃睡眠5秒，避免任何錯(cuò)誤

　　time.sleep（5）

　　這是完整代碼：

　　導(dǎo)入重新導(dǎo)入csv導(dǎo)入urllib.request從urllib.request導(dǎo)入urlopen，Requestfrom bs4導(dǎo)入BeautifulSoupimport xlrd導(dǎo)入時(shí)間