導航:首頁 > 網路安全 > 如何找到爬蟲的網路源

如何找到爬蟲的網路源

發布時間：2023-09-14 01:03:06

① python爬蟲怎麼獲取動態的網頁源碼

一個月前實習導師布置任務說通過網路爬蟲獲取深圳市氣象局發布的降雨數據，網頁如下：

心想，爬蟲不太難的，當年跟zjb爬煎蛋網無（mei）聊（zi）圖的時候，多麼清高。由於接受任務後的一個月考試加作業一大堆，導師也不催，自己也不急。

但是，導師等我一個月都得讓我來寫意味著這東西得有多難吧。。。今天打開一看的確是這樣。網站是基於Ajax寫的，數據動態獲取，所以無法通過下載源代碼然後解析獲得。

從某不良少年寫的抓取淘寶mm的例子中收到啟發，對於這樣的情況，一般可以同構自己搭建瀏覽器實現。phantomJs，CasperJS都是不錯的選擇。

導師的要求是獲取過去一年內深圳每個區每個站點每小時的降雨量，執行該操作需要通過如上圖中的歷史查詢實現，即通過一個時間來查詢，而這個時間存放在一個hidden類型的input標簽里，當然可以通過js語句將其改為text類型，然後執行send_keys之類的操作。然而，我失敗了。時間可以修改設置，可是結果如下圖。

為此，僅抓取實時數據。選取python的selenium，模擬搭建瀏覽器，模擬人為的點擊等操作實現數據生成和獲取。selenium的一大優點就是能獲取網頁渲染後的源代碼，即執行操作後的源代碼。普通的通過 url解析網頁的方式只能獲取給定的數據，不能實現與用戶之間的交互。selenium通過獲取渲染後的網頁源碼，並通過豐富的查找工具，個人認為最好用的就是find_element_by_xpath("xxx")，通過該方式查找到元素後可執行點擊、輸入等事件，進而向伺服器發出請求，獲取所需的數據。

[python]view plain

#coding=utf-8
fromtestStringimport*
fromseleniumimportwebdriver
importstring
importos
fromselenium.webdriver.common.keysimportKeys
importtime
importsys
default_encoding='utf-8'
ifsys.getdefaultencoding()!=default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
district_navs=['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']
district_names=['福田區','羅湖區','南山區','鹽田區','寶安區','龍崗區','光明新區','坪山新區','龍華新區','大鵬新區']
flag=1
while(flag>0):
driver=webdriver.Chrome()
driver.get("hianCe/")
#選擇降雨量
driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()
filename=time.strftime("%Y%m%d%H%M",time.localtime(time.time()))+'.txt'
#創建文件
output_file=open(filename,'w')
#選擇行政區
foriinrange(len(district_navs)):
driver.find_element_by_xpath("//div[@id='"+district_navs[i]+"']").click()
#printdriver.page_source
timeElem=driver.find_element_by_id("time_shikuang")
#輸出時間和站點名
output_file.write(timeElem.text+',')
output_file.write(district_names[i]+',')
elems=driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")
#輸出每個站點的數據，格式為：站點名，一小時降雨量，當日累積降雨量
foreleminelems:
output_file.write(AMonitorRecord(elem.get_attribute("title"))+',')
output_file.write(' ')
output_file.close()
driver.close()
time.sleep(3600)
文件中引用的文件testString只是修改輸出格式，提取有效數據。

[python]view plain

#Encoding=utf-8
defOnlyCharNum(s,oth=''):
s2=s.lower()
fomart=',.'
forcins2:
ifnotcinfomart:
s=s.replace(c,'')
returns
defAMonitorRecord(str):
str=str.split(":")
returnstr[0]+","+OnlyCharNum(str[1])

一小時抓取一次數據，結果如下：

② 如何用用網路爬蟲代碼爬取任意網站的任意一段文字

網路爬蟲是一種自動化的程序，可以自動地訪問網站並抓取網頁內容。要用網路爬蟲代碼爬取任意網站的任肢哪意一段文字，可以按照如下步驟進行：

准備工作：需要了解目標網站的結構，以及想要爬取的文字所在的網頁的URL。此外，還需要選擇一種編程語言，如Python、Java、C++等，一般建議用PYTHON，因為有完善的工具庫，並准備好相應的編程環境。
確定目標：通過研究目標網站的結構，確定想要爬取的文字所在的網頁的URL。
獲取網頁源代碼：使用編程語言的相應庫歷孫碼（如Python的urllib庫），訪問目標網頁的URL，獲取網頁的源代碼。
解析網頁源代碼：使用編程語言的相應庫（如Python的BeautifulSoup庫），解析網頁源代凱運碼，找到想要爬取的文字所在的HTML標簽。
提取文字：獲取HTML標簽的文本內容，即為所要爬取的文字。
保存結果：將爬取的文字保存到文件中或資料庫中，以便後續使用。

閱讀全文

與如何找到爬蟲的網路源相關的資料

熱點內容

電腦寬頻有網路但是沒法上網發布：2025-03-15 14:03:32 瀏覽：401

蘋果蜂窩網路賬單怎麼刪除發布：2025-03-15 14:03:28 瀏覽：83

路由器連接了wifi沒有網路發布：2025-03-15 13:51:39 瀏覽：69

cad網路列印機設置發布：2025-03-15 13:44:17 瀏覽：124

南京網路營銷技術咨詢案例發布：2025-03-15 13:44:05 瀏覽：181

游戲大廳網路不好怎麼辦發布：2025-03-15 13:43:15 瀏覽：409

如何獲得抖音網路經營場所證明發布：2025-03-15 13:37:23 瀏覽：631

gps和數據網路哪個好發布：2025-03-15 13:30:53 瀏覽：941

虛擬機伺服器配置和計算機網路發布：2025-03-15 13:30:50 瀏覽：528

計算機網路基礎子網號演算法發布：2025-03-15 12:48:54 瀏覽：413

網路連接ISP 發布：2025-03-15 12:47:34 瀏覽：277

副路由器禁用網路發布：2025-03-15 12:40:51 瀏覽：115

小洋老師網路安全手抄報發布：2025-03-15 12:33:00 瀏覽：772

廣電搜索不到無線網路發布：2025-03-15 12:17:46 瀏覽：110

中山市網路機櫃哪裡賣發布：2025-03-15 12:17:34 瀏覽：492

網路尋呼機哪個好發布：2025-03-15 12:05:37 瀏覽：792

如何在手機限制網路速度發布：2025-03-15 12:00:38 瀏覽：115

手機總是提示網路是否正常發布：2025-03-15 12:00:37 瀏覽：942

網路機頂盒能設置一個台嗎發布：2025-03-15 11:41:55 瀏覽：59

智能電視為什麼設置不了網路發布：2025-03-15 11:41:54 瀏覽：778

導航:首頁 > 網路安全 > 如何找到爬蟲的網路源

如何找到爬蟲的網路源

與如何找到爬蟲的網路源相關的資料

友情鏈接