导航:首页 > 网络安全 > 如何找到爬虫的网络源

如何找到爬虫的网络源

发布时间：2023-09-14 01:03:06

① python爬虫怎么获取动态的网页源码

一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据，网页如下：

心想，爬虫不太难的，当年跟zjb爬煎蛋网无（mei）聊（zi）图的时候，多么清高。由于接受任务后的一个月考试加作业一大堆，导师也不催，自己也不急。

但是，导师等我一个月都得让我来写意味着这东西得有多难吧。。。今天打开一看的确是这样。网站是基于Ajax写的，数据动态获取，所以无法通过下载源代码然后解析获得。

从某不良少年写的抓取淘宝mm的例子中收到启发，对于这样的情况，一般可以同构自己搭建浏览器实现。phantomJs，CasperJS都是不错的选择。

导师的要求是获取过去一年内深圳每个区每个站点每小时的降雨量，执行该操作需要通过如上图中的历史查询实现，即通过一个时间来查询，而这个时间存放在一个hidden类型的input标签里，当然可以通过js语句将其改为text类型，然后执行send_keys之类的操作。然而，我失败了。时间可以修改设置，可是结果如下图。

为此，仅抓取实时数据。选取python的selenium，模拟搭建浏览器，模拟人为的点击等操作实现数据生成和获取。selenium的一大优点就是能获取网页渲染后的源代码，即执行操作后的源代码。普通的通过 url解析网页的方式只能获取给定的数据，不能实现与用户之间的交互。selenium通过获取渲染后的网页源码，并通过丰富的查找工具，个人认为最好用的就是find_element_by_xpath("xxx")，通过该方式查找到元素后可执行点击、输入等事件，进而向服务器发出请求，获取所需的数据。

[python]view plain

#coding=utf-8
fromtestStringimport*
fromseleniumimportwebdriver
importstring
importos
fromselenium.webdriver.common.keysimportKeys
importtime
importsys
default_encoding='utf-8'
ifsys.getdefaultencoding()!=default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
district_navs=['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']
district_names=['福田区','罗湖区','南山区','盐田区','宝安区','龙岗区','光明新区','坪山新区','龙华新区','大鹏新区']
flag=1
while(flag>0):
driver=webdriver.Chrome()
driver.get("hianCe/")
#选择降雨量
driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()
filename=time.strftime("%Y%m%d%H%M",time.localtime(time.time()))+'.txt'
#创建文件
output_file=open(filename,'w')
#选择行政区
foriinrange(len(district_navs)):
driver.find_element_by_xpath("//div[@id='"+district_navs[i]+"']").click()
#printdriver.page_source
timeElem=driver.find_element_by_id("time_shikuang")
#输出时间和站点名
output_file.write(timeElem.text+',')
output_file.write(district_names[i]+',')
elems=driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")
#输出每个站点的数据，格式为：站点名，一小时降雨量，当日累积降雨量
foreleminelems:
output_file.write(AMonitorRecord(elem.get_attribute("title"))+',')
output_file.write(' ')
output_file.close()
driver.close()
time.sleep(3600)
文件中引用的文件testString只是修改输出格式，提取有效数据。

[python]view plain

#Encoding=utf-8
defOnlyCharNum(s,oth=''):
s2=s.lower()
fomart=',.'
forcins2:
ifnotcinfomart:
s=s.replace(c,'')
returns
defAMonitorRecord(str):
str=str.split(":")
returnstr[0]+","+OnlyCharNum(str[1])

一小时抓取一次数据，结果如下：

② 如何用用网络爬虫代码爬取任意网站的任意一段文字

网络爬虫是一种自动化的程序，可以自动地访问网站并抓取网页内容。要用网络爬虫代码爬取任意网站的任肢哪意一段文字，可以按照如下步骤进行：

准备工作：需要了解目标网站的结构，以及想要爬取的文字所在的网页的URL。此外，还需要选择一种编程语言，如Python、Java、C++等，一般建议用PYTHON，因为有完善的工具库，并准备好相应的编程环境。
确定目标：通过研究目标网站的结构，确定想要爬取的文字所在的网页的URL。
获取网页源代码：使用编程语言的相应库历孙码（如Python的urllib库），访问目标网页的URL，获取网页的源代码。
解析网页源代码：使用编程语言的相应库（如Python的BeautifulSoup库），解析网页源代凯运码，找到想要爬取的文字所在的HTML标签。
提取文字：获取HTML标签的文本内容，即为所要爬取的文字。
保存结果：将爬取的文字保存到文件中或数据库中，以便后续使用。

阅读全文

与如何找到爬虫的网络源相关的资料

热点内容

广电搜索不到无线网络发布：2025-03-15 12:17:46 浏览：107

中山市网络机柜哪里卖发布：2025-03-15 12:17:34 浏览：488

网络寻呼机哪个好发布：2025-03-15 12:05:37 浏览：791

如何在手机限制网络速度发布：2025-03-15 12:00:38 浏览：113

手机总是提示网络是否正常发布：2025-03-15 12:00:37 浏览：938

网络机顶盒能设置一个台吗发布：2025-03-15 11:41:55 浏览：57

智能电视为什么设置不了网络发布：2025-03-15 11:41:54 浏览：776

网络安全宣传教育机制发布：2025-03-15 11:30:23 浏览：989

网信办网络安全专家组座谈会发布：2025-03-15 11:01:14 浏览：630

进京证显示网络异常什么原因发布：2025-03-15 10:59:48 浏览：383

电脑连接网络图解大全发布：2025-03-15 10:56:20 浏览：723

银川哪个公司的无线网络好发布：2025-03-15 10:46:47 浏览：918

wifi网络覆盖用的哪些设备发布：2025-03-15 10:26:37 浏览：166

网络dcnip密码忘了怎么办发布：2025-03-15 10:18:24 浏览：742

华视讯网络摄像机密码发布：2025-03-15 10:18:14 浏览：416

手机连接wifi经常显示网络不佳发布：2025-03-15 10:11:36 浏览：877

网络安全进阶笔记pdf 发布：2025-03-15 10:10:16 浏览：568

网络差蓝牙可以连接吗发布：2025-03-15 10:05:13 浏览：947

网络电话用哪个软件发布：2025-03-15 10:00:54 浏览：94

哪些电脑网络游戏不需要钱发布：2025-03-15 09:45:35 浏览：303

导航:首页 > 网络安全 > 如何找到爬虫的网络源

如何找到爬虫的网络源

与如何找到爬虫的网络源相关的资料

友情链接