首页>>平时在线

南开大学20秋学期(《网络爬虫与信息提取》在线作业【标准答案】

发布时间:2020-11-30 09:27:09来源admin阅读数(28)

答案请添加微信:opzy100或QQ:519688598
可做奥鹏全部院校平台作业论文!!!

 
单选题 多选题 判断题
一、单选题
共20题,40分
答案请添加 微信:opzy100或QQ:519688598
1
2分
 
()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具
AScrapyd
BScrapyDeploy
CDeploy
DScrapy_Deploy
2
2分
 
当爬虫创建好了之后,可以使用"scrapy()<爬虫名>" 命令运行爬虫。
Astartup
Bstarwar
Cdrawl
Dcrawl
3
2分
 
在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
Aspiders文件夹
Bitem.py
Cpipeline.py
Dsettings.py
4
2分
 
使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
Aswipe
Bmove
Cscroll
Dfly
5
2分
 
windows中创建定时任务的命令为
Atask
Bschtasks
Ccreatetasks
Dmaketasks
6
2分
答案请添加 微信:opzy100或QQ:519688598
MongoDB中数据存储的形式类似于()
A列表
B元组
C字典
D集合
7
2分
 
requests中post请求方法的使用为requests.post('网址', data=data)中的data为()
A列表
B元组
C字典
D集合
8
2分
 
Python中把列表转换为集合需要使用
1
函数
Aset
Blist
Cconvert
Dchange
9
2分
 
使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。
ARedis
BRedisSpider
CSpider
DMongoDB
10
2分
 
在Mac OS下安装MongoDB使用命令() install mongodb
Abrew
Bapt-get
Csudo
Dapt
11
2分
 
当需要把Python里面的数据发送给网页时,应先将其转换成()
AJson字符串
BGET
CPOST
DRequest
12
2分
答案请添加 微信:opzy100或QQ:519688598
服务器端记录信息确定用户身份的数据是
Asession
Bcookies
Cmoonpies
Dlocalstorage
13
2分
 
下列说法错误的是()
A小程序的请求极其简单,基本上没有验证信息
B用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
C如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
D小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
14
2分
 
下面Python代码输出为():
def default_para_trap(para=[], value=0):
para.append(value)
return para
print('第一步:{}'.format(default_para_trap(value=100)))
 
print('第二步:{}'.format(default_para_trap(value=50)))
 
A第一步:[100]
第二步:[100,50]
B第一步:[100]
第二步:[50]
C第一步:[100]
第二步:[]
D第一步:[100]
第二步:[100]
15
2分
 
在Scrapy的目录下,哪个文件负责存放爬虫文件?()
Aspiders文件夹
Bitem.py
Cpipeline.py
Dsettings.py
16
2分
 
xpath中extract方法返回值类型是()
A列表
B元组
C字典
D集合
17
2分答案请添加 微信:opzy100或QQ:519688598
 
参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
AHEADER
BHEADERS
CHEAD
DBODY
18
2分
 
Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A列表
B元组
C字典
D集合
19
2分
 
在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
Aspiders文件夹
Bitem.py
Cpipeline.py
Dsettings.py
20
2分
 
Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A列表
B元组
C字典
D集合
二、多选题
共10题,20分
 
1
2分
 
Python中的容器有()
A列表
B元组
C字典
D集合
2
2分
 
使用Selennium获取网页中元素的方法有
Afind_element_by_name
Bfind_element_by_id
Cfind_elements_by_name
Dfind_elements_by_id
3
2分
 
一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B在发现某个请求已经被设置过代理后,什么也不做,直接返回
C在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D周期性验证数据库中的无效代理,及时将其删除
4
2分
答案请添加 微信:opzy100或QQ:519688598
下列关于在IOS上配置charles的说法正确的是()
A不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B手机和电脑需要在同一个局域网下。
CHTTP代理可以使用“自动”选项。
D安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
5
2分
 
下列说法错误的是()
Amitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B命令行中执行mitmdump -s parse_request.py即可运行python 脚本
C使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
D如果返回的是JSON类型的字符串,python无法进行解析。
6
2分
 
以下HTTP状态码表示服务器本身发生错误的是
A400
B503
C302
D500
7
2分
 
Python中哪种容器生成后可以修改内容
A列表
B元组
C字典
D集合
8
2分
 
以下HTTP状态码表示服务器没有正常返回结果的是
A200
B301
C404
D500
9
2分
 
如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A服务器日志
B数据库日志记录
C程序日志记录
D服务器监控
10
2分
答案请添加 微信:opzy100或QQ:519688598
requests中post请求方法的第二个参数可以为()
A字典
B列表
Cjson数据
D字符串
三、判断题
共20题,40分
 
1
2分
 
process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
A对
B错
2
2分
 
需要登录的网站一般通过GET请求就可以实现登录。
A对
B错
3
2分
 
Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
A对
B错
4
2分
 
UI Automator Viewer与Python uiautomator可以同时使用
A对
B错
5
2分
 
device.sleep()方法是使用UI Automatorr关闭屏幕的命令
A对
B错
6
2分
答案请添加 微信:opzy100或QQ:519688598
在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
A对
B错
7
2分
 
mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
A对
B错
8
2分
 
MongoDB是一个关系数据库产品
A对
B错
9
2分
 
Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。
A对
B错
10
2分
 
Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
A对
B错
11
2分
答案请添加 微信:opzy100或QQ:519688598
Charles和Chrome开发者工具相比,只是多了一个搜索功能。
A对
B错
12
2分
 
爬虫中间件的激活需要另外写一个文件来进行
A对
B错
13
2分
 
Cookies一般包含在请求头Headers中
A对
B错
14
2分
 
已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
A对
B错
15
2分
 
如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
A对
B错
16
2分
答案请添加 微信:opzy100或QQ:519688598
Redis中使用lrange读取数据后数据也会删除
A对
B错
17
2分
 
开源库pytesseract的作用是将图像中文字转换为文本。
A对
B错
18
2分
 
Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
A对
B错
19
2分
 
”curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫
A对
B错
20
2分
答案请添加 微信:opzy100或QQ:519688598
中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术
A对
B错
 

奥鹏作业辅导、国开作业辅导、毕业论文辅导、需要的请联系客服QQ或微信:519688598

微信订阅

QQ订阅

版权声明:本站文章和资源均来源于互联网, 按照 CCBY-NC-SA 3.0 CN协议 发布和共享,如有侵犯版权的资源 请邮件至519688598@qq.com 我们会在24h内删除

备案号:鲁ICP备2020044172号-1收藏本站 - 网站地图 - 平时在线 - 平时离线 - 毕业论文