23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00001
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。
A.startup
B.starwar
C.drawl
D.crawl
2.Redis中读取数据语句lrange chapter 0 3,那么表示读列表中()个值
A.2
B.3
C.4
D.5
3.PyMongo中逻辑查询表示小于等于的符号是()
A.$gt
B.$lt
C.$gte$$lte
4.Python中把列表转换为集合需要使用##函数
A.set
B.list
C.convert
D.change
5.HTTP常用状态码表明服务器内部资源出故障了的是()
A.500
B.503
C.403
D.404
6.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
7.要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库()
A.uiautomator
B.automator
C.ui_automator
D.pyautomator
8.HTTP常用状态码表明服务器不允许访问那个资源的是()
A.500
B.503
C.403
D.405
9.网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A.robot.txt
B.robot.html
C.robots.txt
D.robots.html
10.服务器端记录信息确定用户身份的数据是
A.session
B.cookies
C.moonpies
D.localstorage
11.使用UI Automatorr让屏幕向左滚动的操作是得到相应控件后使用命令()
A.scroll.left
B.scroll.horiz.left
C.scroll.forward
D.scroll.horiz.forward
12.浏览器用来记录用户状态信息的数据叫
A.session
B.cookies
C.moonpies
D.selenium
13.PyMongo中逻辑查询表示大于的符号是()
A.$gt
B.$lt
C.$gte$$lte
14.Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A.列表
B.元组
C.字典
D.集合
15.当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
16.Python中专门用来处理图像的第三方库是
A.lxml
B.Pillow
C.beautifulsoup
D.pytesseract
17.以下HTTP状态码与302等价的是
A.301
B.303
C.304
D.307
18.下面代码一共执行循环多少次(): for i in range(10): print(i ** i)
A.9
B.10
C.11#0
19.MongoDB中数据存储的形式类似于()
A.列表
B.元组
C.字典
D.集合
20.在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
二、多选题 (共 10 道试题,共 20 分)
21.下列说法错误的是()
A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B.命令行中执行mitmdump -s parse_request.py即可运行python 脚本
C.使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
D.如果返回的是JSON类型的字符串,python无法进行解析。
22.下列关于mitmproxy的使用说法正确的是()
A.mitmproxy的端口为8080端口。
B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动。
C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息。
D.如果要访问HTTPS网站,还需要安装mitmproxy的证书
23.下载器中间件的作用有哪些?
A.更换代理IP
B.更换Cookies
C.更换User-Agent
D.自动重试
24.以下哪种方法是MongoDB的查找方法()
A.find
B.find_one
C.finds
D.find_all
25.Python中一个函数可以有()个return语句
A.0
B.1
C.多个
D.2
26.MongoDB中获取名字为db的库的语句为()
A.client.db
B.client('db')
C.client['db']
D.client{'db'}
27.Python中哪种容器生成后可以修改内容
A.列表
B.元组
C.字典
D.集合
28.Python中一个函数没有返回值则可以写()
A.没有return
B.return
C.return None
D.return NULL
29.Python中()与元组由类似的数据读取方式
A.字符串
B.列表
C.字典
D.集合
30.要使用tesseract来进行图像识别,需要安装两个第三方库
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
三、判断题 (共 20 道试题,共 40 分)
31.使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
32.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码
33.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
34.当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
35.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
36.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
37.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。
38.cookies在http请求中是明文传输的。
39.MongoDB支持对查询到的结果进行排序。排序的方法为sort()。它的格式为: handler.find().sort('列名', 1或-1或0)
40.在使用多线程处理问题时,线程池设置越大越好
41.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f
42.robots.txt是一种规范,在法律范畴内
43.上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。
44.requests中get请求方法的使用为requests.get('网址', data=data)
45.Charles和Chrome开发者工具相比,只是多了一个搜索功能。
46.需要实名认证的打码网站更加安全可靠。
47.Redis的列表是一个单向队列
48.爬虫中间件的激活需要另外写一个文件来进行
49.如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。
50.使用Charles直接抓取HTTPS的数据包,就会出现大量的Method为CONNECT的请求,但是这些请求又全部都会失败,是没有安装SSL证书导致的
奥鹏,国开,广开,电大在线,各省平台,新疆一体化等平台学习
详情请咨询QQ : 3230981406或微信:aopopenfd777