23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
2.参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
A.HEADER
B.HEADERS
C.HEAD
D.BODY
3.可以通过()绕过网站登录。
A.session
B.cookies
C.moonpies
D.localstorage
4.下面代码一共执行循环多少次(): i=0 while i<10: i+=1
A.9
B.10
C.11#0
5.Python并导入uiautomator来操作设备的语句是from uiautomator import ()
A.Device
B.Devices
C.Jobs
D.Job
6.Python中的()库用于发送网络请求
A.web
B.request
C.requests
D.javascript
7.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典
D.集合
8.HTTP常用状态码表明服务器上没有请求的资源的是()
A.500
B.503
C.403
D.404
9.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
10.PyMongo中查询所有age > 29的记录是()
A.collection.find({'age': {'$gt': 29}})
B.collection.find({'age'>29})
C.collection.find_all({'age': {'$gt': 29}})
D.collection.find_all({'age'>29})
11.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A.content
B.text
C.title
D.body
12.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。
A.字典
B.集合的名字
C.集合
D.文档
13.使用UI Automator打开微信的操作是获取相应图标后使用命令()
A.touch
B.click
C.push
D.hover
14.Scrapy自带的待爬队列是()
A.deque
B.queue
C.list
D.lqueue
15.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
16.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
17.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个()。
A.字典
B.集合的名字
C.集合
D.文档
18.Python中哪种容器一旦生成就不能修改
A.列表
B.元组
C.字典
D.集合
19.使用xpath方法的返回类型是()
A.列表
B.元组
C.字典
D.集合
20.python中可以用来将图片中的文字转换为文本的第三方类库是
A.lxml
B.requests
C.beautifulsoup
D.pytesseract
二、多选题 (共 10 道试题,共 20 分)
21.requests中post请求方法的第二个参数可以为()
A.字典
B.列表
C.json数据
D.字符串
22.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
23.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
A.403
B.404
C.500
D.503
24.下载器中间件的作用有哪些?
A.更换代理IP
B.更换Cookies
C.更换User-Agent
D.自动重试
25.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
26.Python中的容器有()
A.列表
B.元组
C.字典
D.集合
27.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A.非法侵入计算机系统罪
B.非法获取计算机信息系统数据罪
C.非法获取计算机数据罪
D.非法获取系统罪
28.要使用tesseract来进行图像识别,需要安装两个第三方库
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
29.Python中有哪些实现多线程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
30.在配置ios使用Charles的操作中,正确的有()
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
三、判断题 (共 20 道试题,共 40 分)
31.所有的异步加载都会向后台发送请求
32.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
33.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;
34.PyMongoDB中排序方法sort第二个参数-1表示升序
35.通用网络爬虫通常采用串行工作方式
36.Python中写CSV文件的writerows方法参数为字典类型
37.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线
38.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码
39.操作文本难以实现自动化,而操作图形界面可以容易的实现自动化。
40.如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
41.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
42.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
43.Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
44.HTTP只能通过POST请求才能发送数据
45.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
46.使用AJAX技术,可以在不刷新网页的情况下更新网页数据
47.”curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫
48.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是首先把数据或者分析结果出售给某基金公司,然后自己再买被爬公司的股票。此时,涉嫌内幕交易,属于严重违法行为。
49.Redis中查询列表长度命令llen中l代表left,即从左侧开始数
50.爬虫中间件的作用对象是请求request和返回response