22春学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息提取》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.PyMongo中逻辑查询表示小于的符号是()
A.$gt
B.$lt
C.$gte$$lte
2.在Mac OS下安装MongoDB使用命令() install mongodb
A.brew
B.apt-get
C.sudo
D.apt
3.服务器端记录信息确定用户身份的数据是
A.session
B.cookies
C.moonpies
D.localstorage
4.在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()
A.ROBOTSTXT_ OBEY
B.ROBOTSTXT_JUDGE
C.ROBOTSTXT
D.ROBOTSTXT_ IF
5.下列哪项不是HTTP的请求类型()
A.GET
B.POST
C.PUT
D.SET
6.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A.content
B.text
C.title
D.body
7.当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A.process_spider_output()
B.process_spider_exception()
C.process_spider_input()
D.process_start_ requests()
8.Redis中查看一个列表长度,使用关键字()
A.len
B.length
C.llen
D.count
9.Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
10.打开终端,输入(),屏幕上会出现Python的路径
A.python path
B.path python
C.which python
D.python which
11.python中可以用来将图片中的文字转换为文本的第三方类库是
A.lxml
B.requests
C.beautifulsoup
D.pytesseract
12.Redis中如果不删除列表中的数据,又要把数据读出来,就需要使用关键字()
A.range
B.lrange
C.srange
D.pop
13.请问按哪个键可以打开Chrome自带的开发者工具()
A.F10
B.F1
C.F11
D.F12
14.Python操作CSV文件可通过()容器的方式操作单元格
A.列表
B.元组
C.字典
D.集合
15.当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
16.Python中Object=[1, 2, 3, 4, 5],则Objcet是()
A.列表
B.元组
C.字典
D.集合
17.Python中若定义object="12345",则print(object[::-1])输出()
A.1
B.5
C.54321
D.程序报错
18.HTTP状态码401表示
A.请求报文中可能存在语法错误
B.请求需要通过HTTP认证
C.请求资源的访问被拒绝
D.服务器上没有请求的资源
19.如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
A.列表
B.元组
C.字典
D.集合
20.在Python中,为了使用XPath,需要安装一个第三方库()
A.lxml
B.xml
C.xpath
D.path
二、多选题 (共 10 道试题,共 20 分)
21.针对解析源代码的BeautifulSoup对象,构造时BeautifulSoup(网页源代码, '解析器')中的解析器可以为()
A.html
B.html.parser
C.lxml
D.xml
22.MongoDB中获取名字为set1的集合的语句为()
A.database.set1
B.database('set1')
C.database['set1']
D.database{'set1'}
23.下列说法错误的是()
A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B.命令行中执行mitmdump -s parse_request.py即可运行python 脚本
C.使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
D.如果返回的是JSON类型的字符串,python无法进行解析。
24.使用BeautifulSoup对象后可以使用()来查找内容
A.find_all
B.find
C.search
D.search_all
25.以下哪些可以独立成为Python编译器()
A.Pycharm
B.IDLE
C.Eclipse
D.Visual Studio 2010
26.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
27.要使用tesseract来进行图像识别,需要安装两个第三方库
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
28.在配置ios使用Charles的操作中,正确的有()
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
29.以下HTTP状态码表示服务器本身发生错误的是
A.400
B.503
C.302
D.500
30.以下HTTP状态码表示服务器没有正常返回结果的是
A.200
B.301
C.404
D.500
三、判断题 (共 20 道试题,共 40 分)
31.Python中字符串切片以后的结果还是字符串
32.打码平台都是靠机器使用OCR技术识别图片上的文字。
33.验证码必须通过手动填充识别。
34.代理中间件的可用代理列表一定要写在settings.py里面
35.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。
36.MongoDB 是一个基于分布式文件存储的数据库,,速度远快过Redis
37.爬虫的源代码通过公开不会对被爬虫网站造成影响
38.一般来说在页面都通过GET将用户登录信息传递到服务器端。
39.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
40.通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
41.Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
42.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码
43.Redis中查询列表长度命令llen中l代表left,即从左侧开始数
44.middlewares.py是下载器中间件
45.需要实名认证的打码网站更加安全可靠。
46.开源库pytesseract的作用是将图像中文字转换为文本。
47.要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样
48.Python中包含字典的列表页可以转换成JSON字符串
49.在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失误而导致的冗余文件。
50.Python中函数返回值的个数可以是多个