南开22春学期《网络爬虫与信息提取》在线作业【资料答案】-奥鹏学无忧教育辅导

22春学期（高起本1709-1803、全层次1809-2103）《网络爬虫与信息提取》在线作业-00001

试卷总分:100 得分:100

一、单选题 (共 20 道试题,共 40 分)

1.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。

A.字典

B.集合的名字

C.集合

D.文档

2.Redis若要进入交互环境,需要打开终端输入()

A.redis-cli

B.redis

C.redis-cmd

D.redis-start

3.xpath中extract方法返回值类型是()

A.列表

B.元组

C.字典

D.集合

4.Scrapy自带的待爬队列是()

A.deque

B.queue

C.list

D.lqueue

5.请问按哪个键可以打开Chrome自带的开发者工具()

A.F10

B.F1

C.F11

D.F12

6.服务器端记录信息确定用户身份的数据是

A.session

B.cookies

C.moonpies

D.localstorage

7.以下关于Charles的说法正确的是( )

A.Charles是一个跨平台的HTTP抓包工具，可以截取HTTP或者HTTPS请求的数据包

B.Charles有Windows 32/64版和Linux 64 版，但是目前还没有对Mac OS进行有效的支持。

C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标，可以清停止抓包。

D.在Charles启动时，系统自带浏览器的部分HTTP流量不会经过Charles。

8.MongoDB中数据存储的形式类似于()

A.列表

B.元组

C.字典

D.集合

9.一般来说在页面传输登录信息都用HTTP()请求类型

A.GET

B.POST

C.PUT

D.SEND

10.使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。

A.Redis

B.RedisSpider

C.Spider

D.MongoDB

11.当需要把Python里面的数据发送给网页时,需要先转换成()字符串

A.Python

B.Json

C.正则表达式

D.Ajax

12.lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据

A.etree.tostring

B.etree.convertBytes

C.etree.toBytes

D.etree.convertstring

13.Python中以下哪个容器里的元素不能重复()

A.列表

B.元组

C.字典

D.集合

14.通常使用()工具来模拟浏览器进行爬虫请求

A.Selenium

B.Chrome

C.ChromeDriver

D.WebDriver

15.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50)))

A.第一步:[100] 第二步:[100,50]

B.第一步:[100] 第二步:[50]

C.第一步:[100] 第二步:[]

D.第一步:[100] 第二步:[100]

16.Python中若定义object=[1, 2, 3, 4, 5],则print(object[:3])输出()

A.12

B.123

C.23

D.234

17.使用Xpath构造属性值包含相同字符串的路径采用()方法

A.contain

B.contains

C.include

D.includes

18.使用UI Automatorr长按点击的操作是得到相应控件后使用命令()

A.longclick

B.long_click

C.clicklong

D.click_long

19.HTTP常用状态码表明服务器上没有请求的资源的是()

A.500

B.503

C.403

D.404

20.Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法

A.组件

B.模块

C.控件

D.单元

二、多选题 (共 10 道试题,共 20 分)

21.Python中有哪些实现多线程方法()

A.multiprocess.dummy

B.threading.Thread

C.process

D.PyMongoDB

22.最常见的HTTP请求类型有()

A.GET

B.POST

C.SEND

D.RECEIVE

23.Redis中的值可以支持()

A.列表

B.哈希

C.集合

D.有序集合

24.常用的会话跟踪技术是

A.session

B.cookies

C.moonpies

D.localstorage

25.以下哪种方法是MongoDB的查找方法()

A.find

B.find_one

C.finds

D.find_all

26.针对解析源代码的BeautifulSoup对象,构造时BeautifulSoup(网页源代码, '解析器')中的解析器可以为()

A.html

B.html.parser

C.lxml

D.xml

27.Python中一个函数可以有()个return语句

A.0

B.1

C.多个

D.2

28.Python中的容器有()

A.列表

B.元组

C.字典

D.集合

29.Python中一个函数没有返回值则可以写()

A.没有return

B.return

C.return None

D.return NULL

30.下列关于在IOS上配置charles的说法正确的是()

A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。

B.手机和电脑需要在同一个局域网下。

C.HTTP代理可以使用“自动”选项。

D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动

三、判断题 (共 20 道试题,共 40 分)

31.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f

32.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

33.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。

34.插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1

35.Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。

36.使用Scrapyd,可以实现一键部署Scrapy爬虫,访问一个网址就启动/停止爬虫

37.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;

38.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。

39.HTTP状态码302与307完全同义。

40.如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。

41.HTTP状态码302表示资源永久重定向。

42.使用异步加载技术的网站,被加载的内容可以在源代码中找到

43.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。

44.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。

45.在请求头中设置User-Agent即可正常请求网站

46.爬虫中间件的激活需要另外写一个文件来进行

47.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis

48.当使用Charles监控iOS设备或者Android设备的数据包以后,打开微信小程序,小程序的数据包不能自动被Charles抓住,需要另作处理。

49.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。

50.Python中写CSV文件的writerows方法参数为字典类型

奥鹏，国开，广开，电大在线，各省平台，新疆一体化等平台学习
详情请咨询QQ : 3230981406或微信:aopopenfd777

微信客服扫一扫