【南开】《网络爬虫与信息提取》20春期末考核（标准答案）-奥鹏学无忧教育辅导

可做奥鹏院校所有作业，毕业论文，咨询请添加QQ：3230981406 微信：aopopenfd777

《网络爬虫与信息提取》20春期末考核-00001

试卷总分:100 得分:100

一、单选题 (共 20 道试题,共 40 分)

1.如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()

A.列表

B.元组

C.字典

D.集合

答案:C

2.使用UI Automatorr输入文字的操作是得到相应控件后使用命令()

A.settext

B.set

C.set_text

D.text

答案:C

3.在Scrapy的目录下,哪个文件负责存放爬虫文件?()

A.spiders文件夹

B.item.py

C.pipeline.py

D.settings.py

答案:A

4.HTTP常用状态码表明服务器正忙的是()

A.500

B.503

C.403

D.404

5.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击

A.XSS

B.DOS

C.DDOS

D.跨域

6.使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()

A.exist

B.exists

C.isnull

D.contains

7.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率

A.Cookie

B.Html

C.Headers

D.CSS

8.Redis中查看一个列表长度,使用关键字()

A.len

B.length

C.llen

D.count

9.使用Xpath获取文本使用()

A.text

B.text()

C.content

D.content()

10.使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}

A.headers

B.文本内容

C.目标网站

D.user-agent

11.Python中Object={1, 2, 3, 4, 5},则Objcet是()

A.列表

B.元组

C.字典

D.集合

12.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()

A.spiders文件夹

B.item.py

C.pipeline.py

D.settings.py

13.Redis是一个开源的使用()语言编写

A.ANSI C

B.C++

C.JAVA

D.Python

14.某些网站在发起Ajax请求时会携带()字符串用于身份验证

A.Token

B.Cookie

C.ReqTime

D.sum

15.使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()

A.wakeup

B.light

C.bright

D.sleep

16.Chrome的开发者工具中哪个选项可以查找到cookies

A.Elements

B.Sources

C.Network

D.Peformance

17.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成

A.列表

B.元组

C.字典

D.集合

18.以下哪个命令是创建文件夹命令()

A.curl

B.tar -zxvf

C.mkdir

D.cp

19.可以通过()绕过网站登录。

A.session

B.cookies

C.moonpies

D.localstorage

20.Python中把列表转换为集合需要使用##函数

A.set

B.list

C.convert

D.change

二、多选题 (共 5 道试题,共 10 分)

21.Python中的容器有()

A.列表

B.元组

C.字典

D.集合

22.HTTP常用状态码表明表明服务器本身发生错误的有()

A.403

B.404

C.500

D.503

23.Python中哪种容器生成后可以修改内容

A.列表

B.元组

C.字典

D.集合

24.最常见的HTTP请求类型有()

A.GET

B.POST

C.SEND

D.RECEIVE

25.BS4可以用来从()中提取数据

A.HTML

B.XML

C.数据库

D.JSON

三、判断题 (共 10 道试题,共 20 分)

26.在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装

27.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码

28.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用

29.Robo 3T与RoboMongo是完全不一样的软件

30.Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。

31.Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取

32.爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行

33.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis

34.middlewares.py是下载器中间件

35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

四、主观填空题 (共 4 道试题,共 8 分)

36.使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控##中的数据，并不读取start_urls中的数据。

37.一般通过##表达式来解析网页数据

38.实现异步加载需要利用##技术

39.Python中定义函数关键字为##

五、简答题 (共 2 道试题,共 10 分)

40.Python正则表达式中search和findall方法比较

41.在MacOS下安装Scrapy，当pip的网络受到干扰导致安装的速度很慢时，应该如何应对？

六、名词解释 (共 4 道试题,共 12 分)

42.multiprocessing

43.URI

44.CSS

45.HTML

微信客服扫一扫