南开22秋学期(全层次1809-2103)《网络爬虫与信息提取》在线作业【资料答案】

可做奥鹏全部院校在线离线作业毕业论文QQ:3230981406 微信:aopopenfd777

发布时间:2023-01-06 21:36:37来源:admin浏览: 0 次

22秋学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息提取》在线作业-00002


试卷总分:100  得分:98


一、单选题 (共 20 道试题,共 40 分)


1.Redis若要进入交互环境,需要打开终端输入()


A.redis-cli


B.redis


C.redis-cmd


D.redis-start


 


2.可以通过()绕过网站登录。


A.session


B.cookies


C.moonpies


D.localstorage


 


3.Python中若定义object=(1, 2, 3, 4, 5),则print(object[1:3])输出()


A.12


B.123


C.23


D.234


 


4.当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?


A.process_spider_output()


B.process_spider_exception()


C.process_spider_input()


D.process_start_ requests()


 


5.下面关于Charles使用说法错误的是()


A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰。


B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息。


C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过Charles。


D.Charles无法支持计算机上除了浏览器之外的其他软件。


 


6.在Linux中哪个命令是添加权限的()


A.chmod


B.sudo


C.cp


D.mkdir


 


7.Python中列表可以用()方法在末尾添加元素


A.add


B.append


C.plus


D.+


 


8.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成


A.列表


B.元组


C.字典 


D.集合


 


9.Python中退出循环应用关键字()


A.break


B.continue


C.exit


D.return


 


10.以下哪个命令是创建文件夹命令()


A.curl


B.tar -zxvf


C.mkdir


D.cp


 


11.使用Xpath获取文本使用()


A.text


B.text()


C.content


D.content()


 


12.Python写CSV文件需要哪个方法()


A.CSVWriter


B.CsvWriter


C.DictWriter


D.FileWriter


 


13.使用UI Automator打开微信的操作是获取相应图标后使用命令()


A.touch


B.click


C.push


D.hover


 


14.Python中Object={1, 2, 3, 4, 5},则Objcet是()


A.列表


B.元组


C.字典


D.集合


 


15.()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具


A.Scrapyd


B.ScrapyDeploy


C.Deploy


D.Scrapy_Deploy


 


16.在Scrapy的目录下,哪个文件负责存放爬虫文件?()


A.spiders文件夹


B.item.py


C.pipeline.py


D.settings.py


 


17.启动MongoDB使用命令mongod –() usr/local/etc/mongod.conf


A.config


B.install


C.start


D.begin


 


18.HTTP常用状态码表明服务器上没有请求的资源的是()


A.500


B.503


C.403


D.404


 


19.以下表示请求资源重定向的HTTP状态码为


A.200


B.301


C.404


D.500


 


20.如果计算机上连接了很多台手机,查看这些手机串号,需要在终端输入以下命令:()


A.adb device


B.adb devices


C.adb devices -l


D.adb devices -list


 


二、多选题 (共 10 道试题,共 20 分)


21.一个可行的自动更换代理的爬虫系统,应该下列哪些功能?


A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中


B.在发现某个请求已经被设置过代理后,什么也不做,直接返回


C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用


D.周期性验证数据库中的无效代理,及时将其删除


 


22.Python中()容器有推导式


A.列表


B.元组


C.字典


D.集合


 


23.在配置ios使用Charles的操作中,正确的有()


A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。


B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888


C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。


D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任


 


24.以下哪种方法是MongoDB的查找方法()


A.find


B.find_one


C.finds


D.find_all


 


25.如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司


A.服务器日志


B.数据库日志记录


C.程序日志记录


D.服务器监控


 


26.使用Selennium获取网页中元素的方法有


A.find_element_by_name


B.find_element_by_id


C.find_elements_by_name


D.find_elements_by_id


 


27.常用的会话跟踪技术是


A.session


B.cookies


C.moonpies


D.localstorage


 


28.Redis中的值可以支持()


A.列表


B.哈希


C.集合


D.有序集合


 


29.PyMongo删除操作有()


A.delete


B.delete_all


C.delete_one


D.delete_many


 


30.Python中()与元组由类似的数据读取方式


A.字符串


B.列表


C.字典


D.集合


 


三、判断题 (共 20 道试题,共 40 分)


31.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。

 

32.为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。

 

33.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用

 

34.中间人攻击也是抓包的一种。

 

35.在使用多线程处理问题时,线程池设置越大越好

 

36.Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。

 

37.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

 

38.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。

 

39.爬虫中间件的激活需要另外写一个文件来进行

 

40.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。

 

41.使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。

 

42.Robo 3T与RoboMongo是完全不一样的软件

 

43.一般来说在页面都通过GET将用户登录信息传递到服务器端。

 

44.device.sleep()方法是使用UI Automatorr关闭屏幕的命令

 

45.上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。

 

46.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。

 

47.为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。

 

48.代理中间件的可用代理列表一定要写在settings.py里面

 

49.引用中间件时后面的数字代表的是中间件的执行顺序,例如 ‘AdvanceSpider.middlewares.ProxyMiddleware’: 543 中的543

 

50.数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击



奥鹏,国开,广开,电大在线,各省平台,新疆一体化等平台学习
详情请咨询QQ : 3230981406或微信:aopopenfd777

作业咨询 论文咨询
微信客服扫一扫

回到顶部