Python网络爬虫与数据采集 试题及答案 共2套.docx
《Python网络爬虫与数据采集 试题及答案 共2套.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫与数据采集 试题及答案 共2套.docx(7页珍藏版)》请在第一文库网上搜索。
1、Python网络爬虫与数据采集试题一、选择题(每题2分)1、下列哪个选项不属于HTTP协议的请求方法?(B)A. GETB. PUSHC. PUTD. POST2、下列哪个HTM1标签可以设置超链接?(C)A. B. C. D.3、正则表达式“d3d8d4d8能匹配下列哪个字符串?(A)A. 010-12345678B. 0432-1234567C. 01012345678D.043212345684、ReqUeStS库中,可以查看响应状态码的方法是(D)A. textB. encodingC. cookiesD. status_code5、关于JaVaSCriPt说法不正确的是(B)A. J
2、avaScript是一种面向对象、动态类型的解释性语言B. JavaScript主要运行在网站服务器上C.浏览器中的页面是在HTM1的基础上经过JaVaSCriPt加工处理后生成的D.JavaScript可以写在HTM1的标签中6、下列NUmPy方法中,能够将两个二维数组横向拼接的是(D)A. matB. invC. vstackD. hstack7、以下不是SCraPy框架组件的是(C)A. EngineB. Schedu1erC. ProcesserD. Pipe1ine8、在SCraPy框架中,DoWnIOader卜载页面内容后结果经Engine发送到哪个组件?(A)A. Spiders
3、B. Pipe1ineC. Schedu1erD.以上均不正确9、Scrapy项目的settings.py文件中,指定Iog的最低级别的设置项是(C)A. BOTNAMEB. DOWN1OAD_DE1AYC. 1OG_1EVE1D. USERAGENT10、ReqUeStHeader中指定是否需要持久连接的是(D)A. AcceptB. RefererC.RangeD.Connection二、判断题(每题2分)1、PythOn字符串操作中的StriP方法可以去掉字符串左、右侧的空格(J)2、PythOn_whois库可以查询网站所有者的相关信息(J)3、正则表达式中“$”匹配前面的子表达式。次
4、或1次(X)4、SQ1是一种小巧易用的轻量型关系数据库系统(X)5、PandaS中的Series数据类型的特点是相比普通的一维数组能存放更多数据(x)6、MatPIot1ib可以用于绘制图表。()7、SeIeniUm是一个专门用于开发Python爬虫的浏览器(x)8、Se1enium中模拟键盘输入的函数是Send_keys()()9、Python自带的单元测试模块是unittest()10、某同学认为自己开发的爬虫对网站的影响很小,可以忽略robots.txt中的内容(X)三、填空题(每题2分)1RobOtS协议旨在让网站访问者(或访问程序)了解该网站的信息抓取限制。2 .HTTP请求中的Po
5、ST方法向指定资源提交数据进行处理请求。3 .正则表达式中表示匹配任意数字的是“094 .Chrome开发者工具中的SoUrCeS面板主要用来调试JaVaSCriDt。5 .网络API使用约定XM1和JSoN格式呈现数据。6 .jg是一个开源的键值对存储数据库。7 .举回)辿11可以操纵浏览器进行一些类似于普通用户的行为。8 .浏览器一般把Cookie数据放在HTTP请求中的Header数据中。9 .PVQUerV可以类似iQuerv的形式解析网页,并支持CSS选择器。10 .验证码的英文名称缩写为CAPTCHA。四、简答题(每题4分)1请使用正则表达式匹配下列字符串(1)只能输入数字。(2)
6、只能输入非零的正整数(3)只能输入长度为3的字符(4)只能输入由26个大写英文字母组成的字符串(5)只能输入由26个英文字母组成的字符串(1) A0-9*$(2) A+?1-90-9*$(3) .3S(4) AA-Z+$(5) AA-Za-z+$(每点1分)2 .请简述HTTP请求中的GET、HEAD、POST、PUT和DE1ETE方法(4分)(1) GET:指定的页面信息,并返回实体主体。(2) HEAD:类似GET请求,只不过返回的响应中没有具体的内容,用于获取报头。(3) POST:向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。PoST请求可能会导致新
7、的资源的建立和/或己有资源的修改。(4) PUT:从客户端向服务器传送的数据取代指定的文档的内容。(5) DE1ETE:请求服务器删除指定的页面。(每点1分)3 .请举例说明5种反爬虫的方式(4分)(1)识别RequestHeaders:通过验证headers中的USer-Agem信息来判定当前访问是否来自常见的界面浏览器。更复杂的headers验证则会要求验证RefererAccept-encoding等信息。(2)验证码:辨别计算机程序和人类用户的不同,广泛用于限制异常访问。(3)限制或封禁IP地址:判定为爬虫后限制甚至封禁来自当前IP地址的访问。(4)更改服务器返回的信息:通过加密信息、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python网络爬虫与数据采集 试题及答案 共2套 Python 网络 爬虫 数据 采集 试题 答案