作者:empty 出版社:empty |
通用网络爬虫网络爬虫(Crawler) 又称网络蜘蛛, 或者网络机器人(Robots) .它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。换句话来说,它可以根据网页的链接地址自动获取网页内容。如果把互联网比做一个大蜘蛛网,它里面有许许多多的网页,网络蜘蛛可以获取所有网页的内容爬虫是一个模拟人类请求网站行为,并批量下载网站资源的一种程序或自动化脚本。1.2爬虫可以做什么1.3爬虫的分类又称为全网爬虫, 其爬取对象由一批URL扩充至整个Web, 主要由搜索引擎诚大型Web服务商使用,·聚焦网络爬虫又称为主题网络爬虫,其特点是只选择性的地爬取与预设的主题相关的页面,相比通用网络爬虫,聚焦网络爬虫仅需要爬取与主题相关的页面,极大地节省硬件及网络资源,能更快的更新保存页面,更好的满足特定人群对特定领域的需求。
14底虫的基本程。增量网络爬虫1.4爬虫的基本流程只对已下载的网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的网页尽可能的新。·深度网络爬虫Web页面按照存在的方式可以分为表层页面和深层页面两类。表层页面是只传统搜索引擎可以索引到的页面,以超链接可以达到的静态页面为主,深层页面是指大部分内容无法通过静态链接获取, 隐藏在搜索表单之后的, 需要用户提交关键词后才能获得的Web页面,如一些登陆后可见的网页。1.4.1浏览网页的流程1.4.2爬虫的基本流程1.请求网页1.爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量,2.反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批3.误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果4.拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策站的电影列表页面, 根据Html分析电影名字存进自己的数据库。IP(xxx.xxx.xxx.xxx) 这个用户, 并且useragent还是Python-urllib/3.6, 基于这两点判断非人类发起一个requestm代码0-0:爬取搜狗首页的页面数据题国一个response图1:浏览网页的流程通过HTTP库向目标站点发起请求, 即发送一个Request, 请求可以包含额外的headers等信息,等待服务器响应12.获得相应内容如果服务器能正常响应, 会得到一个Response.Response的内容便是所要获取的页面内容,类型可能有HTML, Json字符串, 二进制数据(如图片视频) 等类型,3.解析内容得到的内容可能是HTML, 可以用正则表达式、网页解析库进行解析。可能是Json, 可以直接转为Is on对象解析, 可能是二进制数据, 可以做保存或者进一步的处理4.存储解析的数据保存形式多样,可以存为文木,也可以保存至数据库,或者保存特定格式的文件测试案例
1爬虫基本概述
1.1爬虫是什么.
1.2爬虫可以做什么
1.3爬虫的分类.
14爬虫的基本流程.
第一部分*序章·网络爬虫基础
浏览网页的流程.
1.4.2爬虫的基本流程.
15爬虫与反爬虫,
15.2常见的反爬与反反爬
1.6爬虫的合法性与rbts协议:
1.7 Pythn爬虫相关库.
2 Chrme浏览器开发者工具
2.1Chrume浏览器开发者工具简述
2.2浏览器开发者工具面板说明
爬虫的政与防
rbts协议.
查看网页的rbts协议.
什么是浏览器开发者工具
2.1.2浏览器开发者工具基本使用
2.2.1元素(Elements) 面板
2.2.2网络(Netwrk) 面板(D) .
2.2.3网络(Netwrk) 面板(2)
3HTTP协议
3.1HTTP简介
3.2主要特点
3.3URL.URI, URN-.
URI*统一资源标识符.
URL*统一资源定位符
URN*统一资源名称
HyperText.
General.
请求方法(Request Methd) .
状态码(StatusCde) ,
请求头信息(Request Headers)
Requests的安装,
发送带headers的请求
发送带参数的请求::
使用GET请求抓取网页
在Headers参数中携带ckie
Timeut设置, .
PST发送JSN数据
使用PST请求抓取网页.
3.3.4URLURL, URN的区别
34HTTP协议与HTTPS协议.
3.4.2HTTP与HTTPS
3.5HTTP请求过程
3.6 Ckies和sessin.
4网络爬虫请求篇
3.5.5响应头信息(Respnse Headers)
3.5.6响应体(Respnse Bdy) ,
3.6.1Ckies.
3.6.2sessin.
3.6.3Ckies和sessin区别:
4.1 requests库简介
第二部分·初章·网络爬虫初识
4.1.2 Requests基本使用.
4.1.3 Request基本请求方式.
4.2使用Request发送GET请求,
4.3使用Request发送PST请求,
4.3.2PST上传文件
4.4 Requests进阶(1) *Sessin会话维持:
requests.sessin的作用以及应用场景