作者:empty 页数:133 出版社:empty |
通用网络爬虫网络爬虫(Crawler) 又称网络蜘蛛, 或者网络机器人(Robots) .它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。换句话来说,它可以根据网页的链接地址自动获取网页内容。如果把互联网比做一个大蜘蛛网,它里面有许许多多的网页,网络蜘蛛可以获取所有网页的内容爬虫是一个模拟人类请求网站行为,并批量下载网站资源的一种程序或自动化脚本。1.2爬虫可以做什么1.3爬虫的分类又称为全网爬虫, 其爬取对象由一批URL扩充至整个Web, 主要由搜索引擎诚大型Web服务商使用,·聚焦网络爬虫又称为主题网络爬虫,其特点是只选择性的地爬取与预设的主题相关的页面,相比通用网络爬虫,聚焦网络爬虫仅需要爬取与主题相关的页面,极大地节省硬件及网络资源,能更快的更新保存页面,更好的满足特定人群对特定领域的需求。
14底虫的基本程。增量网络爬虫1.4爬虫的基本流程只对已下载的网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的网页尽可能的新。·深度网络爬虫Web页面按照存在的方式可以分为表层页面和深层页面两类。表层页面是只传统搜索引擎可以索引到的页面,以超链接可以达到的静态页面为主,深层页面是指大部分内容无法通过静态链接获取, 隐藏在搜索表单之后的, 需要用户提交关键词后才能获得的Web页面,如一些登陆后可见的网页。1.4.1浏览网页的流程1.4.2爬虫的基本流程1.请求网页1.爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量,2.反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批3.误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果4.拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策站的电影列表页面, 根据Html分析电影名字存进自己的数据库。