《Learning Scrapy》pdf电子书免费下载

下载方式一：

百度网盘下载地址：https://pan.baidu.com/s/13nefSwoFZ3J4IUSj0szVqQ

百度网盘密码：1111

下载方式二：

http://ziliaoshare.cn/Download/af_123983_pd_LearningScrapy.zip

作者：empty

页数：168

出版社：empty

《Learning Scrapy》介绍

欢迎来到Scrapy之旅。通过这本书，我们希望你可以从只会一点或零基础的初学者，达到熟练使用这个强大的框架海量抓取网络和其他资源的水平。在本章里，我们会向你介绍Scrapy，以及Scrapy能做什么。Scrapy是一个健壮的抓取网络资源的框架。作为互联网使用者，你可能经常希望可以将网上的资源保存到Excel中(见第3章) ，以便离线时使用或进行计算。作为开发者，你可能经常希望将不同网站的资源整合起来，但你清楚这么做的复杂性。Scrapy可以帮助你完成简单和复杂的数据提取。

Scrapy是利用健壮高效的方式提取网络资源的多年经验开发的。使用Scrapy，你只需进行一项设置，就可以抵过其它框架使用多个类、插件和配置。看一眼第7章，你就可以知道仅需几行代码就可以完成大量工作。从开发者的角度，你会喜欢Scrapy的基于事件的架构(见第8章和第9章) 。它可以让我们进行串联操作，清洗、形成、丰富数据，或存入数据库等等，同时不会有太大的性能损耗。从技术上说，基于事件的机制， Scrapy可以让吞吐量摆脱延迟，同时开放数千个连接。举一个极端的例子，假设你要从一个网站提取列表，每页有100个列表项。Scrapy可以轻松的同时处理16个请求，假设每个请求在一秒内完成，每秒就可以抓取16个页面。乘以每页的列表数，每秒就可以抓取1600个列表项。然后，你想将每个列表项写入一个高并发的云存储，每个要花3秒。为了支持每秒16个请求，必须要并行进行4800个写入请求(第9章你会看到更多类似的计算)。对于传统的多线程应用，这需要4800个线程，对你和操作系统都是个挑战。在Scrapy中， 4800个并发请求很平常，只要操作系统支持就行。更进一步， Scrapy的内存要求和你要抓取的列表项的数据量相关，而对于多线程应用，每个线程的大小都和一个列表的大小相当。

简而言之，速度慢或不可预测的网站、数据库或远程API不会对Scrapy的性能造成影响，因为你可以进行并发请求，用单线程管理。相比于多线程应用，使用更简单的代码反而可以同时运行几个抓取器和其它应用，这样就可以降低费用。喜爱Scrapy的其它理由Scrapy出现已经有五年多了，现在已经成熟稳定。除了前面提到的性能的优点，以下是Scrapy其它让人喜爱的理由：·Scrapy可以读懂破损的HTML你可以在Scrapy上直接使用Beautiful Soup或lxml，但Scrapy提供Selector，一个相比xml更高级的XPath解析器。它可以有效的处理破损的HTML代码和费解的编码。·社区Scrapy有一个活跃的社区。可以查看Scrapy的邮件列表https//groups.google.com/forum/#!forum/Scrapy-users和Stack Overflow上的数千个问题http：//stackovertlow.com/questions/tagged/scrapy。多数问题在数分钟之内就会得到解答。http：//scrapy.org/community/有更多的社区资源。

《Learning Scrapy》pdf电子书免费下载

下载方式一：

百度网盘下载地址：https://pan.baidu.com/s/13nefSwoFZ3J4IUSj0szVqQ

百度网盘密码：1111

下载方式二：

http://ziliaoshare.cn/Download/af_123983_pd_LearningScrapy.zip

《Learning Scrapy》介绍

《Learning Scrapy》目录

计算机

python

AI人工智能

javascript

计算机网络/服务器

数据库技术

计算机F

考试教辅

考研考博

英语四六级

沪ICP备18046276号-5