资料下载网
首页 计算机 考试教辅
Learning Scrapy pdf电子书免费下载,百度云
首页 > 计算机 > 计算机F > Learning Scrapy pdf电子书免费下载,百度云

《Learning Scrapy》pdf电子书免费下载


下载方式一:

百度网盘下载地址:https://pan.baidu.com/s/13nefSwoFZ3J4IUSj0szVqQ
百度网盘密码:1111

下载方式二:

http://ziliaoshare.cn/Download/af_123983_pd_LearningScrapy.zip

 


Learning Scrapy

作者:empty

页数:168

出版社:empty

《Learning Scrapy》介绍

欢迎来到Scrapy之旅。通过这本书, 我们希望你可以从只会一点或零基础的初学者, 达到熟练使用这个强大的框架海量抓取网络和其他资源的水平。在本章里, 我们会向你介绍Scrapy, 以及Scrapy能做什么。Scrapy是一个健壮的抓取网络资源的框架。作为互联网使用者, 你可能经常希望可以将网上的资源保存到Excel中(见第3章) , 以便离线时使用或进行计算。作为开发者, 你可能经常希望将不同网站的资源整合起来, 但你清楚这么做的复杂性。Scrapy可以帮助你完成简单和复杂的数据提取。

Scrapy是利用健壮高效的方式提取网络资源的多年经验开发的。使用Scrapy, 你只需进行一项设置,就可以抵过其它框架使用多个类、插件和配置。看一眼第7章,你就可以知道仅需几行代码就可以完成大量工作。从开发者的角度, 你会喜欢Scrapy的基于事件的架构(见第8章和第9章) 。它可以让我们进行串联操作,清洗、形成、丰富数据,或存入数据库等等,同时不会有太大的性能损耗。从技术上说, 基于事件的机制, Scrapy可以让吞吐量摆脱延迟, 同时开放数千个连接。举一个极端的例子, 假设你要从一个网站提取列表, 每页有100个列表项。Scrapy可以轻松的同时处理16个请求,假设每个请求在一秒内完成,每秒就可以抓取16个页面。乘以每页的列表数,每秒就可以抓取1600个列表项。然后,你想将每个列表项写入一个高并发的云存储,每个要花3秒。为了支持每秒16个请求,必须要并行进行4800个写入请求(第9章你会看到更多类似的计算)。对于传统的多线程应用, 这需要4800个线程, 对你和操作系统都是个挑战。在Scrapy中, 4800个并发请求很平常, 只要操作系统支持就行。更进一步, Scrapy的内存要求和你要抓取的列表项的数据量相关,而对于多线程应用,每个线程的大小都和一个列表的大小相当。

简而言之, 速度慢或不可预测的网站、数据库或远程API不会对Scrapy的性能造成影响, 因为你可以进行并发请求,用单线程管理。相比于多线程应用,使用更简单的代码反而可以同时运行几个抓取器和其它应用,这样就可以降低费用。喜爱Scrapy的其它理由Scrapy出现已经有五年多了, 现在已经成熟稳定。除了前面提到的性能的优点, 以下是Scrapy其它让人喜爱的理由:·Scrapy可以读懂破损的HTML你可以在Scrapy上直接使用Beautiful Soup或lxml, 但Scrapy提供Selector, 一个相比xml更高级的XPath解析器。它可以有效的处理破损的HTML代码和费解的编码。·社区Scrapy有一个活跃的社区。可以查看Scrapy的邮件列表https//groups.google.com/forum/#!forum/Scrapy-users和Stack Overflow上的数千个问题http://stackovertlow.com/questions/tagged/scrapy。多数问题在数分钟之内就会得到解答。http://scrapy.org/community/有更多的社区资源。


《Learning Scrapy》目录

计算机


python
AI人工智能
javascript
计算机网络/服务器
数据库技术
计算机F

考试教辅


考研考博
英语四六级

沪ICP备18046276号-5