
会员
精通Scrapy网络爬虫
刘硕更新时间:2020-11-28 14:59:54
最新章节:本书特点:开会员,本书免费读 >
本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等。本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。
品牌:清华大学
上架时间:2017-10-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
精通Scrapy网络爬虫最新章节
查看全部- 本书特点:
- 作者简介:
- 14.4 本章小结
- 14.3 使用scrapy-redis进行分布式爬取
- 14.2 scrapy-redis源码分析
- 14.1 Redis的使用
- 第14章 分布式爬取
- 13.6 本章小结
- 13.5 项目实战:爬取豆瓣电影信息
- 13.4 实现随机代理
刘硕
主页
最新上架
- 会员
Java Web程序设计任务教程(第2版)
本书使用深入浅出、通俗易懂的语言阐述JavaWeb相关知识,并结合典型的Web应用案例,帮助读者掌握Web应用程序的开发技术。本书共15章,详细讲解了网页开发的基础知识和JavaWeb开发的核心知识,其中网页开发基础知识包括HTML技术、CSS技术、JavaScript技术和Bootstrap技术,而JavaWeb的核心知识包括Servlet技术、会话技术,JSP技术、JDBC技术和数据库连计算机16.6万字 - 会员
大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)
本书为广受读者喜爱的畅销书升级版,旨在让读者快速、简单地上手大模型应用开发。本书为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解GPT-4和ChatGPT的工作原理及优势,并在此基础上使用流行的Python编程语言构建大模型应用。升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如RAG、GPT-4新特性的应用解析等。本书提供了大量简单易学的示例,帮你理解相关概念计算机13.1万字 - 会员
Elasticsearch实战(第2版)
本书全面深入地介绍Elasticsearch的核心功能及其工作机制。本书由浅入深,从Elasticsearch的基本用法和架构原理,以及倒排索引、分片、节点角色和相关性等核心概念讲起;然后深入探讨数据处理和索引管理,涵盖映射模式、数据类型、文本分析、索引模板;接着详细介绍词项级搜索、全文搜索、复合查询和高级搜索等Elasticsearch的搜索功能,并深入讲解聚合;最后聚焦生产环境中的Elasti计算机27.5万字 - 会员
基于差分进化的优化方法及应用
本书内容分为差分进化算法(以下简称算法)的设计及应用。本书从差分进化算法基本原理、单目标差分进化算法、面向约束优化的差分进化算法、面向多目标差分进化算法、面向离散问题的差分进化算法等五个方面进行了介绍。对提出的10个算法进行了详细介绍和讨论,并给给出了实验(仿真)结果。计算机9.6万字 - 会员
Java高级程序设计
本书系统地介绍了Java语言高级程序设计内容,主要包括Java集合框架、异常处理、输入/输出流、多线程、网络编程、图形用户界面程序设计、泛型、JDBC编程、Java8新特性。本书所有知识点都结合具体实例进行分析,既注重理论介绍,又强调实际应用,从实用的角度精心设计知识结构和代码示例,同时每章后面配有相应习题。本书可作为普通高等院校计算机及相关专业Java程序设计课程的教材,也适合程序开发人员学习计算机8.8万字 - 会员
C语言最佳实践
本书是魏永明近30年来开发和维护MiniGUI、HVML等开源项目的经验总结,旨在帮助有一定C程序编写经验的软件工程师在短时间内有效提高设计能力和编码水平。全书分为?3?篇。基础篇从可读性和可维护性出发,阐述了如何提高代码的可读性、用好写好头文件、正确理解编译警告并消除潜在问题、定义和使用常量等,介绍了如何有效利用构建系统生成器(CMake)来维护项目;模式篇阐述了常见的C程序接口设计模式,说明了计算机19.6万字 - 会员
RHCSA/RHCE8红帽Linux认证学习教程
本书分为9篇,共35章。第1篇主要介绍基本配置;第2篇主要介绍用户及权限管理;第3篇主要介绍网络相关配置;第4篇主要介绍存储管理;第5篇主要介绍系统管理;第6篇主要介绍软件管理;第7篇主要介绍安全管理;第8篇主要介绍容器管理;第9篇主要介绍自动化管理工具ansible的使用。计算机12.4万字 - 会员
自然语言处理NLP从入门到项目实战:Python语言实现
本书分为12章,主要包括学习人工智能原理、自然语言处理技术、掌握深度学习模型、NLP开源技术实战、Python神经网络计算实战、AI语音合成有声小说实战、玩转词向量、近义词查询系统实战、机器翻译系统实战、文本情感分析系统实战、电话销售语义分析系统实战人工智能辅助写作系统(独家专利技术解密)。计算机0字 - 会员
Node.js应用开发
Node.js是一个基于ChromeV8引擎的JavaScript运行环境,用来编写服务器端程序。Node.js是新兴的开发工具,也是目前发展较快的开发工具之一。近几年来,随着Node.js的发展,越来越多的开发人员选择用它构建Web应用。本书较为系统地介绍了目前Node.js应用开发中涉及的基础知识和核心技术,并通过案例介绍了基于Express和Koa框架的项目开发。本书着重实际应用,案例及实计算机10.9万字