本书主要是基于Python的Web大数据爬取实战指南, 选题内容包括基础知识和通过Python爬取Web网页数据两大部分。下图是PythonWeb数据采集的结构图, 主要包括三个部分: 网络传播技术、信息提取技术和数据存储技术。网络传播通常是使用HTTP进行, 常用的传播方式包括HTML、XML、Json、Ajax和纯文本等; 信息提取技术主要可以通过Python语言、R语言、Java语言等进行获取, 其中主要包括的技术包括: 正则表达式、XPath技术、Selenium、BeautifulSoup等; 数据存储技术主要是存储爬取的数据信息, 主要包括SQL数据库、纯文本格式等。