图解Spark.核心技术与案例实战

本书以Spark 2.0版本为基础进行编写, 全面介绍了Spark核心及其生态圈组件技术。主要内容包括Spark生态圈、实战环境搭建、编程模型和内部重要模块的分析, 重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架, 同时还介绍了Spark生态圈相关组件, 包括了Spark SQL的即席查询、Spark Streaming的实时流处理应用、MLbase/MLlib的机器学习、GraphX的图处理、SparkR的数学计算和Alluxio的分布式内存文件系统等。本书从Spark核心技术进行深入分析, 重要章节会结合源代码解读其实现原理, 围绕着技术原理介绍了相关典型实例, 读者通过这些实例可以更加深入地理解Spark的运行机制。另外本书还应用了大量的图表进行说明, 通过这种方式让读者能够更加直观地理解Spark相关原理。