12、我们为什么需要Spark你好,我是蔡元楠。 今天我要与你分享的主题是“我们为什么需要Spark”。 也许你之前没有做过大规模数据处理的项目,但是Spark这个词我相信你一定有所耳闻。 Spark是当今最流行的分布式大规模数据处理引擎,被广泛应用在各类大数据处理场景。 200...2026-01-25大规模数据处理实战
13、弹性分布式数据集:Spark大厦的地基(上)你好,我是蔡元楠。 今天我要与你分享的主题是“弹性分布式数据集”。 上一讲中提到,Spark最基本的数据抽象是弹性分布式数据集(Resilient Distributed Dataset, 下文用RDD代指)。 Spark基于RDD定义了很多数据操作...2026-01-25大规模数据处理实战
14、弹性分布式数据集:Spark大厦的地基(下)你好,我是蔡元楠。 上一讲我们介绍了弹性分布式数据集(RDD)的定义、特性以及结构,并且深入讨论了依赖关系(Dependencies)。 今天让我们一起来继续学习RDD的其他特性。 RDD的结构首先,我来介绍一下RDD结构中其他的几个知识点:检查点(...2026-01-25大规模数据处理实战
15、Spark SQL:Spark数据查询的利器你好,我是蔡元楠。 上一讲中,我介绍了弹性分布式数据集的特性和它支持的各种数据操作。 不过在实际的开发过程中,我们并不是总需要在RDD的层次进行编程。 就好比编程刚发明的年代,工程师只能用汇编语言,到后来才慢慢发展出高级语言,如Basic、C、Jav...2026-01-25大规模数据处理实战
16、Spark Streaming:Spark的实时流计算API你好,我是蔡元楠。 今天我要与你分享的内容是“Spark Streaming”。 通过上一讲的内容,我们深入了解了Spark SQL API。通过它,我们可以像查询关系型数据库一样查询Spark的数据,并且对原生数据做相应的转换和动作。 但是,无论是...2026-01-25大规模数据处理实战
17、Structured Streaming:如何用DataFrame API进行实时数据分析你好,我是蔡元楠。 上一讲中,我们介绍了Spark中的流处理库Spark Streaming。它将无边界的流数据抽象成DStream,按特定的时间间隔,把数据流分割成一个个RDD进行批处理。所以,DStream API与RDD API高度相似,也拥有...2026-01-25大规模数据处理实战