程序园 Article

33、Raft（二）：服务器增减的“自举”实现

你好，我是徐文浩。在上节课里，我们了解了Raft算法，知道了它是怎么把“状态机复制”这样一个问题，拆解成了Leader选举、日志同步以及安全性三个子问题。那么，今天这节课，我们会进一步深入来了解Raft算法的另外几个问题。这些问题，虽然在实践中我...

2026-01-25

32、Raft（一）：不会背叛的信使

你好，我是徐文浩。在前面课程中，我们了解过的这些大数据处理系统，其实都属于分布式系统。所以，它们也都需要解决分布式一致性，或者说分布式共识的问题。我们之前已经介绍过Chubby，这个Google开发的分布式锁。正是通过Chubby这样的系统，使得...

2026-01-25

31、Dataflow（三）：一个统一的编程模型

你好，我是徐文浩。在过去的几讲里，我们看到了大数据的流式处理系统是如何一步一步进化的。从最早出现的S4，到能够做到“至少一次”处理的Storm，最后是能够做到“正好一次”数据处理的MillWheel。你应该能发现，这些流式处理框架，每一个都很相似，...

2026-01-25

30、Dataflow（二）：MillWheel，一个早期实现

你好，我是徐文浩。上一讲里，我们通过一个简单的统计广告点击率和广告计费的Storm Topology，看到了第一代流式数据处理系统面临的三个核心挑战，分别是：数据的正确性，也就是需要能够保障“正好一次”的数据处理。系统的容错能力，也就是我们不...

2026-01-25

29、Dataflow（一）：正确性、容错和时间窗口

你好，我是徐文浩。在 [Storm的论文]里，我们看到Storm巧妙地利用了异或操作，能够追踪消息是否在整个Topology中被处理完了，做到了“至少一次（At Least Once）”的消息处理机制。然后，在 [Kafka的论文]里，我们又看到了...

2026-01-25

28、Kafka（二）：从Lambda到Kappa，流批一体计算的起源

你好，我是徐文浩。在上节课里，我们已经了解了Kafka的基本架构。不过，对于基于Kafka的流式数据处理，我们还有两个重要的问题没有回答：第一个，Kafka的分布式是如何实现的呢？我们已经看到了Kafka会对数据进行分区，以进行水平扩展。那么，...

2026-01-25