分类：大数据经典论文解读

30、Dataflow（二）：MillWheel，一个早期实现

你好，我是徐文浩。上一讲里，我们通过一个简单的统计广告点击率和广告计费的Storm Topology，看到了第一代流式数据处理系统面临的三个核心挑战，分别是：数据的正确性，也就是需要能够保障“正好一次”的数据处理。系统的容错能力，也就是我们不...

2026-01-25

31、Dataflow（三）：一个统一的编程模型

你好，我是徐文浩。在过去的几讲里，我们看到了大数据的流式处理系统是如何一步一步进化的。从最早出现的S4，到能够做到“至少一次”处理的Storm，最后是能够做到“正好一次”数据处理的MillWheel。你应该能发现，这些流式处理框架，每一个都很相似，...

2026-01-25

32、Raft（一）：不会背叛的信使

你好，我是徐文浩。在前面课程中，我们了解过的这些大数据处理系统，其实都属于分布式系统。所以，它们也都需要解决分布式一致性，或者说分布式共识的问题。我们之前已经介绍过Chubby，这个Google开发的分布式锁。正是通过Chubby这样的系统，使得...

2026-01-25

33、Raft（二）：服务器增减的“自举”实现

你好，我是徐文浩。在上节课里，我们了解了Raft算法，知道了它是怎么把“状态机复制”这样一个问题，拆解成了Leader选举、日志同步以及安全性三个子问题。那么，今天这节课，我们会进一步深入来了解Raft算法的另外几个问题。这些问题，虽然在实践中我...

2026-01-25

34、Borg（一）：当电力成为成本瓶颈

你好，我是徐文浩。从GFS这样的分布式文件系统，到MapReduce这样的数据批处理系统；从Bigtable这样的分布式KV数据库，到Spanner这样全球部署的强一致性关系数据库；从Storm这样只能做到“至少一次”的流式系统，到Dataflow...

2026-01-25

35、Borg（二）：互不“信任”的调度系统

你好，我是徐文浩。在上节课里，我们一起学习了Borg的整体架构。从架构层面来看，Borg和其他的Master-Slave系统，其实都是类似的。其中比较大的一个挑战，是Borg需要管理万级别的机器。虽然Borg的Master集群，仍然是一个会选举出m...

2026-01-25