程序园 Article

27、Kafka（一）：消息队列的新标准

你好，我是徐文浩。过去的两节课里，我给你介绍了S4和Storm这两个流式计算框架相关的论文。不过，在讲解这两篇论文的时候，我们其实没有去搞清楚对应的流式数据是从哪里来的。虽然S4里有Keyless PE，Storm里也有Spout，它们都是框架自己...

2026-01-25

26、从S4到Storm（二）：位运算是个好东西

你好，我是徐文浩。上节课里，我们看到了随着时代的变迁，人们已经不满足于通过MapReduce这样批处理的方式进行数据分析了。于是，Yahoo推出了S4，不过S4并没有在历史舞台上站稳脚跟。在S4的论文发表的同一年，我们今天的主角，也就是Storm走...

2026-01-25

25、从S4到Storm（一）：当分布式遇上实时计算

你好，我是徐文浩。到Spanner为止，我们已经把大数据里，关于数据存储和在线服务的重要论文解读完了。从这一讲开始，我们就要开始讲解另一个重要的主题，也就是大数据的流式处理。今天我们解读的第一篇论文，来自一个曾经辉煌但是今天已经逐渐销声匿迹的公司Y...

2026-01-25

24、Spanner（三）：严格串行化的分布式系统

你好，我是徐文浩。 Spanner在设计时候的目标之一，就是需要保障外部一致性（external consistency）。而这个外部一致性，其实也就是我们之前说过的可线性化（Linearizability）。通过上节课的学习，现在我们已经知道了，这...

2026-01-25

23、Spanner（二）：时间的悖论

你好，我是徐文浩。在上节课里，我们一起了解了Spanner的整体架构。Spanner的整个架构并不会让人有什么意外之喜，遵循的仍然是标准的分布式数据库的架构设计，通过对于数据分区、Paxos同步复制等一系列的机制来实现一个超大规模的全球数据库。而对...

2026-01-25

22、Spanner（一）：“重写”Bigtable和Megastore

你好，我是徐文浩。经过两个月的旅程，我们终于来到了Spanner面前。在这个课程的一开始，我们一起看过GFS这样的分布式文件存储系统，然后基于GFS的分布式存储，我们看到了Bigtable这样的分布式KV数据库是如何搭建的。接着在过去的三讲里，我们...

2026-01-25