34、Borg(一):当电力成为成本瓶颈

你好,我是徐文浩。 从GFS这样的分布式文件系统,到MapReduce这样的数据批处理系统;从Bigtable这样的分布式KV数据库,到Spanner这样全球部署的强一致性关系数据库;从Storm这样只能做到“至少一次”的流式系统,到Dataflow...

大数据经典论文解读

33、Raft(二):服务器增减的“自举”实现

你好,我是徐文浩。 在上节课里,我们了解了Raft算法,知道了它是怎么把“状态机复制”这样一个问题,拆解成了Leader选举、日志同步以及安全性三个子问题。那么,今天这节课,我们会进一步深入来了解Raft算法的另外几个问题。 这些问题,虽然在实践中我...

大数据经典论文解读

32、Raft(一):不会背叛的信使

你好,我是徐文浩。 在前面课程中,我们了解过的这些大数据处理系统,其实都属于分布式系统。所以,它们也都需要解决分布式一致性,或者说分布式共识的问题。 我们之前已经介绍过Chubby,这个Google开发的分布式锁。正是通过Chubby这样的系统,使得...

大数据经典论文解读

31、Dataflow(三):一个统一的编程模型

你好,我是徐文浩。 在过去的几讲里,我们看到了大数据的流式处理系统是如何一步一步进化的。从最早出现的S4,到能够做到“至少一次”处理的Storm,最后是能够做到“正好一次”数据处理的MillWheel。你应该能发现,这些流式处理框架,每一个都很相似,...

大数据经典论文解读

30、Dataflow(二):MillWheel,一个早期实现

你好,我是徐文浩。 上一讲里,我们通过一个简单的统计广告点击率和广告计费的Storm Topology,看到了第一代流式数据处理系统面临的三个核心挑战,分别是: 数据的正确性,也就是需要能够保障“正好一次”的数据处理。 系统的容错能力,也就是我们不...

大数据经典论文解读

29、Dataflow(一):正确性、容错和时间窗口

你好,我是徐文浩。 在 [Storm的论文]里,我们看到Storm巧妙地利用了异或操作,能够追踪消息是否在整个Topology中被处理完了,做到了“至少一次(At Least Once)”的消息处理机制。然后,在 [Kafka的论文]里,我们又看到了...

大数据经典论文解读

28、Kafka(二):从Lambda到Kappa,流批一体计算的起源

你好,我是徐文浩。 在上节课里,我们已经了解了Kafka的基本架构。不过,对于基于Kafka的流式数据处理,我们还有两个重要的问题没有回答: 第一个,Kafka的分布式是如何实现的呢?我们已经看到了Kafka会对数据进行分区,以进行水平扩展。那么,...

大数据经典论文解读

27、Kafka(一):消息队列的新标准

你好,我是徐文浩。 过去的两节课里,我给你介绍了S4和Storm这两个流式计算框架相关的论文。不过,在讲解这两篇论文的时候,我们其实没有去搞清楚对应的流式数据是从哪里来的。虽然S4里有Keyless PE,Storm里也有Spout,它们都是框架自己...

大数据经典论文解读

26、从S4到Storm(二):位运算是个好东西

你好,我是徐文浩。 上节课里,我们看到了随着时代的变迁,人们已经不满足于通过MapReduce这样批处理的方式进行数据分析了。于是,Yahoo推出了S4,不过S4并没有在历史舞台上站稳脚跟。在S4的论文发表的同一年,我们今天的主角,也就是Storm走...

大数据经典论文解读

25、从S4到Storm(一):当分布式遇上实时计算

你好,我是徐文浩。 到Spanner为止,我们已经把大数据里,关于数据存储和在线服务的重要论文解读完了。从这一讲开始,我们就要开始讲解另一个重要的主题,也就是大数据的流式处理。今天我们解读的第一篇论文,来自一个曾经辉煌但是今天已经逐渐销声匿迹的公司Y...

大数据经典论文解读
11213141516268