32、概率统计篇答疑和总结:为什么会有欠拟合和过拟合

你好,我是黄申。 在概率统计这个模块中,我们讲了很多监督式机器学习相关的概念。你可能对朴素贝叶斯、决策树、线性回归这类监督式算法中的一些概念还是不太清楚。比如说,为什么要使用大量的文档集合或者语料库来训练一个朴素贝叶斯模型呢?这个过程最后得到的结果是...

程序员的数学基础课

31、统计意义(下):如何通过显著性检验,判断你的A、B测试结果是不是巧合

你好,我是黄申,今天我们接着来聊显著性检验。 上一节,我介绍了差异显著性检验的概念,它是指从统计的角度来说,差异的产生有多大的概率、是不是足够可信。这点和数值差异的大小是有区别的。既然我们不能通过差异的大小来推断差异是否可信,那么有没有什么方法,可以...

程序员的数学基础课

30、统计意义(上):如何通过显著性检验,判断你的A、B测试结果是不是巧合

你好,我是黄申,今天我们来聊聊统计意义和显著性检验。 之前我们已经讨论了几种不同的机器学习算法,包括朴素贝叶斯分类、概率语言模型、决策树等等。不同的方法和算法会产生不同的效果。在很多实际应用中,我们希望能够量化这种效果,并依据相关的数据进行决策。 为...

程序员的数学基础课

29、归一化和标准化:各种特征如何综合才是最合理的

你好,我是黄申,今天我来说说特征值的变换。 上一节我讲了如何在众多的特征中,选取更有价值的特征,以提升模型的效率。特征选择是特征工程中的重要步骤,但不是全部。今天,我来说说特征工程中的另一块内容,数值变换。也就是说,我们可以使用统计中的数据分布,对连...

程序员的数学基础课

28、熵、信息增益和卡方:如何寻找关键特征

你好,我是黄申。今天我们来说说特征选择。 我们已经讨论过信息熵和信息增益在决策树算法中的重要作用。其实,它们还可以运用在机器学习的其他领域,比如特征选择。你可能对“特征选择”这个名词不太熟悉,没有关系,我先花点时间,给你介绍一下什么是特征选择,以及机...

程序员的数学基础课

27、决策树:信息增益、增益比率和基尼指数的运用

你好,我是黄申。 上一节,我通过问卷调查的案例,给你解释了信息熵和信息增益的概念。被测者们每次回答一道问题,就会被细分到不同的集合,每个细分的集合纯净度就会提高,而熵就会下降。在测试结束的时候,如果所有被测者都被分配到了相应的武侠人物名下,那么每个人...

程序员的数学基础课
11718192021673