[数据分析学习笔记] 数据分析必备的概率论和统计学知识-白红宇

[数据分析学习笔记] 数据分析必备的概率论和统计学知识

阅读量：4041 次

发布时间：2019-05-24

本文共 2022 字，大约阅读时间需要 6 分钟。

数据分析必备的概率论和统计学知识

概率论基础

1. 随机事件与概率

随机事件是在随机试验中，可能出现也可能不出现，而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点，记作ωi。全体样本点组成的集合称为这个试验的样本空间，记作Ω．即Ω={ω1，ω2，…，ωn，…}。仅含一个样本点的随机事件称为基本事件，含有多个样本点的随机事件称为复合事件。

随机事件的特点

（1）可以在相同的条件下重复进行；

（2）每个试验的可能结果不止一个，并且能事先预测试验的所有可能结果；

（3）进行一次试验之前不能确定哪一个结果会出现。

随机事件的关系

事件A是事件B的子事件，事件A发生必然导致事件B发生，事件A的样本点都是事件B的样本点，记作A⊂B。

若A⊂B且B⊂A，那么A=B，称A和B为相等事件，事件A与事件B含有相同的样本点。

和事件发生，即事件A发生或事件B发生，事件A与事件B至少一个发生，由事件A与事件B所有样本点组成，记作A∪B。

积事件发生，即事件A和事件B同时发生，由事件A与事件B的公共样本点组成，记作AB或A∩B。

随机变量及其分布

随机变量的概率分布

随机变量的分布函数

离散型随机变量及其分布率

连续型随机变量及其分布率

随机变量的函数及概率密度函数

随机变量的数字特征

包括：一维随机变量和多维随机变量

数学期望

离散型随机变量的数学期望

连续型随机变量的数学期望

二维随机变量函数的数学期望

数学期望的性质

方差

方差的概念、性质

标准差

切比雪夫不等式

协方差与相关系数

几类重要的概率分布

(0-1) 分布

二项分布

几何分布

泊松分布

正态分布

其他重要的概率分布（指数分布、均匀分布等）

二维正态分布及二维均匀分布

参数估计

参数估计（Parameter Estimation）是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据，分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式，分为点估计和区间估计两部分。

参数估计是在样本统计量概率分布的基础上，利用样本的信息推断所关心的总体参数的过程。

（1）基于样本统计量的概率分布：如前所述，样本统计量是一个随机变量，有其自身的概率分布、期望、方差等。在分析一个样本集时，需要基于此统计学知识；

（2）利用样本的信息：样本是我们唯一有的数据，一切的统计基于样本数据；

（3）推断所关心的总体参数是目的。比如，利用样本的均值推断总体的均值，利用样本的方差推断总体的方差。

PS1：利用样本的均值作为总体均值的估计，是直观且不需要解释的。样本统计量（此处指均值）的概率分布，是为这个估计提供置信度等信息的。

PS2：利用样本均值去估计总体均值时，总体均值是一个待被估计的总体参数，可以用表示。样本均值叫做估计量，用表示，是一个统计量；实际采集了一个样本算出了其平均值，这叫一个估计值。

参数估计的基本原理

参数估计的方法