博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[数据分析学习笔记] 数据分析必备的概率论和统计学知识
阅读量:4041 次
发布时间:2019-05-24

本文共 2022 字,大约阅读时间需要 6 分钟。

数据分析必备的概率论和统计学知识

概率论基础

1. 随机事件与概率

随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…}。仅含一个样本点的随机事件称为基本事件,含有多个样本点的随机事件称为复合事件。

随机事件的特点

(1)可以在相同的条件下重复进行;

(2)每个试验的可能结果不止一个,并且能事先预测试验的所有可能结果;

(3)进行一次试验之前不能确定哪一个结果会出现。

随机事件的关系

  • 事件A是事件B的子事件,事件A发生必然导致事件B发生,事件A的样本点都是事件B的样本点,记作A⊂B。
  • 若A⊂B且B⊂A,那么A=B,称A和B为相等事件,事件A与事件B含有相同的样本点。
  • 和事件发生,即事件A发生或事件B发生,事件A与事件B至少一个发生,由事件A与事件B所有样本点组成,记作A∪B。
  • 积事件发生,即事件A和事件B同时发生,由事件A与事件B的公共样本点组成,记作AB或A∩B。

随机变量及其分布

  • 随机变量的概率分布

       随机变量的分布函数

       离散型随机变量及其分布率

       连续型随机变量及其分布率

  • 随机变量的函数及概率密度函数

随机变量的数字特征

包括:一维随机变量和多维随机变量

  •  数学期望

        离散型随机变量的数学期望

        连续型随机变量的数学期望

        二维随机变量函数的数学期望

        数学期望的性质

  •  方差

        方差的概念、性质

  •  标准差
  •  切比雪夫不等式
  •  协方差与相关系数

几类重要的概率分布

  •  (0-1) 分布
  • 二项分布
  • 几何分布
  • 泊松分布
  • 正态分布
  • 其他重要的概率分布(指数分布、均匀分布等)
  •  二维正态分布及二维均匀分布

 


 

参数估计 

参数估计(Parameter Estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式,分为点估计和区间估计两部分。

参数估计是在样本统计量概率分布的基础上,利用样本的信息推断所关心的总体参数的过程。

(1)基于样本统计量的概率分布:如前所述,样本统计量是一个随机变量,有其自身的概率分布、期望、方差等。在分析一个样本集时,需要基于此统计学知识;
(2)利用样本的信息:样本是我们唯一有的数据,一切的统计基于样本数据;
(3)推断所关心的总体参数是目的。比如,利用样本的均值推断总体的均值,利用样本的方差推断总体的方差。

PS1:利用样本的均值作为总体均值的估计,是直观且不需要解释的。样本统计量(此处指均值)的概率分布,是为这个估计提供置信度等信息的。

PS2:利用样本均值去估计总体均值时,总体均值是一个待被估计的总体参数,可以用表示。样本均值叫做估计量,用表示,是一个统计量;实际采集了一个样本算出了其平均值,这叫一个估计值。

参数估计的基本原理

 

参数估计的方法

  • 点估计

点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。简单的来说,指直接以样本指标来估计总体指标,也叫定值估计。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是:

① 矩估计法,用样本矩估计总体矩

② 最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。

③ 最小二乘法。主要用于线性统计模型中的参数估计问题。

④ 贝叶斯估计法。

  • 区间估计

区间估计是在点估计的基础上,给出总体参数估计的一个估计区间,并给出相应的置信度。区间估计要基于样本统计量的分布规律上,区间通常是样本统计量加减估计误差。

 


假设检验

假设检验的基本问题

一个总体参数的检验

两个总体参数的检验

单侧检验中假设的建立

置信区间与假设检验的关系


方差分析

方差分析基本原理

单因素方差分析

双因素方差分析

利用Excel或者Python等其他工具做方差分析 


一元线性回归

 变量间关系的度量

一元线性回归

利用回归方程进行预测

残差分析


多元线性回归

基本原理

多重共线性

变量选择与逐步回归

带有虚拟变量的回归分析


时间序列

时间序列基本概念

时间序列预测的程序

复合型序列的分解预测


聚类分析

分类

相似性度量

聚类分析的分类

聚类分析方法分类


主成分分析

基本原理

核心问题

理论基础

利用系统和工具进行主成分分析


因子分析

因子分析的基本理论及模型

因子分析的步骤

利用系统和工具进行因子分析

主成分分析与因子分析的异同

 

转载地址:http://asvdi.baihongyu.com/

你可能感兴趣的文章
多线程使用随机函数需要注意的一点
查看>>
getpeername,getsockname
查看>>
让我做你的下一行Code
查看>>
浅析:setsockopt()改善程序的健壮性
查看>>
关于对象赋值及返回临时对象过程中的构造与析构
查看>>
VS 2005 CRT函数的安全性增强版本
查看>>
SQL 多表联合查询
查看>>
Visual Studio 2010:C++0x新特性
查看>>
drwtsn32.exe和adplus.vbs进行dump文件抓取
查看>>
cppcheck c++静态代码检查
查看>>
在C++中使用Lua
查看>>
一些socket的编程经验
查看>>
socket编程中select的使用
查看>>
关于AIS编码解码的两个小问题
查看>>
GitHub 万星推荐:黑客成长技术清单
查看>>
可以在线C++编译的工具站点
查看>>
关于无人驾驶的过去、现在以及未来,看这篇文章就够了!
查看>>
所谓的进步和提升,就是完成认知升级
查看>>
昨夜今晨最大八卦终于坐实——人类首次直接探测到了引力波
查看>>
为什么读了很多书,却学不到什么东西?
查看>>