概率论和数理统计的相关概念

期望、方差、总体、抽样、大数定理等概率论与数理统计的基本概念。

期望

平均数是一个统计学概念,期望是一个概率论概念平均数是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布“预测”的样本的平均值之所以说“预测”是因为在实验前能得到的期望与实际实验得到的样本的平均数总会不可避免地存在偏差,毕竟随机实验的结果永远充满着不确定性。如果我们能进行无穷次随机实验并计算出其样本的平均数的话,那么这个平均数其实就是期望。当然实际上根本不可能进行无穷次实验,但是实验样本的平均数会随着实验样本的增多越来越接近期望,就像频率随着实验样本的增多会越来越接近概率一样如果说概率是频率随样本趋于无穷的极限那么期望就是平均数随样本趋于无穷的极限

奇诺城堡的回答

方差

  • 样本点离均值,中心点之间的距离。

先验概率和后验概率

例题:假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。

先验概率

一个人在远处随机看到了一个学生,这个学生是女生的概率是多少?

没有任何观测值时候,完全根据经验来判断的概率,叫做先验概率

后验概率

一个人在远处随机看到了一个穿裤子的学生,这个学生是女生的概率是多少?

有了观测值以后,通过观测值,来反推未观测事件发生的概率,就叫后验概率

后验概率的计算

使用贝叶斯定理

事件A是看到女生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)。

P(A)是忽略其它因素,看到女生的概率,在这里是40%

P(A')是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60%

P(B|A)是女生穿裤子的概率,在这里是50%

P(B|A')是男生穿裤子的概率,在这里是100%

P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A)P(A),在这里是0.5×0.4 + 1×0.6 = 0.8。

根据贝叶斯定理,我们计算出后验概率P(A|B)

P(A|B)=P(B|A)*P(A)/P(B)=0.25

可见,后验概率实际上就是条件概率。

参考链接:知乎纽约Johnny哥

总体和抽样

  • 大数定理与中心极限定理的意义
  • 常用统计量:样本均值、样本方差、标准差、众数(抽样中出现最多的数字)、最小值、最大值,分位数,中位数(50%的样本点),上下四分位数(25%的样本点)。

大数定理

  • 当抽样的样本数量越来越大的时候,抽样的均值和标准差、方差也回越来越接近总体的均值和标准差、方差。

中心极限定理

  • 无论原来样本空间中的数据是服从怎样的分布,对这个样本的多次抽样的均值组成的新的样本一定是服从正态分布的。

方差与协方差、相关系数

这里写图片描述

cov()计算协方差矩阵的函数
cor()计算相关系数矩阵的函数
协方差为正数,说明两个随机变量之间是正相关的,正数越大正相关越密切,协方差是负数,说明两个随机变量之间是负相关,负数越小,负相关越大,当协方差是0的时候,两个随机变量之间就是没有关系的。
相关系数主要是反映两个随机变量之间是否有关联,相关系数越接近0,两个随机变量之间越没有关系。越接近1,两个随机变量之间的关系越密切。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
> cov(x$x1,x$x2) #计算x1x2的协方差
[1] 1.553535
> cor(x$x1,x$x2) #计算x1x2之间的相关系数。
[1] 0.0354692
> cov(x[2:4])
x1 x2 x3
x1 32.498586 1.553535 -24.422626
x2 1.553535 59.030303 4.725253
x3 -24.422626 4.725253 281.848081
> cor(x[2:4])
x1 x2 x3
x1 1.0000000 0.03546920 -0.25518350
x2 0.0354692 1.00000000 0.03663363
x3 -0.2551835 0.03663363 1.00000000

相关分析与回归分析

相关分析(correlation analysis) 是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

回归分析(regression analysis) 是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

变量之间的关系

  • 函数关系
  • 相关关系

分析过程

先计算相关关系
再进行显著性检验

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
> i1=iris[which(iris$Species=="setosa"),1:2]
> plot(i1) #计算得到Species=="setosa"的数据的相关关系
> cor(i1[1],i1[2])
Sepal.Width
Sepal.Length 0.7425467
> cor.test(i1$Sepal.Length,i1$Sepal.Width) #调用cor的test函数计算置信度为95%时的置信区间。

Pearson's product-moment correlation

data: i1$Sepal.Length and i1$Sepal.Width
t = 7.6807, df = 48, p-value = 6.71e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5851391 0.8460314 #置信区间为0.5857-----0.8460,相关关系为0.7425,在这个区间内。
sample estimates:
cor
0.7425467

一元线性回归分析

  • 回归直线分析
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
h=c(171,175,159,155,152,158,154,164,168,166,159,164)
w=c(57,64,41,38,35,44,41,51,57,49,47,46)
plot(w~h+1)
lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n}
(b=lxy(h,w)/lxy(h,h))
(a=mean(w)-b*mean(h))
a+b*185
lines(h,a+b*h) #作回归直线

(a=lm(w~1+h))
summary(a)
anova(a)
z=data.frame(x=185)
predict(a,z)
predict(a,z,interval="prediction",level=0.95)

判断标准 - 使用summary函数来查看线性模型的汇总情况 - 输出数据中Multiple R-squared的数值越接近1,模型越准确。

错误分析 - 可能不是线性模型,可能是非线性的模型。 - 样本本身就不是正态分布的。


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!