(史上最全总结)总体方差,样本方差,标准差,抽样方差,标准误差,均方误差,协方差 ...........

(史上最全总结)总体方差,样本方差,标准差,抽样方差,标准误差,均方误差,协方差 ...........

文章目录

数学期望

\color{blue}数学期望

数学期望

总体和样本

\color{blue}总体和样本

总体和样本

方差

\color{blue} 方差

方差

1.

总体方差

\color{blue}1.总体方差

1.总体方差

2.

样本方差

\color{blue}2.样本方差

2.样本方差

3.

标准差

\color{blue}3.标准差

3.标准差

4.

抽样方差

\color{blue}4.抽样方差

4.抽样方差

5.

标准误差

\color{blue}5.标准误差

5.标准误差

6.

均方差

\color{blue}6.均方差

6.均方差

7.

均方误差

\color{blue}7.均方误差

7.均方误差

8.

均方根误差

\color{blue}8.均方根误差

8.均方根误差

9.

协方差

\color{blue}9.协方差

9.协方差

10.

极差

\color{blue}10.极差

10.极差

数学期望

\color{blue}数学期望

数学期望

1.概念:

在概率论和统计学中,数学期望 (mean)(或 均值,亦简称期望)是试验中每次可能结果的 概率 乘以其结果的总和,是最基本的数学特征之一。它反映随机变量 平均取值 的大小。

需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的 平均数 。期望值并不一定包含于变量的输出值集合里。

大数定律 规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值

2. 离散型随机变量的期望:

离散型随机变量的一切可能的取值

X

i

X_i

Xi​ 与对应的概率

p

(

X

i

)

p(X_i)

p(Xi​) 乘积之和称为该离散型随机变量的数学期望(若该求和绝对收敛),则记为

E

(

X

)

E(X)

E(X)。

若离散型随机变量

X

X

X 的取值为

X

1

X_1

X1​ ,

X

2

X_2

X2​ ,

X

3

X_3

X3​ ,

\ldots

… ,

X

i

X_i

Xi​ ,

\ldots

… ;

p

(

X

1

)

p(X_1)

p(X1​) ,

p

(

X

2

)

p(X_2)

p(X2​) ,

p

(

X

3

)

p(X_3)

p(X3​) ,

\ldots

… ,

p

(

X

i

)

p(X_i)

p(Xi​) ,

\ldots

… 则为

X

X

X 对应取值的概率。

E

(

X

)

=

X

1

p

(

X

1

)

+

X

2

p

(

X

2

)

+

X

3

p

(

X

3

)

+

+

X

i

p

(

X

i

)

E(X) = X_1*p(X_1)+X_2*p(X_2)+X_3*p(X_3)+\ldots+X_i*p(X_i)

E(X)=X1​∗p(X1​)+X2​∗p(X2​)+X3​∗p(X3​)+…+Xi​∗p(Xi​)

E

(

X

)

=

i

=

1

X

i

p

(

X

i

)

\color{red}{E(X) = \sum_{i=1}^\infty X_i*p(X_i)}

E(X)=i=1∑∞​Xi​∗p(Xi​)

3. 连续型随机变量的期望:

设连续性随机变量X的概率密度函数为

f

(

x

)

f(x)

f(x),若积分绝对收敛,则称积分的值

x

f

(

x

)

d

x

\int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x

∫−∞∞​xf(x)dx 为随机变量的数学期望,记为

E

(

X

)

E(X)

E(X)。

E

(

X

)

=

x

f

(

x

)

d

x

\color{red}{E(X) = \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x}

E(X)=∫−∞∞​xf(x)dx

若随机变量 X 的分布函数

F

(

x

)

F(x)

F(x) 可表示成一个非负可积函数

f

(

x

)

f(x)

f(x) 的积分,则称

X

X

X 为连续性随机变量,

f

(

x

)

f(x)

f(x) 称为

X

X

X 的概率密度函数。

参考百度百科:https://baike.baidu.com/item/%E6%95%B0%E5%AD%A6%E6%9C%9F%E6%9C%9B

总体和样本

\color{blue}总体和样本

总体和样本

这里介绍了下基本概念,过多的性质这里就不介绍了,大家感兴趣的话,可以自己去查资料或者看课本。

方差

\color{blue}方差

方差

概率论中方差用来度量随机变量和其数学期望(均值)之间的偏离程度。 统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差用

V

a

r

(

X

)

Var(X)

Var(X) 或者

D

(

X

)

D(X)

D(X) 表示:

D

(

X

)

=

E

[

X

E

(

X

)

]

2

=

E

[

X

2

2

X

E

(

X

)

+

(

E

X

)

2

]

=

E

(

X

2

)

2

(

E

X

)

2

+

(

E

X

)

2

=

E

(

X

2

)

(

E

X

)

2

(1)

\color{red} \begin{aligned} D(X) &= E[X-E(X)]^2 \\ &= E[X^2-2XE(X)+(EX)^2] \\ &= E(X^2)-2(EX)^2+(EX)^2 \\ &= E(X^2)-(EX)^2\tag{1} \end{aligned}

D(X)​=E[X−E(X)]2=E[X2−2XE(X)+(EX)2]=E(X2)−2(EX)2+(EX)2=E(X2)−(EX)2​(1)

.

总体方差(有偏估计)

\color{blue}①. 总体方差 (有偏估计)

①.总体方差(有偏估计)

σ

2

=

i

=

1

N

(

X

i

μ

)

2

N

\color{red}\sigma^2 = \frac{\sum_{i=1}^N(X_i-\mu)^2}{N}

σ2=N∑i=1N​(Xi​−μ)2​

σ

2

\sigma^2

σ2 为总体方差,

N

N

N 为总体的个数,

X

i

X_i

Xi​为变量,

μ

\mu

μ 为总体均值。

我们中学其实就已经学到了这个标准定义的方差,除数为总体样例的个数

n

n

n。

.

样本方差(无偏估计)

\color{blue}②. 样本方差 (无偏估计)

②.样本方差(无偏估计)

S

2

=

1

n

1

i

=

1

n

(

X

i

X

)

2

\color{red}{S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}

S2=n−11​i=1∑n​(Xi​−X)2

S

2

S^2

S2 为样本方差,

n

n

<

<

N

n(n<

n(n<

X

i

X_i

Xi​ 为变量,

X

\overline{X}

X 为样本均值。

在实际工作中总体方差

σ

2

\sigma^2

σ2 几乎算不出来,我们一般用

S

2

S^2

S2代替

σ

2

\sigma^2

σ2。

这里

μ

为什么要用

X

代替呢?

\color{fuchsia}这里 \mu为什么要用 \overline{X}代替呢?

这里μ为什么要用X代替呢?

同理总体均值

μ

\mu

μ 也很难得到,所以只能使用样本均值

X

\overline{X}

X 代替,但是这样肯定就会有误差,那么误差是大还是小?又差多少呢 ?这就是下面的问题了。

为什么样本方差的除数不是

n

,

而是

(

n

1

)

呢?

\color{fuchsia}{为什么样本方差的除数不是n,而是 (n-1)呢?}

为什么样本方差的除数不是n,而是(n−1)呢?

简单的来说,

X

\overline{X}

X 是用

n

n

n 个样本所求到的平均数,因此样本平均数

X

\overline{X}

X 一旦确定下来,就只有

n

1

n-1

n−1 个数不受约束,第

n

n

n 个数已经可以被均值和前面

n

1

n-1

n−1 个数确定下来了,所以第

n

n

n 个数也就没有啥信息量了,没用了(自由度由

n

n

n 变成了

n

1

n-1

n−1)。

证明:

首先我们并不知道样本方差与总体方差之间具体相差多少, 这里便使用下式来对

σ

2

\sigma^2

σ2 进行估计:

S

2

=

1

n

i

=

1

n

(

X

i

X

)

2

=

1

n

i

=

1

n

[

(

X

i

μ

)

(

X

μ

)

]

2

=

1

n

i

=

1

n

[

(

X

i

μ

)

2

2

(

X

i

μ

)

(

X

μ

)

+

(

X

μ

)

2

]

=

1

n

i

=

1

n

(

X

i

μ

)

2

2

n

(

X

μ

)

i

=

1

n

(

X

i

μ

)

+

1

n

i

=

1

n

(

X

μ

)

2

(2)

\color{red} \begin{aligned} S^2 & =\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)-(\overline{X}-\mu)]^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2] \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-\frac{2}{n}(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+\frac{1}{n}\sum_{i=1}^n(\overline{X}-\mu)^2 \tag{2} \end{aligned}

S2​=n1​i=1∑n​(Xi​−X)2=n1​i=1∑n​[(Xi​−μ)−(X−μ)]2=n1​i=1∑n​[(Xi​−μ)2−2(Xi​−μ)(X−μ)+(X−μ)2]=n1​i=1∑n​(Xi​−μ)2−n2​(X−μ)i=1∑n​(Xi​−μ)+n1​i=1∑n​(X−μ)2​(2)

其中

(

X

μ

)

\color{red}(\overline{X}-\mu)

(X−μ) 为常数,并且

(

X

μ

)

=

1

n

i

=

1

n

X

i

μ

=

1

n

i

=

1

n

X

i

1

n

i

=

1

n

μ

=

1

n

i

=

1

n

(

X

i

μ

)

(3)

\color{red}(\overline{X}-\mu) = \frac{1}{n}\sum_{i=1}^nX_i-\mu = \frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^n\mu = \frac{1}{n}\sum_{i=1}^n(X_i-\mu) \tag{3}

(X−μ)=n1​i=1∑n​Xi​−μ=n1​i=1∑n​Xi​−n1​i=1∑n​μ=n1​i=1∑n​(Xi​−μ)(3)

所以

S

2

=

1

n

i

=

1

n

(

X

i

μ

)

2

2

(

X

μ

)

2

+

1

n

(

X

μ

)

2

i

=

1

n

1

=

1

n

i

=

1

n

(

X

i

μ

)

2

2

(

X

μ

)

2

+

(

X

μ

)

2

=

1

n

i

=

1

n

(

X

i

μ

)

2

(

X

μ

)

2

(4)

\color{red} \begin{aligned} S^2 & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+\frac{1}{n}(\overline{X}-\mu)^2\sum_{i=1}^n1 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+(\overline{X}-\mu)^2 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2 \tag{4} \end{aligned}

S2​=n1​i=1∑n​(Xi​−μ)2−2(X−μ)2+n1​(X−μ)2i=1∑n​1=n1​i=1∑n​(Xi​−μ)2−2(X−μ)2+(X−μ)2=n1​i=1∑n​(Xi​−μ)2−(X−μ)2​(4)

如果总体均值

μ

已知,则样本方差

[

1

n

i

=

1

n

(

X

i

μ

)

2

]

的期望等于总体方差

σ

2

\color{fuchsia}{如果总体均值 \mu 已知,则样本方差 [\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2] 的期望等于总体方差 \sigma^2}

如果总体均值μ已知,则样本方差[n1​∑i=1n​(Xi​−μ)2]的期望等于总体方差σ2

因此

E

(

S

2

)

=

E

[

1

n

i

=

1

n

(

X

i

μ

)

2

(

X

μ

)

2

]

=

E

[

1

n

i

=

1

n

(

X

i

μ

)

2

]

E

[

(

X

μ

)

2

]

=

σ

2

E

[

(

X

μ

)

2

]

(5)

\color{red} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2] \\ & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]-E[(\overline{X}-\mu)^2] \\ & = \sigma^2-E[(\overline{X}-\mu)^2] \tag{5} \end{aligned}

E(S2)​=E[n1​i=1∑n​(Xi​−μ)2−(X−μ)2]=E[n1​i=1∑n​(Xi​−μ)2]−E[(X−μ)2]=σ2−E[(X−μ)2]​(5)

从上式可得,只有当样本均值

X

等于总体均值

μ

时,样本方差的期望才等于总体方差

\color{fuchsia}{从上式可得,只有当样本均值\overline{X}等于总体均值\mu时,样本方差的期望才等于总体方差}

从上式可得,只有当样本均值X等于总体均值μ时,样本方差的期望才等于总体方差

最终可推出

E

(

S

2

)

=

E

[

1

n

i

=

1

n

(

X

i

X

)

2

]

<

=

E

[

1

n

i

=

1

n

(

X

i

μ

)

2

]

=

σ

2

\color{red} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2]<=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]=\sigma^2 \end{aligned}

E(S2)​=E[n1​i=1∑n​(Xi​−X)2]<=E[n1​i=1∑n​(Xi​−μ)2]=σ2​

由此可见用样本方差估计的话,会低估

(

小于

)

总体方差,那又会低估多少呢?

\color{fuchsia}{由此可见用样本方差估计的话,会低估(小于)总体方差,那又会低估多少呢?}

由此可见用样本方差估计的话,会低估(小于)总体方差,那又会低估多少呢?

E

(

S

2

)

=

σ

2

E

[

(

X

μ

)

2

]

(由(5)式可得)

\color{red} \begin{aligned} E(S^2) & = \sigma^2-E[(\overline{X}-\mu)^2] \tag{由(5)式可得} \end{aligned}

E(S2)​=σ2−E[(X−μ)2]​(由(5)式可得)

由于样本均值的期望等于总体均值,则可推出

\color{fuchsia}{由于样本均值的期望等于总体均值,则可推出}

由于样本均值的期望等于总体均值,则可推出

E

[

(

X

μ

)

2

=

E

[

(

X

E

(

X

)

)

2

=

D

(

X

)

=

D

[

1

n

i

=

1

n

X

i

]

=

1

n

2

D

[

i

=

1

n

X

i

]

=

1

n

2

i

=

1

n

D

(

X

i

)

=

n

σ

2

n

2

=

σ

2

n

(由(1)式可得)

\color{red} \begin{aligned} E[(\overline{X}-\mu)^2 & = E[(\overline{X}-E(\overline{X}))^2 \\ & = D(\overline{X}) \\ & = D[\frac{1}{n}\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}D[\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}\sum_{i=1}^nD(X_i) \\ & = \frac{n\sigma^2}{n^2} \\ & = \frac{\sigma^2}{n} \tag{由(1)式可得} \end{aligned}

E[(X−μ)2​=E[(X−E(X))2=D(X)=D[n1​i=1∑n​Xi​]=n21​D[i=1∑n​Xi​]=n21​i=1∑n​D(Xi​)=n2nσ2​=nσ2​​(由(1)式可得) 最终可推出

E

(

S

2

)

=

σ

2

σ

2

n

=

n

1

n

σ

2

\color{red} \begin{aligned} E(S^2) = \sigma^2-\frac{\sigma^2}{n} = \frac{n-1}{n}\sigma^2 \end{aligned}

E(S2)=σ2−nσ2​=nn−1​σ2​

由此可见低估了

1

n

σ

2

\color{fuchsia}{由此可见低估了\frac{1}{n}\sigma^2}

由此可见低估了n1​σ2

再将上面式子进行恒等变形

n

n

1

E

(

S

2

)

=

σ

2

n

n

1

E

[

1

n

i

=

1

n

(

X

i

X

)

2

]

=

σ

2

E

[

1

n

1

i

=

1

n

(

X

i

X

)

2

]

=

σ

2

\color{red} \begin{aligned} \frac{n}{n-1}E(S^2) = \sigma^2 \\ \frac{n}{n-1}*E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2] = \sigma^2 \\ E[\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 ]= \sigma^2 \end{aligned}

n−1n​E(S2)=σ2n−1n​∗E[n1​i=1∑n​(Xi​−X)2]=σ2E[n−11​i=1∑n​(Xi​−X)2]=σ2​

因此可以用以下式子对总体方差进行估算,也就是最终样本方差的除数是

n

1

n-1

n−1 的原因

S

2

=

1

n

1

i

=

1

n

(

X

i

X

)

2

\color{red} \begin{aligned} S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \end{aligned}

S2=n−11​i=1∑n​(Xi​−X)2​

参考链接:https://www.zhihu.com/question/20099757 https://blog.csdn.net/Frankgoogle/article/details/80260969

上面谈到的有偏估计和无偏估计怎么理解,这里就不细说了,有兴趣的可以看看这个链接:https://www.zhihu.com/question/22983179

.

标准差(均方差,记作

S

D

\color{blue}③.标准差(均方差,记作SD)

③.标准差(均方差,记作SD)

随机变量

X

X

X 标准差定义

σ

=

E

[

X

E

(

X

)

]

2

=

E

(

X

2

)

(

E

X

)

2

\color{red}\sigma = \sqrt{E[X-E(X)]^2} = \sqrt{E(X^2)-(EX)^2}

σ=E[X−E(X)]2

​=E(X2)−(EX)2

​ 总体方差对应的标准差

σ

=

i

=

1

N

(

X

i

μ

)

2

N

\color{red}\sigma = \sqrt{\frac{\sum_{i=1}^N(X_i-\mu)^2}{N}}

σ=N∑i=1N​(Xi​−μ)2​

样本方差对应的标准差

S

=

i

=

1

n

(

X

i

X

)

2

n

1

\color{red}S = \sqrt{\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}}

S=n−1∑i=1n​(Xi​−X)2​

.

抽样方差(样本均值的方差)

\color{blue}④.抽样方差(样本均值的方差)

④.抽样方差(样本均值的方差)

假如我们的总体容量为

N

N

N,我们将分成

k

k

k 个样本,设其中一个样本的容量为

n

n

n 。

我们前面讲到的样本方差是将容量为

n

n

n 的样本作为一个整体,样本中的第

1

,

2

,

3

,

,

n

1,2,3,\ldots,n

1,2,3,…,n 个体作为变量所求的方差。

这里我们则是将一个样本的均值定义为一个变量(样本均值记为

Y

\overline{Y}

Y,

Y

\overline{Y}

Y 做为一个随机变量),

k

k

k 个样本均值作为一个整体,最后求到

Y

\overline{Y}

Y 的总体方差,也就是抽样方差。

.

标准误差(标准误,样本均值的标准误差)

\color{blue}⑤.标准误差(标准误,样本均值的标准误差)

⑤.标准误差(标准误,样本均值的标准误差)

Y

\overline{Y}

Y 的总体标准差称为标准误差(就是抽样方差开个根号),记作

S

E

(

Y

)

SE(\overline{Y})

SE(Y)。

抽样方差和总体方差的关系:

如果已知总体的标准差

(

σ

2

)

,那么抽取无限多份大小为

n

的样本

,

\color{fuchsia}如果已知总体的标准差(\sigma^2),那么抽取无限多份大小为 n 的样本,

如果已知总体的标准差(σ2),那么抽取无限多份大小为n的样本,

每个样本各有一个平均值,所有样本平均值的方差可证明为

\color{fuchsia}每个样本各有一个平均值,所有样本平均值的方差可证明为

每个样本各有一个平均值,所有样本平均值的方差可证明为

(注意!不是一份样本里观察值的方差(那是

S

2

))

\color{fuchsia}(注意!不是一份样本里观察值的方差(那是 S^2 ))

(注意!不是一份样本里观察值的方差(那是S2))

σ

Y

2

=

σ

2

n

\color{red}\sigma_{\overline{Y}}^2 = \frac{\sigma^2}{n}

σY2​=nσ2​

在现实中人们更喜欢用两边的算术平方根

S

D

(

Y

)

=

σ

Y

=

σ

n

\color{red}SD(\overline{Y}) = \sigma_{\overline{Y}} = \frac{\sigma}{\sqrt{n}}

SD(Y)=σY​=n

​σ​

由于

σ

\sigma

σ 在现实中往往很难得到,所以通常用

S

S

S(样本的标准差)来代替

S

E

(

Y

)

=

S

n

\color{red}SE(\overline{Y}) = \frac{S}{\sqrt{n}}

SE(Y)=n

​S​

σ

Y

2

:

样本均值的方差

\sigma_{\overline{Y}}^2 : 样本均值的方差

σY2​:样本均值的方差

S

D

(

Y

)

:

样本均值的标准“差”

SD(\overline{Y}) : 样本均值的标准“差”

SD(Y):样本均值的标准“差”

S

E

(

Y

)

:

样本均值的标准“误”

SE(\overline{Y}) : 样本均值的标准“误”

SE(Y):样本均值的标准“误”

参考:https://zhuanlan.zhihu.com/p/106706044 https://zh.wikipedia.org/zh-hans/%E6%A0%87%E5%87%86%E8%AF%AF%E5%B7%AE

总结一下

因为每进行一次抽样就能得到一个样本均值

Y

,所以

Y

同样是一个随机变量。

\color{fuchsia}因为每进行一次抽样就能得到一个样本均值 \overline{Y},所以 \overline{Y} 同样是一个随机变量。

因为每进行一次抽样就能得到一个样本均值Y,所以Y同样是一个随机变量。

这个新随机变量的总体方差叫做“抽样方差”(

S

a

m

p

l

i

n

g

V

a

r

i

a

n

c

e

\color{fuchsia}这个新随机变量的总体方差叫做“抽样方差”(Sampling Variance)

这个新随机变量的总体方差叫做“抽样方差”(SamplingVariance)

这个新随机变量的总体标准差叫做“标准误”(

S

t

a

n

d

a

r

d

E

r

r

o

r

\color{fuchsia}这个新随机变量的总体标准差叫做“标准误”(Standard Error)

这个新随机变量的总体标准差叫做“标准误”(StandardError)

具体怎么应用这里就不细说

\ldots

… 篇幅有限,大家有兴趣的话可以自己去去找找资料。

.

均方差(也称标准差,上面说过了)

\color{blue}⑥.均方差(也称标准差,上面说过了)

⑥.均方差(也称标准差,上面说过了)

.

均方误差(记作:

M

S

E

\color{blue}⑦.均方误差(记作:MSE)

⑦.均方误差(记作:MSE)

均方误差:各个数据估计值偏离数据真实值的平方和的平均数(误差平方和的平均数)

M

S

E

=

i

=

1

n

(

X

i

x

i

)

2

n

\color{red}MSE = \frac{\sum_{i=1}^n(X_i-x_i)^2}{n}

MSE=n∑i=1n​(Xi​−xi​)2​

X

i

:

数据的估计值

X_i: 数据的估计值

Xi​:数据的估计值

x

i

:

数据的真实值

x_i: 数据的真实值

xi​:数据的真实值

均方误差在机器学习中可以当作模型的损失函数,用来预测和回归。均方误差越小,模型预测的正确率越高,反之正确率则越低。

.

均方根误差(记作:

R

M

S

E

\color{blue}⑧.均方根误差(记作:RMSE)

⑧.均方根误差(记作:RMSE)

均方误差的算术平方根

R

M

S

E

=

i

=

1

n

(

X

i

x

i

)

n

\color{red}RMSE = \sqrt{\frac{\sum_{i=1}^n(X_i-x_i)}{n}}

RMSE=n∑i=1n​(Xi​−xi​)​

.

协方差

\color{blue}⑨.协方差

⑨.协方差

维基百科定义:在概率论和统计学中,协方差(Covariance)用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况,即变量与自身的协方差。

为什么说方差是协方差的特殊情况呢?

前面我们讲到了方差的表达式

D

(

X

)

=

E

[

X

E

(

X

)

]

2

=

E

[

X

E

(

X

)

]

[

X

E

(

X

)

]

\color{red}D(X)=E[X-E(X)]^2 = E[X-E(X)][X-E(X)]

D(X)=E[X−E(X)]2=E[X−E(X)][X−E(X)]

根据定义,协方差是衡量两个随机变量的联合变化程度,设两个随机变量分别为

X

,

Y

X,Y

X,Y。 协方差为

C

o

v

(

X

,

Y

)

=

E

[

X

E

(

X

)

]

[

Y

E

(

Y

)

]

\color{red}Cov(X,Y) = E[X-E(X)][Y-E(Y)]

Cov(X,Y)=E[X−E(X)][Y−E(Y)]

协方差表示的是两个变量的总体的误差;当

X

=

Y

X=Y

X=Y 时,表示的就是只有一个变量总体的误差的方差,所以方差是协方差中两个随机变量相等时的一种特殊情况。

C

o

v

(

X

,

Y

)

=

E

[

X

E

(

X

)

]

[

Y

E

(

Y

)

]

=

E

[

X

Y

X

E

(

Y

)

Y

E

(

X

)

+

E

(

X

)

E

(

Y

)

]

=

E

(

X

Y

)

E

(

X

)

E

(

Y

)

E

(

X

)

E

(

Y

)

+

E

(

X

)

E

(

Y

)

=

E

(

X

Y

)

E

(

X

)

E

(

Y

)

\color{red} \begin{aligned} Cov(X,Y) & = E[X-E(X)][Y-E(Y)] \\ & = E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ & = E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y) \\ & = E(XY)-E(X)E(Y) \end{aligned}

Cov(X,Y)​=E[X−E(X)][Y−E(Y)]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)−E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)​

一般我们都会用

E

(

X

Y

)

E

(

X

)

E

(

Y

)

E(XY)-E(X)E(Y)

E(XY)−E(X)E(Y) 来计算协方差

性质:

1.

C

o

v

(

X

,

X

)

=

D

(

X

)

\color{fuchsia}1.Cov(X,X) = D(X)

1.Cov(X,X)=D(X)

2.

C

o

v

(

X

,

Y

)

=

C

o

v

(

Y

,

X

)

\color{fuchsia}2.Cov(X,Y) = Cov(Y,X)

2.Cov(X,Y)=Cov(Y,X)

3.

C

o

v

(

a

X

,

b

Y

)

=

a

b

C

o

v

(

X

,

Y

)

\color{fuchsia}3.Cov(aX,bY) = abCov(X,Y)

3.Cov(aX,bY)=abCov(X,Y)

对于随机变量序列

X

1

,

.

.

.

,

X

n

X_1, ..., X_n

X1​,...,Xn​ 与

Y

1

,

.

.

.

,

Y

m

Y_1, ..., Y_m

Y1​,...,Ym​,有

4.

C

o

v

(

i

=

1

n

X

i

,

j

=

1

n

Y

j

)

=

i

=

1

n

j

=

1

n

C

o

v

(

X

,

Y

)

\color{fuchsia}4.Cov(\sum_{i=1}^nX_i,\sum_{j=1}^nY_j) = \sum_{i=1}^n\sum_{j=1}^nCov(X,Y)

4.Cov(∑i=1n​Xi​,∑j=1n​Yj​)=∑i=1n​∑j=1n​Cov(X,Y)

5.

C

o

v

(

X

,

k

1

Y

1

+

k

2

Y

2

+

+

k

n

Y

n

)

=

k

1

C

o

v

(

X

,

Y

1

)

+

+

k

n

C

o

v

(

X

,

Y

n

)

\color{fuchsia}5.Cov(X,k_1Y_1+k_2Y_2+\ldots+k_nY_n) = k_1Cov(X,Y_1)+\dots+k_nCov(X,Y_n)

5.Cov(X,k1​Y1​+k2​Y2​+…+kn​Yn​)=k1​Cov(X,Y1​)+⋯+kn​Cov(X,Yn​)

6.

X

,

Y

变化方向相同时(比如同时变大或者同时变小)

,

协方差为正。

\color{fuchsia}6.X,Y变化方向相同时(比如同时变大或者同时变小),协方差为正。

6.X,Y变化方向相同时(比如同时变大或者同时变小),协方差为正。

7.

X

,

Y

变化方向不相同时(比如同一个变大,另一个变小)

,

协方差为负。

\color{fuchsia}7.X,Y变化方向不相同时(比如同一个变大,另一个变小),协方差为负。

7.X,Y变化方向不相同时(比如同一个变大,另一个变小),协方差为负。

8.

X

,

Y

独立时,

C

o

v

(

X

,

Y

)

=

0

\color{fuchsia}8.当 X,Y 独立时,Cov(X,Y) = 0

8.当X,Y独立时,Cov(X,Y)=0

因为当

X

,

Y

X,Y

X,Y 独立时,则有

E

(

X

Y

)

=

E

(

X

)

E

(

Y

)

E(XY) = E(X)E(Y)

E(XY)=E(X)E(Y),所以

C

o

v

(

X

,

Y

)

=

0

Cov(X,Y) = 0

Cov(X,Y)=0。但是反过来协方差等于 0 ,

X

,

Y

X,Y

X,Y 并不一定独立。

.

极差(全距)

\color{blue}⑩.极差(全距)

⑩.极差(全距)

这个最简单了,就是最大值减去最小值的差值 有什么遗漏或者错误的地方欢迎大家指正!!!(有点标题党了哈哈哈)

相关推荐