相关数学知识

统计学相关

协方差、协方差矩阵

标准差和方差一般是用来描述一维数据的,针对多维数据,协方差就是用来度量两个随机变量关系的统计量,仿照方差的定义

015093014261697

给出协方差的定义

015093014263967

协方差的结果为正值,则表明两者是正相关的,结果为负,则说明两个变量之间的负相关,如果为0,则说明两者之间没有关系,也就是“相互独立”。

协方差只能处理二维问题,,随着维数的增加,需要计算多个协方差,所以需要用矩阵组织这些数据,写明是协方差矩阵的定义:

015093014284976

假设数据集有三个维度,则协方差矩阵为:

015093014291226

由上可知,协方差矩阵是一个对称矩阵,对角线为各个维度的方差。

相关系数、相关系数矩阵

相关系数是用来反映变量之间相关关系密切程度的统计指标,相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度,计算公式如下

4335b50ca3c7833ed427137d03f028

相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
  • 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
  • 当r=0时,表示两变量间无线性相关关系(不是说两个变量之间完全不相关,应该是线性不相关)
  • 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
  • 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。

相关系数矩阵是由矩阵各列间的相关系数构成,相关矩阵第i行第j列的元素就是原矩阵第i列和第j列的相关系数。

总结:由协方差矩阵和相关矩阵的公式定义可知,经标准化(或正态化:将原始数据处理成均值为0,方差为1 的标准数据)的样本数据的协方差矩阵就是原始样本数据的相关矩阵。

附上pandas处理多维数据,一般用来查看标签变量的统计特性和相关性

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
In [7]: df = pd.DataFrame(np.random.rand(10, 3), columns=['X1','Y1','Z3'])
In [8]: df
Out[8]:
X1 Y1 Z3
0 0.258116 0.667943 0.954830
1 0.584975 0.546284 0.045745
2 0.698974 0.409223 0.307409
3 0.073166 0.356393 0.722233
4 0.339093 0.146043 0.614686
5 0.624361 0.062805 0.574546
6 0.886631 0.217291 0.258432
7 0.403345 0.035377 0.096881
8 0.663185 0.376171 0.593964
9 0.789347 0.489057 0.564688
In [9]: df.describe()
Out[9]:
X1 Y1 Z3
count 10.000000 10.000000 10.000000
mean 0.532119 0.330659 0.473341
std 0.255544 0.210851 0.287745
min 0.073166 0.035377 0.045745
25% 0.355156 0.163855 0.270676
50% 0.604668 0.366282 0.569617
75% 0.690027 0.469099 0.609506
max 0.886631 0.667943 0.954830
In [10]: df.describe().loc[['min','max','std'], 'Z3']
Out[10]:
min 0.045745
max 0.954830
std 0.287745
Name: Z3, dtype: float64
In [11]: corrdf=df.corr()#输出相关矩阵