协方差定义
$X,Y$是两个随机变量,$X,Y$的协方差covarianxe
定义为
其中,$\mathbb{E}[X]=\mu_x$
协方差矩阵定义
这里默认每一行是一个观测值,每一列是一个随机变量
协方差矩阵为
从这里也可以看出
- 协方差矩阵是对称矩阵
- 对角元素就是随机变量的方差
variance
例子:
- 求每个随机变量的均值
- $\mathbf{X}$的每一列减去均值
- 计算协方差矩阵
协方差的意义
在图中的区域(1)中,有$X > \mathbb{E}[X], Y > \mathbb{E}[Y]$,所以$(X - \mathbb{E}[X])(Y - \mathbb{E}[Y]) > 0$
在图中的区域(2)中,有$X < \mathbb{E}[X], Y > \mathbb{E}[Y]$,所以$(X - \mathbb{E}[X])(Y-\mathbb{E}[Y]) < 0$
在图中的区域(3)中,有$X > \mathbb{E}[X], Y>\mathbb{E}[Y]$,所以$(X - \mathbb{E}[X])(Y - \mathbb{E}[Y]) > 0$
在图中的区域(4)中,有$X > \mathbb{E}[X], Y > \mathbb{E}[Y]$,所以$(X - \mathbb{E}[X])(Y - \mathbb{E}[Y]) > 0$
当$X$与$Y$正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有$\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] > 0$
当$X$与$Y$负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有$\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]< 0$
当$X$与$Y$不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有$\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] = 0$
所以,我们可以定义一个表示$X, Y$相互关系的数字特征,也就是协方差
- $cov(X, Y) > 0$时,表明$X$与$Y$正相关
- $cov(X, Y) < 0$时,表明$X$与$Y$负相关
- $cov(X, Y) = 0$时,表明$X$与$Y$不相关
这就是协方差的意义