在機率論與統計學中,共變異數(英語:Covariance)用於衡量随机变量間的相關程度。
「Covariance」的各地常用譯名 |
---|
中国大陸 | 协方差 |
---|
臺灣 | 共變異數 |
---|
港澳 | 協方差 |
---|
日本、韓國 | 共分散 |
---|
兩變數X與Y在3種不同的共變異數情況下的關係
定義 —
設
為样本空间,
是定義在
的事件族
上的機率。(換句話說,
是個機率空間)
若
与
是定義在
上的兩個实数随机变量, 期望值分别为:
![{\displaystyle \operatorname {E} (X)=\int _{\Omega }X\,dP=\mu }](https://wikimedia.org/api/rest_v1/media/math/render/svg/d2343d09d1605ab0ddc7b56659bd456aa30ebc7e)
![{\displaystyle \operatorname {E} (Y)=\int _{\Omega }Y\,dP=\nu }](https://wikimedia.org/api/rest_v1/media/math/render/svg/cabeb0d60fe98340cb5799d179b964327b771b4b)
則兩者間的协方差定义为:
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} [(X-\mu )(Y-\nu )]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/febbdfd744a73d469d33f9a075509210acb3e566)
根據測度積分的線性性質,上面的原始定義可以進一步簡化為:
![{\displaystyle {\begin{aligned}\operatorname {cov} (X,Y)&=\int _{\Omega }(X-\mu )(Y-\nu )\,dP\\&=\int _{\Omega }X\cdot Y\,dP-\mu \int _{\Omega }Y\,dP-\nu \int _{\Omega }X\,dP+\mu \nu \\&=\operatorname {E} (X\cdot Y)-\mu \nu \end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/527c19a137f63e65f91539a9ec70bc880d3b4f0f)
协方差矩阵[编辑]
协方差的定義可以推廣到兩列隨機變數之間
定義 —
設
是機率空間,
与
是定義在
上的兩列实数随机变量序列(也可視為有序对或行向量)
若二者对应的期望值分别为:
![{\displaystyle E(x_{i})=\int _{\Omega }x_{i}\,dP=\mu _{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1cb2536f97a10b488685f9abfe7865a276030b89)
![{\displaystyle E(y_{j})=\int _{\Omega }y_{j}\,dP=\nu _{j}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c13bfc6c82f4bbb2d5eaab7386e41f3f0a73bc17)
則这两列隨機变量间的协方差定义成一個
矩阵
![{\displaystyle \operatorname {\mathbf {cov} } (X,Y):={\left[\,\operatorname {cov} (x_{i},y_{j})\,\right]}_{m\times n}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e1336ef2012f40c3146fdc7e36b7d175842ba429)
以上的定義,以矩形來表示就是:
![{\displaystyle \operatorname {\mathbf {cov} } (X,Y):={\begin{bmatrix}\operatorname {cov} (x_{1},y_{1})&\dots &\operatorname {cov} (x_{1},y_{n})\\\vdots &\ddots &\vdots \\\operatorname {cov} (x_{m},y_{1})&\dots &\operatorname {cov} (x_{m},y_{n})\end{bmatrix}}={\begin{bmatrix}\operatorname {E} (x_{1}y_{1})-\mu _{1}\nu _{1}&\dots &\operatorname {E} (x_{1}y_{n})-\mu _{1}\nu _{n}\\\vdots &\ddots &\vdots \\\operatorname {E} (x_{m}y_{1})-\mu _{m}\nu _{1}&\dots &\operatorname {E} (x_{m}y_{n})-\mu _{m}\nu _{n}\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a7cbc6b5a06a280ab857d5c684dc84e8b0ad4e5c)
統計獨立[编辑]
計算性質[编辑]
如果
与
是实数随机变量,
与
是常数,那么根据协方差的定义可以得到:
,
,
,
对于随机变量序列
与
,有
,
对于随机变量序列
,有
。
相關係數[编辑]
取决于协方差的相关性
![{\displaystyle \eta ={\dfrac {\operatorname {cov} (X,Y)}{\sqrt {\operatorname {var} (X)\cdot \operatorname {var} (Y)}}}\ ,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/786d2c7152089bcd6eadb4412445f39a58d4a0f2)
更准确地说是线性相关性,是一个衡量线性独立的无量纲数,其取值在
之间。相关性
时称为“完全线性相关”(相关性
时称为“完全线性负相关”),此时将
对
作Y-X 散点图,将得到一组精确排列在直线上的点;相关性数值介于-1到1之间时,其绝对值越接近1表明线性相关性越好,作散点图得到的点的排布越接近一条直线。
相关性为0(因而协方差也为0)的两个随机变量又被称为是不相关的,或者更准确地说叫作“线性无关”、“线性不相关”,这仅仅表明
与
两随机变量之间没有线性相关性,并非表示它们之间一定没有任何内在的(非线性)函数关系,和前面所说的“
、
二者并不一定是统计独立的”说法一致。