Поделиться
Ковариация и корреляция
Опубликовал Wikimatik , 3 Января 2017 по предмету "Теория вероятностей"

Как часто Вам приходилось слышать высказывания, в которых говорилось о том, что одно явление коррелируется с другим?

«Высокий рост коррелируется с хорошим образованием и счастьем, установили эксперты социологической службы Gallup.»

«Цена на нефть коррелируется с курсами валют.»

«Боль в мышцах после тренировки не коррелируется с гипертрофией мышечных волокон.»

Складывается впечатление, что понятие «корреляция» стало широко использоваться не только в науке, но и в повседневной жизни. Корреляция отражает степень линейной зависимости между двумя случайными явлениями. Так, когда цены на нефть начинают падать, то курс доллара относительно рубля начинает расти.

Из всего выше сказанного, можно сделать вывод о том, что при описании двумерных случайных величин бывает недостаточно таких хорошо известных характеристик, как математическое ожидание, дисперсия, среднее квадратическое отклонение. Поэтому часто для их описания используются еще две очень важные характеристики: ковариация и корреляция.

Ковариация

Ковариацией $cov\left(X,\ Y\right)$ случайных величин $X$ и $Y$ называется математическое ожидание произведения случайных величин $X-M\left(X\right)$ и $Y-M\left(Y\right)$, то есть:

$$cov\left(X,\ Y\right)=M\left(\left(X-M\left(X\right)\right)\left(Y-M\left(Y\right)\right)\right).$$ 

Бывает удобно вычислять ковариацию случайных величин $X$ и $Y$ по следующей формуле:

$$cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right),$$ 

которая может быть получена из первой формулы, используя свойства математического ожидания. Перечислим основные свойства ковариации.

1. Ковариация случайной величины с самой собой есть ее дисперсия.

$$cov\left(X,\ X\right)=D\left(X\right).$$ 

2. Ковариация симметрична.

$$cov\left(X,\ Y\right)=cov\left(Y,\ X\right).$$ 

3. Если случайные величины $X$ и $Y$ независимы, то:

$$cov\left(X,\ Y\right)=0.$$ 

4. Постоянный множитель можно выносить за знак ковариации.

$$cov\left(cX,\ Y\right)=cov\left(X,\ cY\right)=c\cdot cov\left(X,\ Y\right).$$ 

5. Ковариация не изменится, если к одной из случайных величин (или двум сразу) прибавить постоянную величину:

$$cov\left(X+c,\ Y\right)=cov\left(X,\ Y+c\right)=cov\left(X+x,\ Y+c\right)=cov\left(X,\ Y\right).$$ 

6. $cov\left(aX+b,\ cY+d\right)=ac\cdot cov\left(X,\ Y\right)$.

7. $\left|cov\left(X,\ Y\right)\right|\le \sqrt{D\left(X\right)D\left(Y\right)}$.

8. $\left|cov\left(X,\ Y\right)\right|=\sqrt{D\left(X\right)D\left(Y\right)}\Leftrightarrow Y=aX+b$.

9. Дисперсия суммы (разности) случайных величин равна сумме их дисперсий плюс (минус) удвоенная ковариация этих случайных величин:

$$D\left(X\pm Y\right)=D\left(X\right)+D\left(Y\right)\pm 2cov\left(X,\ Y\right).$$ 

Пример 1. Дана корреляционная таблица случайного вектора $\left(X,\ Y\right)$. Вычислить ковариацию $cov\left(X,\ Y\right)$.

$\begin{array}{|c|c|}
\hline
 X\backslash Y & -6 & 0 & 3 \\
\hline
 -2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & p_{22} & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end{array}$

События $\left(X=x_i,\ Y=y_j\right)$ образуют полную группу событий, поэтому сумма всех вероятностей $p_{ij}$, указанных в таблице, должна быть равна 1. Тогда $0,1+0+0,2+0,05+p_{22}+0+0+0,2+0,05+0,1+0+0,1=1$, отсюда $p_{22}=0,2$.

$\begin{array}{|c|c|}
\hline
 X\backslash Y & -6 & 0 & 3 \\
\hline
 -2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & 0,2 & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end{array}$

Пользуясь формулой $p_{i} =\sum _{j}p_{ij}  $, находим ряд распределения случайной величины $X$.

$\begin{array}{|c|c|}
\hline
 X & -2 & 0 & 1 & 7 \\
\hline
 p_i & 0,3 & 0,25 & 0,25 & 0,2 \\
\hline
\end{array}$

$$M\left(X\right)=\sum^n_{i=1}{x_ip_i}=-2\cdot 0,3+0\cdot 0,25+1\cdot 0,25+7\cdot 0,2=1,05.$$ 

$$D\left(X\right)=\sum^n_{i=1}{p_i{\left(x_i-M\left(X\right)\right)}^2}=0,3\cdot {\left(-2-1,05\right)}^2+0,25\cdot {\left(0-1,05\right)}^2+0,25\cdot {\left(1-1,05\right)}^2+$$ 

$$+\ 0,2\cdot {\left(7-1,05\right)}^2=10,1475.$$ 

$$\sigma \left(X\right)=\sqrt{D\left(X\right)}=\sqrt{10,1475}\approx 3,186.$$ 

Пользуясь формулой $q_{j} =\sum _{i}p_{ij}  $, находим ряд распределения случайной величины $Y$.

$\begin{array}{|c|c|}
\hline
Y & -6 & 0 & 3 \\
\hline
 p_i & 0,25 & 0,4 & 0,35 \\
\hline
\end{array}$

$$M\left(Y\right)=\sum^n_{i=1}{y_ip_i}=-6\cdot 0,25+0\cdot 0,4+3\cdot 0,35=-0,45.$$ 

$$D\left(Y\right)=\sum^n_{i=1}{p_i{\left(y_i-M\left(Y\right)\right)}^2}=0,25\cdot {\left(-6+0,45\right)}^2+0,4\cdot {\left(0+0,45\right)}^2+0,35\cdot {\left(3+0,45\right)}^2=11,9475.$$ 

$$\sigma \left(Y\right)=\sqrt{D\left(Y\right)}=\sqrt{11,9475}\approx 3,457.$$ 

Поскольку $P\left(X=-2,\ Y=-6\right)=0,1\ne 0,3\cdot 0,25$, то случайные величины $X,\ Y$ являются зависимыми.

Определим ковариацию $cov\ \left(X,\ Y\right)$ случайных величин $X,\ Y$ по формуле $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)$. Математическое ожидание произведения случайных величин $X,\ Y$ равно:

$$M\left(XY\right)=\sum_{i,\ j}{p_{ij}x_iy_j}=0,1\cdot \left(-2\right)\cdot \left(-6\right)+0,2\cdot \left(-2\right)\cdot 3+0,05\cdot 1\cdot 3+0,1\cdot 7\cdot \left(-6\right)+0,1\cdot 7\cdot 3=-1,95.$$ 

Тогда $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)=-1,95-1,05\cdot \left(-0,45\right)=-1,4775.$ Если случайные величины независимы, то их ковариации равна нулю. В нашем случае $cov(X,Y)\ne 0$.

Корреляция

Коэффициентом корреляции случайных величин $X$ и $Y$ называется число:

$$\rho \left(X,\ Y\right)={{cov\left(X,\ Y\right)}\over {\sqrt{D\left(X\right)D\left(Y\right)}}}.$$ 

Перечислим основные свойства коэффициента корреляции.

1. $\rho \left(X,\ X\right)=1$.

2. $\rho \left(X,\ Y\right)=\rho \left(Y,\ X\right)$.

3. $\rho \left(X,\ Y\right)=0$ для независимых случайных величин $X$ и $Y$.

4. $\rho \left(aX+b,\ cY+d\right)={sgn \left(ac\right)\rho \left(X,\ Y\right)\ }$, где ${sgn \left(ac\right)\ }$ — знак произведения $ac$.

5. $\left|\rho \left(X,\ Y\right)\right|\le 1$.

6. $\left|\rho \left(X,\ Y\right)\right|=1\Leftrightarrow Y=aX+b$.

Ранее было сказано, что коэффициент корреляции $\rho \left(X,\ Y\right)$ отражает степень линейной зависимости между двумя случайными величинами $X$ и $Y$.

При $\rho \left(X,\ Y\right)>0$ можно сделать вывод о том, что с ростом случайной величины $X$ случайная величина $Y$ имеет тенденцию к увеличению. Это называется положительной корреляционной зависимостью. Например, рост и вес человека связаны положительной корреляционной зависимостью. 

При $\rho \left(X,\ Y\right)<0$ можно сделать вывод о том, что с ростом случайной величины $X$ случайная величина $Y$ имеет тенденцию к уменьшению. Это называется отрицательной корреляционной зависимостью. Например, температура и время сохранности продуктов питания связаны между собой отрицательной корреляционной зависимостью.

При $\rho \left(X,\ Y\right)=0$ случайные величины $X$ и $Y$ называются некоррелированными. Стоит отметить, что некоррелированность случайных величин $X$ и $Y$ не означает их статистическую независимость, это говорит лишь о том, что между ними нет линейной зависимости.

Пример 2. Определим коэффициент корреляции $\rho \left(X,\ Y\right)$ для двумерной случайной величины $\left(X,\ Y\right)$ из примера 1.

Коэффициент корреляции случайных величин $X,\ Y$ равен $r_{XY} ={cov(X,Y)\over \sigma (X)\sigma (Y)} ={-1,4775\over 3,186\cdot 3,457} =-0,134.$ Поскольку $r_{XY}<0$, то с ростом $X$ случайная величина $Y$ имеет тенденцию к уменьшению (отрицательная корреляционная зависимость).

Данная статья полезна?
×