Kontingence

Koeficienty kontingence

Test nezávislosti

Hladina významnosti α na které zamítáme hypotézu H0 o nezávislosti obou jevů.

α ∈ (0,1>, čím je hodnota α menší, tím je závislost znaků větší.

Výpočet je uveden v kapitole Test nezávislosti. Zde je také vysvětlen význam symbolů α a X2

Pearsonův koeficient

C = sqrt{{chi^2}/{n+chi^2}}

C ∈ <0,1) a určuje rovněž míru závislosti znaků (0 - zcela nezvislé, 1 - zcela závislé)

Normovaný Pearsonův koeficient

C_norm = C/C_max

C_max = sqrt{(q-1)/q}

q = min(r,s)

C ∈ <0,1) a určuje rovněž míru závislosti znaků (0 - zcela nezvislé, 1 - zcela závislé)

Tento koeficient se snaží, na rozdíl od předchozího, odstranit vliv rozměru tabulky.

Čuprovův koeficient

K = sqrt{chi^2/{n sqrt{(r-1)(s-1)}}}

Vyjadřuje symetrickou míru závislosti.

Cramerův koeficient kontingence

C_r = sqrt{chi^2/{n~min(r-1, s-1)}}

Užití Cramerova koeficientu je shodné s koeficientem Čuprovovým.

Spearmanův koeficient

Spearmanův koeficient je neparametrická míra korelace, určuje jak dobře může vhodná monotóní funkce popsat závislost mezi náhodnými veličinami X a Y.

rho_XY={6 sum{i=1}{n}{{d_i}^2}}/{n(n^2-1)}

kde:

  • n je počet dvojic
  • di je rozdíl pořadí odpovídající dvojice hodnot veličin X a Y

Spearmanův koeficient pořadové korelace můžeme vyjádřit také pomocí marginálních četností:

Proměnné X přiřadíme postupně pomocné skóry ai

a_1={n_{1+}+1}/2, a_2=n_{1+}+{n_{2+}+1}/2, a_r=n_{1+}+n_{2+}+...+ n_{(r-1)+}+{n_{r+}+1}/2

proměnné Y přiřadíme postupně pomocné skóry bi

b_1={n_{+1}+1}/2, b_2=n_{+1}+{n_{+2}+1}/2, b_s=n_{+1}+n_{+2}+...+ n_{+(s-1)}+{n_{+s}+1}/2

kde:

  • ni+ je řádkový součet počtu výskytů xi
  • n+j je sloupcový součet počtu výskytů yj

Vypočítáme hodnoty

T_X=1/12(n^3-sum{i=1}{r}{{n_i}^3})

T_Y=1/12(n^3-sum{j=1}{s}{{n_j}^3})

D^2=sum{i=1}{r}{sum{j=1}{s}{n_ij(a_i-b_j)^2}}

Dosadíme do vzorce

rho_XY={T_X+T_Y-D^2}/{2 sqrt{T_X T_Y}}

Korelační koeficient

Korelační koeficient mezi dvěma znaky X a Y mající průměry overline{x} a overline{y} a směrodatné odchylky sx a sy je definován jako

r_{XY} = s_xy/{s_x s_y} = {sum{i=1}{r}{sum{j=1}{s}{n_ij x_i y_j}} - n overline{x}~overline{y}}/{sqrt{sum{i=1}{r}{n_{i+} {x_i}^2} - n overline{x}^2}sqrt{sum{j=1}{s}{n_{+j} {y_j}^2} - n overline{y}^2}}

overline{x} = sum{i=1}{r}{n_{i+} x_i}/n , overline{y} = sum{j=1}{s}{n_{+j} y_j}/n

kde

  • sx je směrodatná odchylka veličiny X
  • sy je směrodatná odchylka veličiny Y
  • ni+ i-tý řádkový součet výskytů veličiny X
  • n+j j-tý sloupcový součet výskytů veličiny Y

Interpretace

Pro jednoduchý korelační koeficient platí:

  • -1 < r < 1
  • r(X,Y) = r(Y,X)

Platí-li pro X a Y vztah lineární závislosti Y = a + bX lze dále psát:

  • r = 0X, Y jsou lineárně nezávislé (b = 0)
  • r > 0X, Y jsou kladně zkorelované (b > 0, přímá lineární závislost)
  • r < 0X, Y jsou záporně zkorelované (b ? 0, nepřímá lineární závislost)

Odkazy

 
sasd/statistika_kontingence.txt · Poslední úprava: 2009/10/23 12:49 (external edit)     Nahoru