Frekvence

V modulu frekvence zpracováváme charakteristiky jednotlivých statistických znaků (např. věk, váha, výdělek, inteligenci apod.). Výsledkem je tabulka rozdělení četností a statistické charakteristiky, které popisují charakteristické vlastnosti sledovaných znaků.

Pro objasnění následujících pojmů uveďme tento příklad (example00.sasd):

pořadí
i
znak
Počet dětí
četnost
ni
relativní četnost
pi
kumulativní četnost
ki
1 0 8 0.16 0.16
2 1 15 0.30 0.46
3 2 11 0.22 0.68
4 3 7 0.14 0.82
5 4 4 0.08 0.90
6 5 3 0.06 0.96
7 více 2 0.04 1.00

m = 7 je počet kategorií

Charakteristiky polohy

Charakteristiky polohy jsou určité hodnoty, které lze považovat za střed, kolem kterého náhodné veličiny kolísají.

Aritmetický průměr

Aritmetický průměr vypočteme jako

overline{x} = 1/n sum{i=1}{n}{x_i} = 1/n sum{i=1}{m}{n_i x_i}

Aritmetický průměr je zřejmě nejčastěji používaný statistický pojem. S tím ovšem souvisí i fakt, že je velice často využíván chybně, či dokonce zneužíván. Nejčastější chybou je aplikace aritmetického průměru tam, kde je na místě využít jinou statistiku.

Např. aritmetický průměr majetku občanů města může být vysoké číslo, což ovšem neznamená, že typický občan je bohatý. Tento fakt pouze odráží tu skutečnost, že v daném městě bydlí multimilionář. Jinými slovy: jediná hodnota, která se velice výrazně odlišuje od ostatních, může ovlivnit hodnotu aritmetického průměru tak, že vyjadřuje jen zcela iluzorní údaje. Např. aritmetickým průměrem souboru { 1, 2, 2, 2, 3, 9 } je 3,2, přestože pět ze šesti hodnot tohoto souboru je menších. V obdobných případech je mnohem vhodnější použít pro vyjádření typické hodnoty medián (který je u této množiny roven 2, což je mnohem lepší popis typické hodnoty).

Příklad výpočtu pro úvodní tabulku

Zde závisí na tom, jakou hodnotu přiřadíme znaku více, pokud zvolíme třeba 6, dostáváme:

1/50 * (8*0 + 15*1 + 11*2 + 7*3 + 4*4 + 3*5 + 2*6) = 2.02

Modus

Modus náhodné veličiny X je hodnota, která se v daném statistickém souboru vyskytuje nejčastěji (je to hodnota znaku s největší relativní četností). Představuje jakousi typickou hodnotu sledovaného souboru a jeho určení předpokládá roztřídění souboru podle obměn znaku.

Modus nemusí být určen jednoznačně (tzn. že se stejnou nejvyšší frekvencí se může vyskytovat více hodnot).

Mezi aritmetickým průměrem, mediánem a modem unimodálních rozdělení četností existují určité vztahy, které charakterizují tvar rozdělení četností. U zcela symetrických jednovrcholových četností platí vztah:

overline{x}=Me=hat{x}

tj. aritmetický průměr, medián a modus jsou si rovny. Čím bude rozdělení četností asymetričtější, tím více se budou tyto tři střední hodnoty od sebe odlišovat.

Výhodou modu je, že ho lze snadno použít i pro nečíselná data, kde např. aritmetický průměr použít nelze. Např. modus souboru { jablko, pomeranč, hruška, pomeranč, jablko, jablko, hruška } je jablko.

Například dobrou charakteristikou počtu nohou kočky je modus (to že má některá kočka 3 nohy nemění nic na tom, že dobrou charakteristikou jsou 4 nohy a ne třeba průměr 3. 98 .

Medián

Medián je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Ve statistice patří mezi míry centrální tendence. Platí, že nejméně 50 % hodnot je menších nebo rovných a nejméně 50 % hodnot je větších nebo rovných mediánu.

Pro nalezení mediánu daného souboru stačí hodnoty seřadit podle velikosti a vzít hodnotu, která se nalézá uprostřed seznamu. Pokud má soubor sudý počet prvků, obvykle se za medián označuje aritmetický průměr hodnot na místech n/2 a n/2+1.

Obecně se za medián dá označit více čísel. V už zmíněném případě sudého počtu prvků neexistuje jedinečná střední hodnota. Platí však, že polovina hodnot je menší nebo rovna a polovina prvků je větší nebo rovna, ať už se za medián zvolí libovolné z obou prostředních čísel. Totéž dokonce platí i pro libovolné číslo, jehož velikost leží mezi těmito dvěma čísly. Proto se jako medián takového souboru může vzít libovolné z obou prostředních čísel i libovolné z čísel mezi nimi.

Základní výhodou mediánu jako statistického ukazatele je fakt, že není ovlivněný extrémními hodnotami. Proto se často používá v případě šikmých rozdělení, u kterých aritmetický průměr dává obvykle nevhodné výsledky. Např. u souboru { 1, 2, 2, 3, 9 } je medián (stejně jako modus) roven dvěma, což je zřetelně vhodnější ukazatel převažující tendence než aritmetický průměr, který je zde roven 3,4.

Další výhodou je, že medián lze definovat na každém souboru uspořádaném relací „menší nebo rovno“, i když se nejedná o soubor čísel. Například medián souboru {absolvent ZŠ, vyučen, vyučen s maturitou, vysokoškolák} je roven hodnotě „vyučen“, pokud kategorie vzdělání považujeme za seřazené podle náročnosti školy.

Nevýhodné je obvykle použití mediánu u souborů, ve kterých sledovaný znak nabývá jen dvou možných hodnot. Tam se medián chová stejně jako modus: je hrubým měřítkem vlastností rozdělení a v případě, že obě kategorie jsou zastoupeny zhruba stejně, je velmi nestabilní.

Medián je nejpoužívanější kvantil (konkrétně kvantil dělící soubor na dvě části). Medián je také odhad střední hodnoty, který minimalizuje absolutní chybu.

Medián je takové číslo Me, které splňuje nerovnost

k(x = Me) = 1/2

(pokud takové x v souboru existuje)

  • kde k je Kumulativni relativní četnost

Střední hodnota

Střední hodnota (E(X) nebo μ) je nejznámější míra polohy ve statistice. Je to parametr rozdělení náhodné veličiny X, který je definován jako vážený průměr daného rozdělení (1. centrální moment).

Pro diskrétní veličiny je definována jako

E(X) = sum{i=1}{n}{x_i p_i}

pro spojité

E(X) = int{-infty}{infty}{x~f(x) dx}

kde f(x) je hustota pravděpodobnosti náhodné veličiny X.

Charakteristiky variability

Charakteristiky variability určují velikost odchylek náhodné veličiny od nějaké charakteristiky polohy.

Variace / Rozptyl

Rozptyl je definován jako průměr čtverců odchylek hodnot od aritmetického průměru.

s^2 = 1/N sum{i=1}{m}{(x_i-overline{x})^2~n_i}

kde

  • N = sum{i=1}{m}{n_i}
  • m je počet kategorií

Směrodatná odchylka

Občas je vhodné pracovat s mírou, která ma stejný rozměr jako náhodná veličina. Za tímto účelem definujeme směrodatnou odchylku s jako

s = sqrt{s^2}

Rozptyl s2 ma totiž rozměr čtverce rozměru náhodné veličiny.

Odhad rozptylu

Odhad rozptylu nebo také výběrový rozptyl je definován velice podobně jako rozptyl

Est sigma^2 = 1/(N-1) sum{i=1}{m}{(x_i-overline{x})^2~n_i}

Ve skutečnosti tento rozdíl nehraje příliš důležitou roli. Pro malá N jsou hodnoty s2 a σ2 velmi nepřesné a pro velká jsou zase skoro stejné.

Obvykle se ve statistice používá spíše tento vzorec.

Odhad směrodatné odchylky

Est sigma = sqrt{Est sigma^2}

Max-Min

U znaků, jejichž hodnota má uspořádání (lze je porovnávat) lze sledovat největší a nejmenší hodnotu.

Rozpětí

Rozdíl je rozdíl mezi maximální a minimální hodnotou znaku, může se použít pro měření variability.

Charakteristiky šikmosti

Charakteristiky šikmosti se používají nejčastěji k charakterizaci zešikmení statistického souboru. U symetrických statistických souborů není rozdíl mezi průměrem, modusem a mediánem, u sešikmených souborů se tyto rozdíly projevují. Typická charakteristika je

gamma_1 = 1/N sum{i=1}{m}{({x_i-overline{x}}/s)^3 n_i}

Charakteristiky špičatosti

Charakteristiky špičatosti se používají nejčastěji k charakterizaci koncentrace statistického souboru. Normálního rozdělení má spičatost rovnu 3.

gamma_2 = 1/N sum{i=1}{m}{({x_i-overline{x}}/s)^4 n_i}

Intervalové odhady

Intervalový odhad nám udává interval, ve kterém se odhadovaný parametr nachází s určitou pravděpodobností. Nejčastěji se volí 95% pravděpodobnost nebo také na hladině významnosti 5%. Obecně můžeme použít hladinu významnosti α, což znamená pravděpodobnost (1-α).

Střední hodnota

Za předpokladu, že náhodná veličina X má normální rozdělení N(μ, σ2), má chyba odhadu střední hodnoty μ této veličiny Studentovo rozdělení s f = N - 1 stupni volnosti kde

N = sum{i=1}{n}{n_i}

je intervalovým odhadem střední hodnoty o spolehlivosti (1-α) interval

mu~in~(overline{x}~-~{s/sqrt{N}}t_(1~-~alpha/2)(N-1),~overline{x}~+~{s/sqrt{N}}t_(1~-~alpha/2)(N-1))

kde

  • t(1-α/2)(N-1) je (1-α/2) kvantil Studentova rozdělení s N-1 stupni volnosti

Rozptyl

Za předpokladu, že náhodná veličina X má normální rozdělení N(μ, σ2), má chyba odhadu rozptylu μ této veličiny rozdělení X2 s f = N - 1 stupni volnosti kde

N = sum{i=1}{n}{n_i}

je intervalovým odhadem rozptylu o spolehlivosti (1-α) interval

sigma^2~in~({(N-1) s^2}/{{chi^2}_(1-alpha/2) (N-1)},~{(N-1) s^2}/{{chi^2}_{alpha/2} (N-1)})

kde

  • X2(1-α/2)(N-1) je (1-α/2) kvantil rozdělení chí-kvadrát s N-1 stupni volnosti
  • X2α/2(N-1) je α/2 kvantil rozdělení chí-kvadrát s N-1 stupni volnosti
  • s2 je výběrový odhad rozptylu
 
sasd/statistika_frekvence.txt · Poslední úprava: 2009/10/23 12:49 (external edit)     Nahoru