Korelační a regresní analýza Závislost kvantitativních znaků -
kauzální (příčinná) závislost - změna jednoho znaku vede ke změně znaku druhého. Výskyt jednoho znaku kauzálně souvisí se znakem druhým.
-
pevná x volná závislost –
-
Pevná (funkční) – výskyt jednoho znaku je nerozlučně spjat s výskytem druhého znaku, pravděpodobnost druhého znaku = 1
-
Volná (statistická) – s výskytem jednoho znaku se zvyšuje pravděpodobnost druhého znaku
Statistické znaky
Máme k dispozici proměnnou x a proměnnou y. Závislost x a y je jednostranná nebo oboustranná. X považujeme za nezávisle proměnnou, y za závisle proměnnou. K popisu závislosti používáme metody regresní a korelační analýzy.
Úkoly korelační a regresní analýzy -
vystihnout průběh závislosti, vystihnout tendenci změn tak, abychom mohli provádět odhady závisle proměnné na základě daných hodnot nezávisle proměnných = vlastní regresní analýza
-
chceme změřit sílu neboli intenzitu závislosti, abychom mohli říct, jak je závislost těsná a abychom mohli posoudit přesnost regresních odhadů = korelační analýza
Vlastní regresní analýza -
průběh závislosti vyjádříme podmíněnými průměry, které dostaneme roztříděním hodnot y do skupin podle hodnot nezávisle proměnných x
= podmíněné průměry – podmíněny jednotlivým hodnotám xi
Grafické vyjádření
xi
-
čára podmíněných průměrů, která je nejjednodušším způsobem vyjádření průběhu závislosti
Měření intenzity závislosti
V případě, že průběh závislosti je vyjádřen podmíněnými průměry, tak těsnost závislosti je vyjádřena korelačním poměrem:
= rozptyl původních podmíněných průměrů
= rozptyl původních hodnot
Korelační poměr nabývá hodnot <0,1>. Čím více se blíží k 1, tím je závislost těsnější a silnější, čím více se blíží 0, tím je závislost slabší
Poměr determinace
Druhá mocnina korelačního poměru, která se obvykle vyjadřuje v % a udává nám přibližně z kolika % je závisle proměnná ovlivněna uvažovanou nezávisle proměnnou x
Vyjádření závislosti pomocí podmíněných průměrů bereme pouze orientačně. Nedostatkem je, že na jeho základě nedokážeme provádět regresní odhady.
Jinou možností vyjádření průběhu závislosti jsou regresní funkce = matematické funkce dvou proměnných (lze použít všechny matematické funkce)
Hlavní regresní funkce
x
y
Přímka Kubická parabola – polynom III. stupně
b1 = určuje průběh přímky
Parabola II. stupně hyperbola
Mocninná a exponenciála Růstová
Další funkce: odmocninná, logaritmická, paraboly (polynomy) IV. a V. stupně
Výběr nejvhodnější funkce -
vycházíme ze znalostí a zkušeností
-
vytvoření tzv. korelačního pole a na základě jeho tvaru hledáme nejvhodnější funkci
di – vzdálenost mezi skutečnou yi a teoretickou y´i, u které chceme, aby byla co nejmenší
-
konkrétní závislost proložíme celou řadou funkcí a ve 2. fázi hledáme funkci, která co nejlépe odpovídá korelačnímu poli
Nalezení konkrétní funkční rovnice
K vypočítání parametrů funkce používáme metodu nejmenších čtverců (MNČ), používanou bezprostředně nebo po transformaci. Výsledkem MNČ je soustava normálních rovnic a jejich řešením lze určit parametry.
y = f (x, b1, b2,…., bp)
y = b1f1 + b2f2 +….., + bpfp
fj = fi (x)
Požadavky MNČ -
=> suma odchylek je rovna nule - nevede k jednoznačnému řešení – funkcí, které ji splňují, je nekonečno
-
=> kvadrát odchylek (součet čtverců odchylek pozorovaných hodnot) má být minimální - základní požadavek MNČ, vede k jednoznačnému řešení a na jeho základě určujeme parametry regresních funkcí
Jednoduchá lineární regrese = přímková regrese
Průběh závislosti je vyjádřen rovnicí přímky: y΄ = ayx + byx (1. index – závisle proměnná, 2. index – nezávisle proměnná)
Regrese = popis průběhu závislosti mezi dvěma či více kvantitativními statistickými znaky pomocí regresního modelu (regresní funkce).
Parametry přímky:
ayx - absolutní člen – posunutí přímky na ose y
byx - směrnice, regresní koeficient
Metoda nejmenších čtverců (2. požadavek):
Provedeme parciální derivace:
Výsledky po derivaci položíme rovny nule, úpravou se dostaneme k soustavě normálních rovnic přímky:
Parametry a, b jsou naše neznámé.
byx = regresní koeficient, který vyjadřuje, o kolik se změní závisle proměnná y, jestliže se x změní o jednotku. Pokud provádíme odhad změny, vystačíme s odhadem dle regresního koeficientu. Pokud chceme provést konkrétní odhad hodnoty závisle proměnné y na základě daných hodnot x, musíme k odhadům použít celou regresní přímku.
Sdružená regresní přímka (závislost x na y)
Soustava normálních rovnic:
Výpočet parametrů:
byx, bxy = sdružené regresní koeficienty – mají vždy stejná znaménka
Měření těsnosti závislosti
Korelace – intenzita neboli těsnost závislosti mezi kvantitativními znaky, které měříme buď pomocí charakteristik korelace (korelační poměr, korelační koeficient či index korelace) a nebo pomocí charakteristik determinace, což je druhá mocnina charakteristik korelace a zpravidla se uvádí v %.
Dostları ilə paylaş: |