Współczynnik korelacji Pearsona – siła związku zmiennych

Joanna Grochowska-Angielczyk

Ekonometria Wykład 5

Temat: Współczynnik korelacji liniowej Pearsona i jego istotność

Głównym celem ekonometrii jest zbadanie i zmierzenie pewnych powiązań zachodzących w zjawiskach ekonomicznych. Wyjaśnia ona po prostu zachowanie jednej zmiennej, w zależności od zachowania innych zmiennych. Logiczne więc jest, by wybrane do modelu zmienne objaśniające $X subscript i$ były jak najbardziej powiązane z objaśnianą $Y$ . Nie będziesz przecież tłumaczył np. wartości rocznych wydatków na paliwo od ilości lotów na księżyc. 🙂

Przejdźmy zatem do tematu, jak „fachowo” nazwać ten związek oraz jak zmierzyć siłę tego powiązania.

Zależność statystyczna, inaczej KORELACJA, oznacza związek pomiędzy dwiema zmiennymi losowymi. Analiza korelacji służy do „wychwycenia” czy w ogóle taki związek zachodzi oraz mierzy jego siłę.

Co oznacza związek? Istnieje oczywiście podobieństwo, przynajmniej przez analogię, do związków międzyludzkich. Należy jednak go rozumieć jako rodzaj podobieństwa w „zachowywaniu się dwóch cech”. Gdy jedna cecha wzrasta to czy druga również wzrasta? A może maleje? A może w ogóle się nie zmienia? Na przykład, czy zachodzi związek pomiędzy notowaniami ropy naftowej a akcjami wybranej spółki paliwowej?

Intuicyjnie, zależność dwóch zmiennych oznacza, że znając wartość jednej z nich, dałoby się częściej dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.

Najbardziej popularną odmianą korelacji jest korelacja liniowa. Dotyczy ona zależności liniowej, tzn. jeżeli coś rośnie to drugie jednocześnie też rośnie lub spada. Miej jednak na uwadze, że można obliczać również zależności kwadratowe, sześcienne itd.

Przykład 1

Czy poziom kondycji fizycznej jest związany z ilością pitego mleka tygodniowo? W tym celu zapytano 150 losowo wybranych osób o średnią ilość (w litrach) spożywanego mleka w tygodniu oraz zmierzono ich wynik w biegu na 500 m. Jak zatem zmierzyć to powiązanie?

Aby stwierdzić, czy istnieje związek pomiędzy wypitą ilością mleka a kondycją fizyczną (rozumianą tutaj jako wynik w biegu na 500 m), należy przeprowadzić analizę korelacyjną. Najlepiej, by była ona poparta konkretnymi obliczeniami matematycznymi. Tutaj z pomocą przychodzi współczynnik korelacji.

Najważniejszym miernikiem siły związku prostoliniowego dwóch cech jest współczynnik korelacji liniowej Pearsona. Liczy się go pomiędzy zmiennymi mierzalnymi.

Jeśli zmienne nie mają charakteru ilościowego, ale posiadają rozkład np. porządkowy, należy skorzystać z nieparametrycznych testów korelacyjnych. Tu z pomocą przychodzi rangowanie i współczynnik korelacji rho-Spearmana. W przypadku zmiennych nominalnych (płeć, wykształcenie, itp.) do zbadania siły zależności wykorzystuje się współczynnik korelacji V Cramera.

W tym Wykładzie skupię się jednak na wartościach liczbowych. Omówię zatem tylko współczynnik korelacji liniowej Pearsona. Skupię się zwłaszcza na pokazaniu, jak bada się jego istotność.

Współczynnik korelacji liniowej Pearsona

Ogólny wzór na obliczenie wartości współczynnika korelacji Pearsona dla dwóch zmiennych X i Y.

r subscript X comma Y end subscript space equals space fraction numerator c o v open parentheses X comma Y close parentheses over denominator s left parenthesis X right parenthesis times s left parenthesis Y right parenthesis end fraction

Wykorzystać tutaj musisz kowariancję między zmiennymi dzieloną przez iloczyn ich odchyleń standardowych. Wszystkie obliczenia krok po kroku, również jak się ten współczynnik interpretuje, pokazałam dokładnie w Lekcji 2 (cz. 1) mojego Kursu. Przedstawiłam tam nie tylko „ręczne” rachunki, ale również jak możesz szybciutko to zrobić za pomocą Excela.

Standardowo wynik analizy korelacji – współczynnik korelacji dostarcza nam trzech informacji:

Czy wynik jest istotny statystycznie?
Jaka jest siła związku?
Jaki jest kierunek związku?

Jeżeli związek jest istotny statystycznie to możemy powiedzieć, że zachodzi związek pomiędzy dwiema cechami, zmiennymi.

Współczynnik korelacji mówi na o sile związku. Jest ona określana jako wartość w przedziale od -1 do 1. Im współczynnik jest „dalej” od 0 (zarówno na plus jak i na minus) tym siła związku jest większa.

Jeżeli współczynnik korelacji jest dodatni to można powiedzieć, że gdy wzrastają wartości jednej zmiennej to wzrastają wartości drugiej zmiennej (i na odwrót, maleją jednej zmiennej – maleją również drugiej).

Przykład 2

Gdyby odnotowano istotny, dodatni związek pomiędzy wagą a wzrostem u ludzi to można byłoby stwierdzić, że wyższym osobom towarzyszy większa waga (wyżsi ludzie więcej ważą).

Jeżeli współczynnik korelacji jest ujemny to można powiedzieć, że gdy wzrastają wartości jednej zmiennej to maleją wartości drugiej zmiennej (i na odwrót, maleją jednej zmiennej – wzrastają w drugiej).

Przykład 3

Gdyby odnotowano istotny, ujemny współczynnik korelacji pomiędzy wagą a wzrostem u ludzi to można byłoby stwierdzić, że wyższym osobom towarzyszy mniejsza waga (wyżsi ludzie mniej ważą).

Graficzną interpretacją współczynnika korelacji jest tzw. wykres rozrzutu

Przykłady wykresików dla dwóch cech X i Y:

lub też:

Poniżej popatrz na kilka przykładów jak układa się „chmura” punktów w zależności od wartości współczynnika korelacji liniowej Pearsona.

Źródło: https://pl.wikipedia.org/wiki/Zależność_zmiennych_losowych

Należy również zwrócić uwagę na pewne pułapki tego współczynnika i jego mankamenty. Może on czasami dawać nie do końca wiarygodne wartości. Dzieje się tak w przypadku, gdy nie mamy do czynienia z rozkładem normalnym zmiennej (bo taki jest najbardziej preferowany). Innym powodem zaburzającym wynik korelacji są tzw. przypadki odstające.

Punkty te nie do końca pasują do całej reszty. Można tu zaobserwować silną ujemną zależność, aczkolwiek wartość współczynnika korelacji może być zaburzona przez jeden czy dwa warianty odstające, które zniekształcają wynik.

Dlatego zanim przejdziesz do obliczeń, wykonaj na początku wykres rozrzutu dla dwóch zmiennych. Jeśli zauważysz na wykresie jakieś kropki ewidentnie odtrącające od całej reszty, wyeliminuj daną obserwację ze zbioru. Jest to jednak praktyka dosyć ryzykowna, niekiedy uważana za niedozwoloną.

Gdy wykonasz wykresu i obliczysz wartości współczynnika korelacji, zbadaj jeszcze jego istotność.

Testowanie istotności współczynnika korelacji

Ostatnim zagadnieniem, które omówię w tym Wykładzie jest odpowiedź na pytanie o istotność współczynnika korelacji liniowej Pearsona. Czy w populacji generalnej zachodzi podobny związek do zaobserwowanego w populacji próby? Czy też jest on jedynie dziełem przypadku? Aby to zbadać musimy założyć, że w najgorszym razie obie badane cechy mają rozkłady zbliżone do normalnych (warunek stosowalności poniższego testu). W przypadku znacznych odchyłek od tego założenia istnieje konieczność zastosowania testów nieparametrycznych.

Test do sprawdzania istotności współczynnika korelacji liniowej Pearsona służy do weryfikacji hipotezy o braku zależności liniowej pomiędzy badanymi cechami populacji. Opiera się na współczynniku korelacji liniowej Pearsona wyliczonym dla próby. Im wartość współczynnika r jest bliższa zeru, tym słabszą zależnością związane są badane cechy.

Statystyka testowa wymaga hipotezy zerowej $H subscript 0$ w brzmieniu: prawdziwa wartość współczynnika korelacji (ta z populacji generalnej, oznaczana jako „ro” $rho$ ) jest równa $0$ . Jest to jest równoważne brakowi korelacji. Hipoteza alternatywna uznaje występowanie korelacji między zmiennymi. Oznacza to, że współczynnik jest różny od zera.

$H subscript 0 space colon space space space rho space equals space 0 H subscript 1 space colon space space space rho space not equal to space 0$

Do weryfikacji tej hipotezy służy statystyka:

$bold italic t bold space bold equals bold space fraction numerator bold r over denominator square root of bold 1 bold minus bold r to the power of bold 2 end root end fraction square root of bold n bold minus bold 2 end root$

gdzie:
r – jest wyliczoną z próby wartością współczynnika korelacji Pearsona,
n – liczebnością próby.

W warunkach słuszności hipotezy zerowej statystyka t ma rozkład t – Studenta z df = n-2 stopniami swobody.

Z tablic rozkładu t- Studenta (dołączonych oczywiście do Kursu), lub kalkulatora, odczytujemy dla wcześniej przyjętego poziomu istotności $alpha$ – wartość krytyczną $t subscript n minus 2 comma alpha end subscript$ . Poziom istotności to taki margines błędu. Przyjmuje bardzo małe wartości, najczęściej 0,05 czy też 0,01.

Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym $open parentheses negative infinity comma space minus t subscript n minus 2 comma alpha end subscript close parentheses space comma space open parentheses t subscript n minus 2 comma alpha end subscript space comma space plus infinity close parentheses$ , to $H subscript 0$ należy odrzucić na korzyść hipotezy alternatywnej.

Dokładniej, gdy:
$vertical line t vertical line space greater or equal than space t subscript n minus 2 comma alpha end subscript$ – $H subscript 0$ odrzucamy. Wartość współczynnika korelacji istotnie różni się od zera. Zatem zmienne te są skorelowane ze sobą.
$vertical line t vertical line space less than space t subscript n minus 2 comma alpha end subscript$ – nie ma podstaw do odrzucenia $H subscript 0$ . Otrzymana z próby różna wartość współczynnika korelacji wynikła z przypadku.

Przykład 4

Sprawdzimy dla przykładu, czy współczynnik korelacji między zmienną Y a X, równy $0 comma 10$ , jest istotnie rożny od zera.

Stawiamy hipotezę zerową $H subscript 0 space colon space space r subscript X Y end subscript space equals space 0$ , wobec hipotezy alternatywnej $H subscript 1 space colon space space r subscript X Y end subscript space not equal to space 0$ .

Wyznaczam sprawdzian hipotezy zerowej, wiedząc, że liczba obserwacji w próbie $n space equals space 28$ :

$t space equals space fraction numerator 0 comma 10 over denominator square root of 1 minus 0 comma 10 squared end root end fraction square root of 28 minus 2 end root space equals space 0 comma 512$

Dla poziomu istotności $alpha space equals space 0 comma 05$ oraz dla $28 minus 2 equals 26$ stopni swobody odczytuję z tablic rozkładu t-Studenta wartość krytyczną $t subscript 26 space semicolon 0 comma 05 end subscript space equals space 2 comma 056$ .

Ponieważ $vertical line t vertical line space less than space t subscript n minus 2 comma alpha end subscript$ , zatem nie ma podstaw do odrzucenia hipotezy zerowej, że zmienne Y oraz X nie są istotnie skorelowane.

Na podstawie korelacji skonstruowano wiele bardziej zaawansowanych technik analitycznych, co sprawia, że jest ona jedną z najbardziej popularnych i obecnych miar statystycznych.

Współczynnik ten przewija się przez ekonometrię w kilku miejscach. Przede wszystkim w metodach dobru zmiennych do modelu. Niemal w każdej metodzie. Czasami się zdarza, że mimo wysokiej wartości współczynnika korelacji może się okazać, że jest on nieistotny. Zatem powiązanie między wybranymi zmiennymi X i Y nie jest prawdziwe. Stąd już na początku, zanim wybierzesz konkretną metodę doboru zmiennych, możesz dokonać eliminacji i ukrócić sobie dalszych obliczeń.

KONIEC

Kliknij, aby powtórzyć sobie, skąd pobrać i jak można zaprezentować zebrane dane (poprzedni Wykład) <–

Kliknij, aby sprawdzić, czym jest regresja i jak działa metoda najmniejszych kwadratów (następny Wykład) ->

Kliknij, aby powrócić na stronę z Wykładami do ekonometrii

1 komentarz

Karol
8 stycznia 2018 at 11:47

Bardzo dobrze opisany temat. Wszystko można w mik zrozumieć. Dzięki wielkie 🙂

Odpowiedz

Joanna Grochowska-Angielczyk

Ekonometria Wykład 5

Temat: Współczynnik korelacji liniowej Pearsona i jego istotność

1 komentarz

Karol

Dodaj komentarz Anuluj pisanie odpowiedzi

Nasze "Wykłady"

Kategorie

Jak bardzo powiązane są zmienne, czyli o współczynniku korelacji liniowej Pearsona

Joanna Grochowska-Angielczyk

Ekonometria Wykład 5

Temat: Współczynnik korelacji liniowej Pearsona i jego istotność

1 komentarz

Karol

Dodaj komentarz Anuluj pisanie odpowiedzi

Nasze "Wykłady"

Kategorie

Zaloguj

Zarejestruj