Metoda grafów - jak inaczej wybrać zmienne objaśniające do modelu

Joanna Grochowska-Angielczyk

Tworząc model ekonometryczny kluczowym etapem jest wybór zmiennych objaśniających. W moim Kursie Ekonometria szczegółowo i dokładnie pokazałam najbardziej powszechną i najczęściej używaną metodę Hellwiga. Poznać ją możesz w Lekcji nr 2.

Jednak poza nią istnieje szereg innych równie ciekawych metod doboru zmiennych objaśniających. Jedną z nich, metodę analizy współczynników korelacji (metodę Bartosiewicz), już wcześniej zaprezentowałam na Blogu. Zachęcam, byś zajrzał do poniższego artykułu i filmiku:

Jak wybrać zmienne do modelu, czyli metoda analizy współczynników korelacji (VIDEO)

Natomiast w tym artykule chciałabym przedstawić Ci kolejną metodę jaką jest METODA GRAFÓW, czasami nazywana metodą grafową.

Idea tej metody, podobnie jak w metodzie pojemności informacyjnej Hellwiga, opiera się na wyborze takich zmiennych objaśniających do modelu, które są silnie skorelowane ze zmienną objaśnianą $Y$ , a jednocześnie słabo powiązane między sobą.

Procedura metody rozpoczyna się od utworzenia dwóch podstawowych macierzy. Pierwsza to macierz, a raczej wektor korelacji $bold italic R subscript bold 0$ pomiędzy zmienną objaśnianą $Y$ , a wszystkimi kandydatkami na zmienne objaśniające $X subscript i$ .

Druga macierz $bold italic R$ , to macierz korelacji między samymi już zmiennymi objaśniającymi $X subscript i$ a $X subscript j$ .

Kolejnym etapem jest sprawdzenie, które elementy macierzy $bold italic R$ są tak małe, że można by je uznać za zerowe (nieistotnie rożne od zera). W tym celu musimy porównać wszystkie rzeczywiste współczynniki korelacji $r subscript i j end subscript$ z macierzy $bold italic R$ ze współczynnikiem krytycznym. Można go wyznaczyć ze wzoru:

$bold italic r bold asterisk times bold equals square root of fraction numerator open parentheses bold t bold asterisk times close parentheses to the power of bold 2 over denominator open parentheses bold t bold asterisk times close parentheses to the power of bold 2 bold plus bold n bold minus bold 2 end fraction end root$ gdzie $t asterisk times$ oznacza wartość krytyczną statystyki odczytanej z tablic t-Studenta dla danego poziomu istotności $alpha$ oraz $n minus 2$ stopni swobody. Wartość $n$ oznacza oczywiście liczbę obserwacji w modelu.

Także jak widzisz, początkowe dane i wartość krytyczna wyznacza się identycznie jak np. w opisanej wcześniej metodzie Bartosiewicz. Jednak sama procedura będzie przebiegała już lekko inaczej. Na konkretnym przykładzie zaprezentuję Ci kolejne kroki:

Przykład

Chcemy wybrać do modelu ekonometrycznego zestaw najlepszych zmiennych objaśniających spośród pięciu zaprezentowanych: $X subscript 1 comma X subscript 2 comma X subscript 3 comma end subscript X subscript 4 comma X subscript 5$ . W tym celu dla każdej zmiennej zebrano 28 kolejnych obserwacji. Mamy następujące macierze $bold italic R subscript bold 0$ i $bold italic R$ :

$bold italic R subscript bold 0 equals open square brackets table row cell 0 comma 56 end cell row cell 0 comma 87 end cell row cell 0 comma 45 end cell row cell 0 comma 89 end cell row cell 0 comma 84 end cell end table close square brackets space space space comma space bold space bold italic R equals open square brackets table row 1 cell 0 comma 81 end cell cell 0 comma 25 end cell cell 0 comma 66 end cell cell 0 comma 11 end cell row blank 1 cell 0 comma 32 end cell cell 0 comma 86 end cell cell 0 comma 57 end cell row blank blank 1 cell 0 comma 15 end cell cell 0 comma 53 end cell row blank blank blank 1 cell 0 comma 63 end cell row blank blank blank blank 1 end table close square brackets$

Dla poziomu istotności $alpha equals 0 comma 05$ oraz przy liczbie obserwacji $n equals 28$ odczytujemy z tablic rozkładu t-Studenta $t subscript alpha asterisk times equals 2 comma 056$ , a zatem:

$r asterisk times equals square root of fraction numerator open parentheses 2 comma 056 close parentheses squared over denominator open parentheses 2 comma 056 close parentheses squared plus 28 minus 2 end fraction end root equals 0 comma 37$

Krok 1.

Porównujemy współczynniki korelacji $r subscript i j end subscript$ z macierzy $bold italic R$ ze współczynnikiem krytycznym $r asterisk times$ . Wszystkie mniejsze elementy zastępujemy zerem, tzn takie, gdzie $open vertical bar r subscript i j end subscript close vertical bar less or equal than r asterisk times$ . Powstaje w sten sposób macierz $bold italic R bold apostrophe$ .

W naszym przykładzie wszystkie wartości co do moduły mniejsze od $open vertical bar r subscript i j end subscript close vertical bar less or equal than 0 comma 37$ zastępuje zerem. Od razu „skopuję” pozostałą część tablicy, gdyż wiemy, że jest ona symetryczna względem głównej przekątnej. Stąd:

$bold space bold italic R bold apostrophe equals open square brackets table row 1 cell 0 comma 81 end cell bold 0 cell 0 comma 66 end cell bold 0 row cell 0 comma 81 end cell 1 bold 0 cell 0 comma 86 end cell cell 0 comma 57 end cell row bold 0 bold 0 1 bold 0 cell 0 comma 53 end cell row cell 0 comma 66 end cell cell 0 comma 86 end cell bold 0 1 cell 0 comma 63 end cell row bold 0 cell 0 comma 57 end cell cell 0 comma 53 end cell cell 0 comma 63 end cell 1 end table close square brackets$

Krok 2.

Na podstawie powstałej macierzy $bold italic R bold apostrophe$ budujemy GRAF POWIĄZAŃ między zmiennymi. Wierzchołki to potencjalne zmienne objaśniające, a wiązadła (czyli linie łączące dane wierzchołki) to niezerowe elementy macierzy $bold italic R bold apostrophe$ .

W naszym przykładzie będzie ten graf wyglądał następująco:

Krok 3.

Możemy otrzymać graf spójny (wszystkie punkty są ze sobą połączone w pewną sieć) lub kilka grafów, a także punkty (zmienne) odosobnione. Z tak powstałych podgrafów do modelu wybieramy zmienne odosobnione (nie są one bowiem skorelowane z innymi potencjalnymi zmiennymi objaśniającymi). Także wybieramy te zmienne, które mają największą liczbę powiązań (wiązadeł) z innymi potencjalnymi zmiennymi objaśniającymi. Z tej grupy wybieramy jedną zmienną, która jest najsilniej skorelowana ze zmienną objaśniającą.

Taki wybór podyktowany jest tym, że zmienna o największej ilości wiązadeł w grafie gromadzi w sobie najwięcej informacji o pozostałych zmiennych (z którymi była powiązana). A zatem będzie dobrą ich reprezentantką.

Patrząc na nasz przykład. NIE mamy żadnych punktów odizolowanych (punktów do których nie dochodziłaby żadna kreseczka). Zatem wybieramy zmienne, które mają największa ilość powiązań. Będą to zmienne, do których dochodzą aż trzy kreski, czyli: $X subscript 2 comma space X subscript 4 space end subscript comma space X subscript 5$ . Musimy wybrać spośród nich jedną zmienną – tą, która jest najsilniej skorelowana ze zmienną objaśniającą $Y$ . Zatem patrzę teraz na macierz $R subscript 0$ :

$bold italic R subscript bold 0 equals open square brackets table row cell 0 comma 56 subscript blank end cell row cell bold 0 bold comma bold 87 subscript blank end cell row cell 0 comma 45 subscript blank end cell row cell bold 0 bold comma bold 89 subscript blank end cell row cell bold 0 bold comma bold 84 subscript blank end cell end table close square brackets space table row cell X subscript 1 end cell row cell X subscript 2 end cell row cell X subscript 3 end cell row cell X subscript 4 end cell row cell X subscript 5 end cell end table$

Jak widać najbardziej powiązana jest zmienna $X subscript 4 space end subscript$ . Zatem tylko ta jedna zmienna zostanie w tym przypadku zmienną objaśniającą.

Model nasz będzie postaci: $Y space equals space alpha subscript 0 space plus space alpha subscript 1 X subscript 4 space end subscript space plus space epsilon$

Jak widać ta metoda jest troszkę inna, bazująca na wydaje się prostym porównaniu współczynników i potem wzrokowej analizie grafu. Zatem powinna spodobać się osobom, które wolą coś więcej niż tylko same cyferki. 🙂

1 komentarz

Bianka
8 czerwca 2025 at 00:21

Czy nie powinno być przypadkiem napisane, że wybieramy tą zmienną która jest najsilniej skorelowana ze zmienną objaśnianą, a nie- objaśniającą? 🙂

Odpowiedz

Joanna Grochowska-Angielczyk

1 komentarz

Bianka

Dodaj komentarz Anuluj pisanie odpowiedzi

Nasze "Wykłady"

Kategorie

Metoda grafów – jak inaczej wybrać zmienne objaśniające do modelu

Joanna Grochowska-Angielczyk

1 komentarz

Bianka

Dodaj komentarz Anuluj pisanie odpowiedzi

Nasze "Wykłady"

Kategorie

Zaloguj

Zarejestruj