blog

Metoda grafów – jak inaczej wybrać zmienne objaśniające do modelu

Joanna Grochowska-Angielczyk

Kierownik Działu Nauczania eTrapez.
Absolwentka matematyki finansowej oraz informatyki i ekonometrii na Uniwersytecie w Białymstoku. Doświadczony korepetytor w zakresie przedmiotów matematycznych i ekonomicznych.
Mieszka w Białymstoku. Uwielbia podróżować i chodzić po górach. Wolny czas przeznacza na spotkania z rodziną i z przyjaciółmi. Lubi eksperymenty w kuchni oraz siatkówkę.


Tworząc model ekonometryczny kluczowym etapem jest wybór zmiennych objaśniających. W moim Kursie Ekonometria szczegółowo i dokładnie pokazałam najbardziej powszechną i najczęściej używaną metodę Hellwiga. Poznać ją możesz w Lekcji nr 2

Jednak poza nią istnieje szereg innych równie ciekawych metod doboru zmiennych objaśniających. Jedną z nich, metodę analizy współczynników korelacji (metodę Bartosiewicz), już wcześniej zaprezentowałam na Blogu. Zachęcam, byś zajrzał do poniższego artykułu i filmiku:

Jak wybrać zmienne do modelu, czyli metoda analizy współczynników korelacji (VIDEO)

 

Natomiast w tym artykule chciałabym przedstawić Ci kolejną metodę jaką jest METODA GRAFÓW, czasami nazywana metodą grafową.

Idea tej metody, podobnie jak w metodzie pojemności informacyjnej Hellwiga, opiera się na wyborze takich zmiennych objaśniających do modelu, które są silnie skorelowane ze zmienną objaśnianą Y, a jednocześnie słabo powiązane między sobą. 

Procedura metody rozpoczyna się od utworzenia dwóch podstawowych macierzy. Pierwsza to macierz, a raczej wektor korelacji bold italic R subscript bold 0 pomiędzy zmienną objaśnianą Y, a wszystkimi kandydatkami na zmienne objaśniające X subscript i.

Druga macierz bold italic R , to macierz korelacji między samymi już zmiennymi objaśniającymi X subscript iX subscript j.

 

Kolejnym etapem jest sprawdzenie, które elementy macierzy bold italic R są tak małe, że można by je uznać za zerowe (nieistotnie rożne od zera). W tym celu musimy porównać wszystkie rzeczywiste współczynniki korelacji r subscript i j end subscript z macierzy bold italic R ze współczynnikiem krytycznym. Można go wyznaczyć ze wzoru:

bold italic r bold asterisk times bold equals square root of fraction numerator open parentheses bold t bold asterisk times close parentheses to the power of bold 2 over denominator open parentheses bold t bold asterisk times close parentheses to the power of bold 2 bold plus bold n bold minus bold 2 end fraction end rootgdzie t asterisk times oznacza wartość krytyczną statystyki odczytanej z tablic t-Studenta dla danego poziomu istotności alpha oraz n minus 2 stopni swobody. Wartość n oznacza oczywiście liczbę obserwacji w modelu. 

Także jak widzisz, początkowe dane i wartość krytyczna wyznacza się identycznie jak np. w opisanej wcześniej metodzie Bartosiewicz. Jednak sama procedura będzie przebiegała już lekko inaczej. Na konkretnym przykładzie zaprezentuję Ci kolejne kroki:

 

Przykład

Chcemy wybrać do modelu ekonometrycznego zestaw najlepszych zmiennych objaśniających spośród pięciu zaprezentowanych:X subscript 1 comma X subscript 2 comma X subscript 3 comma end subscript X subscript 4 comma X subscript 5. W tym celu dla każdej zmiennej zebrano 28 kolejnych obserwacji. Mamy następujące macierze bold italic R subscript bold 0bold italic R:

bold italic R subscript bold 0 equals open square brackets table row cell 0 comma 56 end cell row cell 0 comma 87 end cell row cell 0 comma 45 end cell row cell 0 comma 89 end cell row cell 0 comma 84 end cell end table close square brackets space space space comma space bold space bold italic R equals open square brackets table row 1 cell 0 comma 81 end cell cell 0 comma 25 end cell cell 0 comma 66 end cell cell 0 comma 11 end cell row blank 1 cell 0 comma 32 end cell cell 0 comma 86 end cell cell 0 comma 57 end cell row blank blank 1 cell 0 comma 15 end cell cell 0 comma 53 end cell row blank blank blank 1 cell 0 comma 63 end cell row blank blank blank blank 1 end table close square brackets

Dla poziomu istotności alpha equals 0 comma 05 oraz przy liczbie obserwacji n equals 28 odczytujemy z tablic rozkładu t-Studenta t subscript alpha asterisk times equals 2 comma 056, a zatem: 

r asterisk times equals square root of fraction numerator open parentheses 2 comma 056 close parentheses squared over denominator open parentheses 2 comma 056 close parentheses squared plus 28 minus 2 end fraction end root equals 0 comma 37

Krok 1.

Porównujemy współczynniki korelacji r subscript i j end subscript z macierzy bold italic R ze współczynnikiem krytycznym r asterisk times. Wszystkie mniejsze elementy zastępujemy zerem, tzn takie, gdzie open vertical bar r subscript i j end subscript close vertical bar less or equal than r asterisk times. Powstaje w sten sposób macierz bold italic R bold apostrophe.

W naszym przykładzie wszystkie wartości co do moduły mniejsze od open vertical bar r subscript i j end subscript close vertical bar less or equal than 0 comma 37 zastępuje zerem. Od razu “skopuję” pozostałą część tablicy, gdyż wiemy, że jest ona symetryczna względem głównej przekątnej. Stąd:

bold space bold italic R bold apostrophe equals open square brackets table row 1 cell 0 comma 81 end cell bold 0 cell 0 comma 66 end cell bold 0 row cell 0 comma 81 end cell 1 bold 0 cell 0 comma 86 end cell cell 0 comma 57 end cell row bold 0 bold 0 1 bold 0 cell 0 comma 53 end cell row cell 0 comma 66 end cell cell 0 comma 86 end cell bold 0 1 cell 0 comma 63 end cell row bold 0 cell 0 comma 57 end cell cell 0 comma 53 end cell cell 0 comma 63 end cell 1 end table close square brackets

Krok 2.

Na podstawie powstałej macierzy bold italic R bold apostrophe budujemy GRAF POWIĄZAŃ między zmiennymi. Wierzchołki to potencjalne zmienne objaśniające, a wiązadła (czyli linie łączące dane wierzchołki) to niezerowe elementy macierzy bold italic R bold apostrophe.

W naszym przykładzie będzie ten graf wyglądał następująco: 

 

Krok 3.

Możemy otrzymać graf spójny (wszystkie punkty są ze sobą połączone w pewną sieć) lub kilka grafów, a także punkty (zmienne) odosobnione. Z tak powstałych podgrafów do modelu wybieramy zmienne odosobnione (nie są one bowiem skorelowane z innymi potencjalnymi zmiennymi objaśniającymi). Także wybieramy te zmienne, które mają największą liczbę powiązań (wiązadeł) z innymi potencjalnymi zmiennymi objaśniającymi. Z tej grupy wybieramy jedną zmienną, która jest najsilniej skorelowana ze zmienną objaśniającą.

Taki wybór podyktowany jest tym, że zmienna o największej ilości wiązadeł w grafie gromadzi w sobie najwięcej informacji o pozostałych zmiennych (z którymi była powiązana). A zatem będzie dobrą ich reprezentantką. 

Patrząc na nasz przykład. NIE mamy żadnych punktów odizolowanych (punktów do których nie dochodziłaby żadna kreseczka). Zatem wybieramy zmienne, które mają największa ilość powiązań. Będą to zmienne, do których dochodzą aż trzy kreski, czyli: X subscript 2 comma space X subscript 4 space end subscript comma space X subscript 5. Musimy wybrać spośród nich jedną zmienną – tą, która jest najsilniej skorelowana ze zmienną objaśniającą Y. Zatem patrzę teraz na macierz R subscript 0:

bold italic R subscript bold 0 equals open square brackets table row cell 0 comma 56 subscript blank end cell row cell bold 0 bold comma bold 87 subscript blank end cell row cell 0 comma 45 subscript blank end cell row cell bold 0 bold comma bold 89 subscript blank end cell row cell bold 0 bold comma bold 84 subscript blank end cell end table close square brackets space table row cell X subscript 1 end cell row cell X subscript 2 end cell row cell X subscript 3 end cell row cell X subscript 4 end cell row cell X subscript 5 end cell end table

Jak widać najbardziej powiązana jest zmienna X subscript 4 space end subscript. Zatem tylko ta jedna zmienna zostanie w tym przypadku zmienną objaśniającą. 

Model nasz będzie postaci: Y space equals space alpha subscript 0 space plus space alpha subscript 1 X subscript 4 space end subscript space plus space epsilon

 

Jak widać ta metoda jest troszkę inna, bazująca na wydaje się prostym porównaniu współczynników i potem wzrokowej analizie grafu. Zatem powinna spodobać się osobom, które wolą coś więcej niż tylko same cyferki. 🙂 

Bestsellery

Kurs Pochodne i Badanie Przebiegu Zmienności Funkcji

Studia / Autor: mgr Krystian Karczyński

49,00 

Kurs Wytrzymałość Materiałów

Studia / Autor: mgr inż. Adam Kasprzak

49,00 

Kurs Statystyka

Studia / Autor: mgr Krystian Karczyński

49,00 

Kurs Całki Nieoznaczone

Studia / Autor: mgr Krystian Karczyński

49,00 

Zobacz wszystkie Kursy eTrapez

Szukasz korepetycji z matematyki na poziomie studiów lub szkoły średniej? A może potrzebujesz kursu, który przygotuje Cię do matury?

Jesteśmy ekipą eTrapez. Uczymy matematyki w sposób jasny, prosty i bardzo dokładny - trafimy nawet do najbardziej opornego na wiedzę.

Stworzyliśmy tłumaczone zrozumiałym językiem Kursy video do pobrania na komputer, tablet czy telefon. Włączasz nagranie, oglądasz i słuchasz, jak na korepetycjach. O dowolnej porze dnia i nocy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Twój komentarz będzie dostępny publicznie na naszej stronie razem z powyższym podpisem. Komentarz możesz zmienić, lub usunąć w każdej chwili. Administratorem danych osobowych podanych w tym formularzu jest eTrapez Usługi Edukacyjne E-Learning Krystian Karczyński. Zasady przetwarzania danych oraz Twoje uprawnienia z tym związane opisane są w Polityce Prywatności.