Kategorie materiałów Ekonomia

Przedmiot: Ekonometria Wróć do kategorii

Ekonometria - regresja wieloraka

plik Pobierz Ekonometria - regresja wieloraka.doc

schematy i tabele w pliku do pobrania.



ANALIZA REGRESJI WIELOKROTNEJ


Charakterystyka próby
Analizowana przeze mnie próbka zawiera trzy zmienne, gdzie:
Zmienną zależną Y jest oporność elektryczna w nawęglaczu wyrażona w mikroomometrach [ m W m ] a zmiennymi niezależnymi (opisującymi) są odpowiednio:
X 1 – gęstość [g/cm3]
X 2 – przewodność cieplna [W/K*m]
Lp. X 1-d - Gęstość X 2- TC - Przewodność Y - SER -Oporność
1 1,61 11,0 27,8
2 1,61 10,5 28,5
3 1,65 9,1 29,3
4 1,67 13 26,0
5 1,67 11,8 28,2
6 1,69 11,8 27,5
7 1,70 11,0 28,4
8 1,70 9,7 29,4
9 1,70 7,4 31,9
10 1,71 13,1 28,0
11 1,71 9,7 29,6
12 1,71 9,6 30,8
13 1,72 7,6 30,5
14 1,72 11,0 29,2
15 1,73 8,7 30,4
16 1,73 8,6 30,8
17 1,73 7,5 32,8
18 1,74 13 27,8
19 1,75 10 30,5
20 1,76 8,7 32,8
21 1,77 7,4 32,6
22 1,78 11,5 29,3
23 1,78 11,9 29,3
24 1,78 9,9 31,0
25 1,79 8,1 32,4
26 1,79 10,8 31,3
27 1,80 11,1 29,9
28 1,80 10,9 32,7
29 1,83 9,9 29,0
30 1,84 7,5 33,9
31 1,85 9,9 31,5
32 1,86 7,5 33,5
33 1,89 9,5 34,3
34 1,90 8,9 34,2

Celem niniejszego opracowania jest przeprowadzenie analizy ekonometrycznej i zbadanie zależności jak gęstość i przewodność cieplna wpływa na oporność elektryczną w nawęglaczu. w losowo wybranej próbie z badań laboratoryjnych jednej z firm.

Zadaniem moim będzie wnioskowanie jak parametry objaśniające wpływają na zmienną objaśnianą.

Ze względu na swoje zastosowanie materiał nawęglający standardowo nie musi spełniać wymogów pod względem takich własności jak d (gęstość), TC (przewodność) oraz SER (oporność). Normowana jest w nim zawartość węgla pierwiastkowego (limit dolny), oraz zawartość pierwiastków mających niedobry wpływ na proces produkcji stali (takich np. jak siarka). Badania więc przeprowadzone były w celach czysto poznawczych.


Analiza zmiennych niezależnych X 1, X 2 , oraz zmiennej zależnej Y

Analizę zmiennych niezależnych o raz zmiennej zależnej przeprowadziłam na zasadzie porównania ich statystyk opisowych.


Statystyki opisowe

Y – SER - oporność

Średnia 30,44412
Błąd standardowy 0,366225
Mediana 30,45
Odchylenie standardowe 2,135443
Wariancja próbki 4,560116
Kurtoza -0,75953
Skośność 0,122412
Zakres 8,3
Minimum 26
Maksimum 34,3
Suma 1035,1
Licznik 34





X 1 d - gęstość X 2 TC przewodność

Średnia 1,749118 Średnia 9,929412
Błąd standardowy 0,012348 Błąd standardowy 0,291457
Mediana 1,735 Mediana 9,9
Tryb 1,7 Tryb 11
Odchylenie standardowe 0,072 Odchylenie standardowe 1,69947
Wariancja próbki 0,005184 Wariancja próbki 2,8882
Kurtoza -0,23306 Kurtoza -0,81707
Skośność 0,193039 Skośność 0,127435
Zakres 0,29 Zakres 5,7
Minimum 1,61 Minimum 7,4
Maksimum 1,9 Maksimum 13,1
Suma 59,47 Suma 337,6
Licznik 34 Licznik 34



Analizując statystyki opisowe zmiennych niezależnych X 1, X 2 i Y można zauważyć, że wartości średniej i mediany we wszystkich trzech przypadkach są prawie identyczne co wskazywałoby na to, że rozkłady tych zmiennych są normalne. Jednak kurtozy będące miarą spłaszczenia, dla wszystkich zmiennych są ujemne więc rozkłady ich są bardziej spłaszczone niż przy rozkładzie normalnym.
Współczynnik skośności przy wszystkich zmiennych jest dodatni co świadczy o prawostronności rozkładu.
Przyglądając się kurtozom analizowanych zmiennych obserwujemy, że co do wartości bezwzględnej kurtoza zmiennej X 1 jest wyraźnie mniejsza niż X2 i Y więc rozkład tej zmiennej jest najbardziej zbliżony do rozkładu normalnego a zmienna X 2 wykazuje największe spłaszczenie. Z kolei skośność zmiennej X 1 jest większa niż X 2 i Y i pod tym względem X 1 najbardziej różni się od rozkładu normalnego. Skośności X 2 i Y kształtują się na tym samym poziomie.
Ponieważ na podstawie samych odchyleń standardowych nie można porównywać rozproszenia poszczególnych zmiennych, obliczyłam współczynniki zmienności będące stosunkiem odchylenia standardowego do średniej arytmetycznej poszczególnych zmiennych:

Vs = s/x * 100(%)

s- odchylenie standardowe
x- średnia arytmetyczna
i tak dla :
X 1. Vs = 0,072/1,749 * 100 = 4,11%
dla
X 2. Vs = 1,699/9,929 * 100 = 17,11%
i dla
Y. Vs = 2,135/30,444 * 100 = 7,01%
wynika z tego, że zmienna X 1 jest najbardziej skupiona, a X 2 charakteryzuje się stosunkowo dużym rozproszeniem.

Histogramy wszystkich trzech zmiennych potwierdzają prawostronność rozkładów, ponieważ więcej zmiennych przyjmuje wartość powyżej średniej.




Analiza korelacji

Głównym celem niniejszej analizy jest wykazanie wpływu zmiennych niezależnych (objaśniających) X 1 i X 2 , na zmienną zależną (objaśnianą Y. Temu celowi służy analiza regresji liniowej. Regresja stanowi zależność pomiędzy kilkoma zmiennymi i może być wykorzystywana w procesie podejmowania decyzji.
Do analizy mojego przykładu wykorzystałam dodatek programowy Excele’a o nazwie „Regresja”, który umożliwił mi uproszczenie obliczeń dotyczących analizy regresji.
Analizę zależności rozpoczęłam od określenia wpływu zmiennych objaśniających na kształtowanie się zmiennej objaśnianej.
Podstawą wyboru zmiennych objaśniających do modelu ekonometrycznego jest analiza korelacji. W wyniku przeprowadzonej analizy korelacji otrzymałam następujące wyniki:

X1/X2 -0,29
X1/Y 0,72
X2/Y -0,75

Do określenia korelacji – czyli zależności pomiędzy zmiennymi służy współczynnik korelacji.
Współczynnik korelacji liniowej może przyjąć wartości dodatnie i ujemne z przedziału (-1;+1). Wartości dodatnie przyjmuje wówczas, gdy występuje zależność dodatnia (wraz ze wzrostem wartości zmiennej niezależnej rosną wartości zmiennej zależnej), natomiast wartość ujemną – w przypadku ujemnej zależności między zmiennymi (wraz ze wzrostem wartości zmiennej niezależnej wartości zmiennej zależnej maleją). Współczynnik korelacji „0” oznacza brak liniowego związku korelacyjnego między dwiema zmiennymi.
W związku z powyższym analizując współczynniki korelacji pomiędzy badanymi przeze mnie zmiennymi doszłam do wniosku, że pomiędzy zmiennymi niezależnymi X1/X2 występuje słaba ujemna korelacja, natomiast w stosunku do zmiennej zależnej obie niezależne są dość mocno skorelowane, z tym że zmienna X 1 wykazuje zależność dodatnią a X2 zależność ujemną.

Analiza statystyk regresji
Po przeanalizowaniu współczynników korelacji pomiędzy zmiennymi X1, X2, i Y przystąpię do analizy statystyk regresji.

Statystyki regresji
Wielokrotność R 0,916617
R kwadrat 0,840187
Dopasowany R kwadrat 0,829876
Błąd standardowy 0,880786
Obserwacje 34

Przede wszystkim należy zbadać zależność pomiędzy zmiennymi tzn. stopień ich korelacji. Z tabeli statystyk regresji odczytałam wielokrotność R określającą zależność pomiędzy zmiennymi objaśniającymi czyli X 1 – gęstością, X 2 – przewodnością a zmienną objaśnianą Y – opornością. W analizowanej próbce wielokrotność R wynosi 0,91 co wskazuje na silną zależność pomiędzy zmiennymi niezależnymi a zależną.
Miarą dopasowania służącą do określenia jaka część całkowitej zmienności zależnej Y jest wyjaśniona regresją liniową względem zmiennych niezależnych jest współczynnik determinacji R2. Wynik otrzymany w badanej próbce to 0,84 co oznacza, że 84% danych zmiennej zależnej wchodzi w linię trendu i jest to wynik w miarę dobry bo tylko 16% zróżnicowania Y nie jest wyjaśnione regresją liniową.
Dopasowany R2 jest miarą bardziej dokładną i staje się bardziej wiarygodny jeżeli zwiększamy ilość próbek. W analizowanym przypadku dopasowany R2 jest nieznacznie niższy od współczynnika determinacji i wynosi prawie 83%.
Błąd standardowy informuje nas o tym, jak wartości doświadczalne odchylają się od średniej przewidywanej wielkości. W tym przypadku wynosi on 0,88 i jest raczej niski.
Obserwacje 34 oznaczają liczebność badanej próby.

Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95%
Przecięcie 9,739415486 4,256594039 2,28807713 0,02911043 1,05802987 18,4208011
X 1-CTE - Gęstość 16,10637131 2,223584653 7,24342619 0,00000003 11,571338 20,6414046
X 2- TC - Przewodność -0,752032074 0,094205119 -7,9829216 0,00000000 -0,9441648 -0,5598994

Z powyższej tabelki wynika, iż współczynnik przy X1 czyli a1= 16,11, współczynnik przy X2 czyli a2= -0,75, natomiast współczynnik b= 9,74 (wyraz wolny- przecięcie , mówi nam o przesunięciu wykresu ).

Równanie regresji liniowej dla populacji ma postać
EY = a1X 1 + a2 X 2+ b.

Po rozpatrzeniu współczynników korelacji oraz statystyk regresji mogę zapisać równanie regresji dla badanej próby.

Y = a1X1 + a2X2 + b

Z Metody najmniejszych kwadratów wynika, że w omawianym przeze mnie przypadku:
Y = 16,11x1 – 0,75x2 + 9,74

Z równania regresji wynika:
1. Jeżeli gęstość wzrośnie o 1 g/cm3 to oporność wzrośnie o 16,11 mikroomometrów
2. Jeżeli przewodność cieplna wzrośnie o 1 W/k*m. to oporność spadnie o 0,75 mikroomometra.
3. Jeżeli gęstość i przewodność cieplna nie zmienią się , to oporność wzrośnie o 9,74


Ważnym czynnikiem umożliwiającym weryfikację hipotez statystycznych, określającym czy dana wartość jest istotna statystycznie jest graniczny poziom istotności p.-value, jest to taka wartość prawdopodobieństwa , że na każdym poziomie istotności g nie mniejszym od niej ( większym lub równym ) hipotezę zerową możemy odrzucić.
Jak widać z załączonej powyżej tabeli wynika, że w analizowanym przypadku wartości p-value są znacznie mniejsze od g na poziomie istotności 5%, świadczy o tym, że zależność pomiędzy zmiennymi jest istotna statystycznie.
Przedziały ufności - przedział powstały na podstawie opracowania danych z próbki, taki, że z określonym prawdopodobieństwem pokrywa prawdziwą nieznaną wartość parametru. Długość tego przedziału jest związana z podanym prawdopodobieństwem; Dolne 95% określa nam dolną granicę przedziału ufności , a górny 95% mówi o górnej granicy przedziału ufności do którego wpada nasza wartość . Tak więc dla poszczególnych zmiennych wygląda to następująco: a1= 16,11 mieści się w przedziale ( 11,57 ; 20,64 ) , a2= -0,75 mieści się w przedziale ( -0,94 ; -0,550,14 ), dla b= 9,74 przedział ( 1,06 ; 18,42 ). Takie szacowanie jest tym lepsze , im krótszy jest przedział ufności przy wyższym poziomie ufności.

Błędy standardowe estymatora są małe i wynoszą odpowiednio:
Sa1 = 2,223;
Sa2 = 0,094
Sb = 4,256
Tak małe błędy standardowe zmiennych niezależnych świadczą o tym , iż zmienne istotnie wpływają na zmienną zależną.

Regułą postępowania umożliwiającą podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy na podstawie dowolnie ustalonej próby losowej jest test statystyczny.
Założenie : poziom istotności g= 5%.
H0: a1=0
H1: a1ą 0
Wartość p-value dla a1» 0 - jest mniejsza od poziomu istotności i H0 odrzucamy. Oznacza to , iż nie ma podstaw do odrzucenia H1 i wartość współczynnika przy X1 jest istotna statystycznie .

H0: a2=0
H1: a2ą 0
Wartość p- value dla a2 » 0 - jest mniejsza od poziomu istotności i H0 odrzucamy . Natomiast nie podstaw do odrzucenia H1 , tak więc przyjmujemy a2 i wartość współczynnika przy X2 jest istotna statystycznie .



Można jeszcze przeprowadzić analizę hipotezy dla wyrazu wolnego b.
H0: b = 0
H1: b ą 0
Wartość dla b = 0,02 i jest mniejsza od poziomu istotności H0 odrzucamy i przyjmujemy b jako wyraz wolny równania regresji liniowej dla naszego modelu. Oznacza to , iż na poziomie istotności 5% punkt przecięcia z osią OY jest istotny statystycznie.

Analiza wariancji

ANALIZA WARIANCJI
df SS MS F Istotność F
Regresja 2 126,4345081 63,21725405 81,48817715 4,52898E-13
Resztkowy 31 24,04931542 0,775784369
Razem 33 150,4838235

Dla weryfikacji założenia o istotności statystycznej z uwagi fakt, iż zmienne mogą być niezależne nawet przy dużym Dopasowanym R ( 90% ) należy przeprowadzić Test Fischera.

Hipotezy:
H0 ; a1 = a2 = 0 – przyjęcie tej hipotezy świadczy o braku zależności
H1 ; a1 ≠ 0 lub a2 ≠ 0 – przyjęcie tej hipotezy świadczy o istnieniu zależności.
Założony poziom istotności a = 5%
Odczytując wynik z tabeli- istotność F = 0,0000000000004, stwierdziłam, że jest on znacznie mniejszy od założonego a, w związku z tym odrzucam hipotezę H0 a przyjmuję hipotezę H1.
Stwierdziłam zatem, że na poziomie istotności 5% zależność pomiędzy gęstością X1, przewodnością X2 a zależną od nich opornością Y jest istotna statystycznie, (to znaczy nie jest zerowa) i model jest wiarygodny.
Z dalszej analizy wariancji można odczytać:
df – poziomy istotności swobody
SS – całkowitą sumę kwadratów odchyleń od średniej arytmetycznej z wszystkich obserwacji
MS – średni kwadrat odchyleń wyjaśnionych regresją liniową (63,217), oraz niewyjaśnioną regresją (0,775)
F – rozkład Fischera Snodekera
Istotność F – określa czy wszystkie zmienne niezależne razem wpływają na zmienną zależną jeżeli jest ona mniejsza od F to hipotezę H0 odrzucamy.





Rozkład linii dopasowanej X1



Z analizy powyższego wykresu obrazującego rozmieszczenie poszczególnych składników próbki względem linii trendu można wnioskować, iż wartości zmiennej objaśniającej X1 są skumulowane wokół linii trendu, co świadczy o normalności rozkładu.








Rozkład linii dopasowanej X2

Rozmieszczenie poszczególnych składników próbki względem linii trendu dla zmiennej objaśniającej X 2 świadczy tak jak w przypadku X1 o normalności rozkładu, z tym, że linia trendu wykazuje nachylenie ujemne co wskazuje na ujemną korelację przewodności w stosunku do oporności.

Analiza reszt
W dalszej kolejności na podstawie wykresów rozkładu reszt, przeprowadzę analizę rozkładu reszt, jako elementu realizacji czynnika losowego.
SKŁADNIKI RESZTOWE - WYJŚCIE

Obserwacja Przewidywane Y - SER -Oporność Składniki resztowe Std. składniki resztowe
1 27,398320 0,401680 0,470528
2 27,774337 0,725663 0,850043
3 29,471436 -0,171436 -0,200821
4 26,860639 -0,860639 -1,008153
5 27,763077 0,436923 0,511812
6 28,085205 -0,585205 -0,685509
7 28,847894 -0,447894 -0,524663
8 29,825536 -0,425536 -0,498473
9 31,555209 0,344791 0,403888
10 27,429690 0,570310 0,668061
11 29,986599 -0,386599 -0,452863
12 30,061803 0,738197 0,864725
13 31,726930 -1,226930 -1,437228
14 29,170021 0,029979 0,035117
15 31,060759 -0,660759 -0,774014
16 31,135962 -0,335962 -0,393546
17 31,963197 0,836803 0,980232
18 27,988085 -0,188085 -0,220322
19 30,405245 0,094755 0,110997
20 31,543950 1,256050 1,471338
21 32,682655 -0,082655 -0,096823
22 29,760388 -0,460388 -0,539298
23 29,459575 -0,159575 -0,186926
24 30,963639 0,036361 0,042593
25 32,478360 -0,078360 -0,091791
26 30,447874 0,852126 0,998182
27 30,383328 -0,483328 -0,566171
28 30,533734 2,166266 2,537566
29 31,768957 -2,768957 -3,243560
30 33,734898 0,165102 0,193400
31 32,091085 -0,591085 -0,692397
32 34,057026 -0,557026 -0,652500
33 33,036153 1,263847 1,480472
34 33,648436 0,551564 0,646103




Rozkład reszt zmiennej X1

Z obserwacji rozkładu reszt na powyższym wykresie wynika, że skoro wartości reszt rozkładają się po obu stronach w miarę symetrycznie to trend jest liniowy i nie wykazuje cech świadczących o nie – Gausowości rozkładu np.: smug (heteroscedastyczność), zbyt długich serii o stałym znaku (brak liniowości modelu), czy też występowania wijącej się wstęgi reszt o stałej szerokości (autokorelacja).

Rozkład reszt zmiennej X2


Rozkład reszt ...

Ciąg dalszy w pliku do pobrania.

Wkuwanko.pl jako podmiot świadczący usługę hostingu materiałów edukacyjnych nie ponosi odpowiedzialności za ich zawartość.

Aby zgłosić naruszenie prawa autorskiego napisz do nas.

ikona Pobierz ten dokument

Wróć do kategorii

wkuwanko.pl

Wasze komentarze: dodaj komentarz

  • Nie ma jeszcze komentarzy do tego materiału.

Materiały w kategorii Ekonometria [51]

  • podgląd pobierz opis Badania operacyjne [65 stron]
  • podgląd pobierz opis Doświadczenia wieloczynnikowe (10 stron)
  • podgląd pobierz opis Ekonometria - kolokwium
  • podgląd pobierz opis Ekonometria - metoda simplex (14 stron)
  • podgląd pobierz opis Ekonometria - modelowanie
  • podgląd pobierz opis Ekonometria - Prognozowanie [34 strony]
  • podgląd pobierz opis Ekonometria - regresja wieloraka
  • podgląd pobierz opis Ekonometria - wzory
  • podgląd pobierz opis Ekonometria - wzory 2
  • podgląd pobierz opis Ekonometria - wzory 3
  • podgląd pobierz opis Ekonometria - zadania transportowe.doc
  • podgląd pobierz opis Ekonometria [33 strony]
  • podgląd pobierz opis Ekonometria [47 stron]
  • podgląd pobierz opis Ekonometryczna analiza - absolwenci (45 stron)
  • podgląd pobierz opis Ekonomietria - programowanie liniowe (10 stron)
  • podgląd pobierz opis Klasyfikacja modeli ekonometrycznych (9 stron)
  • podgląd pobierz opis Metoda transportowa - zadanie
  • podgląd pobierz opis Model ekonometryczny (8 stron)
  • podgląd pobierz opis Model ekonometryczny - bezrobocie (17 stron)
  • podgląd pobierz opis Model ekonometryczny - Depozyty złotowe i walutowe
[ Misja ] [ Regulamin ] [ Kontakt ] [ Reklama ]   © wkuwanko.pl 2008-2017 właściciel serwisu SZLIFF

Partnerzy: matzoo.pl matmag.pl batmat.pl onlinefm.pl pisupisu.pl Matematyka radio online