Weitere Skripte und mehr findet ihr auf meiner Homepage. Bitte wählt eine Kategorie!


Regressionsanalyse

Analyse der Enge des Zusammenhangs, wobei abhängige und unabhängige Variable kardinal skaliert sind.

 

Beispiel Geldvermögen:

Unterschied zur Varianz: mindestens eine unabhängige Variable ist kardinal skaliert.

Haushaltsnettoeinkommen in 1000 DM

xi

Geldvermögen in 100 DM

yi

2,4

12

3,6

24

4,5

58

5,6

65

6,4

88

7,3

71

8,2

75

9,3

120

10,7

96

12,0

136

Graphische Darstellung:

Ziel: Finden einer monotonen Funktion. Problem dabei: die Funktion kann nicht durch alle Punkte gehen, da z.B. zwei Haushalte mit dem gleichen Nettoeinkommen ein unterschiedliches Vermögen haben. Daher ist das Ziel, dass alle Punkte einen möglichst geringen Abstand zu dieser Funktion haben.

 

Modellgleichung:

f(xi) = lineare Funktion = a+bx

Ermittlung der Parameter a und b, unter der Bedingung der Minimierung der Abstände der Punkte zur Funktion (in der Summe der Abstände):

 

Im Beispiel ergeben sich folgende Werte:

      

Somit ergibt sich für f(5) ein Wert von 51,53. Interpretation:

Im Mittel verfügen Haushalte mit einem Nettoeinkommen von 5000,- DM über ein Geldvermögen von 51,52TDM.

Interpretation von b:

Unterschied des durchschnittlichen Geldvermögens bei einer Nettoeinkommensdifferenz von 1000,-DM.

Interpretation von a:

Höhe des Geldvermögens, wenn der Haushalt über kein Nettoeinkommen verfügt.

Maßzahl für die Modellgüte (Enge des Zusammenhanges)

Ähnliche Ermittlung der Maßzahl wie bei Eta:

Der erste Summand ist der Abstand der Punkte zur ermittelten Geraden, d.h. je kleiner der Wert, desto besser die Gerade/ das Modell und je enger der Zusammenhang.

Daraus kann man nun zwei Werte ermitteln, da Bestimmtheitsmaß Byx und Unbestimmtheitsmaß Uyx):

Interpretationen:

Byx= Anteil der Varianz von y der durch die Unterschiede von x erklärt wird

Uyx= Anteil der Varianz von y der durch die Unterschiede von x nicht erklärt wird

 

Im Beispiel ergeben sich folgende Werte:

Uyx=0,1410

Byx=1-Uyx=0,859

 

Die Werte der Geldvermögen bei gleichem Einkommen schwanken dabei um den Mittelwert f(x). Die mittlere Schwankung gibt der Wert ui (Residuum) wieder.

yi=f(xi)+ui

 

Die Standardabweichung der Residuen bezeichnet man als Reststreuung. Eingesetzt in die Formel der Standardabweichung ergibt dies:

Für das Beispiel ergibt sich: su=13,7

 

Interpretation:

Su ist die mittlere Abweichung der Beobachtungswerte xi von den Funktionswerten f(xi).

Hier: Die tatsächlichen Geldvermögen weichen im Durchschnitt um 13700DM von den berechneten Werten ab.

 

Problem: Es gibt Werte die weniger oder stärker von su abweichen.

 

Es gilt jedoch:

Wenn alle wesentlichen Einflußgrößen im Modell erfasst worden sind, sind die Residuen ui näherungsweise normal verteilt, d.h. um den Wert ui liegen relativ viele Wert, während nur wenige Werte eine große Abweichung von ui haben.

Im Intervall (f(xi)-2su; f(xi)+2su) befinden sich ca. 95% aller Beobachtungswerte.

 

Im Beispiel: f(5)=51,53; 2su=27,4 èIm Intervall der Geldvermögen von (24,14TDM; 78,93TDM) befinden sich 95% aller Haushalte mit einem Nettoeinkommen von 5TDM.

Linearer Korrelationskoeffizient

Weitere Maßzahl zur Berechnung der Enge des Zusammenhanges èschlechter zu interpretieren, jedoch leichter zu berechnen als Uyx.

 

Formel:

Für die Berechnung sind die Werte von f(xi) nicht mehr notwendig. Ein Großteil der Werte wird zudem schon mit b berechnet.

 

Eigenschaften:

Gleichläufiger Zusammenhang èAnstieg von f(xi) ist positiv èb>0 èrxy>0

Gegenläufiger Zusammenhang è Anstieg von f(xi) ist negativ èb<0 èrxy<0

Kein Zusammenhang è Anstieg von f(xi) ca. 0 èrxy=0 (keine Änderung der Geldvermögen bei einer Betrachtung eines anderen Einkommens)

Definitionsbereich:

Der Zusammenhang ist umso größer, je näher der Betrag von rxy an den Wert 1 rückt.

Für lineare Funktionen gilt:

 

Sx wurde bereits mit b berechnet. Sy ist die Wurzel des Nenners von Uyx dividiert durch n.

Im Beispiel ist rxy=0,9268 èd.h. der Zusammenhang ist sehr eng

Weitere Regressionsfunktionen

Neben der linearen Regression gibt es:

Potenzfunktionen

Logarithmische Funktionen

Inverse Funktionen

Zusammengesetzte Funktionen

 

Welche Funktion am besten ist, gibt der Wert von Byx an (je höher desto besser). Man vergleicht bei den Funktionen die Ableitungen (Anstieg) und die relativen Elastizitäten (prozentuale Änderung)