#!/usr/bin/perl print qq§Content-Type: text/html §;

Inhaltsverzeichnis:

 

1. Einleitung

2. Bivariate Verwendung der Kontingenzanalyse

3. Multivariate Verwendung der Kontingenzanalyse

4. Das log-lineare Modell

4.1 Das Analysemodell

4.2 Das saturierte Modell

4.3 Das unsaturierte Modell

4.4 c 2 - Unterscheidungstest

4.5 c 2 - Anpassungstest

5. Fallbeispiel

5.1 Recodierung der Variablen

5.2 Das saturierte Modell

5.3 Das unsaturierte Modell

6. Zusammenfassung

7. Literaturverzeichnis

 

1. Einleitung

 

Als multivariate Analyseform von Daten ist die Kontingenzanalyse eine von vielen Möglichkeiten, Zusammenhänge zwischen Variablen aufzudecken und zu untersuchen. Vor allem, wenn es darum geht, Wirkungen von einer oder mehreren unabhängigen Variablen auf einer abhängige Variable zu untersuchen, stehen mehrere Analyseverfahren zur Verfügung. Die Frage bei einer solchen Auswahl von Methoden kann dann nur heißen: Wann wende ich welches Analyseverfahren an ?

Das Entscheidungskriterium, das angelegt wird, ist das Datenniveau sowohl der unabhängigen Variable (oder Variablen) als auch der abhängigen. In dem speziellen Fall, in dem wir uns mit der Kontingenzanalyse beschäftigen, gilt für beide Variablen die Voraussetzung, daß es sich um nichtmetrisches Meßniveau handeln muß. Es geht bei der Kontingenzanalyse also darum, die Beziehung zwischen zwei oder mehr nichtmetrischen Variablen zu untersuchen.

Im folgenden soll kurz auf die bivariate Kontingenzanalyse eingegangen werden. Ausführlicher wird dann das loglineare Modell in Bezug auf den multivariaten Fall dargestellt. Des weiteren schließt die Arbeit mit einem Fallbeispiel, in dem die praktische Anwendung der loglinearen Analyse dargestellt werden soll. Geprüft wird, ob und inwieweit Parteipräferenz mit einer Reihe von anderen Variablen zusammenhängt.

 

2. Bivariate Verwendung der Kontingenzanalyse

Wenn wir uns auf den bivariaten Fall beschränken, also den Zusammenhang zwischen nur einer unabhängigen und nur einer abhängigen Variable untersuchen, steht uns an für sich das aus der desktiptiven Statistik bekannte Verfahren des Chi-Quadrat-Tests zur Verfügung. Dieses Verfahren ist sicherlich adäquat, wenn es sich bei den beiden Variablen um dichotome Variablen handelt, also wenn beide Variablen nur zwei Ausprägungen besitzen. Ist dies der Fall, erhalten wir bei Kreuztabullierung eine quadratische 2x2 Tabelle. In dieser Tabelle befinden sich die kreuztabullierten beobachteten Häufigkeiten, wie wir sie aus der Erhebung erhalten. Tabelle 1 zeigt den allgemeinen Fall dieser 2x2-Tabelle.

 

Tabelle 1: Allgemeiner Fall einer 2x2- Kontingenztabelle

Variable X

1 2

Variable Y 1

a

b

a+b

2

c

d

c+d

 

a+c

b+d

a+b+c+d

 

Dieser Darstellung einer Kontingenztabelle folgend steht a für die Anzahl aller Fälle, die in die erste Kategorie sowohl von Variable X als auch von Variable Y fallen. Analog sind b, c und d zu verstehen.

Beim Chi-Quadrat-Test geht es um den Vergleich der beobachteten Zellbesetzungen einer Tabelle obigen Musters mit den Zellbesetzungen, die man erwarten würde, wenn keine Beziehung zwischen der abhängigen und der unabhängigen Variable bestehen würde. Eine solche Tabelle wird auch Indifferenztabelle genannt. Die Maßzahl Chi-Quadrat wird berechnet aus der Summe der quadrierten Differenzen zwischen den beobachteten und den bei Unabhängigkeit erwarteten Zellhäufigkeiten, geteilt durch die Häufigkeiten der Indifferenztabelle. Durch die in der Kontingenztabelle gegebenen Randverteilungen a+b, c+d, a+c und b+d und der Gesamtsumme a+b+c+d sind die erwarteten Häufigkeiten leicht zu berechnen.

Wie wir sehen, hält sich der mathematische Aufwand, die Maßzahl Chi-Quadrat für eine 2x2 Tabelle im Rahmen des Erträglichen. Durch wenige unkomplizierte Rechenoperationen ist es uns möglich, eine Quantifizierung der Beziehung zwischen zwei dichotomen Variablen auf nichtmetrischem Meßniveau vorzunehmen.

Der Fall einer 2x2-Tabelle ist allerdings in Bezug auf die empirische Realität äußerst selten. Solch eine Analyse bringt in den Sozialwissenschaften sehr selten die Möglichkeit, inhaltlich relevante Aussagen zu treffen, denn die den Soziologen interessierenden sozialen Realitäten sind nicht monokausal. Was also passiert, wenn uns der Zusammenhang von mehr als zwei Variablen interessiert und diese mehr als zwei Ausprägungen haben, also polytom sind? Im folgenden Abschnitt werde ich auf die multivariate Kontingenzanalyse eingehen. Aus der Darstellung dieser sollte dann die Notwendigkeit des loglinearen Modells verständlich werden.

 

3. Multivariate Verwendung der Kontingenzanalyse

Rekapitulierend ist zu sagen, daß es in der multivariaten Kontingenzanalyse darum geht, die Beziehung zwischen mehr als zwei nichtmetrischen Variablen zu untersuchen. Wie oben geschildert, ist das angebrachte Verfahren bei einer 2x2-Tabelle der Chi-Quadrat-Test.

Prinzipiell kann man das Verfahren der Kreuztabelle auch auf mehr als zwei Variablen anwenden. Bei steigender Variablen- und Merkmalsausprägungszahl wird dieses aber nahezu unübersichtlich. Darüber hinaus besteht das Problem der Interpretierbarkeit einzelner Zellhäufigkeiten. In Tabelle 2 wird deutlich, daß solche Schwierigkeiten schon bei dem relativ unkomplizierten Fall dreier dichotomen Variablen X, Y und Z auftreten können.

Tabelle 2: Allgemeine Form einer 2x2x2 Kontingenztabelle:

Z

Z1 Z2

X X

 

1

2

   

1

2

 

Y 1

aZ1

bZ1

aZ1+bZ1

 

aZ2

bZ2

aZ2+bZ2

2

cZ1

dZ1

cZ1+dZ1

 

cZ2

dZ2

cZ2+dZ2

 

aZ1+cZ1

bZ1+dZ1

å

 

aZ2+cZ2

bZ2+dZ2

å

 

Diese simple Verkomplizierung der ursprünglichen 2x2-Tabelle macht deutlich, daß es schon einer 2x2x2-Tabelle an Übersicht mangelt. Durch die Hinzunahme der Drittvariable Z erhöht sich die Anzahl der Zellen multiplikativ mit dem Faktor 2. Der Einfachheit halber unterteilt man die entstehende 2x2x2 Tabelle in zwei 2x2-Tabellen, jeweils nur eine Kategorie der Variable Z berücksichtigend. In dem oben dargestellten Fall bereitet dies keine großen Schwierigkeiten sowohl die Berechnung des Chi-Quadrat-Wertes als auch die inhaltliche Interpretation betreffend. In dem unter Abschnitt 5 dargestellten Fallbeispiel würde sich nach der Multiplikationsregel ein anderes Bild ergeben. Dort wird der Zusammenhang von vier Variablen, von denen drei dichotom und eine trichotom sind, untersucht werden. Es ergebe sich bei einer Kreuztabullierung eine 2x2x2x3-Tabelle, die Anmerkung 6 folgend 2x2x2x3 = 24 Zellen besitzt. Spätestens dann wird eine inhaltliche Interpretation der einzelnen Zellen äußerst mühselig. Soll dennoch eine Drittvariablenkontrolle durchgeführt werden, so ist dies einfacher mit einer loglinearen Analyse zu realisieren, und noch mehr: loglineare Modelle bieten nicht nur die Möglichkeit der Drittvariablenkontrolle. Sie können alle als theoretische relevant betrachteten Variablen analysieren. LANGEHEINEs Optimismus muß man allerdings die Restriktion entgegenhalten, daß nur die Variablen analysiert werden können, die auch erhoben wurden.

Das loglineare Modell ist Gegenstand des nächsten Abschnitts.

 

 

4. Das log-lineare Modell

 

Einführend ist zu sagen, daß ich mich in dieser Arbeit auf das hierarchische loglineare Modell beschränken werde. Weiterhin kann hier nur dem Fall einer symmetrischen Fragestellung nachgegangen werden.

Um einen geeigneten Einstieg in die loglineare Analyse zu finden, scheint es mir sinnvoll noch einmal auf die Bedeutung der beobachtete und der erwarteten Werte einer Kontingenztabelle einzugehen. Jedes Tabellenfeld einer Kontingenztabelle gibt die Häufigkeit wieder, mit der die zugehörige Wertekombination vorkommt. Handelt es sich um beobachtete Werte, so sind dies die Häufigkeiten, die direkt aus den erhobene Daten resultieren. Im anderen Fall der erwarteten Werte sind es diejenigen Häufigkeiten, die erwartet werden, wenn die beteiligten Variablen unabhängig von einander sind. Praktisch heißt dies, daß zwischen ihnen kein Zusammenhang besteht. Durch die Betrachtung des Verhältnis von beobachteten und erwarteten Werten können wichtige und für die loglineare Analyse basale Erkenntnisse gezogen werden. Wenn beobachtete und erwartete Werte verglichen werden, kann man zu dem Ergebnis kommen, daß sie sich entweder unterscheiden oder nicht. Wenn sie sich in ihrem numerischen Wert unterscheiden, ist zu schließen, daß die Variablen nicht unabhängig voneinander sind, d.h., daß zwischen ihnen sehr wohl ein Zusammenhang besteht. Anderenfalls, bei Übereinstimmung der Werte, sind die Variablen unabhängig. Mit Hilfe des Chi-Quadrat-Tests kann bestätigt werden, ob eine eventuelle Abweichung auf Zufall beruht oder nicht, wobei ein signifikanter hoher Chi-Quadrat-Wert für die Ablehnung der Nullhypothese, nach der zwischen den Variablen kein Zusammenhang besteht, spricht. Bis hierhin folge ich dem klassischen Verfahren der Kreuztabullierung, bei dem ja gerade aus dem Auseinanderfallen von beobachteten und erwarteten Häufigkeiten auf Abhängigkeit geschlossen wird.

Dem Grundgedanken des loglinearen Modells folgend können die erwarteten Häufigkeiten auch anders verstanden werden. Wenn detaillierte Informationen über die Zusammenhänge zwischen den Variablen vorliegen, dann sind die erwarteten Häufigkeiten kein Indikator für die Nichtabhängigkeit der Variablen. Im Gegenteil: sie sind dann ein Bild für die Zusammenhänge, im Sprachgebrauch der loglinearen Analyse auch Wechselwirkungen genannt. Es ist im Prinzip also möglich, die erwarteten Häufigkeiten so zu berechnen, daß sie mit den beobachteten übereinstimmen, vorausgesetzt eine perfekte Kenntnis der Zusammenhänge der Variablen. Dieser zentrale Gedanke soll noch einmal etwas ausführlicher dargestellt werden. In Anmerkung 4 hatten wir gesehen, daß die erwarteten Häufigkeiten nur mit Hilfe der Randsummen der Kontingenztabelle berechnet wurden. Es ergeben sich die Werte der Indifferenztabelle. Diese Indifferenztabelle stimmt mit der Kontingenztabelle dann überein, wenn die Variablen unabhängig sind, es also keinen Zusammenhang zwischen ihnen gibt. Man kann diese Korrespondenz aber auch erreichen, wenn ich die erwarteten Häufigkeiten so berechnen kann, daß sie mit den beobachteten übereinstimmen. Dies ist dann möglich, wenn alle Effekte aller Variablen aufeinander bekannt sind. Das ist eine Grundüberlegung loglinearer Modelle. Wie aber ist es möglich alle relevanten Effekte der Variablen zu kennen? Um diese Frage zu beantworten, muß Klarheit darüber herrschen, welche Effekte es überhaupt geben kann. Analytisch lassen sich zwei Arten von Effekten unterscheiden, Haupteffekte und Wechselwirkungseffekte.

Haupteffekte, oder auch "main effects" genannt, bilden diejenige Wirkung ab, die alle beteiligten Variablen auf die beobachteten Zellhäufigkeiten haben, wenn wir davon ausgehen, daß die Variablen unabhängig voneinander sind, sich zwischen ihnen also kein Zusammenhang ergibt. Bei beispielsweise vier Variablen ergeben sich auch vier Haupteffekte. Wechselwirkungseffekte (interaction effects) hingegen sind dann alle übrigen Effekte. Im bivariaten Fall gibt es nur einen Wechselwirkungseffekt, nämlich den zwischen den beiden Variablen. Bei mehr als zwei Variablen erhöht sich die Anzahl dann sehr schnell. Anzumerken ist, daß die Wechselwirkungseffekte nicht über einen Chi-Quadrat-Wert geschätzt werden können. Die Unterscheidung dieser Arten von Effekten soll noch einmal kurz an einem Beispiel erläutert werden.

Durchaus denkbar sind Effekte von einerseits Alkohol und andererseits Medikamenten auf die Fahrtüchtigkeit im Straßenverkehr. Weiterhin ist eine Quantifizierung dieser Beeinträchtigung auf einer "Fahruntüchtigkeitsskala" von 1 gleich keine Beeinträchtigung bis 10 gleich volle Beeinträchtigung theoretisch im Bereich des Möglichen. Angenommen ein Proband erhält nach Einnahme von Alkohol einen Wert auf der "Fahruntüchtigkeitsskala" von 4, nach der Einnahme von Medikamenten einen Wert von 2. Bezugnehmend auf die oben dargestellte Unterscheidung sind diese Effekte klar als Haupteffekte zu identifizieren, da die Wirkung (Beeinträch-tigung der Fahrtüchtigkeit) unabhängig voneinander sind. Angenommen ein Proband nimmt sowohl Alkohol als auch Medikamente ein und wir erhalten einen Wert von 8 auf der "Fahruntüchtigkeitsskala", dann stellt dieser Wert nicht die Summe der Haupteffekte dar (diese ist 4+2=6). Nach Abzug der Haupteffekte bleibt der Effekt übrig, der eine Wechselwirkung der beiden Variablen, im Beispiel Alkohol und Medikamente, kennzeichnet (8 - 4+2 =2). Zusammenfassend kann man sagen, daß die Haupteffekte Alkohol und Medikamente eine unabhängige Wirkung auf die Fahruntüchtigkeit haben, während der einzig mögliche Wechselwirkungseffekt aus einem Zusammenwirken von Alkohol und Medikamenten auf die Fahruntüchtigkeit besteht.

Das vorrangige Ziel der loglinearen Analyse besteht in der Unterscheidung von relevanten und weniger relevanten Effekten. Das ist gleichbedeutend mit einer Anpassung eines bestimmten Modells an die vorgefundenen Daten. Im folgenden Kapitel geht es darum, welche Effekte geschätzt werden können und wie das Analysemodell aussieht.

 

4.1 Das Analysemodell

 

BROSIUS schlägt vor, daß die Haupt- und Wechselwirkungseffekte als Koeffizienten auszudrücken sind und dieser Logik folgend, daß die beobachteten Häufigkeiten als Kombination dieser Effekte darstellbar sind. Formal gesehen, sähe so ein Modell folgendermaßen aus:

mij = g * g Ai * g Bj * g Ai Bj (Gleichung 4.3.1)

Der Wert g stellt dabei den Mittelwert der Feldinhalte dar, während g Ai den Haupteffekt von Variable A in der Ausprägung i, und g Bj den Haupteffekt der Variable B in der Ausprägung j bezeichnet. g Ai Bj hingegen steht für den Wechselwirkungseffekt der beiden Variablen A und B in den Ausprägungen i und j. Dieses Modell ist allerdings ein multiplikatives Modell, dessen Nachteil darin besteht, daß die einzelnen Koeffizienten, die die Effekte quantifizieren sollen, nicht ohne weiteres voneinander zu trennen sind.

Hilfe erhalten wir durch eine Logarithmierung der Zellhäufigkeiten, so daß ein anders erscheinendes Analysemodell vorliegt, dem die gesamte Analyse auch ihren Namen verdankt.

m ij = ln mij = m + l Ai + l Bj + l AiBj (Gleichung 4.3.2)

So entsteht ein additives, lineares Modell, mir dessen Hilfe die Effekte gut voneinander trenn- und unterscheidbar sind. Es entsteht also eine neue Tabelle mit den logarithmierten Zellhäufigkeiten aus der Kontingenztabelle. Die Randsummen sind jeweils die einfachen Mittelwerte m i der Zeilen bzw. Spalten und der Gesamtmittelwert m dieser logarithmierten Häufigkeiten ist im letzten Feld unten rechts einzutragen. Wie wir aus Gleichung 4.3.2 sehen, sind die logarithmierten Werte der beobachteten Häufigkeiten als lineare Funktion der Haupt- und Wechselwirkungseffekte zu interpretieren. Das ist ein wichtiger Gedanke.

Den theoretischen Fall angenommen, alle l -Werte sind bekannt, dann führt die Berechnung der erwarteten genau zu den beobachteten Häufigkeiten. Das war genau der Ausgangspunkt der Überlegungen. Anders gesagt, durch die Berechnung aller l -Werte, d.h. durch die Berücksichtigung aller Effekte, werden die beobachteten Häufigkeiten genau ermittelt. Die in Anmerkung 11 dargestellte Berechnungsweise ist etwas aufwendig. Wenn mit einem Statistikprogramm an einem Rechner gearbeitet wird, übernimmt dieses die Berechnung der Koeffizienten.

Bis hierhin haben wir die Möglichkeit kennengelernt, daß für alle theoretisch möglichen Effekte einer Variablenbeziehung Koeffizienten berechnet werden können. Wird dies gemacht, so spricht man von einem saturierten Model.

 

4.2 Das saturierte Modell

Das saturierte Modell beinhaltet alle theoretisch denkbaren Effekte, d.h. aber auch, daß es alles theoretisch mögliche erklärt. Deswegen ist das saturierte Modell eigentlich nicht Ziel der loglinearen Analyse. Das wird klar aus der Überlegung, wie sich die erwarteten zu den beobachteten Werten verhalten. Beim saturierten Modell sind diese gleich. Das bedeutet, daß der Chi-Quadrat-Wert gleich Null ist und daß es keine Residuen gibt. Darüber hinaus zählt als zweites wissenschaftstheoretisches Argument, daß ein Modell, das alles erklärt, keinen Erkenntniszuwachs leistet. Wie wir im Fallbeispiel unter Punkt 5 noch sehen werden hat das saturierte Modell allerdings ein paar Vorzüge. Es bietet wichtige Informationen über relevante und weniger relevante Effekte. Diese Leistung kommt dadurch zustande, daß nicht nur die Koeffizienten angegeben werden, sondern auch die zugehörigen Z-Werte, Standardfehler und ein Konfidenzintervall bei einer Irrtumswahrscheinlichkeit von 5%. Diese Angaben werden gebraucht, um zu prüfen, ob ein bestimmter Effekt zufällig von Null verschieden ist oder nicht.

Das saturierte Modell bietet also einen idealen Startpunkt, um andere Modelle, die die Daten eventuell besser repräsentieren, zu prüfen.

 

4.3 Das unsaturierte Modell

Somit bietet das unsaturierte Modell die Möglichkeit der Modelloptimierung. Unsaturiert heißt im Gegensatz zu saturiert, daß bestimmte Effekte explizit aus der Analyse ausgeschlossen werden. Auch hier ist die Testgröße der Chi-Quadrat-Wert. Wenn der empirische Chi-Quadrat-Wert größer ist als der kritische, dann ist er gegen die Nullhypothese, die keinen statistischen Zusammenhang annimmt, gesichert, d.h. die Nullhypothese wird abgelehnt.

Ein Beispiel für ein unsaturiertes Modell einer 2x2-Tabelle ist die Annahme, daß die beiden Variablen unabhängig voneinander sind. Dieser Sachverhalt kann repräsentiert werden durch ein loglineares Modell, in dem der Wechselwirkungseffekt außer Acht gelassen wird. So würde die logarithmierte erwartete Häufigkeit aufgrund eines solchen Modells ausgedrückt als die Summe der Konstanten m und den l -Werten der beiden Haupteffekte. Bei zwei Variablen sind die Modellierungsmöglichkeiten bescheiden. Der Wechselwirkungseffekt kann weggelassen werden oder nicht. Beispielhaft soll erklärt werden, wie die Anzahl der Effekte bei drei Variablen A, B und C steigt.

Effekte erster Ordnung: A, B, C

Effekte zweiter Ordnung: AB, AC, BC

Effekte dritter Ordnung: ABC

Wie eingangs erwähnt handelt es sich bei diese Arbeit ausschließlich um die Darstellung von hierarchischen Modellen. Hierarchisch heißt, daß bei der Berücksichtigung Effekte höherer Ordnung alle Effekte niedrigerer Ordnung ebenfalls berücksichtigt werden. Wenn z.B. der Effekt AC in die Analyse einfließt, heißt dies, daß auch die Haupteffekte A und C einfließen. Bei vier Variablen A, B, C und D und der Berücksichtigung des Effektes dritter Ordnung BCD, werden alle Effekte zweiter Ordnung, an denen die Variablen B, C und D beteiligt sind (BC, BD, CD) sowie die Haupteffekte B, C und D ebenfalls analysiert.

Mit der Möglichkeit der Modelloptimierung stellt sich die Frage, wann ein Modell überhaupt optimal ist. Allgemein gilt, daß ein Modell erstens so sparsam wie möglich spezifiziert werden sollte, d.h. es sollte so wenig Effekte wie möglich beinhalten. Zweitens sollten die einzelnen Effekte signifikante Erklärung bieten. Zum Beispiel könnten zwei Modelle, das eine mit und das andere ohne Wechselwirkungseffekt, eine gleiche Entsprechung der Daten erzielen. Dann ist das Modell mit den Effekten niedrigerer Ordnung vorzuziehen, da Effekte höherer Ordnung schwerer zu interpretieren sind.

Wir haben weiter oben einen Schritt kennengelernt, ein geeignetes Modell zu finden, indem wir die nicht signifikanten Effekte des saturierten Modells aus der weiteren Analyse ausgeschlossen haben. Ein weiterer Weg der Modelloptimierung ist der Test der Beiträge zur Erklärung von einzelnen Effekten verschiedener Ordnungen. Dabei wird folgendermaßen vorgegangen, daß ein Modell mit Interaktionseffekt(en) und das gleiche Modell ohne Interaktionseffekt(e) geprüft wird. Die Differenz der aus beiden Prüfungen resultierenden Chi-Quadrat-Werte wird dem (den) Interaktionseffekt(en) zugeschrieben. So kann getestet werden, ob Effekte ab einer bestimmten Ordnung gegen Null gesichert sind. Denn beim saturierten Modell ist c 2 gleich Null und bei Modellen ohne Effekte bestimmter Ordnungen ist c 2 ungleich Null. Die zentrale Frage lautet: Sind diese Änderungen im c 2 signifikant oder nicht ? Wenn sich eine signifikante Erhöhung der c 2- Werte gegenüber dem saturierten Modell ergibt, kann man davon ausgehen, daß Effekte dieser und höherer Ordnung zusammengenommen signifikant sind.

Wenn Effekte bestimmter Ordnung signifikant sind, kann es trotzdem sein, daß einige bestimmte es nicht sind. Man spricht hier von den "partiellen Erklärungsbeiträgen". c 2 - Werte werden ermittelt durch einen Test mit und einen ohne den bestimmten Effekt. Unterschiede im c 2 sind dem Effekt zuzurechnen. Das Entscheidungskriterium ist auch hier die Signifikanz einzelner Effekte.

Sind auf einem dieser Wege alle relevanten Effekte ermittelt worden, so prüft man das Modell mit lediglich diesen Effekten. Die Prüfgröße ist auch hier c 2. Allerdings handelt es sich hierbei um einen c 2- Anpassungstest, währen vorher immer die Rede vom c 2- Unterscheidungstest war. auf die wichtigsten Unterschiede möchte ich noch kurz eingehen, bevor ich dann ein Fallbeispiel einer hierarchischen loglinearen Analyse vorstellen möchte.

 

 

4.4 c 2- Unterscheidungstest

In beiden Testarten geht es darum, einen empirischen c 2- Wert mit einem c 2- Wert der theoretischen c 2- Verteilung zu vergleichen. Beim c 2- Unterscheidungstest stelle ich zwei Hypothesen auf, die Nullhypothese und die Alternativhypothese. Die Nullhypothese sagt aus, daß die beobachteten und die erwarteten Häufigkeiten gleich sind, während die Alternativhypothese von Unterschieden ausgeht. Wir benutzen den c 2- Unterscheidungstest in der loglinearen Analyse z.B., wenn wir bestimmte Effekte auf ihre zufällige Abweichung von Null überprüfen. Ist der empirische c 2- Wert größer als der theoretische, dann lehne ich die Nullhypothese ab. Ich bin also an großen c 2- Werten bei einem niedrigen Signifikanzniveau interessiert.

 

4.5 c 2- Anpassungstest

Der c 2- Anpassungstest der loglinearen Analyse folgt einer anderen Logik. Das saturierte Modell erklärt alles, da alle theoretisch denkbaren Effekte in dieses Modell einfließen. Demnach ist der c 2- Wert gleich Null. Ziel ist es, ein Modell möglichst gut an die Daten anzupassen. Beobachtete und erwarteten Werte dürfen sich nicht zu sehr ähneln, da sonst kein echter Unterschied zum saturierten Modell erkennbar ist, sie dürfen sich aber andererseits auch nicht zu sehr unterscheiden, da in diesem Fall keine Rede von einer Modellanpassung an die Daten sein kann. Die Anpassung wird bewertet durch einen c 2- Wert und ein entsprechendes Signifikanzniveau. Man kann Regeln über die Güte der Anpassung aufstellen. Bei einer Überschreitungswahrscheinlichkeit von 0,00 sind erwartete und beobachtete Werte gleich (saturiertes Modell), bei einer Überschreitungswahrscheinlichkeit von 1,00 sind sie völlig verschieden (keine Übereinstimmung, demnach keine Anpassung). Die Anpassungsgüte eines Modells ist also gekoppelt an eine Überschreitungswahrscheinlichkeit im Bereich zwischen Null und Eins.

Eine Überschreitungswahrscheinlichkeit größer als 0,50 entspricht einer guten Anpassung, der Bereich 0,50 bis 0,20 einer mäßigen und der Bereich 0,19 bis 0,05 einer schwachen Anpassung. Bei einer Überschreitung von kleiner als 0,05 sprechen die Autoren von keiner Anpassung.

 

5. Fallbeispiel

Der Datensatz der "ALLBUS 1994" eröffnet reichhaltige Möglichkeiten, spezifische Zusammenhänge im Querschnitt zu untersuchen. In diesem Fallbeispiel soll es um die Frage gehen, inwieweit ein Zusammenhang zwischen Parteipräferenz, Bildung, Konfession und Erhebungsgebiet besteht. Parteipräferenz wird erhoben mit Variable V329, in der nach der Wahlabsicht gefragt wird, Bildung wird über den allgemeinen Schulabschluß (V 12), Konfession über die Konfessionen (V 321) erhoben und das Erhebungsgebiet (V4) teilt sich auf in alte und neue Bundesländer.

 

 

5.1 Recodierung der Variablen

Der übersichtlicheren Darstellung zu Liebe, werden drei der Variablen dichotom und eine trichotom recodiert.

Im folgenden soll beispielhaft an Variable V 329 gezeigt werden, wie eine Recodierung geschehen kann. Dadurch ist es notwendig die Ausgangshäufigkeitsverteilung und die sich aus der Recodierung ergebende Verteilung darzustellen:

Tabelle 3: Häufigkeiten der Variable V239

 

V329 WAHLABSICHT, BUNDESTAGSWAHL; BEFR.

Valid Cum

Value Label Value Frequency Percent Percent Percent

 

CDU-CSU 1 730 21,2 28,8 28,8

SPD 2 865 25,1 34,1 62,8

FDP 3 200 5,8 7,9 70,7

BUENDNIS 90/GRUENE 4 322 9,3 12,7 83,4

REPUBLIKANER 5 74 2,2 2,9 86,3

PDS 6 73 2,1 2,9 89,2

ANDERE PARTEI 9 43 1,2 1,7 90,9

WUERDE NICHT WAEHLEN 10 232 6,7 9,1 100,0

NICHT WAHLBERECHTIGT 0 184 5,3 Missing

VERWEIGERT 97 142 4,1 Missing

WEISS NICHT 98 542 15,7 Missing

KEINE ANGABE 99 42 1,2 Missing

------- ------- -------

Total 3450 100,0 100,0

Valid cases 2540 Missing cases 910

 

 

Tabelle 4: Häufigkeiten für recodierte Variable CDU2:

 

Valid Cum

Value Label Value Frequency Percent Percent Percent

 

Wahl CDU 1,00 730 21,2 31,6 31,6

Nicht Wahl CDU 2,00 1578 45,7 68,4 100,0

, 910 26,4 Missing

------- ------- -------

Total 3450 100,0 100,0

Valid cases 2308 Missing cases 1142

Tabelle 3 zeigt alle erhobenen Ausprägungen, deren Häufigkeiten sowie den zugehörigen Prozentwert. Um diese große Anzahl an Ausprägungen zu reduzieren und die Variable "Parteipräferenz" zu dichotomisieren, wird folgende Einschränkung gemacht. Es interessiert nicht mehr, was genau gewählt wird, die Fragestellung reduziert sich auf die Entscheidung, ob die Parteienkoalition CDU-CSU gewählt wird oder nicht. Aus diesem Grund wird der Wert 1 der Variable V 329 (CDU-CSU) übernommen als erster Wert der neuen Häufigkeitstabelle. Die Werte 2 bis 10 aus Tabelle 3 werden zusammengefaßt zu der Ausprägung "Nicht Wahl CDU" und bilden somit die zweite Ausprägung in Tabelle 4. Alle übrigen Werte werden als System-Missings definiert, da bei ihnen keine eindeutige Einordnung möglich ist, und gehen nicht in die Analyse mit ein.

Variable V12 (allgemeiner Schulabschluß) und V321 (Konfession) werden analog tricho- bzw. dichotomisiert. Für Variable V4 (Erhebungsgebiet) ist diese Transformation nicht erforderlich, da es sich per se schon um eine dichotome Variable handelt.

Die loglineare Analyse wird also durchgeführt mit den recodierten Variablen BILDUNG, KONFESS, CDU2 sowie der Variable V4.

Bei der weiteren Beschreibung der Arbeitsschritte werde ich auf ausgiebige Erklärungen von Eingabeforderungen unter SPSS verzichten.

 

 

5.2 Das saturierte Modell

Die hierarchische loglineare Analyse wird aufgerufen unter dem Menüpunkt "Statistik" ® "loglinear" ® "hierarchisch". Dann erscheint ein Dialogfenster, mit dessen Hilfe die Variablen eingegeben werden. Ebenfalls in diesem Fenster kann über den Knopf "Modell" die Entscheidung für oder gegen das saturierte Modell getroffen werden. Der Unterpunkt "Optionen" stellt Möglichkeiten für den späteren Output zur Verfügung.

Folgender Output erscheint für das saturierte Modell:

Tabelle 5: Hierarchische loglineare Analyse als saturiertes Modell:

DATA Information

 

2260 unweighted cases accepted.

0 cases rejected because of out-of-range factor values.

1190 cases rejected because of missing data.

2270 weighted cases will be used in the analysis.

 

FACTOR Information

Factor Level Label

V4 2 ERHEBUNGSGEBIET: WEST - OST

BILDUNG 3 Schulabschluß

KONFESS 2 Konfession

CDU2 2 Wahlabsicht

 

Der erste Teil des Outputs ist rein informativer Natur. SPSS stellt dar, wieviel Fälle in die Analyse eingehen, nennt die beteiligten Variablen und deren Bezeichnungen. Im folgenden beginnt die eigentliche Analyse.

 

 

DESIGN 1 has generating class

 

V4*BILDUNG*KONFESS*CDU2

 

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

 

Observed, Expected Frequencies and Residuals.

 

Factor Code OBS count EXP count Residual Std Resid

V4 ALTE BUN

BILDUNG Niedrig

KONFESS Römisch-

CDU2 1 219,0 219,0 ,00 ,00

CDU2 2 258,4 258,4 ,00 ,00

KONFESS Nicht Rö

CDU2 1 147,4 147,4 ,00 ,00

CDU2 2 374,2 374,2 ,00 ,00

BILDUNG Mittel

KONFESS Römisch-

CDU2 1 70,9 70,9 ,00 ,00

CDU2 2 103,2 103,2 ,00 ,00

KONFESS Nicht Rö

CDU2 1 79,3 79,3 ,00 ,00

CDU2 2 193,9 193,9 ,00 ,00

BILDUNG hoch

KONFESS Römisch-

CDU2 1 60,2 60,2 ,00 ,00

CDU2 2 90,1 90,1 ,00 ,00

KONFESS Nicht Rö

CDU2 1 54,2 54,2 ,00 ,00

CDU2 2 207,1 207,1 ,00 ,00

 

V4 NEUE BUN

BILDUNG Niedrig

KONFESS Römisch-

CDU2 1 4,0 4,0 ,00 ,00

CDU2 2 2,3 2,3 ,00 ,00

KONFESS Nicht Rö

CDU2 1 41,8 41,8 ,00 ,00

CDU2 2 127,3 127,3 ,00 ,00

BILDUNG Mittel

KONFESS Römisch-

CDU2 1 2,3 2,3 ,00 ,00

CDU2 2 4,6 4,6 ,00 ,00

KONFESS Nicht Rö

CDU2 1 32,4 32,4 ,00 ,00

CDU2 2 134,4 134,4 ,00 ,00

BILDUNG hoch

KONFESS Römisch-

CDU2 1 2,3 2,3 ,00 ,00

CDU2 2 1,7 1,7 ,00 ,00

KONFESS Nicht Rö

CDU2 1 12,9 12,9 ,00 ,00

CDU2 2 58,3 58,3 ,00 ,00

 

Da es sich um ein saturiertes Modell handelt, wird die Analyse begonnen mit dem Effet vierter Ordnung, der die Wechselwirkung aller beteiligten Variablen ausdrückt. Diese Information ist hinreichend, denn da es um ein hierarchisches Modell handelt, schließt die Darstellung allein dieses Effektes alle anderen Wechselwirkungs- und die vier Haupteffekte mit ein.

Des weiteren ist eine Häufigkeitstabelle in einer etwas ungewohnten Form dargestellt. Es werden für alle möglichen Variablenkombinationen die erwarteten und beobachteten Häufigkeiten ausgewiesen. Man erkennt schnell, daß sich diese in jedem Fall gleichen. Das ist nicht verwunderlich, ziehen wir doch alle möglichen Effekte in diesem saturierten Modell in Betracht. Die erste Eintragszeile der erwarteten und beobachteten Häufigkeiten (219,0) ist so zu interpretieren, daß die Anzahl von Befragten gemeint ist, die sich in der Variable V4 der Ausprägung "Alte Bundesländer", in der Variable Bildung der Ausprägung "niedrig", in der Variable Konfession der Ausprägung "Römisch-Katholisch" und in der Variable CDU2 der Ausprägung "1" (d.h. Wahl von CDU-CSU) zugehörig fühlen. Die Anzahl der Einträge entspricht der Zahl der Zellen, nämlich vierundzwanzig.

 

 

Goodness-of-fit test statistics

 

Likelihood ratio chi square =,00000 DF = 0 P = 1,000

Pearson chi square =,00000 DF = 0 P = 1,000

 

Dieser Eintrag bietet einen Überblick über die Güte des Modells. Der Chi-Quadrat-Wert beurteilt die Güte der Anpassung. Der Wert für c 2 von Null erklärt sich dadurch, daß keine Abweichung zwischen erwarteten und beobachteten Werte besteht. Demnach ist diesem Wert nach der Logik des c 2 - Anpassungstest ein Signifikanzniveau von P = 1,00 zugeordnet. Natürlich erbringt ein so gearteter c 2 - Wert keinen Erkenntniszuwachs.

 

 

Tests that K-way and higher order effects are zero.

 

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

 

4 2 ,668 ,7162 ,650 ,7226 3

3 9 ,589 ,6798 6,910 ,6465 4

2 18 472,608 ,0000 457,367 ,0000 2

1 23 2280,580 ,0000 2297,308 ,0000 0

 

 

Obiger Output, der im Anschluß an die Häufigkeitstabelle ausgegeben wird, beschäftigt sich mit der Sicherung von Effekten bestimmter und aller höheren Ordnungen gegen Null, oder anders gesagt mit der statistischen Signifikanz einzelner Effektordnungen.

Die erste Spalte gibt an um welche Ordnung der Effekte es sich handelt, die zweite zeigt die Anzahl der Freiheitsgrade. Es folgen die Berechnungen von Likelihood - c 2, dessen Signifikanzniveau, sowie dir Berechnung von Pearson´s c 2 inklusive Signifikanzniveau. Demnach ist die erste Zeile so zu lesen, daß die Effekte vierter Ordnung mit einem Likelihood c 2 von 0,668 (Pearson: 0,650) und einem Signifikanzniveau von 0,7162 (Pearson: 0,7226) bei zwei Freiheitsgraden nicht gegen Null gesichert sind. Mit anderen Worten ist mit einer Irrtumswahrscheinlichkeit von ca. 72% von einer zufälligen Abweichung der Effekte vierter Ordnung von Null auszugehen. Bei analogem Vorgehen mit den drei anderen Zeilen kann man zu dem Schluß kommen, daß lediglich die Effekte zweiter Ordnung und die Haupteffekte signifikant sind. Für eine mögliche Modellspezifizierung durch ein unsaturiertes Modell heißt dieses Ergebnis, daß nur die Effekte erster und zweiter Ordnung in die Analyse eingehen sollten. Das gleiche Bild liefert uns der nächste Teiloutput, dessen Informationen bei Kenntnis der vorherigen Teiltabelle jedoch redundant sind, da die gleichen Berechnungen angestellt wurden , und demnach eine Interpretation der Effekte, allerdings jetzt isolierter Ordnungen, nach oben beschriebenem Prinzip verläuft.

 

Tests that K-way effects are zero.

 

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

 

1 5 1807,973 ,0000 1839,941 ,0000 0

2 9 466,018 ,0000 450,457 ,0000 0

3 7 5,922 ,5489 6,260 ,5097 0

4 2 ,668 ,7162 ,650 ,7226 0

 

 

 

Im nächsten Teil soll es um die eigentlichen Vorteile des saturierten Modell gehen. Wie weiter oben bereits gezeigt, bietet das saturierte Modell die Möglichkeit der Modellspezifizierung durch Eliminierung nicht signifikanter Effekte. Gerade wurde analysiert, welchen Effektordnungen es an Signifikanz mangelt. Wir haben jedoch keine Informationen über die statistische Signifikanz einzelner Effekte. Dies bietet SPSS mit dem folgenden Output an.

 

Tests of PARTIAL associations.

 

Effect Name DF Partial Chisq Prob Iter

 

V4*BILDUNG*KONFESS 2 1,451 ,4841 4

V4*BILDUNG*CDU2 2 2,067 ,3558 3

V4*KONFESS*CDU2 1 1,308 ,2527 4

BILDUNG*KONFESS*CDU2 2 2,546 ,2800 4

V4*BILDUNG 2 34,466 ,0000 4

V4*KONFESS 1 275,690 ,0000 4

BILDUNG*KONFESS 2 14,524 ,0007 4

V4*CDU2 1 3,865 ,0493 5

BILDUNG*CDU2 2 8,106 ,0174 4

KONFESS*CDU2 1 59,590 ,0000 4

V41 977,796 ,0000 2

BILDUNG 2 335,050 ,0000 2

KONFESS 1 185,401 ,0000 2

CDU2 1 309,726 ,0000 2

 

 

Eine Strategie, um einzelne Effekte zu testen, besteht - wie schon des öfteren beschrieben - im Vergleich von zwei Modellen, die sich lediglich in diesem zu untersuchenden Effekt unterscheiden. Die sich ergebende Differenz zwischen den beiden c 2-Werten kann dazu benutzt werden zu überprüfen, ob dieser Effekt statistisch signifikant von Null verschieden ist.

Es werden also alle Effekte ab der dritten Ordnung auf ihre Signifikanz hin überprüft. Dies geschieht wie in den Beispielen zuvor mit dem c 2 -Test. Man erkennt, daß bei einem Signifikanzniveau von 5% tatsächlich alle Effekte erster und zweiter Ordnung im statistisch strengen Sinne signifikant sind, da ihr Signifikanzwert jeweils kleiner als 0,05 ist. Schwierigkeiten bereiten lediglich die Effekte V4*CDU2 und Bildung*CDU2. Das erste Signifikanzniveau ist nur sehr geringfügig kleiner als 0,05 (nämlich 0,0493) und das zweite unterscheidet sich ebenfalls von den anderen, die alle nahezu den Wert 0,0000 annehmen. In der weiteren Analyse wird gezeigt, ob diese Effekte die Berechtigung haben, weiterhin in die Analyse einbezogen zu werden oder nicht.

Schließlich gibt SPSS noch die einzelnen Schätzungen der Koeffizienten (Parameter) für die Effekte aus. Dies soll aus Platzgründen nur an drei Koeffizienten dargestellt werden. Es handelt sich um einen Effekt erster (CDU), einen zweiter (V4*KONFESS) und einen dritter Ordnung (V4*BILDUNG*CDU2).

 

 

Estimates for Parameters.

CDU2

 

Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 -,3329852771 ,06790 -4,90404 -,46607 -,19990

 

V4*KONFESS

 

Parameter Coeff Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 ,6761902102 ,06790 9,95860 ,54311 ,80927

 

V4*BILDUNG*CDU2

 

 

Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

 

1 -,0605742735 ,09194 -,65885 -,24077 ,11963

2 ,1179165306 ,09190 1,28308 -,06221 ,29804

 

Inhaltlich am unkompliziertesten verläuft die Interpretation des Haupteffektes CDU2. Aus der Überlegung, daß sich die einzelnen Effekte als Abweichung vom Gesamtmittelwert definieren, ergibt sich, daß sich die Haupteffekte und die Wechselwirkungseffekte über die Kategorien zu Null addieren. Daraus folgt auch, daß sich alle Koeffizienten zu Null addieren. SPSS macht sich diese Eigenschaft zu Nutze und gibt nur so viele Koeffizienten aus wie nötig. Beispielsweise gibt es für den Haupteffekt CDU2 zwei Koeffizienten, einmal l CDU ja und auf der anderen Seite l CDU nein. Die erste Spalte gibt den Parameter an, also die Variablenkategorie, auf die sich der Koeffizient bezieht. Im obigen Beispiel CDU2 wird der Koeffizient für die Kategorie eins ausgegeben. Der Recodierung folgend, bedeutet dieser Parameter, daß der Koeffizient für l CDU ja gilt. Dieser Koeffizient hat den Wert -0,33299. Interessant ist auch hier, ob dieser Wert signifikant ist oder nicht. Um dieses überprüfbar zu machen, wird der Standardfehler, der Z-Wert und die Grenzen des Konfidenzintervalls mit der Irrtumswahrscheinlichkeit von 5% mit angegeben. Die Z-Werte ergeben sich aus der Division des Koeffizienten durch seinen Standardfehler. Diese Z-Werte sind annähernd normalverteilt, so daß sie für einen Signifikanztest gebraucht werden können. Es gilt für Koeffizienten, daß sie mit einer Signifikanz von 0,05 von Null verschieden sind, wenn der zugehörige Z-Wert größer als 1,96 ist. Entsprechend ergeben sich die Konfidenzintervalle. Koeffizienten sind signifikant von Null verschieden, wenn das Konfidenzintervall den Wert Null nicht einschließt.

Analog ist mit den Wechselwirkungseffekten V4*KONFESS und V4*BILDUNG*CDU2 zu verfahren, wobei angemerkt sein muß, daß sich bei Variablen mit mehr als zwei Ausprägungen die Anzahl der Koeffizienten erhöht. Dies ist bei V4*BILDUNG*CDU2 zu beobachten. Aus Platzgründen fällt eine detaillierte Schilderung der Identifikation der einzelnen Parameter an dieser Stelle aus.

Es wurde gezeigt, welche Vorteile das saturierte Modell im Rahmen der loglinearen Analyse hat. Im folgenden soll versucht werden das Fallbeispiel mit Hilfe des unsaturierten Modells einer Modellspezifizierung zu unterziehen.

 

5.3 Das unsaturierte Modell

Wie oben bereits erwähnt, unterscheiden sich das saturierte und das unsaturierte Modell in der Anzahl der in die Analyse eingehenden Effekte. Aus der Übersicht der einzelnen Effekte des saturierten Modells hatten wir diejenigen markiert, die signifikant von Null verschieden sind. Im Dialogfenster "Model" wird für die Analyse mit einem unsaturierten Modell der Button "anderes" angewählt und so die einzubeziehenden Effekte benannt. Dies sind in unserem Fall die Effekte erster und zweiter Ordnung.

Tabelle 6: Loglineare Analyse mit einem unsaturiertem Modell:

DESIGN 1 has generating class

 

BILDUNG*CDU2

BILDUNG*KONFESS

BILDUNG*V4

CDU2*KONFESS

CDU2*V4

KONFESS*V4

 

SPSS gibt an, welche Effekte analysiert werden. Es folgen die beobachteten und die erwarteten Häufigkeiten. Ein Blick auf eine kleine Auswahl genügt um festzustellen, daß sie sich unterscheiden. Das sollte nicht verwundern, nehmen doch jetzt nicht alle Effekte teil. Gerade ausschließlich die Teilnahme aller Effekte erbrachte die Möglichkeit der Berechnung der erwarteten Werte, so daß sie mit den beobachteten identisch sind.

 

Observed, Expected Frequencies and Residuals.

 

Factor Code OBS count EXP count Residual Std Resid

 

V4 ALTE BUN

BILDUNG Niedrig

KONFESS Römisch-

CDU2 1 218,5 218,9 -,36 -,02

CDU2 2 257,9 255,7 2,18 ,14

KONFESS Nicht Rö

CDU2 1 146,9 149,4 -2,57 -,21

CDU2 2 373,7 373,0 ,75 ,04

BILDUNG Mittel

KONFESS Römisch-

CDU2 1 70,4 74,8 -4,32 -,50

CDU2 2 102,7 99,2 3,47 ,35

KONFESS Nicht Rö

CDU2 1 78,8 70,8 8,04 ,96

CDU2 2 193,4 200,6 -7,19 -,51

. . . . . .

. . . . . .

. . . . . .

 

Entscheidend für die Güte dieser Modellspezifizierung ist der c 2-Wert ermittelt durch einen c 2- Anpassungstest. SPSS gibt auch hier sowohl den Likelihood ratio- als auch den Pearson-Wert aus:

 

Goodness-of-fit test statistics

 

Likelihood ratio chi square = 6,58942 DF = 9 P = ,680

Pearson chi square = 6,91079 DF = 9 P = ,646

Wenn wir uns an die Kriterien des c 2-Anpassungstest erinnern, so erkennen wir, daß uns mit dieser Spezifizierung eine relativ gute Modelloptimierung gelungen ist. Die c 2- Werte sind klein aber nicht Null wie beim saturierten Modell. Das Signifikanzniveau von 0,680 (bzw. 0,646) bedeutet, nach den in Abschnitt 4.5 beschilderten Kriterien, ebenfalls eine gute Anpassung. Wir können also zufrieden sein.

In Abschnitt 5.2 haben wir die Frage aufgeworfen, ob die beiden Effekte V4*CDU2 und BILDUNG*CDU2 tatsächlich in das endgültige Modell gehören, obwohl sie im strengen Sinne signifikant sind. Das unsaturierte Modell macht es uns leicht dieses zu überprüfen.

DESIGN 1 has generating class

 

BILDUNG*KONFESS

BILDUNG*V4

CDU2*KONFESS

KONFESS*V4

 

V4* CDU2 und BILDUNG*CDU2 werden diesmal per definitionem aus der Analyse gelassen. Wie weiter unten zu sehen ist, unterscheiden sich die erwarteten und die beobachteten Häufigkeiten.

 

Observed, Expected Frequencies and Residuals.

 

Factor Code OBS count EXP count Residual Std Resid

 

V4 ALTE BUN

BILDUNG Niedrig

KONFESS Römisch-

CDU2 1 218,5 207,7 10,84 ,75

CDU2 2 257,9 266,9 -9,00 -,55

KONFESS Nicht Rö

CDU2 1 146,9 130,8 16,03 1,40

CDU2 2 373,7 391,6 -17,87 -,90

. . . . . .

. . . . . .

. . . . . .

 

Es folgt auch für dieses Modell der c 2- Anpassungstest.

 

Goodness-of-fit test statistics

 

Likelihood ratio chi square = 18,52120 DF = 12 P = ,101

Pearson chi square = 18,12101 DF = 12 P = ,112

 

Wir sehen einen größeren c 2- Wert bei kleinerem Signifikanzniveau. Das Signifikanzniveau von 0,101 (bzw. 0,112) deutet nach den oben genannten Kriterien eher auf eine schwache Anpassung des Modells an die Daten.

Besonders im Vergleich der beiden dargestellten unsaturierten Modelle wird deutlich, warum das erste eine bessere Modelloptimierung darstellt. Erstens ist der c 2- Wert kleiner, d.h. der Unterschied zwischen beobachteten und erwarteten Werten ist kleiner, und das spricht in der Tat für eine gute Anpassung des Modells an die Daten. Zweitens ist das Signifikanzniveau oder auch Überschreitungswahrscheinlichkeit höher. Das wiederum bedeutet, daß bei steigendem Signifikanzniveau die Irrtumswahrscheinlichkeit auf der anderen Seite sinkt. Unsere Anpassung ist also beim ersten Modell besser als beim zweiten. Inhaltlich bedeutete dies, da die Variablen BILDUNG, CDU2, KONFESS und V4, sowie ihre Wechselwirkungen zweiter Ordnung einen Einfluß auf die beobachteten Werte der Kontingenztabelle haben.

 

6. Zusammenfassung

 

Wir haben gesehen, wie eine Analyse funktioniert, deren beteiligten Variablen nichtmetrisches Meßniveau aufweisen. Die multivariate Kontingenzanalyse mit dem loglinearen Ansatz bietet darüber hinaus die Möglichkeit, verschiedene theoretisch denkbare Modelle zu analysieren und die Güte der Anpassung zu vergleichen. Es spielt keine Rolle, wieviel Variablen an der Analyse beteiligt sind noch wie viele Ausprägungen diese haben. Bei der klassischen Aufteilung multivariater Kontingenztabellen in viele 2x2 Tabellen geht sehr schnell die Übersichtlichkeit und die inhaltliche Interpretierbarkeit verloren. Hier sehe ich den Hauptvorteil der loglinearen Analyse, wie sie in dieser Arbeit vorgestellt wurde.

 

7. Literaturverzeichnis

 

Backhaus, Klaus / Erichson, Bernd / Plinke, Wulf / Weiber, Rolf, 1989: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, 7. Auflage. Berlin: Springer.

Benninghaus, Hans:Satistik für Soziologen 1, Deskriptive Statistik, Teubner Stuttgart 1992.

Brosius, G. / Brosius, F.: SPSS. Base System und Professional Statistics. Bonn u.a.: Thomson, 1995.

Brosius, Gerhard: SPSS / PC +, Advanced Statistic und Tables, 1989.

Clauß, Günter / Finze, Falk-Rüdiger / Partzsch, Lothar: Statistik für Soziologen, Psychologen und Mediziner; Bd.1: Grundlagen; Frankfurt am Main; Deutsch, 1994.

Engel, Uwe / Reinecke, Jost: Panelanalyse: Grundlagen, Techniken, Beispiele. - Berlin; New York: de Gruyter 1994, insbesondere Kapitel 3.

Langeheine, Rolf: Log-lineare Modelle zur multivariaten Analyse qualitativer Daten: eine Einführung. - München, Wien: Oldenbourg, 1980.

SPSS for Windows, Advanced Statistics, Release 6.0, 1993.