#!/usr/bin/perl print qq§Content-Type: text/html
§;INHALTSVERZEICHNIS
Einleitung
1 Erhebung der Daten
I Verzeichnis
der verwendeten Quellen und Literatur 17
II Anhang
Einleitung
Ziel dieser Untersuchung ist es nunmehr anhand von einigen einfachen Thesen herauszufinden, wie sich die Struktur der Benutzer zusammensetzt und inwieweit Beruf, Alter und Geschlecht sich auf die Häufigkeit der Nutzung auswirken.
Erhebungs-
merkmal |
Variablen-
name |
Typ | Skala | Merkmalsart |
Alter | age | numerisch | verhältnis-
skaliert |
kontinuierlich |
Geschlecht | sex | numerisch | nominal | diskret |
Herkunft | origin | numerisch | nominal | diskret |
Beruf | work | numerisch | nominal | diskret |
Provider | provider | numerisch | nominal | diskret |
private
Nutzung |
use_I | numerisch | nominal | diskret |
professionelle
Nutzung |
use_P | numerisch | nominal | diskret |
soziale
Nutzung |
use_S | numerisch | nominal | diskret |
verbrachte Zeit im Internet | time | numerisch | ordinal | diskret |
Die Variablen age und time wurden mit dem Ziel einer sinnvollen Datenreduktion modifiziert. In diesem Sinn wurden die Altersangaben zu Altersklassen zusammengefaßt, wie die folgende graphische Darstellung verdeutlicht.
Die Variable time wurde umcodiert, so daß eine neue Variable time2 mit den Ausprägungen Viel- und Wenignutzung entstand. Diese wurde später als Gruppierungsvariable verwendet und teilte die Fälle entsprechend ihrer Ausprägungen in dieser Variablen zwei Stichproben zu.
Die Variablen use_I, use_P, use_S lassen Mehrfachantworten zu und wurden dementsprechend zu einer Setvariablen "Zweck der Nutzung" zusammengefaßt. Die folgende Tabelle zeigt die jeweiligen prozentualen Anteile der unterschiedlichen Nutzungszwecke.
|
|
|
|
|||
|
|
|
|
|||
|
|
|
|
|||
|
|
|
|
Erhebungsmerkmal | Codierung | Ausprägung |
Alter | wie eingegeben |
|
Altersklassen | 1 | < 20 |
2 | 20-30 | |
3 | 30-40 | |
4 | 40-50 | |
5 | > 50 | |
Geschlecht | 1 | weiblich |
2 | männlich | |
Herkunft | 0 | other |
1 | Europe | |
2 | North America | |
3 | South America | |
4 | Africa | |
5 | Middle East | |
6 | Asia | |
7 | Australia/New Zealand | |
Beruf | 0 | other |
1 | student | |
2 | employed | |
3 | self-employed | |
4 | unemployed | |
Provider | 1 | University Network |
2 | Company Network | |
3 | Online Services | |
private Nutzung | 0 | nein |
1 | ja | |
professionelle Nutzung | 0 | nein |
1 | ja | |
soziale Nutzung | 0 | nein |
1 | ja | |
verbrachte Zeit im Internet | 1 | several times a day |
2 | once per day | |
3 | less than once per day | |
time2 | 1 | Vielnutzer |
2 | Wenignutzer |
Folgend soll vor allen Dingen der Zusammenhang einer Viel- bzw. Wenignutzung des Internets (verbrachte Zeit im Internet) mit der Geschlechts- bzw. Berufszugehörigkeit der Nutzer untersucht werden (Untersuchungsschwerpunkt 2.2 und 2.3). Diese Untersuchungsschwerpunkte werden mit Hilfe von Zusammenhangsanalysen für nicht-metrische Merkmale (Chi-Quadrat-Unabhängigkeitstest, Phi-Koeffizient, Kontingenzkoeffizient) untersucht.
Weiterhin wird für die Stichproben der Viel- und Wenignutzer mit Hilfe des Kolmogorov-Smirnov-Tests überprüft, ob die Altersverteilung einer Normalverteilung entspricht (Untersuchungsschwerpunkt 2.5)
Außerdem wird durch einen doppelten t-Test für unabhängige Stichproben überprüft, ob es zwischen den Altersmittelwerten der beiden Stichproben signifikante Unterschiede gibt (Untersuchungsschwerpunkt 2.5).
Die Überprüfung dieser Fragestellung erfolgt mittels des Chi-Quadrat-Tests. Dieser überprüft die Unabhängigkeit zweier Variablen und somit indirekt den Zusammenhang der beiden. Die erwarteten Häufigkeiten werden hierbei mit den beobachteten verglichen. Die Variablen gelten als voneinander unabhängig, wenn die beobachteten Häufigkeiten mit den erwarteten übereinstimmen. Voraussetzung zur Anwendung des Chi-Quadrat-Tests sind:
Der Chi-Quadrat-Test überprüft also die Hypothese, ob zwei Zufallsvariablen x und y stochastisch voneinander unabhängig sind, bzw. eine gemeinsame Verteilungsfunktion haben.
Die folgenden Hypothesen wurden aufgestellt:
H1: Fxy ¹ Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Geschlechtszugehörigkeit sind nicht voneinander unabhängig. Sie bedingen sich gegenseitig.
Die Hypothese H0 ist anzunehmen, wenn a * > a ist.
Die Hypozhese H0 ist abzulehnen, wenn a * < a ist.
Vierfeldertafel der Variablen time2 (Viel- bzw. Wenignutzung) und sex (Geschlechtszugehörigkeit)
TIME2 Page 1 of 1
Count |
Exp Val |häufig wenig
Std Res | Row
| 1 | 2 | Total
SEX --------+--------+--------+
1 | 27 | 51 | 78
weiblich | 34,3 | 43,7 | 26,0%
| -1,2 | 1,1 |
+--------+--------+
2 | 105 | 117 | 222
männlich | 97,7 | 124,3 | 74,0%
| ,7 | -,7 |
+--------+--------+
Column 132 168 300
Total 44,0% 56,0% 100,0%
Chi-Quadrat nach | Value | df | Significance | Phi | Significance |
Pearson | 3,76752 | 1 | 0,05226 | -0,11206 | 0,05226 |
Gibt es einen Zusammenhang zwischen den Variablen time2 (Viel- bzw. Wenignutzung des Internets) und work (Berufszugehörigkeit des Nutzers)?
Auch die Überprüfung dieser Fragestellung erfolgt mittels des Chi-Quadrat Unabhängigkeitstests. Zusätzlich soll hier noch der Kontingenzkoeffizient angegeben werden. Dieser basiert wie der Phi-Koeffizient auf dem Chi-Quadrat-Wert und ist geeignet zur Berechnung der Korrelation zweier nominalskalierter Variablen, die mehr als zwei Ausprägungen haben, also polytom sind.
Die folgenden Hypothesen wurden aufgestellt:
H0: Fxy = Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Berufszugehörigkeit sind voneinander unabhängig.
H1: Fxy ¹ Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Berufszugehörigkeit sind nicht voneinander unabhängig. Sie bedingen sich gegenseitig.
Das Signifikanzniveau ist mit a = 0,05 vorgegeben.
Die Hypothese H0 ist anzunehmen, wenn a * > a ist.
Die Hypothese H0 ist abzulehnen, wenn a * < a ist.
Vierfeldertafel der Variablen time2 (Viel- bzw. Wenignutzung) und work (Berufszugehörigkeit)
WORK profession by TIME2 using time
TIME2 Page 1 of 1
Count |
Exp Val |häufig wenig
Std Res | Row
| 1 | 2 | Total
WORK --------+--------+--------+
1 | 54 | 90 | 144
student | 63,4 | 80,6 | 48,0%
| -1,2 | 1,0 |
+--------+--------+
2 | 63 | 75 | 138
employed | 60,7 | 77,3 | 46,0%
| ,3 | -,3 |
+--------+--------+
3 | 15 | 3 | 18
self-employed | 7,9 | 10,1 | 6,0%
| 2,5 | -2,2 |
+--------+--------+
Column 132 168 300
Total 44,0% 56,0% 100,0%
Chi-Quadrat nach | Value | df | Significance | Kontingenz-
koeffizient |
Significance |
Pearson | 13,9239 | 2 | 0,00095 | 0,21061 | 0,00095 |
Entspricht die Altersverteilung innerhalb der Stichproben der Viel- und Wenignutzer einer Normalverteilung?
Diese Fragestellung wird mittels des Kolmogorov-Smirnov-Tests überprüft. Untersucht wird hierbei die Hypothese, daß eine Zufallsvariable X einer vorgegebenen Verteilungsfunktion (Normalverteilung) entspricht. Es werden folgende Hypothesen gegenübergestellt:
H0: F(x) = F0(x) Die Altersverteilung in den beiden Stichproben (Viel- und Wenignutzer) entspricht einer Normalverteilung.
H1: F(x) ¹ F0(x) Die Altersverteilung in den beiden Stichproben (Viel- und Wenignutzer) entspricht nicht einer Normalverteilung.
Das Signifikanzniveau ist mit a = 0,05 vorgegeben.
Die Hypothese H0 ist anzunehmen, wenn a * > a ist.
Die Hypothese H0 ist abzulehnen, wenn a * < a ist.
Zunächst wird der Test für die Stichprobe der Häufignutzer durchgeführt.
Kolmogorov-Smirnov Goodness of Fit Test
Alter
Test distribution
- Normal Mean: 33,57
Standard Deviation:
9,84
Cases: 132
Most extreme differences
Absolute | Positive | Negative | K-S-Z | 2-Tailed P |
0,16874 | 0,16874 | -0,10083 | 1,9387 | 0,0011 |
Die Größe der Stichprobe der Vielnutzer beträgt 132. Das durchschnittliche Alter liegt bei 33,6 Jahren und die Standardabweichung bei 9,84.
Die größte Abweichung zwischen der empirischen und der hypothetischen Verteilungsfunktion beträgt 1,9387 (K-S Z emp)
Da a * mit 0,011 kleiner ist als a = 0,05, wird die Hypothese H0 verworfen. Das Alter in der Stichprobe der Vielnutzer ist nicht normalverteilt.
Anschließend wird der Test für die Stichprobe der Wenignutzer durchgeführt.
Kolmogorov-Smirnov Goodness of Fit Test
Alter
Test distribution
- Normal Mean: 29,00
Standard Deviation:
8,68
Cases: 132
Most extreme differences
Absolute | Positive | Negative | K-S-Z | 2-Tailed P |
0,15059 | 0,15059 | -0,10704 | 1,9519 | 0,0010 |
Die Größe der Stichprobe der Wenignutzer beträgt 168. Das durchschnittliche Alter liegt bei 29,0 Jahren und die Standardabweichung bei 8,68.
Die größte Abweichung zwischen der empirischen und der hypothetischen Verteilungsfunktion beträgt 1,9519 (K-S Z emp).
Da a * mit 0,010 kleiner ist als a = 0,05, wird die Hypothese H0 verworfen. Das Alter in der Stichprobe der Wenignutzer weicht signifikant von der Normalverteilung ab.
Diese Fragestellung soll mittels des doppelten t-Tests für unabhängige Stichproben untersucht werden. Bei diesem Test werden die Mittelwerte der beiden unabhängigen Stichproben miteinander verglichen. Dabei sind folgende Annahmen zu berücksichtigen:
Das Alter ist normalverteilt mit N(m ,d )
Es liegt Varianzhomogenität vor (d 1=d 2)
Anmerkung: Da sich bereits bei der Untersuchung der Untersuchungsschwerpunkt 2.4 gezeigt hat, daß die Voraussetzung der Normalverteilung nicht erfüllt ist, soll der t-Test an dieser Stelle nur exemplarisch und der Vollständigkeit halber berechnet werden. Um den Untersuchungsschwerpunkt 2.5 sinnvoll zu bearbeiten, wurde im Anschluß an den t-Test ein parameterfreies Verfahren für den Vergleich von zwei unabhängigen Stichproben hinsichtlich ihrer zentralen Tendenz eingesetzt (U-Test nach Mann und Whitney).
Es wurden folgende Hypothesen aufgestellt:
H1: m 1 ¹ m 2 der Erwartungswert für das durchschnittliche Alter der Vielnutzer des Internets entspricht nicht dem Erwartungswert für das durchschnittliche Alter der Wenignutzer.
Variable | Number
of Cases |
Mean | SD | SE of Mean |
Alter | ||||
Häufignutzer | 132 | 33,5682 | 9,843 | 0,857 |
Wenignutzer | 168 | 29,0000 | 8,684 | 0,670 |
Levene´s Test for Equality of Variances: F= 9,869 p = 0,002
t-Test for Equality of Means 95%
VariancesEqual | 4,26 | 298 | 0,000 | 1,071 | (2,459; 6,677) | |||||
Unequal | 4,20 | 263,05 | 0,000 | 1,088 | (2,426; 6,710) |
H0: d 1 = d 2
H1: d 1 ¹ d 2
Das Signifikanzniveau ist wieder mit a = 0,05 vorgegeben.
Die Hypothese H0 ist anzunehmen, wenn a * > a ist.
Die Hypothese H0 ist abzulehnen, wenn a * < a ist.
Da a * (0,000) im vorliegenden Fall kleiner als a (0,05) ist, muß die Nullhypothese abgelehnt weren. Es liegt keine Varianzhomogenität vor. Deshalb wird für die weitere Auswertung des Tests von ungleichen Varianzen ausgegangen. Es werden deshalb nun die Werte aus der Zeile Varianzungleichheit herangezogen.
P(|T| >|temp|) = a *
P(|T| > 4,20) = 0,000
Da a * (0,000) im vorliegenden Fall kleiner a (0,05) ist, muß die Nullhypothese abgelehnt werden. Demnach gibt es signifikante Unterschiede zwischen den Altersmittelwerten derjenigen Personen, die das Internet häufig benutzen und derjenigen, die es wenig nutzen.
Wie bereits erwähnt soll nun der parameterfreie U-Test nach Mann und Whitney berechnet werden. Allgemein werden nichtparametrische (verteilungsfreie) Verfahren dort angewand, wo die Voraussetzung der Normalverteilung verletzt wird oder wo kein Intervall-, sondern nur Ordinalskalenniveau gegeben ist. Der U-Test basiert auf einer gemeinsamen Rangreihe der Werte beider Stichproben.
Folgende Hypothesen werden formuliert:
H1: ¹ Es gibt einen Unterschied im Durchschnitt der Rangplätze der beiden Stichproben
Die Hypothese H0 ist anzunehmen, wenn a * > a ist.
Die Hypothese H0 ist abzulehnen, wenn a * < a ist.
Mann-Whitney U-Test
Alter
time2
Mean Rank | Cases | |||
173,55 | 132 | TIME2 = 1 häufig | ||
132,39 | 168 | TIME2 = 2 wenig | ||
Total | 300 |
|
|
|
|
|
|
|
|
Bortz, J. (1994). Lehrbuch der empirischen Forschung für Sozialwissenschaftler, Berlin, Springer-Verlag
Bühl, A.; Zöfel, P. (1994) SPSS für Windows Version 6: Praxisorientierte Einführung in die moderne Datenanalyse, Bonn, Addison-Wesley
Eckstein, P. (1995) Repetitorium Statistik: Deskriptive Statistik- Wahrscheinlichkeitsrechnung-Induktive Statistik mit Klausuraufgaben und Lösungen, Wiesbaden, Gabeler Verlag