#!/usr/bin/perl print qq§Content-Type: text/html §;

INHALTSVERZEICHNIS

Einleitung

1 Erhebung der Daten

1.1 Definition der Erhebungsmerkmale und der Variablen
1.2 Codierplan
1.3 Umfrage 2 Untersuchungsschwerpunkte 2.1 Analytische Problemstellung
2.2 Korrelation zwischen Viel- und Wenignutzung und Geschlecht
2.3 Korrelation zwischen Viel- und Wenignutzung und Beruf
2.4 Überprüfung der Normalverteilung des Alters
2.5 Unterschied der Viel- und Wenignutzer bezüglich des Altersdurchschnitts 3 Schlußbemerkung und Fazit

I Verzeichnis der verwendeten Quellen und Literatur 17
II Anhang

Einleitung

Das Internet entstand als militärisch-wissenschaftliches Netz in den 60er Jahren in den USA. Seine Besonderheit ist sein anarchischer Aufbau, um zu verhindern, daß bei einem Ausfall eines Teils (damals gedacht bei einem atomaren Erstschlag), das gesamte Netz ausfällt. Diese Struktur machte es jedoch offen für alle. In den 80ern vergrößerte sich das Netz zusehends und Anfang der 90er Jahre wurde es zu dem, als was wir es heute kennen. Einem öffentlichen Informationsnetz für jedermann.

Ziel dieser Untersuchung ist es nunmehr anhand von einigen einfachen Thesen herauszufinden, wie sich die Struktur der Benutzer zusammensetzt und inwieweit Beruf, Alter und Geschlecht sich auf die Häufigkeit der Nutzung auswirken.

Erhebung der Daten

Definition der Erhebungsmerkmale und der Variablen

Erhebungs- merkmal	Variablen- name	Typ	Skala	Merkmalsart
Alter	age	numerisch	verhältnis- skaliert	kontinuierlich
Geschlecht	sex	numerisch	nominal	diskret
Herkunft	origin	numerisch	nominal	diskret
Beruf	work	numerisch	nominal	diskret
Provider	provider	numerisch	nominal	diskret
private Nutzung	use_I	numerisch	nominal	diskret
professionelle Nutzung	use_P	numerisch	nominal	diskret
soziale Nutzung	use_S	numerisch	nominal	diskret
verbrachte Zeit im Internet	time	numerisch	ordinal	diskret

In der Stichprobe liegt ein metrisch skaliertes Merkmal vor (Alter). Alle übrigen Erhebungsmerkmale sind nicht metrisch skaliert.

Die Variablen age und time wurden mit dem Ziel einer sinnvollen Datenreduktion modifiziert. In diesem Sinn wurden die Altersangaben zu Altersklassen zusammengefaßt, wie die folgende graphische Darstellung verdeutlicht.

Die Variable time wurde umcodiert, so daß eine neue Variable time2 mit den Ausprägungen Viel- und Wenignutzung entstand. Diese wurde später als Gruppierungsvariable verwendet und teilte die Fälle entsprechend ihrer Ausprägungen in dieser Variablen zwei Stichproben zu.

Die Variablen use_I, use_P, use_S lassen Mehrfachantworten zu und wurden dementsprechend zu einer Setvariablen "Zweck der Nutzung" zusammengefaßt. Die folgende Tabelle zeigt die jeweiligen prozentualen Anteile der unterschiedlichen Nutzungszwecke.

Erhebungsmerkmal Variable Häufigkeit* Prozent*

private Nutzung use_I 243 81,0

professionelle Nutzung use_P 93 31,0

soziale Nutzung use_S 135 45,0

*Mehrfachantworten waren zulässig

Codierplan

Erhebungsmerkmal	Codierung	Ausprägung
Alter	wie eingegeben	-
Altersklassen	1	< 20
	2	20-30
	3	30-40
	4	40-50
	5	> 50
Geschlecht	1	weiblich
	2	männlich
Herkunft	0	other
	1	Europe
	2	North America
	3	South America
	4	Africa
	5	Middle East
	6	Asia
	7	Australia/New Zealand
Beruf	0	other
	1	student
	2	employed
	3	self-employed
	4	unemployed
Provider	1	University Network
	2	Company Network
	3	Online Services
private Nutzung	0	nein
	1	ja
professionelle Nutzung	0	nein
	1	ja
soziale Nutzung	0	nein
	1	ja
verbrachte Zeit im Internet	1	several times a day
	2	once per day
	3	less than once per day
time2	1	Vielnutzer
	2	Wenignutzer

Umfrage

Um die Daten zu erheben wurde, der Fragebogen als html-file erstellt und im Internet plaziert (Anlage 1 Fragebogen siehe Anhang). Bis auf die Eingabe des Alters, ist der gesamte Fragebogen vollständig mit Listenauswahlfeldern, bzw. Ankreuzfeldern programmiert. Das Freilassen von Feldern war technisch nicht möglich; nur bei der Eingabe des Alters konnten Missing-Werte entstehen. Neben den erfragten Daten erhielten wir zusätzlich die Bezeichnung des benutzten Browsers und des Betriebssystems des verwendeten Rechners. Der ausgefüllte Fragebogen wurde uns per eMail zugesandt und der Absender erhielt eine kurze Dankesseite (Anlage 2 Dankesseite siehe Anhang). Da es technisch nicht möglich war, die Daten elektronisch einzulesen, wurden die Fragebögen ausgedruckt und manuell codiert und eingegeben (Anlage 3 Musterfragebogen siehe Anhang). Die Eingabe erfolgte direkt in SPSS 6.1.2 und die Auswertung fand im Pool 6 der FHTW-Berlin statt.

Untersuchungsschwerpunkte

Analytische Problemstellung

Folgend soll vor allen Dingen der Zusammenhang einer Viel- bzw. Wenignutzung des Internets (verbrachte Zeit im Internet) mit der Geschlechts- bzw. Berufszugehörigkeit der Nutzer untersucht werden (Untersuchungsschwerpunkt 2.2 und 2.3). Diese Untersuchungsschwerpunkte werden mit Hilfe von Zusammenhangsanalysen für nicht-metrische Merkmale (Chi-Quadrat-Unabhängigkeitstest, Phi-Koeffizient, Kontingenzkoeffizient) untersucht.

Weiterhin wird für die Stichproben der Viel- und Wenignutzer mit Hilfe des Kolmogorov-Smirnov-Tests überprüft, ob die Altersverteilung einer Normalverteilung entspricht (Untersuchungsschwerpunkt 2.5)

Außerdem wird durch einen doppelten t-Test für unabhängige Stichproben überprüft, ob es zwischen den Altersmittelwerten der beiden Stichproben signifikante Unterschiede gibt (Untersuchungsschwerpunkt 2.5).

Korrelation zwischen Viel- und Wenignutzung und Geschlecht

Gibt es einen Zusammenhang zwischen den Variablen time2 (Viel- bzw. Wenignutzung des Internets) und sex (Geschlechtszugehörigkeit)?

Die Überprüfung dieser Fragestellung erfolgt mittels des Chi-Quadrat-Tests. Dieser überprüft die Unabhängigkeit zweier Variablen und somit indirekt den Zusammenhang der beiden. Die erwarteten Häufigkeiten werden hierbei mit den beobachteten verglichen. Die Variablen gelten als voneinander unabhängig, wenn die beobachteten Häufigkeiten mit den erwarteten übereinstimmen. Voraussetzung zur Anwendung des Chi-Quadrat-Tests sind:

Die Einordnung aller Beobachtungen in die Klassen müssen stochastisch unabhängig sein,
die Klassen müssen einander ausschließen,
der Anteil der erwarteten Häufigkeiten, die kleiner als fünf sind, darf 20% nicht überschreiten.

Es gibt Verfahren, die auf der Grundlage des Chi-Quadrat-Tests operieren. Eines dieser Verfahren ist der Phi-Koeffizient zur Korrelation zweier dichotomer Variablen. Auch der Phi-Koeffizient soll deshalb hier angegeben werden. Hierbei muß berücksichtigt werden, daß der Phi-Koeffizient nur dann innerhalb des Wertebereichs -1 bis +1 liegt, wenn die Fälle der Stichprobe so verteilt sind, daß die Aufteilung der Variable x mit ihren beiden Merkmalen der Aufteilung der Variable y mit ihren beiden Merkmalen entspricht (Bortz, 1984).

Der Chi-Quadrat-Test überprüft also die Hypothese, ob zwei Zufallsvariablen x und y stochastisch voneinander unabhängig sind, bzw. eine gemeinsame Verteilungsfunktion haben.

Die folgenden Hypothesen wurden aufgestellt:

H₀: F_xy = F_x * F_y Die Variablen Viel- und Wenignutzung des Internets und Geschlechtszugehörigkeit sind voneinander unabhängig.

H₁: F_xy ¹ F_x * F_y Die Variablen Viel- und Wenignutzung des Internets und Geschlechtszugehörigkeit sind nicht voneinander unabhängig. Sie bedingen sich gegenseitig.

Das Signifikanzniveau ist mit a = 0.05 vorgegeben.

Die Hypothese H₀ ist anzunehmen, wenn a ^* > a ist.

Die Hypozhese H₀ ist abzulehnen, wenn a ^*< a ist.

Vierfeldertafel der Variablen time2 (Viel- bzw. Wenignutzung) und sex (Geschlechtszugehörigkeit)

TIME2 Page 1 of 1

Count |

Exp Val |häufig wenig

Std Res | Row

| 1 | 2 | Total

SEX --------+--------+--------+

1 | 27 | 51 | 78

weiblich | 34,3 | 43,7 | 26,0%

| -1,2 | 1,1 |

+--------+--------+

2 | 105 | 117 | 222

männlich | 97,7 | 124,3 | 74,0%

| ,7 | -,7 |

+--------+--------+

Column 132 168 300

Total 44,0% 56,0% 100,0%

Chi-Quadrat nach	Value	df	Significance	Phi	Significance
Pearson	3,76752	1	0,05226	-0,11206	0,05226

Sowohl der Chi-Quadratwert als auch der Phi-Koeffizient erhalten keine Signifikanz. Da im vorliegenden Fall a ^* (0,05226) größer als a (0,05) ist, muß die Nullhypothese beibehalten werden. Das heißt, daß die Beziehung zwischen der Viel- bzw. Wenignutzung des Internets einerseits und der Geschlechtszugehörigkeit andererseits nicht über den Zufall hinaus geht.

Korrelation zwischen Viel- und Wenignutzung und Beruf

Gibt es einen Zusammenhang zwischen den Variablen time2 (Viel- bzw. Wenignutzung des Internets) und work (Berufszugehörigkeit des Nutzers)?

Auch die Überprüfung dieser Fragestellung erfolgt mittels des Chi-Quadrat Unabhängigkeitstests. Zusätzlich soll hier noch der Kontingenzkoeffizient angegeben werden. Dieser basiert wie der Phi-Koeffizient auf dem Chi-Quadrat-Wert und ist geeignet zur Berechnung der Korrelation zweier nominalskalierter Variablen, die mehr als zwei Ausprägungen haben, also polytom sind.

Die folgenden Hypothesen wurden aufgestellt:

H₀: F_xy = F_x * F_y Die Variablen Viel- und Wenignutzung des Internets und Berufszugehörigkeit sind voneinander unabhängig.

H₁: F_xy ¹ F_x * F_y Die Variablen Viel- und Wenignutzung des Internets und Berufszugehörigkeit sind nicht voneinander unabhängig. Sie bedingen sich gegenseitig.

Das Signifikanzniveau ist mit a = 0,05 vorgegeben.

Die Hypothese H₀ ist anzunehmen, wenn a ^* > a ist.

Die Hypothese H₀ ist abzulehnen, wenn a ^*< a ist.

Vierfeldertafel der Variablen time2 (Viel- bzw. Wenignutzung) und work (Berufszugehörigkeit)

WORK profession by TIME2 using time

TIME2 Page 1 of 1

Count |

Exp Val |häufig wenig

Std Res | Row

| 1 | 2 | Total

WORK --------+--------+--------+

1 | 54 | 90 | 144

student | 63,4 | 80,6 | 48,0%

| -1,2 | 1,0 |

+--------+--------+

2 | 63 | 75 | 138

employed | 60,7 | 77,3 | 46,0%

| ,3 | -,3 |

+--------+--------+

3 | 15 | 3 | 18

self-employed | 7,9 | 10,1 | 6,0%

| 2,5 | -2,2 |

+--------+--------+

Column 132 168 300

Total 44,0% 56,0% 100,0%

Chi-Quadrat nach Value df Significance Kontingenz-
koeffizient
Significance

Pearson 13,9239 2 0,00095 0,21061 0,00095

Chi-Quadrat-Wert und Kontingenzkoeffizient sind signifikant. Für diese Fragestellung gilt, daß a ^* (0,00095) kleiner als a (0,05) ist. Demnach muß die Nullhypothese abgelehnt werden. Dies bedeutet, es gibt einen Zusammenhang zwischen einer Viel- bzw. Wenignutzung des Internets und der Berufszugehörigkeit der Nutzer. Nimmt man an, daß wenn in einem Feld der Kreuztabelle ein standardisiertes Residuum von 2 oder größer vorliegt, auch eine signifikante Abweichung der beobachteten von den erwarteten Häufigkeiten existiert, so kann man bei der Betrachtung der standardisierten Residuen dieser Kreuztabelle erkennen, daß die Signifikanz des Wertes in den Feldern begründet ist, die zur Ausprägung "self-emplyed" der Variable Beruf gehören. Bei Häufignutzern des Internets ist diese Merkmalsausprägung signifikant erhöht, bei Wenignutzern signifikant erniedrigt.

Überprüfung der Normalverteilung des Alters

Entspricht die Altersverteilung innerhalb der Stichproben der Viel- und Wenignutzer einer Normalverteilung?

Diese Fragestellung wird mittels des Kolmogorov-Smirnov-Tests überprüft. Untersucht wird hierbei die Hypothese, daß eine Zufallsvariable X einer vorgegebenen Verteilungsfunktion (Normalverteilung) entspricht. Es werden folgende Hypothesen gegenübergestellt:

H₀: F(x) = F₀(x) Die Altersverteilung in den beiden Stichproben (Viel- und Wenignutzer) entspricht einer Normalverteilung.

H₁: F(x) ¹ F₀(x) Die Altersverteilung in den beiden Stichproben (Viel- und Wenignutzer) entspricht nicht einer Normalverteilung.

Das Signifikanzniveau ist mit a = 0,05 vorgegeben.

Die Hypothese H₀ ist anzunehmen, wenn a ^* > a ist.

Die Hypothese H₀ ist abzulehnen, wenn a ^*< a ist.

Zunächst wird der Test für die Stichprobe der Häufignutzer durchgeführt.

Kolmogorov-Smirnov Goodness of Fit Test

Alter

Test distribution - Normal Mean: 33,57
Standard Deviation: 9,84

Cases: 132

Most extreme differences

Absolute Positive Negative K-S-Z 2-Tailed P

0,16874 0,16874 -0,10083 1,9387 0,0011

Die Größe der Stichprobe der Vielnutzer beträgt 132. Das durchschnittliche Alter liegt bei 33,6 Jahren und die Standardabweichung bei 9,84.

Die größte Abweichung zwischen der empirischen und der hypothetischen Verteilungsfunktion beträgt 1,9387 (K-S Z _emp)

Da a * mit 0,011 kleiner ist als a = 0,05, wird die Hypothese H₀ verworfen. Das Alter in der Stichprobe der Vielnutzer ist nicht normalverteilt.

Anschließend wird der Test für die Stichprobe der Wenignutzer durchgeführt.

Kolmogorov-Smirnov Goodness of Fit Test

Alter

Test distribution - Normal Mean: 29,00
Standard Deviation: 8,68

Cases: 132

Most extreme differences

Absolute Positive Negative K-S-Z 2-Tailed P

0,15059 0,15059 -0,10704 1,9519 0,0010

Die Größe der Stichprobe der Wenignutzer beträgt 168. Das durchschnittliche Alter liegt bei 29,0 Jahren und die Standardabweichung bei 8,68.

Die größte Abweichung zwischen der empirischen und der hypothetischen Verteilungsfunktion beträgt 1,9519 (K-S Z _emp).

Da a * mit 0,010 kleiner ist als a = 0,05, wird die Hypothese H₀ verworfen. Das Alter in der Stichprobe der Wenignutzer weicht signifikant von der Normalverteilung ab.

Unterschied der Viel- und Wenignutzer bezüglich des Altersdurchschnitts

Unterscheiden sich die Stichproben der Viel- und Wenignutzer des Internets bezüglich ihres Altersdurchschnitts?

Diese Fragestellung soll mittels des doppelten t-Tests für unabhängige Stichproben untersucht werden. Bei diesem Test werden die Mittelwerte der beiden unabhängigen Stichproben miteinander verglichen. Dabei sind folgende Annahmen zu berücksichtigen:

Das Alter ist normalverteilt mit N(m ,d )

Es liegt Varianzhomogenität vor (d 1=d 2)

Anmerkung: Da sich bereits bei der Untersuchung der Untersuchungsschwerpunkt 2.4 gezeigt hat, daß die Voraussetzung der Normalverteilung nicht erfüllt ist, soll der t-Test an dieser Stelle nur exemplarisch und der Vollständigkeit halber berechnet werden. Um den Untersuchungsschwerpunkt 2.5 sinnvoll zu bearbeiten, wurde im Anschluß an den t-Test ein parameterfreies Verfahren für den Vergleich von zwei unabhängigen Stichproben hinsichtlich ihrer zentralen Tendenz eingesetzt (U-Test nach Mann und Whitney).

Es wurden folgende Hypothesen aufgestellt:

H₀: m ₁ = m ₂ der Erwartungswert für das durchschnittliche Alter der Vielnutzer des Internets entspricht dem Erwartungswert für das durchschnittliche Alter der Wenignutzer.

H₁: m ₁ ¹ m ₂ der Erwartungswert für das durchschnittliche Alter der Vielnutzer des Internets entspricht nicht dem Erwartungswert für das durchschnittliche Alter der Wenignutzer.

t-Test for indipendent samples of time2 using time

Variable	Number of Cases	Mean	SD	SE of Mean
Alter
Häufignutzer	132	33,5682	9,843	0,857
Wenignutzer	168	29,0000	8,684	0,670

Mean Difference = 4,5682

Levene´s Test for Equality of Variances: F= 9,869 p = 0,002

t-Test for Equality of Means 95%


VariancesEqual	4,26	298	0,000	1,071	(2,459; 6,677)
Unequal	4,20	263,05	0,000	1,088	(2,426; 6,710)

Die zweite Annahme bzw. Voraussetzung des t.Tests wird im folgenden untersucht:

H₀: d ₁ = d ₂

H₁: d ₁ ¹ d ₂

Das Signifikanzniveau ist wieder mit a = 0,05 vorgegeben.

Die Hypothese H₀ ist anzunehmen, wenn a ^* > a ist.

Die Hypothese H₀ ist abzulehnen, wenn a ^*< a ist.

Da a * (0,000) im vorliegenden Fall kleiner als a (0,05) ist, muß die Nullhypothese abgelehnt weren. Es liegt keine Varianzhomogenität vor. Deshalb wird für die weitere Auswertung des Tests von ungleichen Varianzen ausgegangen. Es werden deshalb nun die Werte aus der Zeile Varianzungleichheit herangezogen.

P(|T| >|t_emp|) = a *

P(|T| > 4,20) = 0,000

Da a * (0,000) im vorliegenden Fall kleiner a (0,05) ist, muß die Nullhypothese abgelehnt werden. Demnach gibt es signifikante Unterschiede zwischen den Altersmittelwerten derjenigen Personen, die das Internet häufig benutzen und derjenigen, die es wenig nutzen.

Wie bereits erwähnt soll nun der parameterfreie U-Test nach Mann und Whitney berechnet werden. Allgemein werden nichtparametrische (verteilungsfreie) Verfahren dort angewand, wo die Voraussetzung der Normalverteilung verletzt wird oder wo kein Intervall-, sondern nur Ordinalskalenniveau gegeben ist. Der U-Test basiert auf einer gemeinsamen Rangreihe der Werte beider Stichproben.

Folgende Hypothesen werden formuliert:

H₀:

Es gibt keinen Unterschied im Durchschnitt der Rangplätze der beiden Stichproben.

H₁: ¹ Es gibt einen Unterschied im Durchschnitt der Rangplätze der beiden Stichproben

Das Signifikanzniveau ist wieder mit a = 0,05 vorgegeben.

Die Hypothese H₀ ist anzunehmen, wenn a ^* > a ist.

Die Hypothese H₀ ist abzulehnen, wenn a ^*< a ist.

Mann-Whitney U-Test

Alter

time2

Mean Rank	Cases
173,55		132	TIME2 = 1 häufig
132,39		168	TIME2 = 2 wenig
Total		300

U	W	Z	2-Tailed P
8046,0	22908,0	-4,0857	0,000

Da a * (0,000) kleiner als a (0,05) wird die Nullhypothese verworfen. Auch der U-Test bestätigt also, daß es einen signifikanten Unterschied hinsichtlich der zentralen Tendenz des Alters zwischen den beiden Stichproben gibt.

Schlußbemerkung und Fazit

Schließt man von der gezogenen Stichprobe auf die Grundgesamtheit läßt sich feststellen, daß:

die Geschlechtszugehörigkeit nicht ausschlaggebend dafür ist, ob eine Person das Internet häufig oder weniger häufig nutzt,
der von einer Person ausgeübte Beruf in Zusammenhang steht mit einer Häufig-, bzw. Wenignutzung des Internets. Personen, die das Internet häufig nutzen, sind oft selbstständig tätig,
es Unterschiede in der zentralen Tendenz der Altersverteilung von Häufig- und Wenignutzern gibt, die über den Zufall hinaus gehen. Personen, die das Internet häufig benutzen sind im Durchschnitt älter (laut t-Test um 4,5 Jahre). Außerdem streut das Alter der Häufignutzer in einem größeren Umfang um den Mittelwert als das Alter der Wenignutzer.

Für weitere Studien in dieser Richtung wäre es sinnvoll neben einer rein deskriptiven Beschreibung des Zwecks der Nutzung des Internets, ebenfalls zu untersuchen inwieweit dieser mit der verbrachten Zeit im Internet in Zusammenhang steht. I Verzeichnis der verwendeten Quellen und Literatur

Bamberg, G; Baur, F. (1993) Statistik; München/Wien; Oldenbourg

Bortz, J. (1994). Lehrbuch der empirischen Forschung für Sozialwissenschaftler, Berlin, Springer-Verlag

Bühl, A.; Zöfel, P. (1994) SPSS für Windows Version 6: Praxisorientierte Einführung in die moderne Datenanalyse, Bonn, Addison-Wesley

Eckstein, P. (1995) Repetitorium Statistik: Deskriptive Statistik- Wahrscheinlichkeitsrechnung-Induktive Statistik mit Klausuraufgaben und Lösungen, Wiesbaden, Gabeler Verlag

Erhebungsmerkmal		Variable		Häufigkeit*		Prozent*
private Nutzung	use_I		243		81,0
professionelle Nutzung	use_P		93		31,0
soziale Nutzung	use_S		135		45,0

Absolute	Positive	Negative	K-S-Z	2-Tailed P
0,16874	0,16874	-0,10083	1,9387	0,0011