#!/usr/bin/perl print qq§Content-Type: text/html §;

INHALTSVERZEICHNIS

Einleitung

1 Erhebung der Daten

1.1 Definition der Erhebungsmerkmale und der Variablen
1.2 Codierplan
1.3 Umfrage
2 Untersuchungsschwerpunkte 2.1 Analytische Problemstellung
2.2 Korrelation zwischen Viel- und Wenignutzung und Geschlecht
2.3 Korrelation zwischen Viel- und Wenignutzung und Beruf
2.4 Überprüfung der Normalverteilung des Alters
2.5 Unterschied der Viel- und Wenignutzer bezüglich des Altersdurchschnitts
3 Schlußbemerkung und Fazit

I Verzeichnis der verwendeten Quellen und Literatur 17
II Anhang
 

Einleitung

Das Internet entstand als militärisch-wissenschaftliches Netz in den 60er Jahren in den USA. Seine Besonderheit ist sein anarchischer Aufbau, um zu verhindern, daß bei einem Ausfall eines Teils (damals gedacht bei einem atomaren Erstschlag), das gesamte Netz ausfällt. Diese Struktur machte es jedoch offen für alle. In den 80ern vergrößerte sich das Netz zusehends und Anfang der 90er Jahre wurde es zu dem, als was wir es heute kennen. Einem öffentlichen Informationsnetz für jedermann.

Ziel dieser Untersuchung ist es nunmehr anhand von einigen einfachen Thesen herauszufinden, wie sich die Struktur der Benutzer zusammensetzt und inwieweit Beruf, Alter und Geschlecht sich auf die Häufigkeit der Nutzung auswirken.

 

  1. Erhebung der Daten
    1. Definition der Erhebungsmerkmale und der Variablen
    2. Erhebungs- 

      merkmal

      Variablen- 

      name

      Typ Skala Merkmalsart
      Alter age numerisch verhältnis- 

      skaliert

      kontinuierlich
      Geschlecht sex numerisch nominal diskret
      Herkunft origin numerisch nominal diskret
      Beruf work numerisch nominal diskret
      Provider provider numerisch nominal diskret
      private 

      Nutzung

      use_I numerisch nominal diskret
      professionelle 

      Nutzung

      use_P numerisch nominal diskret
      soziale 

      Nutzung

      use_S numerisch nominal diskret
      verbrachte Zeit im Internet time numerisch ordinal diskret
      In der Stichprobe liegt ein metrisch skaliertes Merkmal vor (Alter). Alle übrigen Erhebungsmerkmale sind nicht metrisch skaliert.

      Die Variablen age und time wurden mit dem Ziel einer sinnvollen Datenreduktion modifiziert. In diesem Sinn wurden die Altersangaben zu Altersklassen zusammengefaßt, wie die folgende graphische Darstellung verdeutlicht.

      Die Variable time wurde umcodiert, so daß eine neue Variable time2 mit den Ausprägungen Viel- und Wenignutzung entstand. Diese wurde später als Gruppierungsvariable verwendet und teilte die Fälle entsprechend ihrer Ausprägungen in dieser Variablen zwei Stichproben zu.

      Die Variablen use_I, use_P, use_S lassen Mehrfachantworten zu und wurden dementsprechend zu einer Setvariablen "Zweck der Nutzung" zusammengefaßt. Die folgende Tabelle zeigt die jeweiligen prozentualen Anteile der unterschiedlichen Nutzungszwecke.
      Erhebungsmerkmal Variable Häufigkeit* Prozent*
      private Nutzung use_I 243 81,0
      professionelle Nutzung use_P 93 31,0
      soziale Nutzung use_S 135 45,0
      *Mehrfachantworten waren zulässig

    3. Codierplan
    4. Erhebungsmerkmal Codierung Ausprägung
      Alter wie eingegeben
      -
      Altersklassen 1 < 20
        2 20-30
        3 30-40
        4 40-50
        5 > 50
      Geschlecht 1 weiblich
        2 männlich
      Herkunft 0 other
        1 Europe
        2 North America
        3 South America
        4 Africa
        5 Middle East
        6 Asia
        7 Australia/New Zealand
      Beruf 0 other
        1 student
        2 employed
        3 self-employed
        4 unemployed
      Provider 1 University Network
        2 Company Network
        3 Online Services
      private Nutzung 0 nein
        1 ja
      professionelle Nutzung 0 nein
        1 ja
      soziale Nutzung 0 nein
        1 ja
      verbrachte Zeit im Internet 1 several times a day
        2 once per day
        3 less than once per day
      time2 1 Vielnutzer
        2 Wenignutzer
       
    5. Umfrage
    Um die Daten zu erheben wurde, der Fragebogen als html-file erstellt und im Internet plaziert (Anlage 1 Fragebogen siehe Anhang). Bis auf die Eingabe des Alters, ist der gesamte Fragebogen vollständig mit Listenauswahlfeldern, bzw. Ankreuzfeldern programmiert. Das Freilassen von Feldern war technisch nicht möglich; nur bei der Eingabe des Alters konnten Missing-Werte entstehen. Neben den erfragten Daten erhielten wir zusätzlich die Bezeichnung des benutzten Browsers und des Betriebssystems des verwendeten Rechners. Der ausgefüllte Fragebogen wurde uns per eMail zugesandt und der Absender erhielt eine kurze Dankesseite (Anlage 2 Dankesseite siehe Anhang). Da es technisch nicht möglich war, die Daten elektronisch einzulesen, wurden die Fragebögen ausgedruckt und manuell codiert und eingegeben (Anlage 3 Musterfragebogen siehe Anhang). Die Eingabe erfolgte direkt in SPSS 6.1.2 und die Auswertung fand im Pool 6 der FHTW-Berlin statt.
  2. Untersuchungsschwerpunkte
    1. Analytische Problemstellung
    2. Folgend soll vor allen Dingen der Zusammenhang einer Viel- bzw. Wenignutzung des Internets (verbrachte Zeit im Internet) mit der Geschlechts- bzw. Berufszugehörigkeit der Nutzer untersucht werden (Untersuchungsschwerpunkt 2.2 und 2.3). Diese Untersuchungsschwerpunkte werden mit Hilfe von Zusammenhangsanalysen für nicht-metrische Merkmale (Chi-Quadrat-Unabhängigkeitstest, Phi-Koeffizient, Kontingenzkoeffizient) untersucht.

      Weiterhin wird für die Stichproben der Viel- und Wenignutzer mit Hilfe des Kolmogorov-Smirnov-Tests überprüft, ob die Altersverteilung einer Normalverteilung entspricht (Untersuchungsschwerpunkt 2.5)

      Außerdem wird durch einen doppelten t-Test für unabhängige Stichproben überprüft, ob es zwischen den Altersmittelwerten der beiden Stichproben signifikante Unterschiede gibt (Untersuchungsschwerpunkt 2.5).

       

    3. Korrelation zwischen Viel- und Wenignutzung und Geschlecht
Gibt es einen Zusammenhang zwischen den Variablen time2 (Viel- bzw. Wenignutzung des Internets) und sex (Geschlechtszugehörigkeit)?

Die Überprüfung dieser Fragestellung erfolgt mittels des Chi-Quadrat-Tests. Dieser überprüft die Unabhängigkeit zweier Variablen und somit indirekt den Zusammenhang der beiden. Die erwarteten Häufigkeiten werden hierbei mit den beobachteten verglichen. Die Variablen gelten als voneinander unabhängig, wenn die beobachteten Häufigkeiten mit den erwarteten übereinstimmen. Voraussetzung zur Anwendung des Chi-Quadrat-Tests sind:

Es gibt Verfahren, die auf der Grundlage des Chi-Quadrat-Tests operieren. Eines dieser Verfahren ist der Phi-Koeffizient zur Korrelation zweier dichotomer Variablen. Auch der Phi-Koeffizient soll deshalb hier angegeben werden. Hierbei muß berücksichtigt werden, daß der Phi-Koeffizient nur dann innerhalb des Wertebereichs -1 bis +1 liegt, wenn die Fälle der Stichprobe so verteilt sind, daß die Aufteilung der Variable x mit ihren beiden Merkmalen der Aufteilung der Variable y mit ihren beiden Merkmalen entspricht (Bortz, 1984).

Der Chi-Quadrat-Test überprüft also die Hypothese, ob zwei Zufallsvariablen x und y stochastisch voneinander unabhängig sind, bzw. eine gemeinsame Verteilungsfunktion haben.

Die folgenden Hypothesen wurden aufgestellt:

H0: Fxy = Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Geschlechtszugehörigkeit sind voneinander unabhängig.

H1: Fxy ¹ Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Geschlechtszugehörigkeit sind nicht voneinander unabhängig. Sie bedingen sich gegenseitig.

Das Signifikanzniveau ist mit a = 0.05 vorgegeben.

Die Hypothese H0 ist anzunehmen, wenn a * > a ist.

Die Hypozhese H0 ist abzulehnen, wenn a * < a ist.

Vierfeldertafel der Variablen time2 (Viel- bzw. Wenignutzung) und sex (Geschlechtszugehörigkeit)

TIME2 Page 1 of 1

Count |

Exp Val |häufig wenig

Std Res | Row

| 1 | 2 | Total

SEX --------+--------+--------+

1 | 27 | 51 | 78

weiblich | 34,3 | 43,7 | 26,0%

| -1,2 | 1,1 |

+--------+--------+

2 | 105 | 117 | 222

männlich | 97,7 | 124,3 | 74,0%

| ,7 | -,7 |

+--------+--------+

Column 132 168 300

Total 44,0% 56,0% 100,0%

 
Chi-Quadrat nach  Value df Significance Phi Significance
Pearson 3,76752 1 0,05226 -0,11206 0,05226
  Sowohl der Chi-Quadratwert als auch der Phi-Koeffizient erhalten keine Signifikanz. Da im vorliegenden Fall a * (0,05226) größer als a (0,05) ist, muß die Nullhypothese beibehalten werden. Das heißt, daß die Beziehung zwischen der Viel- bzw. Wenignutzung des Internets einerseits und der Geschlechtszugehörigkeit andererseits nicht über den Zufall hinaus geht.
    1. Korrelation zwischen Viel- und Wenignutzung und Beruf
    2. Gibt es einen Zusammenhang zwischen den Variablen time2 (Viel- bzw. Wenignutzung des Internets) und work (Berufszugehörigkeit des Nutzers)?

      Auch die Überprüfung dieser Fragestellung erfolgt mittels des Chi-Quadrat Unabhängigkeitstests. Zusätzlich soll hier noch der Kontingenzkoeffizient angegeben werden. Dieser basiert wie der Phi-Koeffizient auf dem Chi-Quadrat-Wert und ist geeignet zur Berechnung der Korrelation zweier nominalskalierter Variablen, die mehr als zwei Ausprägungen haben, also polytom sind.

      Die folgenden Hypothesen wurden aufgestellt:

      H0: Fxy = Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Berufszugehörigkeit sind voneinander unabhängig.

      H1: Fxy ¹ Fx * Fy Die Variablen Viel- und Wenignutzung des Internets und Berufszugehörigkeit sind nicht voneinander unabhängig. Sie bedingen sich gegenseitig.

      Das Signifikanzniveau ist mit a = 0,05 vorgegeben.

      Die Hypothese H0 ist anzunehmen, wenn a * > a ist.

      Die Hypothese H0 ist abzulehnen, wenn a * < a ist.

      Vierfeldertafel der Variablen time2 (Viel- bzw. Wenignutzung) und work (Berufszugehörigkeit)

      WORK profession by TIME2 using time

      TIME2 Page 1 of 1

      Count |

      Exp Val |häufig wenig

      Std Res | Row

      | 1 | 2 | Total

      WORK --------+--------+--------+

      1 | 54 | 90 | 144

      student | 63,4 | 80,6 | 48,0%

      | -1,2 | 1,0 |

      +--------+--------+

      2 | 63 | 75 | 138

      employed | 60,7 | 77,3 | 46,0%

      | ,3 | -,3 |

      +--------+--------+

      3 | 15 | 3 | 18

      self-employed | 7,9 | 10,1 | 6,0%

      | 2,5 | -2,2 |

      +--------+--------+

      Column 132 168 300

      Total 44,0% 56,0% 100,0%
      Chi-Quadrat nach  Value df Significance Kontingenz- 

      koeffizient

      Significance
      Pearson 13,9239 2 0,00095 0,21061 0,00095
      Chi-Quadrat-Wert und Kontingenzkoeffizient sind signifikant. Für diese Fragestellung gilt, daß a * (0,00095) kleiner als a (0,05) ist. Demnach muß die Nullhypothese abgelehnt werden. Dies bedeutet, es gibt einen Zusammenhang zwischen einer Viel- bzw. Wenignutzung des Internets und der Berufszugehörigkeit der Nutzer. Nimmt man an, daß wenn in einem Feld der Kreuztabelle ein standardisiertes Residuum von 2 oder größer vorliegt, auch eine signifikante Abweichung der beobachteten von den erwarteten Häufigkeiten existiert, so kann man bei der Betrachtung der standardisierten Residuen dieser Kreuztabelle erkennen, daß die Signifikanz des Wertes in den Feldern begründet ist, die zur Ausprägung "self-emplyed" der Variable Beruf gehören. Bei Häufignutzern des Internets ist diese Merkmalsausprägung signifikant erhöht, bei Wenignutzern signifikant erniedrigt.

    3. Überprüfung der Normalverteilung des Alters
    4. Entspricht die Altersverteilung innerhalb der Stichproben der Viel- und Wenignutzer einer Normalverteilung?

      Diese Fragestellung wird mittels des Kolmogorov-Smirnov-Tests überprüft. Untersucht wird hierbei die Hypothese, daß eine Zufallsvariable X einer vorgegebenen Verteilungsfunktion (Normalverteilung) entspricht. Es werden folgende Hypothesen gegenübergestellt:

      H0: F(x) = F0(x) Die Altersverteilung in den beiden Stichproben (Viel- und Wenignutzer) entspricht einer Normalverteilung.

      H1: F(x) ¹ F0(x) Die Altersverteilung in den beiden Stichproben (Viel- und Wenignutzer) entspricht nicht einer Normalverteilung.

      Das Signifikanzniveau ist mit a = 0,05 vorgegeben.

      Die Hypothese H0 ist anzunehmen, wenn a * > a ist.

      Die Hypothese H0 ist abzulehnen, wenn a * < a ist.

      Zunächst wird der Test für die Stichprobe der Häufignutzer durchgeführt.

      Kolmogorov-Smirnov Goodness of Fit Test

      Alter

      Test distribution - Normal Mean: 33,57
      Standard Deviation: 9,84

      Cases: 132

      Most extreme differences
      Absolute Positive Negative K-S-Z 2-Tailed P
      0,16874 0,16874 -0,10083 1,9387 0,0011

      Die Größe der Stichprobe der Vielnutzer beträgt 132. Das durchschnittliche Alter liegt bei 33,6 Jahren und die Standardabweichung bei 9,84.

      Die größte Abweichung zwischen der empirischen und der hypothetischen Verteilungsfunktion beträgt 1,9387 (K-S Z emp)

      Da a * mit 0,011 kleiner ist als a = 0,05, wird die Hypothese H0 verworfen. Das Alter in der Stichprobe der Vielnutzer ist nicht normalverteilt.

      Anschließend wird der Test für die Stichprobe der Wenignutzer durchgeführt.

      Kolmogorov-Smirnov Goodness of Fit Test

      Alter

      Test distribution - Normal Mean: 29,00
      Standard Deviation: 8,68

      Cases: 132

      Most extreme differences
      Absolute Positive Negative K-S-Z 2-Tailed P
      0,15059 0,15059 -0,10704 1,9519 0,0010

      Die Größe der Stichprobe der Wenignutzer beträgt 168. Das durchschnittliche Alter liegt bei 29,0 Jahren und die Standardabweichung bei 8,68.

      Die größte Abweichung zwischen der empirischen und der hypothetischen Verteilungsfunktion beträgt 1,9519 (K-S Z emp).

      Da a * mit 0,010 kleiner ist als a = 0,05, wird die Hypothese H0 verworfen. Das Alter in der Stichprobe der Wenignutzer weicht signifikant von der Normalverteilung ab.

    5. Unterschied der Viel- und Wenignutzer bezüglich des Altersdurchschnitts
Unterscheiden sich die Stichproben der Viel- und Wenignutzer des Internets bezüglich ihres Altersdurchschnitts?

Diese Fragestellung soll mittels des doppelten t-Tests für unabhängige Stichproben untersucht werden. Bei diesem Test werden die Mittelwerte der beiden unabhängigen Stichproben miteinander verglichen. Dabei sind folgende Annahmen zu berücksichtigen:

Das Alter ist normalverteilt mit N(m ,d )

Es liegt Varianzhomogenität vor (d 1=d 2)

Anmerkung: Da sich bereits bei der Untersuchung der Untersuchungsschwerpunkt 2.4 gezeigt hat, daß die Voraussetzung der Normalverteilung nicht erfüllt ist, soll der t-Test an dieser Stelle nur exemplarisch und der Vollständigkeit halber berechnet werden. Um den Untersuchungsschwerpunkt 2.5 sinnvoll zu bearbeiten, wurde im Anschluß an den t-Test ein parameterfreies Verfahren für den Vergleich von zwei unabhängigen Stichproben hinsichtlich ihrer zentralen Tendenz eingesetzt (U-Test nach Mann und Whitney).

Es wurden folgende Hypothesen aufgestellt:

H0: m 1 = m 2 der Erwartungswert für das durchschnittliche Alter der Vielnutzer des Internets entspricht dem Erwartungswert für das durchschnittliche Alter der Wenignutzer.

H1: m 1 ¹ m 2 der Erwartungswert für das durchschnittliche Alter der Vielnutzer des Internets entspricht nicht dem Erwartungswert für das durchschnittliche Alter der Wenignutzer.

t-Test for indipendent samples of time2 using time
 
Variable Number 

of Cases

Mean SD SE of Mean
Alter        
Häufignutzer 132 33,5682 9,843 0,857
Wenignutzer 168 29,0000 8,684 0,670
  Mean Difference = 4,5682

Levene´s Test for Equality of Variances: F= 9,869 p = 0,002

t-Test for Equality of Means 95%

 
VariancesEqual 4,26 298 0,000 1,071 (2,459; 6,677)
Unequal 4,20 263,05 0,000 1,088 (2,426; 6,710)
  Die zweite Annahme bzw. Voraussetzung des t.Tests wird im folgenden untersucht:

H0: d 1 = d 2

H1: d 1 ¹ d 2

Das Signifikanzniveau ist wieder mit a = 0,05 vorgegeben.

Die Hypothese H0 ist anzunehmen, wenn a * > a ist.

Die Hypothese H0 ist abzulehnen, wenn a * < a ist.

Da a * (0,000) im vorliegenden Fall kleiner als a (0,05) ist, muß die Nullhypothese abgelehnt weren. Es liegt keine Varianzhomogenität vor. Deshalb wird für die weitere Auswertung des Tests von ungleichen Varianzen ausgegangen. Es werden deshalb nun die Werte aus der Zeile Varianzungleichheit herangezogen.

P(|T| >|temp|) = a *

P(|T| > 4,20) = 0,000

Da a * (0,000) im vorliegenden Fall kleiner a (0,05) ist, muß die Nullhypothese abgelehnt werden. Demnach gibt es signifikante Unterschiede zwischen den Altersmittelwerten derjenigen Personen, die das Internet häufig benutzen und derjenigen, die es wenig nutzen.

Wie bereits erwähnt soll nun der parameterfreie U-Test nach Mann und Whitney berechnet werden. Allgemein werden nichtparametrische (verteilungsfreie) Verfahren dort angewand, wo die Voraussetzung der Normalverteilung verletzt wird oder wo kein Intervall-, sondern nur Ordinalskalenniveau gegeben ist. Der U-Test basiert auf einer gemeinsamen Rangreihe der Werte beider Stichproben.

Folgende Hypothesen werden formuliert:

H0: Es gibt keinen Unterschied im Durchschnitt der Rangplätze der beiden Stichproben.

H1: ¹  Es gibt einen Unterschied im Durchschnitt der Rangplätze der beiden Stichproben

Das Signifikanzniveau ist wieder mit a = 0,05 vorgegeben.

Die Hypothese H0 ist anzunehmen, wenn a * > a ist.

Die Hypothese H0 ist abzulehnen, wenn a * < a ist.

Mann-Whitney U-Test

Alter

time2

 
Mean Rank Cases
173,55 132 TIME2 = 1 häufig
132,39 168 TIME2 = 2 wenig
Total 300  
 
U W Z 2-Tailed P
8046,0 22908,0 -4,0857 0,000
  Da a * (0,000) kleiner als a (0,05) wird die Nullhypothese verworfen. Auch der U-Test bestätigt also, daß es einen signifikanten Unterschied hinsichtlich der zentralen Tendenz des Alters zwischen den beiden Stichproben gibt.

 

  1. Schlußbemerkung und Fazit
Schließt man von der gezogenen Stichprobe auf die Grundgesamtheit läßt sich feststellen, daß: Für weitere Studien in dieser Richtung wäre es sinnvoll neben einer rein deskriptiven Beschreibung des Zwecks der Nutzung des Internets, ebenfalls zu untersuchen inwieweit dieser mit der verbrachten Zeit im Internet in Zusammenhang steht.
 
I Verzeichnis der verwendeten Quellen und Literatur