#!/usr/bin/perl print qq§Content-Type: text/html §;

Abstract

Einleitend wird der Begriff Bildungscontrolling erläutert und auf die Vorteile, die sich aus der Anwendung von Bildungscontrolling ergeben, eingegangen. Insbesondere beschäftigten sich die Autoren mit der Evaluation der Hochschullehre durch Studenten. Es wird erläutert welche subjektiven Einflüsse die Evaluation einer objektiven Lehrsituation beeinflussen. Desweiteren wird auf die Begriffe Erwartungskonkordanz und Bias-Variablen eingegangen. Als ein Anwendungsbeispiel führen die Autoren das Modellprojekt "Evaluation der Lehre" an der Universität Mannheim an. In diesem Zusammenhang wurde eine Untersuchung an der FHTW-Berlin durchgeführt, welche sich mit der Bewertung von studentischen Vorträgen durch das Auditorium, das sich aus 30 Studenten zusammensetzte, beschäftigte. Diese Evaluation, die im Rahmen einer Psychologielehrveranstaltung durchgeführt wurde, ergab große Differenzen in der Beurteilung. Die unterschiedliche Beurteilung ein und der selben Lehrveranstaltung erfolgte in Abhängigkeit von verschiedenen Breakvariablen wie Wochenarbeitszeit, Alter, Berufsausbildung und Studienbelastung, insbesondere aber aufgrund des geschlechlichen Unterschiedes.

 

Introductory the term Bildungscontrolling is described and dealt with the advantages, which result from the use of Bildungscontrolling. In particular the authors concerned themselves with the evaluation of the university teachings students. It describes which subjective influences the evaluation of an objective training situation to influence. Furthermore with the terms expectation concordance and bias variable are dealt. As an example of use the authors state the model project " evaluation of the teachings " at the University of Mannheim. In this connection an investigation at that was executed FHTW Berlin, which concerned itself with the evaluation of student lectures by the auditory, which consisted of 30 students. This evaluation, which was executed in the context of a psychology training meeting, resulted in large differences in the evaluation. The different evaluation of one and the same training meeting took place as a function of different BREAK variables as number of hours worked per week, age, professional training and study load, in particular however due to the sexual difference.


Evaluation der Lehre

Der Gedanke, Qualitätssicherung auch auf dem Humanfaktor zu beziehen, hat in letzter Zeit besonders die zukunftsorientierten Unternehmen angesprochen. Der so verstandene Begriff "Qualitätssicherung" ist deshalb sinnvollerweise auch auf andere Maßnahmen übertragbar, die gemäß ihrem Ziel evaluiert werden sollen.

 

Die Qualitätssicherung von Personal- und Organisationsentwicklungsmaßnahmen ist unter anderem deshalb sinnvoll, da solche Entwicklungsmaßnahmen in ihrer Wirksamkeit teilweise nur schlecht überprüfbar sind, der Personal- und Organisationsentwicklungsprozeß in seinem Ablauf und seiner Organisation aber optimiert werden muß. Ein derartiges Vorgehen sichert gute Ergebnisse, ohne sie direkt überprüfen zu müssen.

 

Bildungscontrolling wird im folgenden verstanden als Gesamtmenge aller Aktivitäten zur Planung, Steuerung und Bewertung von Bildungsmaßnahmen.

 

Bildungscontrolling ist ein Planungs-, Informations- und Bewertungssystem (modular, dynamisch) zur Planung, Koordination, Steuerung und Bewertung betrieblicher Bildungsprozesse (sinnvollerweise rechnergestützt). Bildungscontrolling gibt Analysemethoden und Hilfsmittel zur Ermittlung des gegenwärtigen und zukünftigen Bildungsbedarfs im Unternehmung (unternehmungszielorientiert, aufgabenbezogen, mitarbeiterbezogen. Auch erstellt Bildungscontrolling Bewertungsmethoden und Hilfsmittel zur Ermittlung des Bildungserfolgs während und nach der Bildungsmaßnahme.

 

Was ist nach der Einführung von Bildungscontrolling anders als vorher?

Bildungsconrolling liefert strukturierte, bewert- und vergleichbare Daten für das Reporting über die erfolgreiche Arbeit des Bildungswesens. Es ist somit auch eine PR- Maßnahme, daß heißt es schafft Akzeptanzen in der Unternehmung. Das Hauptziel des Bildungscontrolling besteht darin, die für die Bildungsprozesse Verantwortlichen in die Lage zu versetzten, eine geplante und als wünschenswert erachtete Wirkung einer Bildungsmaßnahme und ihres Erfolgnutzens mit hinreichender Genauigkeit auf die Maßnahme beziehen zu können.

 

Wesentliche Aufgaben des Bildungscontrolling:

 

Die Bereitstellung dieser Kennzahlen, setzt ein geeignetes Informationsinstrumentarium voraus, über das die jeweilige Bildungsabteilung, die Vorgesetzten und Trainer und Dozenten zusammenwirken und entsprechende qualitative und quantitative Daten zusammenführen die dann mittels geeigneter Methoden in Controlling- Informationen zusammengesetzt werden.

 

Vorgehensweise bei der Planung und Einführung einer Bildungscontrolling Systematik und ihrer Instrumentarien

 

Die Bildungsmaßnahmen werden nach dem Schema "erlernen – verstehen – umsetzen" angewandt. Die vermittelten Lernziele jeder Bildungsmaßnahme sollen von allen Teilnehmern verstanden und in die Praxis umgesetzt werden. Die Evaluation der Universitäten und hat als Thema universitärer Diskussion neue Konjunktur und erfährt eine zunehmende inner- und außeruniversitäre Aufmerksamkeit. Bereits in den 60er und 70er Jahren war diesbezüglich eine engagierte Bewegung entstanden, die aus universitären Reformabsichten heraus die didaktischen Leistungen der Professoren und des akademischen Mittelbaus verbessern und restrukturieren wollte.

Öffentliche Kritik an den Hochschulen verlangen nach der Auffassung des Wissenschaftsrates (1993) nach internen und externen Verfahren der Evaluation. Hierzu gehört auch die Bewertung der Lehre durch Studenten und Absolventen. Der Wissenschaftsrat empfiehlt hierzu Verfahren zu nutzen, welche in anderen Ländern und an einzelnen deutschen Hochschulen üblich sind. An einigen amerikanischen Universitäten werden schon seit Mitte der 50er Jahren Hörerbefragungen durchgeführt. In Deutschland werden seit 1969 an der Hochschule für Verwaltungswissenschaften in Speyer regelmäßig von der Hörerschaft schriftliche Befragungen organisiert. In der Schweiz und in Großbritannien werden seit 1993 regelmäßig landesweite Absolventenbefragungen mit großem Erfolg durchgeführt.

 

Nicht allein die leeren öffentlichen Kassen sind ausschlaggebend für ein immer größer werdendes gesellschaftliches Interesse an der effizienten Verwendung finanzieller Ressourcen, auch der Konkurrenzkampf zwischen den Hochschulen spielt eine Rolle. Das Ziel der Evaluationsprozesse ist also sowohl der berechtigten Forderung der Gesellschaft nach Rechenschaft über die meßbaren Erfolge der teuren Institution Universität zu genügen, als auch handlungsorientierte Kommunikationsprozesse in den Studiengängen, zwischen den Lehrenden und zwischen den Lehrenden und den Studierenden auszulösen. Stetes muß das Ziel der Evaluation das Erreichen von Verbesserung sein.

 

Es gibt heute nur noch wenige Hochschulen, welche noch kein Evaluations-Projekt durchgeführt haben. Die Hochschulen betrachten in diesem Zusammenhang die Qualitätsbeurteilung als Möglichkeit die Mittelzuteilung positiv beeinflussen zu können. Fraglich bleibt hier aber die mögliche finanzielle Auswirkung, falls alle Hochschulen Evaluationen durchführen. Jedoch werden andere Vorteile hierdurch nicht beeinträchtigt:

 

Die Evaluation der Lehre ist prinzipiell positiv zu betrachten, das sie ein Instrument ist, das dazu beitragen kann die Qualität der Lehre zu verbessern. Die Ergebnisse der Evaluation ermöglichen den beteiligten Personen einen stetigen Prozeß der Verbesserungen. Die Definition der Evaluationsziele ist ein essentieller Bestandteil für eine erfolgreiche Evaluation. Die Evaluation sollte aus interner und externer Bewertung bestehen.

 

Um eine "gute Hochschule von einer "schlechten" unterscheiden zu können muß die Qualität der einzelnen Hochschulen gemessen werden. Umstritten ist aber die Frage wie die "Hochschulqualität" gemessen werden kann. Ein aussagekräftiger Vergleich der Hochschulen kann nur funktionieren, wenn alle Beteiligten die gleichen Evaluationsprozesse durchlaufen. Sämtliche, in der Literatur ausgewiesenen Evaluations-Projekte, weisen verschiedene Probleme auf:

 

 

Methodik: Studentenbefragung - Dozentenbefragung - Expertenbefragung

 

Im Gegensatz zur Studentenbefragung können auch Details abgefragt werden, die die Durchführung und Implementation einer Evaluation betreffen. Die Befragung kann (sollte) ebenfalls mit sogenannten Experten durchgeführt werden. Hiermit sind hochschulfremde Dozenten, Personen aus Wirtschaft und Politik und andere Führungspersönlichkeiten gemeint. Auch sollte den Dozenten die Möglichkeit gegeben werden, sich aus Sicht ihres Fachgebietes zu den Themen "studentische Veranstaltungskritik" und "eigenen Erfahrungen mit Evaluation" zu äußern.

Die Befragung der Probanden geschieht durch die Fragebogentechnik. Auch würde das Internet eine Befragung zusätzlich unterstützen können. Der Fragebogen für Studenten wird an die Fragenkomplexe für Experten/Dozenten angelehnt. Da bei dem Fragebogen vom Befragten nicht nachgefragt werden kann, sollten komplizierte Sachverhalte nicht thematisiert werden. Beispiel: Im Fragebogen soll es keine Differenzierung zwischen ,,Träger'' und ,,Durchführenden'' einer Evaluation geben. Die meisten Fragen haben geschlossene Antwortkategorien, wobei jeder Fragenkomplex auch eine offene Antwort zuläßt. Bei der Darstellung von Ergebnissen aus Interview-Protokollen hat man das Problem, daß die Reduzierung der Aussagen in Interviews auf Kategorien der Vielfalt der Meinungen nicht gerecht wird, weil die Auswertung allzu verkürzend ist. Der Abdruck der gesamten Interviews hingegen fordert sehr viel Platz, wobei viele Aussagen im Interview-Transskript wenig oder nichts mit der Fragestellung zu tun haben.

 

Evaluation der Hochschullehre durch Studenten

 

Warum sollten Studenten eine Lehrveranstaltung evaluieren?

 

Ein Grund ist das schlechte Ansehen der Universitäten unter deutschen Führungspersönlichkeiten. 72% der in einer Studie des Instituts für Demoskopie Allensbach befragten Persönlichkeiten hatten keinen positiven Eindruck von der Arbeit der Universitäten. Die Einschätzung der Befragten zu der Leistung der Fachhochschulen war wesentlich besser. 80% der Befragten Persönlichkeiten waren der Meinung, daß alles in allem an den Fachhochschulen eine gute Arbeit gemacht wird. Dies ist zwar nur eine Einschätzung, doch schadet sie den Universitäten, den Studenten und den Professoren. Eine Evaluation der Hochschullehre könnte dazu beitragen diese Einschätzung zu widerlegen bzw. zu ändern. Ein weiterer Grund für die Evaluierung von Lehrveranstaltungen ist, die Meßbarkeit der Qualität von Lehrveranstaltungen zu untersuchen, um Möglichkeiten für eine Verbesserung der Studienbedingungen aufzuzeigen.

 

Im folgenden sollen die Probleme die bei einer Evaluation der Hochschullehre entstehen können diskutiert werden.

 

Das subjektive Bild einer Lehrveranstaltung

 

Warum wird ein und dieselbe Lehrveranstaltung von den Studenten unter Umständen unterschiedlich bewertet?

 

Einer Antwort auf diese Frage kommt man näher, wenn man sich überlegt wie sich bei Studierenden das Bild von einer konkreten Lehrsituation entwickelt. Zum einen wird eine "objektive" Lehrsituation subjektiv wahrgenommen und zum anderen werden diese Informationen subjektiv verarbeitet. Das dadurch entstandene Bild von der konkreten Lehrsituation ist für die daraus folgenden Bewertungs- und Handlungsprozesse ausschlaggebend. Durch diesen Prozeß einer Auseinandersetzung der Person mit den aktuellen Bedingungen der Situation erfolgt also die Transformation "objektiv" beobachteter Gegebenheiten in eine individuelle, subjektive Realität. Informationsselektion und Informationsverarbeitung werden durch kognitive Schemata, Einstellungen und Erwartungen beeinflußt. Belegt wird dies in Forschungsergebnissen zur Wahrnehmung von schulischen Unterrichtsituationen. Aufgrund interindividueller Unterschiede wird ein und dieselbe "objektive" Lehrsituation in verschiedene subjektive Situationen überführt. Auch die Interaktion zwischen den Dozenten und den Beurteilenden spielt dabei eine ähnliche Rolle.

 

 

Subjektive Erwartungen an eine Lehrveranstaltung

 

Jeder Student hat bestimmte persönliche Erwartungen an eine Lehrveranstaltung und deren Verlauf, die als sogenannter Soll-Zustand bezeichnet werden. Ob der wahrgenommene Ist-Zustand (also der Verlauf einer konkreten Lehrveranstaltung) als befriedigend oder aber unbefriedigend erlebt wird, ist davon abhängig inwieweit dieser Ist-Zustand als subjektive Wirklichkeit mit dem Soll-Zustand als normativer Erwartung übereinstimmt.

In diesem Zusammenhang muß auch der Begriff Erwartungskonkordanz genannt werden. Erwartungskonkordanz liegt vor, wenn die Wahrnehmung der Lehrsituation mit den individuellen Erwartungen des Sudierenden übereinstimmt. Erwartungsdiskordanz liegt vor, wenn die individuell erlebte Lehrveranstaltung nicht mit dem Soll Zustand übereinstimmt.

Ein Beispiel: Erwartungskonkordanz wäre gegeben, wenn ein Student eine praxisbezogene Lehrveranstaltung wünscht und die besuchte Lehrveranstaltung auch als solche empfindet. Erwartungskonkordanz liegt aber auch dann vor, wenn ein anderer Kommilitone die Erwartung an die Lehrveranstaltung hat, daß diese theorieorientiert sein sollte und er seinen Soll-Zustand als ebenfalls erfüllt ansieht. Letztendlich ist also Erwartungskonkordanz unabhängig davon wie eine Situation "wirklich" ist. Sie überprüft vielmehr die individuellen Erwartungen auf ihre kompatibilität mit dem subjektiven erleben.

 

Weitere Beeinflussungsfaktoren

 

Die individuellen Erwartungen sind jedoch nicht die einzigen Faktoren, die die Evaluation einer Lehrsituation beeinflussen.

Es gibt Persönlichkeitsmerkmale eines Studenten, die sein Urteil über die Hochschullehre beeinflussen, wie Hofman und Stiksrud in ihrer Studie aus dem Jahr 1994 belegen. Zu diesen Persönlichkeitsmerkmalen gehören die Wertorientierung sowie das Selbstkonzept eines Studenten, um nur einige anzuführen. Kromrey konnte in seiner Untersuchung in 1992 die Bedeutung der individuellen Studienmotivation für das studentische Urteil nachweisen. Über die Bewertungsdivergenzen bei den Studierenden, in Abhängigkeit der jeweiligen Veranstaltungsform, berichtet Freeman 1994. Auch das Geschlecht des Dozenten und des Beurteilenden ist laut Basow und Howe relevant für die Beurteilung einer Lehrveranstaltung. Die zuletzt genannten Faktoren sind im strengeren Sinne "lehrfremde" Faktoren die mit der eigentlichen Lehre nichts zu tun haben. Vernachlässigen oder außer acht lassen sollte man diese Faktoren jedoch nicht, weil sie die Evaluation einer konkreten Lehrsituation zu einem erheblichen Teil bestimmen.

 

Der Einfluß von Biasvariablen

 

Zunächst einmal kann man feststellen, daß jede Evaluation der Lehre gewichtige methodische Probleme aufwirft und leicht Mißtrauen, Widerstand und Kritik hervorruft. Die Urteilskompetenz der Studenten wird angezweifelt, weil sie nicht zu einer objektiven Beurteilung in der Lage seien. Ein weiteres Vorurteil ist, daß die Studierenden vor allem die Vorlesungen gut finden, für deren Inhalt sie sich schon vorab interessieren und deren Stoff keine allzu großen Verständnisprobleme bereitet: "Ob eine Vorlesung bei den Studierenden beliebt ist oder abgelehnt wird, das liegt nur in geringem Maße am Dozenten, an der "Qualität der Lehre" in dieser Vorlesung, sondern es liegt in erster Linie am Stoff, der zu vermitteln ist" In der internationalen Forschung wird der Einfluß solcher Biasvariablen entgegen der Auffassung Kromreys als praktisch nicht bedeutsam angesehen. Zum urteilsverzerrenden Einfluß von Biasvariablen sagt Cashin: "In general, students ratings tend to be statistically reliable, valid, and relatively free from bias, probably more so than any other data used for faculty evaluation".

 

Das Modellprojekt "Evaluation der Lehre" an der Universität Mannheim

 

Das Ergebnis der Befragung war insgesamt positiv. Zwei Drittel der befragten Studenten und in einigen Lehrveranstaltungen auch mehr beurteilten die Lehrveranstaltungen im positiven Bereich. Gegenstand meiner weiteren Betrachtung soll jedoch sein, welche Einflußfaktoren wesentlich für die Beurteilung der Lehrveranstaltung durch die Studenten war.

 

Auch die Hörerbefragung der Universität Mannheim hat ergeben, daß einige der postulierten Biasvariablen zwar einen statistisch signifikanten Einfluß auf die Evaluierten Vorlesungen aufweisen. Aber weder Studienalter (Fach- und Hochschulsemester) noch Studiengang, das Geschlecht, das Lebensalter, die voruniversitäre Bildung (Art der Hochschulzugangsberechtigung, Abiturnote, Berufsausbildung und Berufstätigkeit vor dem Studium) und die Studienabbruchneigung üben einen praktisch bedeutsamen Einfluß auf die Beurteilung der Lehrveranstaltungen aus.

 

Aus der untersuchten Stichprobe geht jedoch hervor, daß die Hörer einer von sechs parallelen Vorlesungen im Fachbereich Betriebswirtschaftslehre unabhängig von der Art der Vermittlung unterschiedlich beurteilen. Der Grund dafür, daß die Studenten die Vorlesung besser beurteilen, liegt darin, daß sie den Lernstoff interessant finden. Die Kommilitonen die den Lernstoff uninteressant finden, geben der selben Lehrveranstaltung eine schlechtere Note. Die Unterschiede in der Bewertung bewirken jedoch lediglich ein anderes Niveau der Notengebung (Um 0,7 bis 1,3 Skalenpunkte höher), jedoch keine Änderung der Beurteilungsrichtung (negativ anstatt positiv). Das Interesse der Zuhörer am Lernstoff wurde auch in einer als Bias-Studien bezeichneten Untersuchung in den USA, als der mit Abstand größte Einflußfaktor benannt. Diese Studien sind mit einer Anzahl von mehr als 50 000 beurteilten Lehrveranstaltungen sehr Bedeutend. Die Ergebnisse deutscher wie auch anglo-amerikanischer Studien zeichnen ein sehr positives Bild von der Zufriedenheit der Studenten mit der Hochschullehre. Dies ist jedoch mit Vorsicht zu betrachten.

 

Eine Evaluation der Lehre ist trotz der angeführten Kritik zu empfehlen, weil herausgefunden werden kann, wie die Lehrveranstaltungen bei den Betroffenen ankommen und den Dozenten somit die Möglichkeit der Selbstreflektion gegeben wird. Des Weiteren fördert eine kritische Betrachtung der Lehrveranstaltungen die Weiterentwicklung und Verbesserung der Hochschullehre.

 

 

Statistik

 

Der Ausgangspunkt unserer Untersuchung war ein Fragebogen , der in Gruppenarbeit entstand. Im statistischen Teil zum Hochschulcontrolling wurde das Bildungsinstrument Referat analysiert. Gegenstand der Analyse waren drei Gruppen, die dazugehörigen Referenten und die Beurteilenden Studenten im Auditorium. Die Gruppen bestanden aus vier bis fünf Studenten, die innerhalb der Veranstaltung einen Vortrag gehalten haben. Die Zahl der Studenten im Auditorium schwankte zwischen 27 und 30 Personen. Die Fragen, die in den Fragebogen Eingang fanden, wurden von der Gruppe G und H aus einem Vorschlagskatalog ausgewählt, den alle Gruppen gemeinsam zuvor entwickelt hatten.

 

 

 

 

 

 

Aufbau des Fragebogens

 

Der Fragebogen besteht aus 26 Fragen bzw. Items, die wiederum acht Faktoren zu je drei Items und einen Faktor bestehend aus zwei Fragen bilden. Diese Items sind alle intervallskaliert mit einer Spannweite von "Trifft gar nicht zu" bis "Trifft völlig zu". Von den neun untersuchten Faktoren bezogen sich sieben auf die Einzelbewertung des Referenten und zwei auf die Gesamtbewertung der Gruppe. Desweiteren enthielt der Fragebogen ein direktes Bewertungsfeld für jeden einzelnen Referenten der Gruppe, welches mit einer Spannweite von 1,0 ("Sehr Gut") bis 6,0 ("Mangelhaft") auch intervallskaliert ist.

 

Reliabilitätsanalyse der Faktoren

 

Am Anfang der Auswertung der Daten der drei von uns zu analysierenden Referate, war die Reliabilität der Faktoren der Gegenstand unserer Untersuchung. Die Reliabilität ist die Genauigkeit mit der ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal durch einen Test gemessen wird, unabhängig der Tatsache, ob dieses Merkmal auch durch den Test gemessen werden sollte. Zur Messung der Reliabilität verwendeten wir den Reliabilitätskoeffizienten Cronbachs Alpha, der auf der internen Konsistenz der Items (Meßgrößen, Variablen) innerhalb eines Faktors basiert und im Bereich zwischen 0 (keine Reliabilität) und 1 (sehr hohe Reliabilität) liegen kann. Dabei zeigt ein negativer Alphawert an, daß die Daten negativ miteinander korrelieren und das Reliabilitätsmodell ungeeignet ist.

Einen sehr hohen Alpha- Wert und somit eine sehr hohe interne Homogenität bei der Bewertung der Items besitzen die Faktoren Folie mit 0,94, Medien mit 0,87, Inhalt mit 0,79 und Handout mit 0,79. Aus der Reliabilitätsanalyse geht weiter hervor, daß dieser Alpha- Wert für Medien sogar noch auf 0,88 gesteigert werden könnte, wenn aus dem Faktor das Item Medien_1 bzw. die Frage nach der Originalität des Medieneinsatzes entfernt werden würde.

"Gute" Reliabilitätskoeffizienten sind auch bei den Faktoren Struktur mit 0,68, Rhetorik mit 0,49 und Auftreten mit 0,44 zu verzeichnen. Dieser Alpha- Wert kann für den Faktor Struktur durch das Entfernen des Items Struk_2 auf 0,78, für den Faktor Rhetorik durch das Entfernen des Items Rhet_3 auf 0,75 und für den Faktor Auftreten durch das Entfernen des Items Auftr_1 auf 0,62 erhöht werden.

Einen geringen Alpha- Wert und somit eine geringe Reliabilität besitzt der Faktor Interaktion mit 0,35, woraus folgt, daß in diesem Faktor die Items bzw. Fragen schlecht aufeinander abgestimmt sind.

Im zweiten Schritt unserer Untersuchung wurden von uns die Mittelwerte der Bewertung der einzelnen Items berechnet und entsprechend der demografischen Merkmale des Fragebogens einer differenzierten Analyse unterzogen. Zu diesem Zweck wurden von uns Stärken- Schwächen- Profile erstellt, die uns einen ersten visuellen Eindruck über die Lage Mittelwerte verschafften und somit die Basis für alle weiteren Untersuchungen und Tests darstellten.

 

Vergleich der Mittelwerte bei Aufspaltung der Studenten nach Belastung durch das Studium

 

Bei der Aufspaltung der Bewertung nach Studiumsbelastung mußten von uns Gruppen für die Einteilung geschaffen werden. Aus dem Grund der Einhaltung eine gewissen Mindestgruppengröße wurden von uns drei Gruppen gebildet. Die Gruppe 1 umfaßt alle Studenten mit einer Semesterwochenstundenbelastung von höchstens 26 Stunden. Dieser Gruppe gehören elf Studenten an. Die Gruppe 2 beinhaltet alle Studenten, die mehr als 26 und weniger als 36 Semesterwochenstunden absolvieren. Zu dieser Gruppe gehören zwölf Studenten. Die dritte Gruppe schließlich enthält alle Studenten, die einer größeren Belastung als 35 Semesterwochenstunden ausgesetzt sind. Diese Gruppe umfaßt dreizehn Studenten.

Im Stärken- Schwächen- Profil (siehe Grafik 1) fallen hier besonders Unterschiede der drei Gruppenmittelwerte für die Items Auftr_1, Auftr_2, Medien_1, Medien_2 sowie Rhet_ 1 und Rhet_2 auf. Zur Überprüfung, ob es sich hier um signifikante Unterschiede oder zufällige Erscheinungen handelt, haben wir einen varianzanalytischen F- Test durchgeführt. Dieser ergab zum Signifikanzniveau von 0,05 lediglich einen signifikanten Unterschied der Mittelwerte der Items Auftr_2, der Frage nach der Einhaltung des Zeitplans, und Rhet_2, der Frage ,ob der Vortrag frei gehalten wurde. Die durchschnittlich beste Bewertung durch die Gruppe 1 (bis 26 Std. pro Woche) erfolgte im Item Rhet_1 (Verständlichkeit des Vortrages) mit 4,7 und die schlechteste im Item Inter_2 (Gruppendiskussion) mit 2,42. Die Durchschnittsbewertung über alle zwanzig Items der Gruppe 1 liegt bei 3,60. Bei der Gruppe 2 (27- 35 Std. pro Woche) bekam das Item Inter_3 (Tempo) mit 4,44 die beste und das Item Inter_2 mit 2,74 die schlechteste Bewertung. Die durchschnittliche Bewertung über alle zwanzig Items liegt hier bei 3,79.

Die Gruppe 3 (36- 60 Std. pro Woche) bewertete das Item Rhet_1 mit 4,25 am höchsten und das Item Inter_2 mit 2,41 am schlechtesten. Die durchschnittliche Bewertung über alle zwanzig Items liegt in der Gruppe 3 bei 3,77.

 

(Grafik 1)

 

 

 

 

Vergleich der Mittelwerte bei Aufspaltung der Studenten nach Arbeitszeit während des Semesters

 

Auch in diesem Zusammenhang wurden von uns die Gruppengrenzen so gewählt, daß eine Mindestgruppengröße gewährleistet werden konnte. So umfaßt die Gruppe 1 alle Studenten, die nicht zusätzlich zum Studium arbeiten. Hierzu gehören 7 Studenten. Die Gruppe 2 enthält alle Studenten, die mindestens eine und höchstens 19 Stunden zusätzlich zum Studium arbeiten. Diese Gruppe umfaßt 14 Studenten. Die dritte Gruppe letztendlich enthält alle Studenten, die mehr als 19 Stunden pro Woche arbeiten. Deren Anzahl ist auch 14.

 

Bei der Gruppe 1 ist die höchste durchschnittliche Bewertung im Item Struk_3 (Gruppenabstimmung) mit 4,26 und die niedrigste Bewertung im Item Inter_2 (Beantwortung von Fragen) mit 2,48 zu beobachten. Die Durchschnittsbewertung über alle zwanzig Items beträgt in dieser Gruppe 3,53. Die Gruppe 2 bewertete das Item Rhet_1 (Verständlichkeit des Vortrags) mit 4,51 am höchsten und das Item Inter_2 mit 2,66 am schlechtesten. Hier liegt die durchschnittliche Bewertung über alle zwanzig Items bei 3,79. Die Gruppe 3 bewertete das Item Rhet_1 (Verständlichkeit des Vortrags) mit 4,51 am besten und das Item Inter_2 am schlechtesten. Die Gruppe 3 bewertete alle zwanzig Items durchschnittlich mit 3,6.

Bei Betrachtung der Mittelwerte, fallen große Unterschiede im Bereich der Items Auftr_2, Auftr_3, Inhalt_1, Inter_1, Rhet_1 und Struk_2 auf. Um hier auf Signifikanz schließen zu können, unterzogen wir auch dieser Auswertung einen varianzanalytischen F- Test zum Signifikanzniveau von 0,05. Dieser ergab jedoch nur für die Items Rhet_1 und Struk_2 einen signifikanten Unterschied, bei dem der Zufall als Grund für die gefundenen Differenzen mit einer Fehlerwahrscheinlichkeit von 5% auszuschließen ist.

 

Vergleich der Mittelwerte bei Aufspaltung der Studenten Arbeitszeit während der vorlesungsfreien Zeit

 

Die Wahl der Gruppengrenzen erfolgte auch hier, wie in den Fällen der Studiumsbelastung und Arbeitsbelastung zusätzlich zum Studium, aus Gründen der Aussagefähigkeit. So umfaßt die Gruppe 1 alle Studenten, die in ihren Ferien gar nicht arbeiten. Diese Gruppe besteht aus sechs Studenten. Die Gruppe 2 beinhaltet alle Studenten, die in ihren Ferien zwischen einer und 37 Stunden pro Woche arbeiten. Deren Anzahl ist vierzehn. Gruppe 3 schließlich enthält alle Kommilitonen, die mehr als 37 Stunden die Woche arbeiten. Diese Gruppe umfaßt auch vierzehn Studenten.

Die Höchstbewertung der Gruppe 1 erfolgte im Item Struk_3 (Gruppenabstimmung) mit 4,57 und die niedrigste Bewertung im Item Medien_3 (Abwechslung) mit 2,83.Die Durchschnittsbewertung über alle zwanzig Items liegt hier bei 3,88. Gruppe 2 bewertete das Item Rhet_1(Verständlichkeit) mit 4,44 am höchsten und wie Gruppe 1 das Item Medien_3 mit 2,68 am niedrigsten. Hier liegt die durchschnittliche Bewertung bei 3,68. Die Gruppe 3 bewertete auch das Item Rhet_1 mit 4,4 am besten und das Item Inter_1 (Miteinbeziehung des Auditoriums) mit 2,53 am schlechtesten. Die Durchschnittsbewertung hier liegt bei 3,70.

Große Differenzen im Stärken- Schwächen- Profil zeigen sich vor allem in der Bewertung der Items Inter_1, Medien_2 und Origi_2. Der auch im Zusammenhang mit der Arbeitszeit während der vorlesungsfreien Zeit durchgeführte varianzanalytische F-Test zum Signifikanzniveau von 0,05 erklärt die Unterschiede der Mittelwerte als zufällig.

 

Vergleich der durchschnittlichen Bewertung bei Aufspaltung in Studenten mit Ausbildung und ohne Berufsausbildung

 

Bei der Aufspaltung der Mittelwerte in Personen mit Berufsausbildung und Personen ohne Berufsausbildung offenbarten sich große Unterschiede bei der Bewertung der Items Inter_2 (Beantwortung von Fragen), Medien_2, Origi_1 und Rhet_3 (Begeisterung durch den Vortrag). Bei der anschließenden Prüfung der Unterschiede der Bewertung auf Signifikanz mit Hilfe des T- Tests für unabhängige Stichproben zum Signifikanzniveau 0,05 ,erwies sich jedoch nur das Items Rhet_3 als signifikant unterschiedlich bewertet. Die durchschnittliche Bewertung über alle zwanzig Items von den 24 Studenten mit abgeschlossener Berufsausbildung liegt bei 3,60, die von den zwölf Studenten ohne Berufsausbildung bei 3,80.

 

 

 

 

Analyse der Gesamtbewertung

 

Nach der Bewertung der 26 Items mußten die Beurteilenden eine Gesamtbewertung der Referierenden vornehmen. Der Fragebogen enthielt ein direktes Bewertungsfeld für jeden einzelnen Referenten der Gruppe, welches mit eine Spannweite von 1,0 ("Sehr Gut") bis 6,0 ("Mangelhaft") hatte.

Es wurde eine Zweifaktorielle Varianzanalyse durchgeführt. Es sollten zwei Sachverhalte getestet werden: Zum einen sollte herausgefunden werden, ob Frauen besser bzw. schlechter beurteilen als Männer und ob Männer schlechter bzw. besser beurteilt werden als Frauen

(Main Effect).

Zum anderen sollte ermittelt werden, ob Männer Frauen anders beurteilen, als Männer Männer bzw. Frauen Männer anders beurteilen, als Frauen Frauen. Dieses Phänomen wird als Interaktionseffekt bezeichnet (2-Way-Interaction). Wie also wer durch wen bewertet wird und auch bewertet in Abhängigkeit vom Geschlecht, wird in der folgenden Grafik dargestellt.

 

 

Referenten

W M



Beur- W 1,79 2,13 1,96


teilende M 1,96 2,28 2,09



1,86 2,18

 

(Tabelle 1)

 

Die Varianzanalyse der Main Effects ergab, daß Frauen im Mittel signifikant unterschiedlich beurteilten als Männer, und daß Männer im Mittel signifikant unterschiedlich beurteilt wurden als Frauen (siehe Tabelle 1).

 

1. Frauen bewerteten durchschnittlich besser als Männer. Mögliche Gründe hierfür könnten sein, daß es Männern möglicher Weise schwer fällt, gute Zensuren zu verteilen, vielleicht bewerten aber Frauen eher im Sinne der sozialen Erwünschtheit und wollen nur ungern eine Streitposition einnehmen. Dies kann hier jedoch nicht abschließend festgestellt werden. Die stärke dieses Zusammenhangs war eher schwach ausgeprägt (F = 9,94).

 

2. Frauen werden darüber hinaus auch besser beurteilt als Männer. Dieser stark

ausgeprägte Zusammenhang (F = 48,77) wird jedoch darauf zurückgeführt, daß die Bewertungen durch den objektiv schlechteren Vortrag der Gruppe 2, die ausschließlich aus Männern bestand, verfälscht wurden.

 

Die Varianzanalyse der 2-Way Interaction ergab jedoch keine Wechselwirkung zwischen beiden Variablen. Der sogenannte Interaktionseffekt mußte aufgrund einer hohen Irrtumswahrscheinlichkeit (a = ,89) abgelehnt werden. Es besteht daher keine Wechselwirkung dazwischen, wie Frauen Männer bzw. Frauen Frauen und Männer Frauen bzw. Männer Männer beurteilen.

 

 

Dies verdeutlicht auch die Grafik 2. Die Geraden, die die Beurteilung der Referenten in Abhängigkeit vom Geschlecht darstellen, würden sich im Falle eines tatsächlichen Interaktionseffekt schneiden. Da dies hier jedoch nicht zutrifft, liegen die Geraden der Referenten/ innen parallel versetzt zueinander, da die weiblichen Referentinnen grundsätzlich besser beurteilt wurden als die männlichen Referenten:

 

(Grafik 2)

 

Zusammenhang zwischen der Gesamtbewertung und der durchschnittlichen Bewertung der zwanzig Items

 

Es sollte abschließend festgestellt werden, ob ein Zusammenhang zwischen der Gesamtbewertung und der durchschnittlichen Bewertung der zwanzig Items besteht.

Diese wäre durchaus erwünscht, da die Bewertung der zwanzig Items als Vorbereitung

auf die Gesamtbeurteilung dienen sollte, um eine differenzierte Bewertung durch die Beurteilenden zu unterstützen. Außerdem sollten die Beurteilenden ihre Bewertung anhand von einheitlichen Kriterien, den zwanzig Items treffen.

Es wurde eine Korrelationsanalyse durchgeführt. Die Korrelationsanalyse mißt die Stärke des Zusammenhangs zwischen den beiden Merkmalen, Gesamtbewertung und durchschnittliche Bewertung der zwanzig Items. Als Maßzahl wurde der Korrelationskoeffizient (r) nach Pearson verwendet, der bei metrischen Merkmalen angewendet wird. Er erklärt das Verhältnis der Gesamtstreuung (endogene Streuung) zur Erklärten Streuung (exogene Streuung). Der Wertebereich des Korrelationskoeffizienten (r) geht von -1 bis +1.

Null würde bedeuten, daß es einen Zusammenhang zwischen den Merkmalen Gesamtbewertung und der durchschnittlichen Bewertung der zwanzig Items gibt. Das Signifikanzniveau a liegt bei 0,05 %. Der Zusammenhang wird in einem Scatterplot (siehe Grafik 3) veranschaulicht. Die durchschnittlichen Bewertungen jedes einzelnen Studenten, bezüglich der Gesamtbewertung und der Bewertung der zwanzig Items, werden durch einen Punkt in dieser Grafik dargestellt:

 

(Grafik 3)

 

notes: r = -,63 p < ,001 n = 36

r2 = ,39 p < ,001 F = 21,17

Gerade der Gesamtbewertung = 3,62 - 0,43 (Arithmetisches Mittel der zwanzig Items)

 

Es besteht ein relativ starker negativer Zusammenhang zwischen dem, wie ein Interviewer im Durchschnitt die zwanzig Items bewertet und dessen Gesamtbewertung. Mit p = ,00 ist die Irrtumswahrscheinlichkeit so gering, daß die H0 - Hypothese - kein Zusammenhang zwischen den Variablen - zugunsten der H1 - Hypothese - es besteht ein negativer Zusammenhang - abgelehnt wird. Der Zusammenhang fällt relativ niedrig aus, denn einige Ausreißer schwächen diesen ziemlich stark ab.

Um auszudrücken, wie gut das Modell, das aus den vorhandenen Daten gebildet wurde, tatsächlich zu diesen Daten paßt, soll die Anpassungsgüte berechnet werden. Ein häufig verwendetes Maß zur Beurteilung der Anpassungsgüte ist das Bestimmtheitsmaß r2. Es gibt die Anpassungsgüte der Regressionsgeraden an. Wenn alle Beobachtungen auf die Regressionsgerade [Gerade der Gesamtbewertung = 3,62 - 0,43 (Arithmetisches Mittel der zwanzig Items)] fallen, ist r2 gleich 1. Wenn keine der Beobachtungen auf der Gerade liegen ist R2 gleich 0. Dies bedeutet jedoch nicht, daß keine Beziehung zwischen den Variablen besteht, sondern nur, daß kein linearer Zusammenhang zwischen der abhängigen und der unabhängigen Variablen besteht.

Da die zur F-Statistik gehörende Wahrscheinlichkeit Signif F sehr klein ist, wird die Hypothese, daß r2 pop (in der Grundgesamtheit) = 0 ist, verworfen. Das Bestimmtheitsmaß r2 beträgt 0,39. Damit wurde ein linearer Zusammenhang zwischen der Gesamtbewertung und der durchschnittlichen Bewertung der zwanzig Items nachgewiesen.

 

 

 

 

 

 

Quellen:

 

Piel, E., 1995, Über das Unbehagen an unserem Bildungssystem: Ergebnisse einer Umfrage des Instituts für Demoskopie Allensbach. In Forschung & Lehre (Mitt HV)

 

Rosemann, B., Kerres, M., 1985, Bedingungen des Lehrerverhaltens. Rationale, emotionale und zirkuläre Faktoren bei der Situationswarnehmung. In: Psychologie in Erziehung und Unterricht

 

Schweer, M., 1993, Bedingungsvariablen der Lehrer-Schüler-Interaktion in schulischen Problemsituationen: Situationswarnehmung und interpersonales Verhalten im Unterricht, Pädagogik und Schulalltag

 

Süllwold, F.,1992, Welche Realität wird bei der Beurteilung von Hochschullehrern durch Studierende erfaßt?, in: Mitteilungen des Hochschulverbandes

 

Kromrey, H., 1993, Studentische Vorlesungskritik – Empirische Daten und Konsequenzen für die Lehre., in: Soziologie, Heft

 

Cashin, W. E., 1988, Student Ratings of Teaching – A Summary of Reseach. Manhatten, Kansas: Center for Faculty Evaluation & Development, Kansas State University

 

Daniel, H. D., 1996,Evaluierung der unversitären Lehre durch Studenten und Absolventen, in: Zeitschrift für Sozialforschung und Erziehungssoziologie

 

Aust, B., 1994, Zufriedene Patienten? Eine kritische Diskussion von Zufriedenheitsuntersuchungen in der gesundheitlichen Versorgung. Berlin: Wissenschaftszentrum Berlin für Sozialfoschung