Statistik für Dummies
Einige Tipps, worauf Sie bei Statistiken besonders achten sollten

Repräsentativität einer Untersuchung und Stichprobengröße.
Unter einer Repräsentativerhebung versteht man die statistische Erhebung eines Gesamtbereichs durch Datengewinnung aus Stichproben, in denen die für das Ergebnis bedeutsamen Merkmale im selben Verhältnis gegeben sind wie in der Gesamtmasse (man spricht von Grundgesamtheit).
Genaugenommen können Aussagen aufgrund von Stichproben nur für die Stichprobe selbst Gültigkeit beanspruchen. Für die Grundgesamtheit, aus der die Stichprobe gezogen wurde, wird die Gültigkeit nur angenommen. Der Stichprobenfehler (die Statistiker sprechen von der Irrtumswahrscheinlichkeit) ist die Streuung der Stichprobenverteilung bzw. die Differenz zwischen den Werten einer Stichprobe und dem entsprechenden wahren Wert in der Grundgesamtheit.
Die durch das Ziehen einer Zufallsstichprobe entstandene Abweichung zwischen dem wahren Wert einer Variablen in der Grundgesamtheit u. dem Stichprobenfehler ist um so geringer, je geringer die Varianz einer Verteilung und je größer der Umfang der Stichprobe ist. Das heißt innerhalb einer relativ homogenen Untersuchungsgruppe kann die Stichprobe kleiner ausfallen.

Beispiel: Daraus folgt, um repräsentative Aussagen über die Leserschaft einer Stadtbücherei zu erhalten, brauche ich eine wesentlich größere Stichprobe, als wenn ich Aussagen über die vergleichsweise homogene Benutzergruppe einer Fachbereichsbibliothek an einer Fachhochschule machen möchte.

Je größer der Stichprobenumfang n, desto kleiner ist der Stichprobenfehler. Der Stichprobenfehler wird also nicht vom Umfang der Grundgesamtheit bestimmt, sondern neben der Grundgesamtheitsstreuung vom Stichprobenumfang. Da aufgrund des Gesetzes der großen Zahl der Stichprobenfehler ab einer gewissen Stichprobengröße so klein, daß eine Vergrößerung des Stichprobenumfangs die Mehrausgaben nicht mehr rechtfertigen würde. Große Umfragen, etwa der Mediaanalyse, arbeiten mit Stichprobengrößen von etwa 3000.
Aussagen mit einem Stichprobenfehler (man spricht hier von Irrtumswahrscheinlichkeit) kleiner oder gleich 5% nennt man signifikant (Eine Irrtumswahrscheinlichkeit von 5% oder 0.05 bedeutet, dass sich die Stichprobe zu 95% so verhält wie die Grundgesamtheit), solche mit einer Irrtumswahrscheinlichkeit kleiner oder gleich 1% heißen sehr signifikant und solche mit einer Irrtumswahrscheinlichkeit kleiner oder gleich 0.1% höchst signifikant. Die Irrtumswahrscheinlichkeit wird mit à angegeben.
Die Statistiker machen sich bei diesen Berechnungen eine mathemathische Abstraktion zu Nutze. Aus Überlegungen der Wahrscheinlichkeitsrechnung ergibt sich, dass sich die Werte einer Grundgesamtheit in Form einer glockenförmigen Kurve darstellen lassen. Man spricht von Normalverteilung. Der Wert für die Irrtumswahrscheinlichkeit gibt an, wie stark die gemessenen Werte der Stichprobe von der (wahrscheinlich) zu erwartenden Normalverteilung abweichen.
 

Was man aus Statistiken ablesen kann:
Statistiken werden häufig genutzt, um Vergleiche zwischen Datengruppen anzustellen. Die einfachste Methode ist, Häufigkeiten auszuzählen.
 
Personal Superstadt Hyperstadt
hauptamtlich 28  27
ehrenamtlich 46 143
Verwaltungsangestellte 18  24
GESAMT 92 239

Diese absoluten Zahlen sind wenig aussagekräftig. Um den Anteil der verschiedenen Berufsgruppen am Gesamtpersonal zu berechnen, berechnen wir die Prozentzahlen.
Dazu berechnen wir zunächst die Verhältnisse zwischen den Beschäftigungsgruppen.

Hauptamtlich   28/92 = 0.304
Ehrenamtlich   46/92 = 0.5
Verwaltungsang. 18/92 = 0.196

Die Verhältniszahlen können in Prozent umgewandelt werden, indem wir mit 100 multiplizieren.
 
Personal % Superstadt Hyperstadt

 
hauptamtlich 28 30.43 27 30.13
ehrenamtlich 46 50 143 59.8
Verwaltungsang. 18 19.57 24 10.04
Gesamt 92 239

Drei weitere Werte geben aussagekräftige Informationen über eine Zahlenreihe:

Beispiel:

23 Bibliotheken erzielen folgende Umsätze:

9, 8; 7,5; 7; 6; 5; 4.5; 4; 3,7; 3,2; 2; 1,9; 1,8; 1,7; 1,5; 1,2; 1,1; 0,9; 0,7; 0,7; 0,1; 0

Es werden die Werte bestimmt, die die Reihe genau vierteln. Diese Werte heißen Quartile.
Auf diese Weise hat man die gemessenen Werte in 25% Schritte unterteilt.
100%  75%  50%    25%   0%
 

Zusammenhänge zwischen zwei und mehr Variablen
Bisher haben wir Schlußfolgerungen von einer gemessenen Variable gezogen. Häufig ist man aber interessiert an der Untersuchung der Beziehungen zwischen zwei Variablen. Z. B. möchte man Fragen beantworten wie: Nutzen Studenten die Bibliothek häufiger, wenn Literaturlisten ausgeteilt werden, als wenn sie keine Literaturlisten erhalten?
Im Folgenden finden Sie einige Bemerkungen dazu, worauf Sie besonders achten müssen, wenn Beziehungen/Abhängigkeiten zwischen Variablen statistisch nachgewiesen werden sollen. Mit anderen Worten, wenn Sie wissen möchten , ob zwei Ereignisse die Tendenz zeigen gemeinsam aufzutreten.
Eine verwandte und wichtige Fragestellung beschäftigt sich damit, wie stark eine Beziehung zwischen zwei Variablen ist, in anderen Worten, ob sie statistisch signifikant ist. Im Folgenden werden wir zwei Testverfahren kennenlernen:

Tests, die einen Zusammenhang zwischen zwei Variablen nachweisen sollen, basieren auf der Vorannahme, dass kein Zusammenhang besteht. Es ist die Aufgabe des 'Forschers' nachzuweisen, dass ein Zusammenhang besteht.

Die Vierfelderkorrelation (Yule's Q)
Schauen wir uns jetzt die Beziehung zwischen zwei Variablen näher an.
Da zwei Ereignisse entweder geschehen oder nicht geschehen können, und sie entweder gemeinsam oder nicht gemeinsam geschehen können, können wir die möglichen Ergebnisse in einer einfachen Tabelle darstellen:
 
Y Not Y
X a b
Not X c d

Die Buchstaben in den vier Zellen repräsentieren die Wahrscheinlichkeit der möglichen Ergebnisse:

a x und y passieren
d weder x noch y passieren
b x passiert aber nicht y
c y passiert aber nicht y

Was kann uns so eine Tabelle sagen?
Je größer die Zahl in Zelle a, desto stärker ist die Beziehung zwischen X  und Y.

Schauen wir uns dazu ein Beispiel an:
Eine alltägliche Frage: Rauchen in einer Bevölkerung mehr Männer als Frauen. Eine Untersuchung ergibt folgendes Ergebnis.
 
y (Raucher) nicht y (Nicht-Raucher)
x (Männer) 52 (a) 28 (b)
nicht x (Frauen) 50 (c) 70 (d)

Auf den ersten Blick ist das Verhältnis zwischen Mann und Rauchen (52/80 = 0,65) deutlicher als zwischen Frau und Rauchen (50/120) = 0,416). Der Eindruck könnte täuschen, da die untersuchten Gruppen so unterschieldlich groß sind.

Yules Koeffizient oder Yules Q vergleicht die Zellen a, b, c und d in folgender Formel.

Q = ad - bc
       ad + bc

Nehmen wir die Zahlenwerte von unserem Beispiel

(52 x 70) - (28 x 50)  =    3640 - 1400 = 0, 4
(52 x 70) + (28 x 50)       3640 + 1400

Es besteht also eine positive Relation zwischen X (Männer) und Y (Rauchen), d. h. je häufiger die Variable X vorkommt, desto wahrscheinlicher ist es, dass auch die Variable Y auftaucht. Wenn a x d größer ist als b x c ist die Beziehung positiv.
Yule's Q gibt also die Stärke der Beziehung an. Veränderen wir unsere Zahlenwerte
 
y (Raucher) nicht y (Nicht-Raucher)
x (Männer) 52 (a) 26 (b)
nicht x (Frauen) 52 (c) 28 (d)

 in diesem Falle ergäbe Q = 0, 056, also eine sehr schwache positive Beziehung.
 

Kreuztabelle und Chi-Quadrat-Test
Yule's Q Test kann nur bei 2 x 2 Beziehungen angewandt werden. Häufig brauchen wir einen Test, wo die Variablen mehr als zwei Werte annehmen können. Hierfür ist der Chi-Quadrat Test geeignet. Sein Schwachpunkt ist, dass er zwar die statistische Signifikanz einer Beziehung zeigt, jedoch nicht ihre Stärke.

Beispiel:
Leser in drei Zweigstellen einer Stadtbibliothek werden gefragt, ob sie bereit wären, eine Gebühr für die Entleihung von Videos zu bezahlen. Die Zweigstellen liegen in unterschiedlichen Wohngegenden: a) gehobene Mittelschicht b) gemischte Wohngegend c) von Rentnern bevorzugte Wohngegend. Die These ist, dass die Bereitschaft eine Gebühr zu bezahlen in allen drei Zweigstellen gleich ist. Der Chi-Quadrat Test soll helfen, diese These zu überprüfen.

 Bibliothek a Bibliothek b Bibliothek c
Gebühr ja 82 66 123 271
Gebühr nein 36 32 75 143
 118 98 198 414

Die Zahlen in den sechs Zellen sind die genannten Häufigkeiten.
Auf den ersten Blick ergeben sich merkliche Unterschiede zwischen den zahlungswilligen Antworten (82, 66, 123). Diese Zahlen sind weniger deutlich, wenn wir uns klar machen, dass die Zahl der Stichprobe sehr unterschiedlich war (118, 98, 198). In Verhältniszahlen ausgedrückt haben wir also Zahlungswillige:
82/118 = 0, 695; 66/89 = 0.673; 123/198 = 0, 62. Die Unterschiede sind nicht so groß, wie wir nach dem ersten Eindruck vermutet haben. Sind die Unterschiede rein zufällig oder handelt es sich noch um signifikante Unterschiede? In anderen Worten, sind mehr Nutzer aus Bibliothek a bereit eine Gebühr zu zahlen als aus Bibliothek c.
Zur Erinnerung: Wir gehen von der Null-Hypothese aus
das heißt  H0 : II1 = II2 = II3

Testverlauf des Chi-Quadrat Tests

  1. Wir errechnen, wie die Verhältnisse ausgesehen hätten, wenn die Null-Hypothese zuträfe.
  2.  Wir errechnen dann, wie stark die gemessene Zahl von der errechneten abweicht. Diese Abweichung verwandeln wir in eine einzige Zahl.
  3. Diese Zahl wird gegen die Verteilung innerhalb der Stichprobe geprüft um ihre Signifikanz zu ermitteln.


Von 414 Antworten waren 271 bereit eine Gebühr zu entrichten. Das ist ein Verhältnis von 271/414 = 0, 654589. Der Anteil von nicht Zahlungswilligen liegt demnach bei 0, 345411 (1 - 0,654589). Wenn einen Beziehung zwischen den Variablen besteht, müßte dasselbe Verhältnis in allen drei Zweigstellen gelten. In Zweigstelle a wären also 118 x 0,654589 = 77, 24 bereit die Gebühr zu entrichten. Um die Zahlungunwilligen zu ermitteln multiplizieren wir mit 0, 345411.

 Bibliothek a Bibliothek b Bibliothek c
Gebühr ja 8277,24 6664,15 123129,61 271
Gebühr nein 3640,76 3233,85 7568,39 143
 118 98 198 414
 

Abweichungen der erwarteten Werte von den gemessenen Werten
Um nun festzustellen, ob die gemessenen Werte von den erwarteten signifikant abweichen, bestimmt man die Differenz zwischen den gemessenen Werten und den erwarteten, quadriert diese und teilt das Ergebnis durch die erwartete Häufigkeit. Die Summe dieser Abweichungsmaße ist die Prüfgröße Chiquadrat (x2)

x2= S (O - E)2
             E

Für unser Beispiel ergeben sich folgende Werte:

O E  O - E (O - E)2 (O-E)2/E
82 77,24 4,76 22,6576 0,2933402
66 64,15 1,85 3,4225 0,0533515
123 129,61 -6,61 43,6921 0,3371043
36 40,76 -4,76 22,6576 0,55578783
32 33,85 -1,85 3,4225 0,1011078
75 68,39 6,61 43,6921 0,6388667

   x2 = 1,9796488

Um den errechneten Wert einschätzen zu können, d. h. beurteilen zu können, ob es sich bei 1,9796488 um eine siginifikante Abweichung handelt oder ob diese Abweichung im Rahmen der Normalverteilung liegt, müssen wir uns noch mit zwei weiteren statistischen Konzepten befassen.

Freiheitsgrade (df) oder degrees of freedom
Hierbei handelt es sich um ein Konzept aus der Wahrscheinlichkeitsrechnung. Es geht davon aus, dass alle Fälle in einer Stichprobe ausser dem letzten frei gewählt sind. Die Zahlenreihe 17, 13, 9, 21, 8, 18 und (5) haben einen Mittelwert von 13. Der Freiheitsgrad hier ist 7-1 in einer Formel ausgedrückt also (n-1). In unserem obigen Beispiel haben wir einen Freiheitsgrad von 2. Von einer Tabelle ziehen wir eine Spalte und eine Reihe ab und zählen den Rest
 
 
 

  4 df

Ob ein errechneter x2 Wert siginfikant von dem erwarteten Wert abweicht, können wir in einer Tabelle nachsehen (solche Tabellen finden sich in jedem Statistik Handbuch). Die Tabellen geben für die entsprechenden Freiheitsgrade und für verschiedenen Irrtumswahrscheinlichkeiten (à) die Werte an, oberhalb derer eine Abweichung signifikant ist.
Zurück zu unserem Beispiel:
Der errechnete Wert für Chi liegt bei 1,9796488. In der Tabelle liegt der entsprechende Wert für Chi bei einem Freiheitsgrad (df) von 2 für eine Irrtumswahrscheinlichkeit von 5% bei 5.991. Da 5.991 der größte Wert für Chi ist, der uns erlaubt die Null-Hypothese aufrecht zu erhalten, und unser Wert von 1,9796488 weit darunter liegt, können wir schlußfolgern, dass es keinen signifikanten Unterschied zwischen der Zahlungswilligkeit der Nutzer in den drei untersuchten Zweigstellen gibt.
Wären Sie zu demselben Ergebnis gekommen, wenn Sie sich die Ergebnisse nur in Prozentzahlen angesehen hätten?
Insgesamt waren 65,45% der Befragten bereit eine Gebühr zu bezahlen.
In Bibliothek a waren 69,49% bereit eine Gebühr zu zahlen. In Bibliothek b waren 64,68% bereit zu zahlen und in Bibliothek c 62,12%.
 

Literatur:
Eine für "Bibliotheks- und Informationsmanager hervorragend aufbereitete Einführung in die Statistik (leider auf Englisch) bieten
Peter Stephen; Susan Hornby: Simple Statistics: For Library and Information Professionals, London 1995 (Sign. 28.1562).
Peter Zöfel: Statistik in der Praxis, Stuttgart 1985
 
 

.