Oft wird die Normalverteilung als Ursprungsverteilung der Merkmalswerte angenommen. Bevor diese Annahme getroffen werden kann, müssen die Merkmalswerte dahingehend untersucht werden, ob die Normalverteilung eine geeignete Verteilung ist.
Eine Überprüfung der Verteilungsannahmen ausschließlich über ein Histogramm reicht nicht aus, da das Aussehen des Histogramms stark von der Balken- bzw. Klassenbreite und den Klassengrenzen abhängt.
Die folgenden beiden Histogramme sind für die gleiche Messreihe gezeichnet worden. Die erste Grafik zeigt eine linksschiefe Verteilung, die zweite eine symmetrische. Der einzige Unterschied zwischen den beiden Abbildungen sind unterschiedlich gesetzte Klassengrenzen!
Die Klassengrenzen sind genauso wie die Klassenbreiten frei wählbar. Eine goldene Regel gibt es hierfür nicht. Deshalb reicht es auch nicht, ausschließlich ein Histogramm als Entscheidungsgrundlage für eine Verteilung zu nehmen.
Die Überprüfung der Normalverteilung besteht aus drei Schritten:
Da eine einzige Verteilung mit der Vielzahl aller anderen möglichen Verteilungen verglichen wird, reicht eine alleinige grafische oder rechnerische Prüfung nicht aus!
Details zum Shapiro-Wilks-Test auf Normalverteilung finden Sie in Beispiele für statistische Tests. Tests auf Normalverteilung mit hoher Güte (geringem β-Fehler) sind: Shapiro-Wilks, Shapiro-Francia, Ryan-Joiner, Anderson-Darling und Cramér-von Mises. Eine hohe Güte ist deshalb wichtig, um ein geringes Risiko für die Testenscheidung "Messreihe normalverteilt" zu haben, obwohl tatsächlich die Messreihe nicht normalverteilt ist (Fehler 2. Art β, s. auch Funktionsweise von statistischen Tests).
Die immer noch beliebten Testverfahren von Lilliefors, der χ2-Test auf Verteilung sowie der Test von Kolmogorov-Smirnov (auch Kolmogorow-Smirnow, Kolmogoroff-Smirnoff) haben eine miserable Güte und sollten daher nicht verwendet werden. Bevor Sie mit diesen Testverfahren entscheiden, ob Ihre Messreihe normalverteilt ist, nehmen Sie lieber eine Münze. Da haben Sie nur ein Risiko von 50 %, dass Sie falsch liegen - bei den drei Testverfahren ist das Risiko zum Teil deutlich größer!
Es liegen zwei Messreihen A und B mit jeweils 50 Messwerten vor, die dahingehend geprüft werden sollen, ob sie aus einer Normalverteilung stammen oder nicht.
Die grafische Analyse ergibt keine Anzeichen für eine Abweichung von der Normalverteilung.
Die Kenngrößen der Messreihe A und die unter der Normalverteilung zu erwartenden Kennzahlen sind relativ ähnlich:
| Kenngröße | Messreihe A | Normalverteilung |
|---|---|---|
| (Mittelwert - Median) / s | -0,14 | 0 |
| IQR / s | 1.36 | 1,34 |
| # 1s Intervall / n | 72 % | 68 % |
| # 2s Intervall / n | 98 % | 95 % |
| # 3s Intervall / n | 100 % | 99,73 % |
Die p-Werte der Tests auf Normalverteilung sind alle deutlich größer als 0,05, somit wird die Nullhypothese der Normalverteilung beibehalten. (Beim Test auf Normalverteilung wird immer in der Nullhypothese angenommen, dass die Messreihe aus einer Normalverteilung stammt.)
| Test | p-Wert |
|---|---|
| Shapiro-Wilks | 0,4544 |
| Anderson-Darling | 0,6796 |
| Cramér-von Mises | 0,7521 |
Insgesamt ergeben sich keine Abweichungen von der Normalverteilungsannahme; die Normalverteilung wird deshalb als Ursprungsverteilung für die Merkmalswerte von Messreihe A angenommen.
Das Histogramm ist relativ unauffällig. Im Boxplot werden drei Ausreißer angezeigt. Der Q-Q-Plot zeigt Abweichungen von der Linie bei den größeren Quantilen.
Die Kennzahlen der Messreihe B und die unter der Normalverteilung zu erwartenden Kennzahlen weisen ebenfalls Unterschiede auf. Die Verteilung der Merkmalswerte ist breiter als bei der Normalverteilung zu erwarten ist.
| Kenngröße | Messreihe B | Normalverteilung |
|---|---|---|
| (Mittelwert - Median) / s | 0,18 | 0 |
| IQR / s | 0,94 | 1,34 |
| # 1s Intervall / n | 76 % | 68 % |
| # 2s Intervall / n | 94 % | 95 % |
| # 3s Intervall / n | 98 % | 99,73 % |
Die p-Werte der Tests auf Normalverteilung lehnen in jedem Fall die Nullhypothese zum Niveau α=0,05=5% ab (p-Werte sind deutlich kleiner als 0,05, d. h. die Nullhypothese "Messreihe ist normalverteilt" wird verworfen).
| Test | p-Wert |
|---|---|
| Shapiro-Wilks | 0,0303 |
| Anderson-Darling | 0,0285 |
| Cramér-von Mises | 0,0331 |
Insgesamt ergeben sich in der grafischen Analyse erste Anzeichen, beim Vergleich der Kennzahlen weitere Unterschiede und durch die Tests auf Normalverteilung deutliche Abweichungen von der Normalverteilungsannahme; die Normalverteilung wird deshalb als Ursprungsverteilung für die Messreihe B abgelehnt.
© 2003 - 2012 Barbara Bredner - Statistische Beratung und Lösungen