Logo

Barbara Bredner


Statistische Beratung und Lösungen

Start » Tutorial » Statistische Tests » Funktionsweise statistische Tests

Wie funktioniert ein statistischer Test?

Das Testproblem: Nullhypothese H0 und Alternative H1

Ein statistischer Test ist die Überprüfung einer Annahme H0, der so genannten Nullhypothese. Das Gegenteil der Nullhypothese ist H1, die Alternative oder Gegenhypothese:

H0
H1

Die beiden Hypothesen ergeben zusammen immer alle Möglichkeiten, z. B. kann die Annahme entweder passen (H0) oder nicht passen (H1). Es gibt keinen dritten Bereich "könnte vielleicht passen" o. Ä., genauso wenig wie es "ein bisschen Haus bauen" gibt. Entweder man baut ein Haus oder nicht. Jedes Testergebnis für eine Messreihe liegt entweder im Bereich der Nullhypothese oder im Bereich der Alternative. Diese Hypothesen werden auch als Testproblem bezeichnet.

Voraussetzungen für einen statistischen Test

Jedes statistische Testverfahren hat gewisse Voraussetzungen, ohne die das Testergebnis wackelig wird. Erst wenn die Voraussetzungen (zumindest näherungsweise) erfüllt sind, kann daher mit einem statistischen Test auch eine zuverlässige Testentscheidung getroffen werden.

Risiken von statistischen Tests: alpha (α) und beta (β)

Statistische Tests arbeiten mit Wahrscheinlichkeiten. Die Testentscheidung basiert auf einem Wahrscheinlichkeitsmodell und einer Stichprobe, d. h. es gibt keine Möglichkeit, mit statistischen Verfahren 100 &-ig richtige Entscheidungen zu treffen.

Das Risiko für eine falsche Entscheidung kann aber begrenzt werden. Es gibt zwei Möglichkeiten, eine falsche Entscheidung zu treffen. Einen der besten Vergleiche für diese Risiken ist der Vergleich eines statistischen Tests mit einem Rauchmelder (aus Beck-Bornholdt, Dubben: Der Hund der Eier legt, s. Literar):

Test / RauchmelderMessreihe / Wirklichkeit
kein FeuerFeuer
kein Alarmrichtiges TestsignalFehler 2. Art β
AlarmFehler 1. Art αrichtiges Testsignal

Die richtige (Test-)Entscheidung gibt es immer dann, wenn das Testergebnis mit der Messreihe übereinstimmt, wenn also entweder der Rauchmelder stumm bleibt und es nicht brennt oder wenn der Rauchmelder Alarm gibt und es brennt.

Beim Fehler 1. Art gibt der Test aus, dass "es brennt", obwohl tatsächlich alles in Ordnung ist. Dies ist das Risiko für einen Fehler 1. Art α (auch Irrtumswahrscheinlichkeit). Die Testentscheidung wird immer über einen Vergleich der Irrtumswahrscheinlichkeit α mit dem kritischen Werten der Teststatistik für α oder dem p-Wert getroffen.

Das maximal tolerierbare Risiko für einen Fehler 1. Art α wird vor der Durchführung des Tests und der Testentscheidung festgelegt. Dieses Risiko ist das Risiko für einen "falschen Alarm". Je nach Testsituation kann für den Anwender ein kleineres oder größeres Risiko akzeptabel sein.

Häufig wird α=0,05 (bzw. 5 %) oder α=0,01 (1 %) gewählt. α=0,05 bedeutet, dass 1 von 20 Testentscheidungen einen Fehlalarm liefert, wenn tatsächlich alles in Ordnung ist; α=0,01 heißt, dass 1 von 100 Testentscheidungen einen "falschen Alarm" produziert. Wenn zur Begrenzung des α-Risikos ein (sehr) kleiner Wert gesetzt wird, müssen stärkere Anzeichen in der Messreihen vorliegen, die gegen die Nullhypothese H0 sprechen oder anders ausgedrückt: Die "Rauchentwicklung" muss umso stärker sein, je kleiner α ist, damit H0 abgelehnt wird. Wie viel "Rauch" eine Situation verträgt, ist vom Anwendungsfall abhängig.

Das Risiko für einen Fehler 2. Art β kann leider nicht so einfach von außen festgelegt werden. Es wird vor allem durch die Auswahl des Testverfahrens und den Stichprobenumfang bestimmt. Damit dieses Risiko dennoch überschaubar bleibt, kann es entweder bei der Stichprobenplanung über die Formeln zur Berechnung des Stichprobenumfangs begrenzt werden oder durch die Auswahl eines Testverfahrens mit hoher Güte (s. u.) Die zweite Option entspricht dem Kauf eines "guten Rauchmelders", der im Falle eines Feuers zuverlässig den Alarm auslöst. Denn nichts ist schlimmer als ein Brand, von dem der Anwender nicht mal etwas merkt.

Die Testentscheidung

Ein statistischer Test liefert die Entscheidung, ob die Nullhypothese H0 für eine bestimmte Messreihe beibehalten oder verworfen wird. Um diese Testentscheidung zu bekommen, wird eine Teststatistik T berechnet. Wenn die Annahme H0 zu den Messdaten passt, ist die Verteilung der Teststatistik bekannt oder es sind kritische Werte der Teststatistik bekannt. Weicht der Wert der Teststatistik, der aus der Messreihe bestimmt wurde, zu stark vom Wert der Teststatistik ab, der herauskommen müsste, wenn die Annahme zu den Messwerten passt, wird die Annahme abgelehnt.

p-Wert

Da es für jeden Test eigene Formeln für die Teststatistik und die Verteilung oder die kritischen Werte gibt, ist eine Testentscheidung hierüber sehr mühselig. Wird ein Test mit einer Statistik-Software berechnet, wird neben dem Wert der Teststatistik auch immer ein p-Wert mit ausgegeben. Der p-Wert gibt die Stärke an, mit der die Nullhypothese H0 durch die Messdaten gestützt wird.

Ist diese Stütze zu klein bzw. der p-Wert zu niedrig, wird H0 zu wenig durch die Messdaten gestützt. Deshalb wird bei einem zu kleinen p-Wert die Nullhypothese H0 verworfen und entschieden, dass H1 für diese Messreihe gilt (H1: Annahme passt nicht zu den Messdaten).

Wann ein p-Wert zu klein oder groß genug ist, wird über einen Vergleich mit dem Grenzwert α (Irrtumswahrscheinlichkeit, Risiko für Fehler 1. Art, s. o.) entschieden:

p ≤ α
p > α

Güte von Testverfahren

Die Güte (oder das Qualitätsniveau) von Testverfahren wird über die OC-Funktion (OC: OperationsCharakteristik) bestimmt. Die OC-Funktion gibt für jeden möglichen Wert einer Teststatistik an, mit welcher Wahrscheinlichkeit die Nullhypothese H0 beibehalten wird. Somit gibt die OC-Funktion auch an, mit welcher Wahrscheinlichkeit H0 angenommen wird, obwohl die Alternative H1 wahr ist, d. h. die Wahrscheinlichkeit für einen Fehler 2. Art β (es brennt ohne dass der Rauchmelder einen Alarm gibt, s. o.)

Die OC-Funktion ist definiert als:

OC-Funktion

mit g(θ) Wahrscheinlichkeit dafür, die Nullhypothese abzulehnen, wenn θ gegeben ist.

Bei einigen statistischen Tests ist mathematisch nachweisbar, dass sie für ein Testproblem den kleinsten Fehler 2. Art β haben unter allen Tests für dieses Testproblem. Benutzt wird die OC-Funktion in der Praxis zur Bestimmung des minimal notwendigen Stichprobenumfangs bei vorgegebenen Fehlern 1. und 2. Art α und β, z. B. in der Qualitätskontrolle (vgl. Stichprobenumfang attributiv und Stichprobenumfang variabel).

Die meisten heute gebräuchlichen Testverfahren haben sich deshalb durchgesetzt, weil sie unter allen Testverfahren für eine bestimmte Testsituation das geringste Risiko für einen Fehler 2. Art β haben.

Eine Ausnahme sind die veralteten Tests auf Normalverteilung (s. Prüfung auf Normalverteilung), die einfacher zu berechnen sind als gute Tests auf Normalverteilung und deshalb in den vergangenen Jahrzehnten verwendet wurden. Leider hat sich (noch) nicht überall herumgesprochen, dass es bessere Tests gibt, diese mit jeder Statistik-Software einfach berechnet werden können und dass bei Verwendung von Tests mit geringer Güte viel zu oft übbersehen wird, dass die Annahme für die untersuchte Messreihe nicht gilt. Im Fall der Prüfung auf Normalverteilung liefert ein schlechter Test zu häufig das Signal "Messreihe ist normalverteilt", obwohl das falsch ist.

Häufig verwendete Testverfahren

In der Nullhypothese H0 können verschiedene Annahmen geprüft werden. Häufig verwendet werden:

  • Tests auf Gleichheit von Verteilungsparametern
    z. B. Gleichheit von Mittelwert einer Messreihe und vorgegebenem Sollwert
  • Tests auf Bereiche von Verteilungsparametern
    z. B. Varianz ist kleiner oder gleich einem vorgegebenem Wert
  • Tests auf Unabhängigkeit
    z. B. Qualität eines Werkstücks ist unabhängig davon, ob es von Maschine A oder B produziert wurde und
  • Tests auf Verteilungen
    z. B. Überprüfung der Normalverteilungsannahme

Arten von statistischen Tests

Unterschieden wird zwischen parametrischen und nicht-parametrischen Testverfahren. Bei parametrischen Tests wird eine bestimmte Verteilung vorausgesetzt, (häufig die Normalverteilung); bei nicht-parametrischen Tests werden Eigenschaften einer Verteilung (z. B. Stetigkeit d. h. keine Sprungstellen) vorausgesetzt.

Eine weitere Testunterscheidung erfolgt über die Hypothesen. Getestet werden kann zweiseitig (Abweichungen nach oben und unten werden untersucht) und einseitig (Abweichungen entweder nach oben oder nach unten werden untersucht).

Drucker Druckansicht

© 2003 - 2017 Barbara Bredner - Statistische Beratung und Lösungen