Seien f0,f1 zwei mögliche Verteilungen für die Daten X. Das ist das Testproblem, ob X∼f0 oder X∼f1.
Es wird die NullhypotheseH0:f=f0 gegen die AlternativhypotheseH1:f=f1 getestet.
Ein Test ist dann eine Entscheidungsregel, die basiert auf der gegebenen Statistik T(X1,...,Xn) (Statistik war einfach nur eine Funktion von den Daten)
die entweder H0 oder H1 akzeptiert.
Fehlertypen
Es gibt nun folgende Fehlertypen:
H0 richtig
H1 richtig
H0
Korrekt
Fehler 2. Art
H1
Fehler 1. Art
Korrekt
Signifikanzniveau & Schärfe
Das Signifikanzniveauα ist die Wahrscheinlichkeit für einen Fehler 1. Art, also PH0("H1")≤a.
Die Schärfe1−β ist die Gegenwahrscheinlichkeit für einen Fehler 2. Art, also PH1("H0")≤β.
H0 richtig
H1 richtig
H0
Korrekt: 1−α
Fehler 2. Art: β
H1
Fehler 1. Art: α
Korrekt: 1−β (Schärfe)
Hypothesen
Da man meistens nicht nur zwei Verteilungen gegenüberstellen möchte, sondern Einhalten von Grenzwerten testen möchte, gibt es folgende Hypothesen:
H0:μ≤μ0 gegen H1:μ>μ0 (rechtsseitiger Test)
H0:μ≥μ0 gegen H1:μ<μ0 (linksseitiger Test)
H0:μ=μ0 gegen H1:μ=μ0 (zweiseitiger Test)
t-Test
Gegeben sei eine Stichprobe X1,...,Xn mit Xi∼N(μ,σ2) mit unbekannter Varianz σ2.
Ersetzte nun σ2 durch die Stichprobenvarianz S2 und definiere die Teststatistik T=nSX−μ0 somit T∼tn−1.
Tests:
verwerfe H0:μ≤μ0 gegen H1:μ>μ0 wenn: T>t(n−1)1−α
verwerfe H0:μ≥μ0 gegen H1:μ<μ0 wenn: T<−t(n−1)1−α=t(n−1)α
verwerfe H0:μ=μ0 gegen H1:μ=μ0 wenn: ∣T∣>t(n−1)1−2α
Beispiel aus der Vorlesung:
Die Schätzung der mittleren Ozonkonzentration während der
Sommermonate ergaben für eine Großstadt anhand von n=26 Messungen
den Mittelwert xn = 244 und die Stichproben-Standardabweichung s=5.1
(jeweils in m3μg ).
Der im Ozongesetz von 1995 festgelegte verbindliche Alarmwert beträgt
240m3μg . Kann das gemessene Ergebnis als signifikante Überschreitung
des Warnwerts gewertet werden zum Signifikanzniveau α=0.01?
p-Wert
Guckt sich an, wie wahrscheinlich es ist, dass bei einer Wiederholung ein Wert entsteht, der noch mehr gegen H0 spricht als tobs
Gütefunktionen & 2-Stichproben-Tests
Kein Bock darauf. Vielleicht später
Binomial-Test
X1,...,Xn∼F
F besitzt eindeutigen Median m und F(m)=0.5.
H0:m≥m0 gegen H1:m<m0 (linksseitiger Test)
H0:m≤m0 gegen H1:m>m0 (rechtsseitiger Test)
Dies lässt sich zurückführen auf den Binomial-Test:
Y∼Bin(n,p)p=P(Y1>m0)
Bzw.
H0:p=p0 gegen H1:p=p0
H0:p≤p0 gegen H1:p>p0
Teststatistik: T=np0(1−p0)Y−np0∼N(0,1)
Lehne H0:p≤p0 ab, falls T>z1−α
Lehne H0:p≥p0 ab wenn T<zα
Lehne H0:p=p0 ab wenn ∣T∣>z1−2α
Hierbei ist z1−α das (1−α)-Quantil der Standardnormalverteilung.
Regression und Lineare Regression
Was ist das?
↑ Das erster sinnvolle Bild auf .
Also es geht um eine Menge von Werten z.B. produzierte Bauteile die von einer anderen Sachen abhängen. Soweit so einfach.
In unserem Beispiel braucht Helmut, durchschnittlich über eine eine Woche, 55 Minuten um ein Laufrohr eines Kampfpanzers Leopard 2A8 zu produzieren.
Nun sollen wir eine Gerade f^(t)=a^+b^t finden, die in Abhängigkeit von der benötigten Zeit t die Anzahl produzierter Laufrohre f(t) schätzt.
Wie findet man nun a^ und b^?: Das gängigste ist die Methode der kleinsten Quadrate.
Q(a,b)=∑i=1n(yi−(a+bti))2 soll minimal werden.
Das heißt b^=sx2sxy und a^=y−b^x
Hier ist sxy,sy natürlich die Stichproben-Varianz