Inferenzstatistik

Wasdas

Nehme an wir hätten eine Umfrage gemacht: 50 Leute wurden gefragt, ob sie AFI mögen. 45 davon sagen ja sehr. 5 sagen nein. Jetzt müssen wir diese Umfrage bewerten. Wie gut ist die Stichprobe, wie kann ich nachweisen, dass der Anteil der Leute, die AFI mögen, wirklich so hoch ist?

Die Vorlesung gibt 3 gute Schritte:

Finde ein geeignetes Verteilungsmodell: $Bin(n,p), n = 50$
Finde die optimalen Parameter: $p$ .
Wie kann ich die Hypothese testen, und ist $p > 0.5$ nachweisbar?

Grundbegriffe

$X = \{X(w) | w \in \Omega\} \subset \mathbb{R}^n$ ist der Stichprobenraum $x = (x_1, ..., x_n) \in X$ ist eine Stichprobe

$X$ ist eine Zufallsvariable, $x$ ist eine Realisierung der Zufallsvariable $X$ . $\mathcal{P}$ heißt Verteilungsmodell auf $\mathbb{R}^n$ , genauer heißt es parametrisches Verteilungsmodell, falls $\mathcal{P} = \{ \mathcal{P}_\vartheta | \vartheta \in \Theta\}$ wobei $\Theta$ eine Menge von Parametervektoren für die Verteilungen sind.

Falls es nicht endlichdimensional parametrisiert werden kann, heißt es nichtparametrisches Verteilungsmodell.

Statistik

Dummer Name

Eine Statistik ist eine messbare Abbildung $T: \mathbb{R}^n \rightarrow \mathbb{R}^d$ , wobei oft $d = 1$

Wenn $T$ in den Parameterraum $\Theta$ abbildet, heißt sie Schätzer.

Die empirische Verteilungsfunktion ist wie bereits gesagt: $\tilde{F}_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbb{1}_{(-\infty, x]}(X_i)$ . Das ist einfach eine tolle Schreibweise um zu sagen: Gegeben ein Wert $x$ , wie viele Datewerte sind kleiner oder gleich $x$ . Es ist einfach zählen, die Anzahl dann noch relativ zu Gesamtdatenmenge und fertig.

Es gilt: $E(\tilde{F}_n(x)) = P(X_i \le x) = F(x), Var(\tilde{F}_n(x)) = \frac{F(x)(1-F(x))}{n}$ . Zudem konvergiert $\tilde{F}_n(x)$ immer gegen $F(x)$ .

Likelihood-Prinzip und Funktionen

Ist ein Schätzprinzip und sagt, dass die beste Schätzung diejenige ist, die die beobachteten Daten am wahrscheinlichsten macht. Hierfür gibt es mehrere Funktionen und vorallem ein Schema:

Likelihood-Fkt: $L(\vartheta \mid x) = p_\vartheta (x)$ bzw. $L(\vartheta \mid x) = f_\vartheta (x)$ Log-Likelihood-Fkt: $l(\vartheta \mid x) = \log(L(\vartheta \mid x))$ Max-Likelihood-Fkt: $p_{\hat{\vartheta}}(x) \ge p_\vartheta(x) \forall \vartheta \in \Theta$

Bei Stichproben gilt: $L(\vartheta \mid x_1, ..., x_n) = \prod_{i=1}^n L(\vartheta \mid x_i)$

Maximum Likelihood Schätzer Schema

Likelihood-Funktion aufstellen $L(\vartheta \mid X_1, ..., X_n)$ bei gegebenen Daten (genannt Realisationen) $x_1, ..., x_n$
Log-Likelihood-Fkt aufstellen $l(\vartheta) = \log(L(\vartheta \mid x_1, ..., x_n))$
Kritische Punkte berechnen: $l'(\vartheta) = 0$ , also Kandidaten für Extrema
Zeigen, dass eins lokales Maximum ist, also $l''(\vartheta) < 0$ .
Zeigen das es ein globales Maximum ist.

Detaillierter:

Wie immer beschreibt $\vartheta$ die Parameter einer Verteilung in A37 der glob zum Beispiel das $\alpha$ der Pareto Verteilung. Bei einer diskreten Stichprobe ist der $L(p_\vartheta(x)$ natürlich die Zähldichte von $x$ (wie man bestimmt schon immer erkannt hat. Gibt ja so wenige $p$ ). Analog ist $L(\vartheta \mid x) = f_\vartheta (x)$ bei stetigen Stichproben die Dichtefunktion von $x$ .

Der Unterschied zwischen Likelihood und Dichtefunktion ist nur der Parameter. Bei der Dichtefunktion ist er als Parameter gegeben, bei der Likelihood-Fkt ist er die Variable, die wir verändern/optimieren wollen. Bei Max-Likelihood suchen wir also bei einer gegeben Verteilung die Parameter der Verteilung, die die Daten die wir gesehen haben am wahrscheinlichsten machen.
Log-Likelihood-Fkt einfach nur $l(\vartheta) = \log(L(\vartheta \mid x_1, ..., x_n))$ anwenden und vereinfachen.
Alles andere Kurvendiskussion. Hier ist wichtig: Ihr leitet nach $\alpha$ ab!

Back to Overview | Vorheriges: Im Anfang schuf Gott Himmel und Erde | Nächstes: Hab Güte Gott (Gütekriterien)