Inferenzstatistik

| Back to Overview

Wasdas

Nehme an wir hätten eine Umfrage gemacht: 50 Leute wurden gefragt, ob sie AFI mögen. 45 davon sagen ja sehr. 5 sagen nein. Jetzt müssen wir diese Umfrage bewerten. Wie gut ist die Stichprobe, wie kann ich nachweisen, dass der Anteil der Leute, die AFI mögen, wirklich so hoch ist?

Die Vorlesung gibt 3 gute Schritte:

  1. Finde ein geeignetes Verteilungsmodell: Bin(n,p),n=50Bin(n,p), n = 50
  2. Finde die optimalen Parameter: pp.
  3. Wie kann ich die Hypothese testen, und ist p>0.5p > 0.5 nachweisbar?

Grundbegriffe

X={X(w)wΩ}RnX = \{X(w) | w \in \Omega\} \subset \mathbb{R}^n ist der Stichprobenraum x=(x1,...,xn)Xx = (x_1, ..., x_n) \in X ist eine Stichprobe

XX ist eine Zufallsvariable, xx ist eine Realisierung der Zufallsvariable XX. P\mathcal{P} heißt Verteilungsmodell auf Rn\mathbb{R}^n, genauer heißt es parametrisches Verteilungsmodell, falls P={PϑϑΘ}\mathcal{P} = \{ \mathcal{P}_\vartheta | \vartheta \in \Theta\} wobei Θ\Theta eine Menge von Parametervektoren für die Verteilungen sind.

Falls es nicht endlichdimensional parametrisiert werden kann, heißt es nichtparametrisches Verteilungsmodell.

Statistik

Dummer Name

Eine Statistik ist eine messbare Abbildung T:RnRdT: \mathbb{R}^n \rightarrow \mathbb{R}^d, wobei oft d=1d = 1

Wenn TT in den Parameterraum Θ\Theta abbildet, heißt sie Schätzer.

Die empirische Verteilungsfunktion ist wie bereits gesagt: F˜n(x)=1ni=1n1(,x](Xi)\~{F}_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbb{1}_{(-\infty, x]}(X_i). Das ist einfach eine tolle Schreibweise um zu sagen: Gegeben ein Wert xx, wie viele Datewerte sind kleiner oder gleich xx. Es ist einfach zählen, die Anzahl dann noch relativ zu Gesamtdatenmenge und fertig.

Es gilt: E(F˜n(x))=P(Xix)=F(x),Var(F˜n(x))=F(x)(1F(x))nE(\~{F}_n(x)) = P(X_i \le x) = F(x), Var(\~{F}_n(x)) = \frac{F(x)(1-F(x))}{n}. Zudem konvergiert F˜n(x)\~{F}_n(x) immer gegen F(x)F(x).

Likelihood-Prinzip und Funktionen

Ist ein Schätzprinzip und sagt, dass die beste Schätzung diejenige ist, die die beobachteten Daten am wahrscheinlichsten macht. Hierfür gibt es mehrere Funktionen und vorallem ein Schema:

Likelihood-Fkt: L(ϑx)=pϑ(x)L(\vartheta \mid x) = p_\vartheta (x) bzw. L(ϑx)=fϑ(x)L(\vartheta \mid x) = f_\vartheta (x) Log-Likelihood-Fkt: l(ϑx)=log(L(ϑx))l(\vartheta \mid x) = \log(L(\vartheta \mid x)) Max-Likelihood-Fkt: pϑ^(x)pϑ(x)ϑΘp_{\hat{\vartheta}}(x) \ge p_\vartheta(x) \forall \vartheta \in \Theta

Bei Stichproben gilt: L(ϑx1,...,xn)=i=1nL(ϑxi)L(\vartheta \mid x_1, ..., x_n) = \prod_{i=1}^n L(\vartheta \mid x_i)

Maximum Likelihood Schätzer Schema

  1. Likelihood-Funktion aufstellen L(ϑX1,...,Xn)L(\vartheta \mid X_1, ..., X_n) bei gegebenen Daten (genannt Realisationen) x1,...,xnx_1, ..., x_n
  2. Log-Likelihood-Fkt aufstellen l(ϑ)=log(L(ϑx1,...,xn))l(\vartheta) = \log(L(\vartheta \mid x_1, ..., x_n))
  3. Kritische Punkte berechnen: l(ϑ)=0l'(\vartheta) = 0, also Kandidaten für Extrema
  4. Zeigen, dass eins lokales Maximum ist, also l(ϑ)<0l''(\vartheta) < 0.
  5. Zeigen das es ein globales Maximum ist.

Detaillierter:

  1. Wie immer beschreibt ϑ\vartheta die Parameter einer Verteilung in A37 der glob zum Beispiel das α\alpha der Pareto Verteilung. Bei einer diskreten Stichprobe ist der L(pϑ(x)L(p_\vartheta(x) natürlich die Zähldichte von xx (wie man bestimmt schon immer erkannt hat. Gibt ja so wenige pp). Analog ist L(ϑx)=fϑ(x)L(\vartheta \mid x) = f_\vartheta (x) bei stetigen Stichproben die Dichtefunktion von xx.

    Der Unterschied zwischen Likelihood und Dichtefunktion ist nur der Parameter. Bei der Dichtefunktion ist er als Parameter gegeben, bei der Likelihood-Fkt ist er die Variable, die wir verändern/optimieren wollen. Bei Max-Likelihood suchen wir also bei einer gegeben Verteilung die Parameter der Verteilung, die die Daten die wir gesehen haben am wahrscheinlichsten machen.

  2. Log-Likelihood-Fkt einfach nur l(ϑ)=log(L(ϑx1,...,xn))l(\vartheta) = \log(L(\vartheta \mid x_1, ..., x_n)) anwenden und vereinfachen.

  3. Alles andere Kurvendiskussion. Hier ist wichtig: Ihr leitet nach α\alpha ab!