Parameterschätzung.

Eine Stichprobe besteht aus $ \mbox{$n$}$ unabhängigen und identisch verteilten Zufallsvariablen $ \mbox{$X_1,\dots,X_n$}$.

Überlicherweise möchte man aus Daten $ \mbox{$x_1,\dots,x_n$}$, die als Realisierungen der Zufallsvariablen $ \mbox{$X_i$}$ aufgefaßt werden, Aussagen über die Verteilung der $ \mbox{$X_i$}$ erhalten (so z.B. Mittelwert oder Varianz). Hierfür setzt man für jedes $ \mbox{$n\in\mathbb{N}$}$ eine Schätzfunktion $ \mbox{$T_n:\mathbb{R}^n\longrightarrow \mathbb{R}$}$. Deren Plausibilität wird durch eine Betrachtung der Folge der zugehörigen Zufallsvariablen

$ \mbox{$\displaystyle
\bigl(T_n(X_1,\dots,X_n)\bigr)_{n\in\mathbb{N}}
$}$
untersucht, der Folge der sogenannten Schätzer. Setzt man in $ \mbox{$T_n$}$ die Daten $ \mbox{$x_1,\dots,x_n$}$ ein, so erhält man eine Schätzung $ \mbox{$T_n(x_1,\dots,x_n)$}$.

Um die Verteilung der $ \mbox{$X_n$}$ sinnvoll schätzen zu können, legt man sich auf eine Verteilungsklasse fest (z.B. Normalverteilung, Exponentialverteilung, ...). Zu schätzen bleibt jeweils der die Verteilung beschreibende, aber noch unbekannte reelle Parameter. So kann beispielsweise der Erwartungswert bekannt und die Varianz zu schätzen sein.

Eine sinnvolle Schätzfunktion sollte folgende Kriterien erfüllen.

  1. Sei $ \mbox{$\vartheta$}$ der zu schätzende Parameter, und die Verteilung der $ \mbox{$X_n$}$ als mit Parameter beliebig, aber fest gewähltem $ \mbox{$\vartheta$}$ vorausgesetzt. Ein Schätzfunktion $ \mbox{$T_n$}$ heißt erwartungstreu, wenn dann
    $ \mbox{$\displaystyle
{\operatorname{E}}\bigl(T_n(X_1,\dots,X_n)\bigr) \; = \; \vartheta
$}$
    gilt. Die Schätzfunktion soll also die Zufallsvariablen so verrechnen, daß im Mittel der richtige Wert erwartet werden darf.
  2. Eine Folge von Schätzfunktionen heißt asymptotisch erwartungstreu, falls, unter denselben Voraussetzungen, $ \mbox{$\lim_{n\to\infty} E\bigl(T_n(X_1,\dots,X_n)\bigr)=\vartheta$}$ gilt.
  3. Eine Folge von Schätzfunktionen heißt konsistent, falls, unter denselben Voraussetzungen, für alle $ \mbox{$\varepsilon >0$}$ der Grenzwert $ \mbox{$\lim_{n\to\infty}
p\bigl(\vert T_n(X_1,\dots,X_n)-\vartheta\vert>\varepsilon \bigr)
=0$}$ ist.

Hierbei folgt aus Erwartungstreue i.a. keine Konsistenz und aus Konsistenz i.a. keine Erwartungstreue.

Folgende Schätzfunktionen sind für die Anwendung von Bedeutung.

Der (empirische) Mittelwert ist definiert durch

$ \mbox{$\displaystyle
\bar{x}_n \; := \; \frac{1}{n}\sum_{i=1}^n x_i\; .
$}$
Der Ausdruck $ \mbox{$\bar{x}_n$}$ ist also eine Funktion in den Variablen $ \mbox{$x_1,\dots,x_n$}$; der zugehörige Schätzer $ \mbox{$\frac{1}{n}\sum_{i=1}^n X_i$}$ wird mit $ \mbox{$\bar{X}_n$}$ bezeichnet.

Die (empirische) Varianz ist (für $ \mbox{$n\geq 2$}$) definiert durch

$ \mbox{$\displaystyle
s^2_n \; := \; \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x}_n)^2\; .
$}$
Der zugehörige Schätzer $ \mbox{$\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X}_n)^2$}$ wird mit $ \mbox{$S^2_n$}$ bezeichnet.