Geordende steekproef

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

In de statistiek vormen de naar grootte gerangschikte elementen van een steekproef X_1,\ldots,X_n van onderling onafhankelijke, maar niet noodzakelijk gelijkverdeelde stochastische variabelen uit een continue verdeling de geordende steekproef, meestal genoteerd als

X_{(1)}\leq\ldots\leq X_{(n)}.

Met X_{(k)} wordt het steekproefelement aangeduid met het rangnummer k. Ook de notatie X_{k:n} wordt gebruikt, waaraan tevens de steekproefomvang te zien is. Als er geen knopen zijn, geldt dus:

X_{(k)}=X_i \Larr\Rarr R_i=k

Als x_1,\ldots,x_n de uitkomst van de steekproef is, worden de geordende resutaten genoteerd als:

x_{(1)}\leq\ldots\leq x_{(n)}.

De elementen in de geordende steekproef zijn stochastisch afhankelijk en elk van de elementen is een steekproeffunctie van de oorspronkelijke steekproef. In het bijzonder is

X_{(1)}=\min(X_1,\ldots,X_n)

en

X_{(n)}=\max(X_1,\ldots,X_n)

Verdeling[bewerken]

In de meeste gevallen worden gelijkverdeelde variabelen beschouwd, die dus een aselecte steekproef vormen.

In het algemene geval is de verdeling gecompliceerder en wordt deze gegeven door de stelling van Bapat–Beg, die in 1989 gepubliceerd werd door Bapat en Beg. De auteurs gaven geen bewijs, maar in 1994 gaf Hande een eenvoudig bewijs van de stelling.

Aselecte steekproef[bewerken]

Voor een aselecte steekproef van X, dus voor onderling onafhankelijke en gelijkverdeelde X-en, is de simultane verdeling voor y_1\leq y_2\leq\ldots \leq y_n gegeven door de kansdichtheid:

f_{X_{(1)},\ldots, X_{(n)}}(y_1,\ldots, y_n)=n!\prod_k f_X(y_k)

De verdelingsfunctie van X_{(k)} wordt gegeven door:


F_{X_{(k)}}(x)=P(X_{(k)} \leq x)=

=\sum_{m=k}^nP(X_{(1)}\leq x,\ldots, X_{(m)}\leq x,X_{(m+1)}> x,\ldots,X_{(n)}> x)

=\sum_{m=k}^n\tbinom nm P(X_1\leq x,\ldots, X_m\leq x,X_{m+1}> x,\ldots,X_{n}> x)

=\sum_{m=k}^n\tbinom nm\left(F_X(x)\right)^m\left(1-F_X(x)\right)^{n-m}
,

want elk van de \tbinom nm gebeurtenissen


\{X_{i_1}\leq x,\ldots, X_{i_m}\leq x,X_{i_{m+1}}> x,\ldots,X_{i_n}> x\}

heeft dezelfde kans als


\{X_1\leq x,\ldots, X_m\leq x,X_{m+1}> x,\ldots,X_n > x\}
.


De dichtheid van X_{(k)} is:


f_{X_{(k)}}(x)=
n\tbinom{n-1}{k-1}\left(F_X(x)\right)^{k-1}f_X(x)(1-\left(F_X(x)\right))^{n-k}

Immers:

f_{X_{(k)}}(x){\rm d}x\approx P(X_{(k)}\in [x,x+{\rm d}x))=

=n\tbinom{n-1}{k-1}P(X_1\leq x,\ldots, X_{k-1}, X_k \in [x,x+{\rm d}x)),X_{k+1}> x,\ldots, X_n>x)

=n\tbinom{n-1}{k-1} F_X(x)\cdot\ldots\cdot F_X(x)f_X(x){\rm d}x(1-F_X(x))\cdot\ldots\cdot (1-F_X(x))

Dit resultaat kan ook worden verkregen door het berekenen van de afgeleide van F_{X_{(k)}}(x).

f_{X_{(k)}}(x)=F'_{X_{(k)}}(x)=
=
f_X(x)
\left(
\sum_{m=k}^{n}\tbinom n{m}m\left(F_X(x)\right)^{m-1}\left(1-F_X(x)\right)^{n-m}
-
\sum_{m=k}^{n-1}\tbinom n{m}(n-m)\left(F_X(x)\right)^{m}\left(1-F_X(x)\right)^{n-m-1}
\right)
=
f_X(x)
\left(
\sum_{m=k}^{n}\tbinom n{m}m\left(F_X(x)\right)^{m-1}\left(1-F_X(x)\right)^{n-m}
-
\sum_{m=k+1}^{n}\tbinom n{m-1}(n-m+1)\left(F_X(x)\right)^{m-1}\left(1-F_X(x)\right)^{n-m}
\right)
=
f_X(x)
\left(
n\sum_{m=k}^{n}\tbinom {n-1}{m-1}\left(F_X(x)\right)^{m-1}\left(1-F_X(x)\right)^{n-m}
-
n\sum_{m=k+1}^{n}\tbinom {n-1}{m-1}\left(F_X(x)\right)^{m-1}\left(1-F_X(x)\right)^{n-m}
\right)
=
nf_X(x)\tbinom {n-1}{k-1}\left(F_X(x)\right)^{k-1}\left(1-F_X(x)\right)^{n-k}
Minimum en maximum

Voor het minimum geldt dus:

F_{X_{(1)}}(x) = 1-\left(1-F_X(x) \right)^n en f_{X_{(1)}}(x) = n\left(1-F_X(x) \right)^{n-1}f_X(x),

en voor het maximum:

F_{X_{(n)}}(x) = \left(F_X(x)\right)^nen f_{X_{(n)}}(x) = n\left(F_X(x)\right)^{n-1}f_X(x)

Uniforme verdeling op (0,1)[bewerken]

Voor een aselecte steekproef U_1,\ldots,U_n uit de uniforme verdeling op het interval (0,1) is:


f_{U_{(k)}}(u)=n\tbinom {n-1}{m-1}u^{k-1}(1-u)^{n-k},\quad (u\in (0,1))

Dit betekent dat U_{(k)} een bètaverdeling heeft met parameters k en n+1-k:

U_{(k)} \sim B(k,n+1-k).

Stelling van Bapat-Beg[bewerken]

De stochastische variabelelen X_1,\ldots, X_n zijn onderling onafhankelijk en hebben verdelingsfuncties F_i=F_{X_i},i=1,\ldots,n. De simultane verdelingsfunctie van de elementen X_{(r_1)}\leq X_{(r_2)} \leq \ldots \leq X_{(n_k)} van de geordende steekproef wordt voor x_1<x_2<\ldots< x_k gegeven door:

F_{X_{(r_1)},X_{(r_2)},\ldots, X_{(r_k)}}(x_1,x_2,\ldots,x_k) =
P(X_{(r_1)}\leq x_1, X_{(r_2)}\leq x_2,\ldots ,X_{(r_k)} \leq x_k)=

=\sum_{n_k=r_k}^n \ldots\sum_{n_2=r_2}^{n_3}\,\sum _{n_1=r_1}^{n_2}\frac{P_{n_1,\ldots,n_k} (x_1,\ldots ,x_k)}{n_1! (n_2-n_1)! \ldots  (n-n_k)!},

waarin

P_{n_1,\ldots,n_k}(x_1,\ldots,x_k) =

=\operatorname{per}\left(
\begin{bmatrix}
F_{11}           \ldots F_{11}           & 
F_{12}-F_{11}    \ldots F_{12}-F_{11}    &  
\ldots & 
F_{1k}-F_{1,k-1} \ldots F_{1k}-F_{1,k-1} &  
1-F_{1k}         \ldots 1-F_{1k}  \\

F_{21}           \ldots F_{21}           & 
F_{22}-F_{21}    \ldots F_{22}-F_{21}    &  
\ldots &  
F_{2k}-F_{2,k-1} \ldots F_{2k}-F_{2,k-1} &
1-F_{2k}         \ldots 1-F_{2k}  \\

\vdots                                   &    
\vdots                                   &             &  
\vdots                             \\

\underbrace{F_{n1}        \ldots F_{n1}       }_{n_1}     & 
\underbrace{F_{n2}-F_{n1} \ldots F_{n2}-F_{n1}}_{n_2-n_1} &  
\ldots & 
\underbrace{F_{nk}-F_{n,k-1} \ldots F_{nk}-F_{n,k-1}}_{n_k-n_{k-1}} &  
\underbrace{1-F_{nk}      \ldots 1-F_{nk}           }_{n-n_k}
\end{bmatrix}
\right)

de permanent is van de genoemde matrix met F_{rm}=F_r(x_m) en onder de accolades de getallen die het aantal kolommen aangeven.

Bewijs

Definieer

N_i= |\{j|X_j\leq x_i\}|: i=1,2,\ldots, k,

dan

P(X_{(r_1)}\leq x_1,\ldots, X_{(r_k)} \leq x_k)=P(r_1 \leq N_1,r_2 \leq N_2,\ldots, r_k \leq N_k)=

=\sum_{n_k=r_k}^{n}\sum_{n_{k-1}=r_{k-1}}^{n_k}\ldots \sum_{n_2=r_2}^{n_3}\sum_{n_1=r_1}^{i_2}
P(N_1=n_1,N_2=n_2,\ldots, N_k=n_k)
.

Daarin is, met \sigma lopend over alle permutaties van de getallen 1,\ldots , n, en voor de eenvormigheid van de formule x_0=-\infty, n_0=0, x_{k+1}=+\infty en n_{k+1}=n:

P(N_1=n_1,N_2=n_2,\ldots, N_k=n_k)=

=\frac{1}{n_1!(n_2-n_1)!\ldots(n-n_k)!}
\sum_\sigma 
P(X_{\sigma(1)}\leq x_1,\ldots, X_{\sigma(n_1)}\leq x_1,x_1 < X_{\sigma(n_1+1)}\leq x_2,\ldots, x_1 < X_{\sigma(n_2)}\leq x_2,\ldots)=

=\frac{1}{n_1!(n_2-n_1)!\ldots(n-n_k)!}
\sum_\sigma \prod_{j=1}^{k+1} \prod_{i_j=n_{j-1}+1}^{n_j}
\left(
F_{\sigma(i_j)}(x_j)-F_{\sigma(i_j)}(x_{j-1})
\right)

En:


\sum_\sigma \prod_{j=1}^{k+1} \prod_{i_j=n_{j-1}+1}^{n_j}
\left(
F_{\sigma(i_j)}(x_j)-F_{\sigma(i_j)}(x_{j-1})
\right)=
P_{n_1,\ldots,n_k}(x_1,\ldots,x_k)


Voor een aselecte steekproef geeft de stelling voor bijvoorbeeld de gehele geordende steekproef:


F_{X_{(1)},\ldots, X_{(n)}}( y_1,\ldots,y_n)=

\begin{align}
&=F(y_1)^n +\\
&+ n F(y_1)(F(y_2)-F(y_1))^{n-1}+\\
&+n(n-1) F(y_1)(F(y_2)-F(y_1))(F(y_3)-F(y_2))^{n-2}+\\
&\ldots \\
&+n! F(y_1) \prod_{i=1}^{n-1} (F(y_{i+1}-F(y_i))
\end{align}

Toepassing[bewerken]

De geordende steekproef en de rangnummers spelen een belangrijke rol in de verdellingsvrije statistiek.

Als de verdelingsfunctie van de verdeling waaruit de steekproef getrokken is, bekend is, kan de geordende steekproef herleid worden tot de geordende steekproef uit de uniforme verdeling, en de eigenschappen aan de hand hiervan bestudeerd worden.

Literatuur[bewerken]

  • Bapat, R. B.; Beg, M. I. (1989). "Order Statistics for Nonidentically Distributed Variables and Permanents". Sankhyā: The Indian Journal of Statistics, Series A (1961-2002) 51 (1): 79–93. JSTOR 25050725. MR 1065561.
  • David, H. A. Order Statistics, 2nd ed. New York: Wiley, 1981.
  • Gibbons, J. D. and Chakraborti, S. (Eds.). Nonparametric Statistic Inference, 3rd ed. exp. rev. New York: Dekker, 1992.
  • Hande, Sayaji (1994). "A Note on Order Statistics for Nondentically Distributed Variables". Sankhyā: The Indian Journal of Statistics, Series A (1961-2002) 56 (2): 365–368. JSTOR 25050995. MR 1664921.
  • Hogg, R. V. and Craig, A. T. Introduction to Mathematical Statistics, 3rd ed. New York: Macmillan, 1970.
  • Rose, C. and Smith, M. D. "Order Statistics." §9.4 in Mathematical Statistics with Mathematica. New York: Springer-Verlag, pp. 311-322, 2002.

Externe links[bewerken]