Test di Kolmogorov-Smirnov

Niente fonti!
Questa voce o sezione sull'argomento matematica non cita le fonti necessarie o quelle presenti sono insufficienti.
Commento: voce totalmente priva di fonti

Il test di Kolmogorov-Smirnov è un test non parametrico sviluppato per due campioni da Smirnov nel 1939, sulla base delle considerazioni relative a un solo campione di Kolmogorov del 1933,[1] che verifica la forma delle distribuzioni campionarie; in particolare può essere utilizzato per confrontare un campione con una distribuzione di riferimento oppure per confrontare due campioni.

La statistica del test a una coda è calcolata come la distanza tra la funzione di ripartizione di riferimento e la funzione di ripartizione empirica del campione. La statistica del test a due code è calcolata come la distanza tra le funzioni di ripartizione empiriche dei due campioni ed è applicabile a dati per lo meno ordinali. Nella sua formulazione esatta prevede che le variabili siano continue. Non richiede di per sé alcuna ipotesi sulla distribuzione campionaria, salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta.

Descrizione del test a due code - un campione

Sia X {\displaystyle X} una variabile casuale generatrice continua, con funzione di ripartizione F ( x ) {\displaystyle F(x)} . Un problema che spesso ricorre nella pratica è quello di verificare che la variabile casuale X {\displaystyle X} abbia funzione di ripartizione uguale ad una data F 0 ( x ) {\displaystyle F_{0}(x)} . In simboli, il problema di ipotesi è del tipo:

H 0 : F ( x ) = F 0 ( x ) ,   x {\displaystyle H_{0}:F(x)=F_{0}(x),\ \forall x}
H 1 : F ( x ) F 0 ( x ) ,   per  qualche  x {\displaystyle H_{1}:F(x)\neq F_{0}(x),\ {\mbox{per }}{\mbox{qualche }}x}

Questo significa che l'ipotesi non si riferisce soltanto ad un parametro della variabile casuale X (come accade nel test dei segni), ma all'intera sua funzione di ripartizione.

Sia allora ( X 1 , . . . , X n ) {\displaystyle (X_{1},...,X_{n})} un campione casuale di ampiezza n {\displaystyle n} della variabile casuale X {\displaystyle X} . Sulla base di esso si vuole costruire un test per il problema di ipotesi. Poiché tale problema riguarda la funzione di ripartizione della variabile casuale X {\displaystyle X} , è intuitivo basare la statistica test sulla funzione di ripartizione empirica. Dette quindi X ( 1 ) , . . . , X ( n ) {\displaystyle X(1),...,X(n)} le n {\displaystyle n} variabili casuali campionarie ordinate, la funzione di ripartizione empirica è definita come:

F ^ n ( x ) = { 0 , se  x X ( 1 ) k n , se  X ( k ) x < X ( k + 1 ) 1 , se  x X ( n ) {\displaystyle {\hat {F}}_{n}(x)=\left\{{\begin{matrix}0,&{\mbox{se }}x\leq X(1)\\{\frac {k}{n}},&{\mbox{se }}X(k)\leq x<X(k+1)\\1,&{\mbox{se }}x\geq X(n)\end{matrix}}\right.}

o equivalentemente in forma più compatta:

F ^ n ( x ) = 1 n i = 1 n I X ( i ) x {\displaystyle {\hat {F}}_{n}(x)={1 \over n}\sum _{i=1}^{n}I_{X(i)\leq x}}

dove I X ( i ) x {\displaystyle I_{X(i)\leq x}} è la funzione indicatrice.

La F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} è una "stima campionaria" della "vera" funzione di ripartizione F ( x ) {\displaystyle F(x)} della variabile casuale X {\displaystyle X} . Anzi, siamo in presenza di uno stimatore consistente, poiché si può dimostrare che, come conseguenza della legge debole dei grandi numeri, qualunque sia x {\displaystyle x} la F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} tende in probabilità, per n {\displaystyle n\longrightarrow \infty } , a F ( x ) {\displaystyle F(x)} .

Poiché F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} stima la "vera" funzione di ripartizione F ( x ) {\displaystyle F(x)} , è logico basarsi su una qualche "distanza" tra F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} e F 0 ( x ) {\displaystyle F_{0}(x)} . Se F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} e F 0 ( x ) {\displaystyle F_{0}(x)} sono "vicine", cioè sufficientemente "simili", non si rifiuta l'ipotesi nulla, mentre la si rifiuta se F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} e F 0 ( x ) {\displaystyle F_{0}(x)} sono "lontane", cioè se "molto dissimili".

Come "distanza" si usa la seguente:

D n = sup < x < + | F ^ n ( x ) F 0 ( x ) | {\displaystyle D_{n}=\sup _{-\infty <x<+\infty }\left|{\hat {F}}_{n}(x)-F_{0}(x)\right|}

dove sup x {\displaystyle \sup _{x}} è l'estremo superiore dell'insieme delle distanze, cioè la massima differenza in valore assoluto tra la funzione di ripartizione empirica F ^ n ( x ) {\displaystyle {\hat {F}}_{n}(x)} e la funzione di ripartizione teorica F 0 ( x ) {\displaystyle F_{0}(x)} ipotizzata come vera. Per valori "grandi" di D n {\displaystyle D_{n}} si rifiuta l'ipotesi nulla, mentre non la si rifiuta per valori "piccoli" di D n {\displaystyle D_{n}} (vedasi variabile casuale test di Kolmogorov-Smirnov).

Dunque, il "senso" della statistica D n {\displaystyle D_{n}} è intuitivamente evidente. Molto complicato invece è il calcolo della sua distribuzione di probabilità (sotto l'ipotesi nulla). Si può comunque dimostrare che sotto l'ipotesi nulla la distribuzione di probabilità della statistica test D n {\displaystyle D_{n}} non dipende dalla particolare forma funzionale di F 0 ( x ) {\displaystyle F_{0}(x)} .

Questi risultati sono validi per le variabili casuali che hanno funzione di ripartizione continua. Se invece X {\displaystyle X} è una variabile casuale discreta e la sua funzione di ripartizione è quindi discontinua, la distribuzione di probabilità della variabile casuale D n {\displaystyle D_{n}} dipende proprio dalla discontinuità della funzione di ripartizione di X {\displaystyle X} .

Storia

Nel 1933 Andrej Nikolaevič Kolmogorov introdusse la statistica | F n ( x ) F 0 ( x ) | {\displaystyle |F_{n}(x)-F_{0}(x)|} , e nel 1939 Nikolaj Vasil'evič Smirnov la utilizzò per ricavare quello che oggi è noto come test di Kolmogorov-Smirnov.[1]

Test alternativi

Il test di Kolmogorov-Smirnov è per certi versi l'alternativa non parametrica al test t di Student; quando tale test è applicabile (ipotesi parametrica di distribuzione gaussiana) e si sceglie lo stesso il test di Kolmogorov-Smirnov, allora l'efficienza-potenza è pari a circa il 95% per piccoli campioni e diminuisce leggermente per campioni grandi.

Rispetto ai non parametrici test della mediana e test del chi quadrato (applicato a dati ordinali) è più potente e dunque da preferire.

Si ritiene che per campioni molto piccoli il test di Kolmogorov-Smirnov sia da preferire al test di Wilcoxon-Mann-Whitney mentre per campioni grandi sia quest'ultimo da preferire.

Note

  1. ^ a b Kolmogorov-Smirnov Test - an overview | ScienceDirect Topics, su web.archive.org, 30 marzo 2022. URL consultato il 30 marzo 2022 (archiviato dall'url originale il 30 marzo 2022).

Voci correlate

  Portale Matematica
  Portale Scienza e tecnica