Il Q test o test di Dixon è un modo per trovare valori anomali in set di dati molto piccoli, normalmente distribuiti da 3 a 7 elementi.
È comunemente usato quando i dati includono un’osservazione anomala molto più bassa o molto più alta degli altri valori.
Mantenere un valore anomalo nei dati influisce su calcoli come la media e la deviazione standard, quindi i veri valori anomali dovrebbero essere rimossi. ossia un valore chiaramente distante dalle altre osservazioni disponibili
Il Q test è utilizzato per verificare se un singolo valore è un outlier ovvero ossia un valore chiaramente distante dalle altre osservazioni disponibili in una dimensione del campione compresa tra 3 e 7.
Formula
Per eseguire il Q test si usa la seguente formula:
Q = |xa –xb| / R
Dove xa è il sospetto outlier, xb è il punto dati più vicino a xa e R è l’intervallo del set di dati.
Procedimento
Si supponga di avere il seguente set di dati:
13, 9, 7, 8, 5, 25, 3
E si voglia determinare se per il valore massimo in questo set di dati è un valore anomalo.
Per applicare la formula si procede con i seguenti passaggi
- Ordinare i valori in modo crescente:
3, 5, 7, 8, 9, 13, 25
- Formulare le ipotesi.
L’ipotesi nulla : il massimo non è un valore anomalo.
L’ipotesi alternativa: il massimo è un valore anomalo.
- Determinare un livello di significatività da utilizzare
Le scelte comuni sono 0.1, 0.05 e 0.01. Si userà un livello di significatività 0,05 per questo esempio.
- Applicare la formula:
Q = | xa –xb | / R
Il valore massimo xa = 25 e quello più vicino xb vale 13
L’intervallo R vale R = 25 – 3 = 22 essendo 3 il valore più piccolo
Quindi Q = | 25 –13 | / 22 = 0.545
- Consultare la tabella degli intervalli di confidenza per una dimensione del campione di 7 e un livello di confidenza del 95%
Tale valore vale 0.568
Rifiutare o non rifiutare l’ipotesi nulla.
Poiché la nostra statistica del Q test pari a 0.5 è inferiore al valore critico 0.568 non si rifiuta l’ipotesi nulla.
- Interpretare i risultati
Poiché non si può rifiutare l’ipotesi nulla, si conclude che il valore massimo 25 non è un valore anomalo in questo set di dati.
Esercizio
Sono riportate le seguenti determinazioni replicate sul calcio di uno stesso campione di sangue. I valori ottenuti: 15.9, 15.1, 14.8, 15.0, 18.3. Si stabilisca se il valore 18.3 sia da scartare applicando il Q test
Si ordinano i risultati in ordine crescente facendo la differenza tra il secondo e il primo, tra il terzo e il secondo ecc.
Risultati in ordine crescente | 14.8 | 15.0 | 15.1 | 15.9 | 18.3 |
Differenza | 0.2 | 0.1 | 0.8 | 2.4 |
Si calcola il rapporto tra il numero che si vuole stabilire se è anomalo e il precedente e la differenza tra il valore massimo e quello minimo:
Q = | 18.3-15.9| /18.3-14.8 = 0.69
Secondo la tabella degli intervalli di confidenza per una dimensione del campione di 5 e un livello di confidenza del 90% il valore è pari a 0.64.
Poiché la nostra statistica del Q test pari a 0.69 è maggiore al valore critico 0.64 si conclude che il valore massimo 18.3 è un valore anomalo in questo set di dati.