Come individuare valori anomali con il Q test
Il Q test, noto anche come test di Dixon, rappresenta un metodo efficace per identificare valori anomali all’interno di set di dati contenenti un numero limitato di elementi, tipicamente compresi tra 3 e 7. Questo strumento è particolarmente utile quando un’osservazione si discosta significativamente dagli altri valori presenti nel dataset.
Indice Articolo
Mantenere un valore anomalo all’interno dei dati può influenzare calcoli importanti come la media e la deviazione standard, pertanto è essenziale individuare e rimuovere correttamente queste osservazioni per evitare distorsioni.
Formula del Q test
La formula utilizzata per eseguire il Q test è la seguente:
Q = |x_a – x_b| / R
Dove x_a rappresenta il valore sospetto, x_b è il punto dati più prossimo a x_a e R indica l’intervallo del set di dati.
Procedura per l’esecuzione del Q test
Supponiamo di avere il seguente set di dati: 13, 9, 7, 8, 5, 25, 3. Vogliamo determinare se il valore massimo, nel nostro caso 25, sia un valore anomalo.
Per applicare il Q test, seguiamo i passaggi seguenti:
1.
Ordinamento dei valori in ordine crescente
: 3, 5, 7, 8, 9, 13, 25.2.
Formulazione delle ipotesi
: ipotesi nulla (il massimo non è anomalo) e ipotesi alternativa (il massimo è anomalo).3.
Determinazione del livello di significatività
: comunemente 0.1, 0.05 o 0.01. Utilizziamo un livello del 5% in questo esempio.4.
Applicazione della formula Q
: calcoliamo Q = |25 – 13| / 22 = 0.545.5.
Valutazione dei risultati
: consultando la tabella degli intervalli di confidenza, confrontiamo il valore calcolato con il valore critico.6.
Interpretazione dei risultati
: nel nostro caso, il valore calcolato di 0.545 non supera il valore critico 0.568, pertanto non possiamo rigettare l’ipotesi nulla che il valore massimo non sia anomalo.Esercizio pratico
Consideriamo i seguenti dati relativi a determinazioni replicate di calcio in un campione di sangue: 15.9, 15.1, 14.8, 15.0, 18.3. Vogliamo determinare se il valore 18.3 sia da considerare un outlier applicando il Q test.
Dopo aver ordinato i risultati in ordine crescente e calcolato le differenze tra i valori successivi, calcoliamo il Q test per il valore massimo 18.3. Il risultato ci porta a concludere che, poiché il Q test è maggiore del valore critico, il valore 18.3 può essere considerato un outlier in questo specifico set di dati.