Che cos’è la regressione alla media (e perchè è importante conoscerla)


Annunci:

(Tophost) l’ hosting web più economico – Usa il coupon sconto: 7NSS5HAGD5UC2

La regressione verso la media è un concetto statistico molto utile da prendere in considerazione quando si deve valutare un esperimento scientifico, un’analisi dei dati o un test che faccia selezione sui dati “estremi”, ovvero quelli molto buoni / alti e/o molto cattivi/scarsi. Essa ci insegna a non trarre conclusioni di pancia o saltare a false conclusioni su certi eventi, in quanto ciò che sembra evidenza può essere oscillazione statistica o “rumore” sui dati.

Un po’ di storia

Il nome di Sir Francis Galton potrebbe non suggerire nulla ai più, se non fosse che si tratta di un cugino del noto evoluzionista e biologo Charles Darwin. Galton stava studiando (qui lo studio originale) dei dati relativi a rilevazioni di altezze su un campione di persone, divisi tra genitori e figli. Lo studio in sè presenta dettagli complessi che non riportiamo in questa sede, per brevità, e che si riducono alla singolare osservazione che se le altezze medie dei figli aumentavano (o rispettivamente diminuivano) quelle dei genitori tendevano a diminuire (rispettivamente, ad aumentare).

Un fenomeno statistico, non legato alla biologia, che Galton definì Regression towards Mediocrity in Hereditary Stature che viene oggi riportato come fluttuazione casuale dei dati, nelle osservazioni che vengono fatte su un certo numero di campioni. All’epoca fu causa di un errore di valutazione che oggi viene riconosciuto (i dettagli sono descritti qui), ma ciò che conta è che la RVM (Regression Version Mediocrity) appare in vari ambiti di analisi di dati, ed è spesso causa di equivoci e addirittura, in alcuni casi, diagnosi cliniche errate.

Definizione di regressione alla media

Nell’ambito statistico, quindi a prescindere dalla scienza in esame nello specifico (che si tratti di rilevazione di altezze, valori glicemici o dati di altro genere non importa) viene chiamata regressione alla media il fenomeno per cui se la rilevazione di un valore assume un valore estremo, quindi molto grande o molto piccolo, è molto probabile che nella rilevazione successiva si presenti un valore opposto. In altri termini, è come se i valori “oscillassero” casualmente da un estremo all’altro, il che si lega anche all’ulteriore aspetto (tutt’altro che intuitivo anche esso) che le nostre azioni non producono sempre risultati tangibili e misurabili, anche se l’istinto suggerisce l’esatto contrario.

Da un punto di vista formale o matematico, la più grande potenzialità della regressione alla media è legato al fatto che può verificarsi in misura molto diversa, ovvero essere molto o poco probabile, a seconda del campione in esame e della sua densità o costituzione.

Nel grafico seguente, si riportano delle misurazioni di un punteggio effettuate in due giorni successivi, a dimostrare empiricamente come le rilevazioni rendano ad addensarsi sulla media (la retta che taglia idealmente a metà i due assi del grafico).

<a href="https://commons.wikimedia.org/wiki/File:Regression_toward_the_mean.svg">Surachit</a>, <a href="https://creativecommons.org/licenses/by-sa/3.0">CC BY-SA 3.0</a>, via Wikimedia Commons
Surachit, CC BY-SA 3.0, via Wikimedia Commons

Esempio tipico di regressione alla media: i voti di una classe che “migliorano” e “peggiorano”

Consideriamo una classe di un istituto scolastico a cui venga sottoposto un test con 100 domande, per semplicità con risposte vero o falso. Ipotizziamo che ogni studente fornisca le risposte a caso (…cosa neanche tanto irrealistica, in alcuni contesti :-) ), così essendoci il 50% di probabilità di azzeccarle il valore atteso del test (la media attesa) sarà più o meno 50. Nella realtà, assumendo che in ogni classe ci siano studenti molto preparati e meno preparati, si otterranno valori del test che oscilleranno tra più di 50 e meno di 50. Adesso entra in gioco la regressione alla media: se selezionassimo una piccola parte degli studenti coi punteggi più alti, otterrebbero risultati probabilmente peggiori del test precedente. Allo stesso modo, se facciamo rifare il test agli studenti meno bravi, ovvero con punteggi peggiori, la loro valutazione migliorerebbe.

Indipendentemente dal punteggio ottenuto da uno studente nel test originale, la migliore previsione del suo punteggio nel successivo test è comunque 50, ed è questo il senso del discorso: la regressione alla media ci insegna che non bisogna attribuire a cause specifiche il peggioramento di una prestazione, ed è anche quello che suggeriva il nobel per l’Economia Daniel Kanheman durante l’addestramento dei piloti dell’aeronautica. Durante un celebre episodio raccontato nel suo libro Pensieri lenti e veloci, il professore si trovava a stabilire delle politiche per migliorare le prestazioni dei singoli. La sua posizione, per quanto anti-intuiva, è corretta: Kanheman sosteneva infatti che le prestazioni oscillassero sempre nel breve periodo, per cui era normale (e sotrattutto non indicativo di una tendenza vera e propria) che manovre di volo ottime (rare, di per sè) fossero seguite da altre meno brillanti, così come manovre pessime tendessero a migliorare leggermente tra una sessione e la successiva.

Il vero addestramento, insomma, si ottiene solo nel medio-lungo periodo, e troppe osservazioni nel breve e brevissimo periodo possono risultare fuorvianti, ed è forse questa la vera lezione che dovremmo imparare.

👇 Da non perdere 👇



Questo sito esiste da 4560 giorni (12 anni), e contiene ad oggi 4202 articoli (circa 3.361.600 parole in tutto) e 20 servizi online gratuiti. – Leggi un altro articolo a caso
Privacy e termini di servizio / Cookie - Il nostro network è composto da Lipercubo , Pagare.online e Trovalost
Seguici su Telegram, ne vale la pena ❤️ ➡ @trovalost
Questo sito contribuisce alla audience di sè stesso.