Il paradosso di Simpson spiegato ai non statistici


Pubblicato il: 24-09-2021 11:57 , Ultimo aggiornamento: 19-11-2021 09:23

Se non hai ancora capito il paradosso di Simpson, te lo spiego qui

La realtà in cui viviamo è spesso difficile da comprendere, e la statistica si rivela spesso uno strumento prezioso per capirla: ovviamente, tutto questo vale se la stessa viene ben utilizzata. Vale anche, se non soprattutto, per le tecnologie che ci pregiamo di utilizzare, e può essere spiegato in modo scientifico mediante il paradosso di Simpson. Croce e delizia per chi abbia mai lavorato con la statistica o l’abbia studiata, anche incidentalmente, è un paradosso in grado di mostrare che la cosiddetta “evidenza“, delle volte, tende a suggerire l’esatto opposto di quello che sembra, a volte. Vale per chi porta prove di un fenomeno, vale per chi prova a capire cosa l’altro stia dicendo. Motivo per cui, quando mi capita di analizzare dati statistici anche nel mio lavoro, tendo a ricorrere al beneficio del dubbio prima di trarre conclusioni troppo affrettate o totalizzanti.

Nota storica: cos’è il paradosso di Simpson

Il paradosso di cui parliamo viene comunemente attribuito a Edward H. Simpson, uno statistico e crittoanalista della metà del secolo scorso che illustrò il problema (e che è rimasto più citato di altri per questa ragione). Illustrò il problema mediante con l’articolo scientifico The interpretation of interaction in contingency tables, per quanto lo stesso discorso sia stato descritto anche da altri ricercatori, tra cui un articolo precedente di George Yule (Notes on the theory of association of attributes in Statistics) già nel lontano 1903.

In breve si tratta di questo: il paradosso di Simpson, nella correlazione tra due serie di dati, indica una situazione in cui la relazione tra gli stessi può apparire distorta, biased, diversa da come è o perfino invertita, per via di alcuni elementi che non stiamo considerando detti variabili nascoste. Per fare bella figura nei salotti TV quando si parla di statistica (e purtroppo o per fortuna, dal 2020 in poi se ne parla così tanto da averne la nausea, a volte), basterebbe questa semplice considerazione: sono correlazioni apparenti, o del tutto sbagliate, perchè stiamo facendo una specie di cherry picking sui dati (cioè stiamo, in senso figurato, selezionando le “ciliegie” che più ci piacciono, scartando o ignorando quelle marce, perchè sappiamo già quello che vogliamo dire: le ciliegie sono buone, nello specifico).

Se andate a leggere l’attuale voce italiana di Wikipedia sul paradosso di Simpson, con rispetto parlando per chi ha scritto quella voce, s’intende, non sembra di grande aiuto. Guardi la Wiki in inglese ed è forse ancora più teorica e ricca di tecnicismi/formalismi, per non parlare dei libri specialistici o delle presentazioni in PDF diffuse su Google (non certo adatte ad essere capite da “Non statistici”). Le altre fonti web che spiegano il fenomeno di Simpson (che nulla c’entra con la famiglia di Homer, per inciso) sono tra due estremi, a volte superficiali, altre totalmente astruse, quasi sempre troppo tecniche (nella migliore delle ipotesi), mentre i classici esempi che si usano per illustrarlo sono purtroppo, in qualche modo, infelici, sicuramente poco adatti al grande pubblico e spesso spiegati in malo modo.

Nel metterla su questo piano non si vuole discutere la scientificità degli stessi, chiaramente, ma esclusivamente (e senza alcun riferimento in particolare) la fruibilità del linguaggio utilizzato. A volte, in effetti, farsi capire dagli altri è più difficile dell’atto del comprendere stesso – questa cosa le università dovrebbero capirla meglio, dato che tanti equivoci della modernità lo confermano.

L’esempio classico del paradosso di Simpson si rileva poi quando si combinano i dati tra loro: se prendiamo la media realizzativa dei rigori da parte di due calciatori, ad esempio, potremmo avere

  • nel 2020 30% calciatore A e 50% calciatore B => B migliore di A nel 2020
  • nel 2021 31% calciatore A e 52% calciatore B => B migliore di A nel 2021

se pero’ andiamo a vedere la media realizzativa su due anni può uscire fuori l’esatto contrario di quanto risultava all’inizio, dato che la combinazione tra le medie (detta in modo più possibile semplice) tende ad ignorare la numerosità dei tiri considerati (che sono quasi certamente diversi), facendo emergere medie per l’anno 2020 e 2021 che non per forza corrispondono a quelle iniziali. Nelle cronache sportive situazioni del genere sono all’ordine del giorno, e sono spesso usati per esaltare o sminuire le qualità di uno sportivo, spesso in modo del tutto fazioso.

Perchè il paradosso di Simpson è importante da capire

Il paradosso di Simpson è stato utilizzato in più contesti per illustrare il tipo di risultati fuorvianti che l’uso improprio delle statistiche è in grado di generare, vale a dire: non basta guardare le percentuali per trarre conclusioni che potrebbero rivelarsi affrettate. Sarebbe invece importante essere consapevoli della possibile manipolazione, anche in buonafede, che un’analisi statistica grossolana può indurre in ognuno di noi.

Nel caso del paradosso di Simpson parliamo di dati analizzati in forma aggregata che possono portare a percentuali discordanti se presi singolarmente (e naturalmente anche viceversa). La cosa che il paradosso ha fatto emergere è che molto dipende dalla numerosità dei campioni presi in considerazione, soprattutto se sono (come accade quasi sempre nei dati reali) disomogenei e distribuiti in modo differente.

Definizione del paradosso di Simpson

Il paradosso di Simpson è un fenomeno di probabilità e statistica in cui una tendenza sembra uscire fuori, almeno apparentemente, da gruppi di dati distinti, ma scompare – o addirittura si inverte – quando i gruppi vengono combinati tra loro.

È problematico perchè, di fatto, induce errori di valutazione e falsa causalità tra fenomeni, anche in ambiti sensibili come quello medico o delle scienze sociali. Il paradosso può essere risolto quando le variabili confondenti e le relazioni causali vengono affrontate in modo appropriato nella modellazione statistica (cosa che, peraltro, non sembra si faccia quasi mai, anche per via della smania di pubblicare nuovi articoli scientifici e dei bias classici che affliggono il settore, come il bias del ricercatore che cerca conferme di un qualcosa che è convinto, senza prove, essere vero).

Il problema principale del paradosso di Simpson, in effetti, è che non si tratta di un paradosso che fa sospendere il giudizio come molti altri paradossi: al contrario (e probabilmente per via dell’effetto Dunning-Krueger), corrobora convinzioni errate, e fa attribuire causalità ad eventi non collegati tra loro.

L’università “maschilista” di Berkley

Il classico esempio che proveremo a ripensare, anche per inquadrare diversamente alcune delle polemiche sul politicamente corretto (che sono quasi sempre faziose e fuorvianti, ma è giusto per fare un altro esempio), riguarda quello dell’università di Berkeley, la quale apparentemente discriminava le studentesse in favore degli studenti maschi. Un fatto non da poco: 44% dei maschi ammessi ai corsi, secondo i dati dell’epoca, contro il 35% delle donne: andando pero’ a vedere i dati puntuali, ovvero quelli dei singoli indirizzi universitari, per alcuni di essi le donne ammesse erano in realtà di più.

I dati globali suggerivano pertanto più uomini che donne ammesse:

ma quelli calcolati sui singoli dipartimenti dicevano ben altro:

Ciò che sembrava una discriminazione sessista, a livello di dati aggregati portava a conclusioni opposte, analizzando i dati per ogni dipartimento. Emerse peraltro, cosa tutt’altro che poco significativa, che le donne tendevano ad iscriversi agli indirizzi più selettivi o impegnativi, dove comunque le ammissioni erano più rare, mentre i maschi facevano domanda per gli indirizzi più facili (come spiega molto bene Travaglini nelle sue slide, lo specifico anche per evitare ulteriori strumentalizzazioni della questione, sempre in agguato in tempi ipertesi come quelli che viviamo).

 

In breve: il problema evidenziato dal paradosso di Simpson è che molte persone considerano le statistiche senza badare al contesto, che spesso emerge come variabile nascosta. L’aggregazione di dati comporta spesso il calcolo di medie, che nel caso specifico avrebbero dovuto essere pesate su ulteriori fattori di ogni facoltà. Ciò che sembrava evidente a livello di media aggregata, pertanto, non era così marcato sui singoli dati per facoltà che componevano il caso specifico.

Come interpretare il grafico del paradosso di Simpson

Ora, dopo questo infinito (e spero comprensibile) “spiegone”, dovrebbe essere più chiaro il senso del pluri-citato grafico in cui vediamo due andamenti distinti di dati, i quali mostrano un verso crescente che poi si inverte sui dati aggregati: è lo stesso ragionamento di cui sopra.

Il grafico usato per spiegare l’effetto paradosso di Simpson rende bene visualmente: le linee blu e rossa indicano un andamento crescente, mentre la loro combinazione (la linea tratteggiata) può capitare tranquillamente, come in questo caso, che indichi un andamento opposto. Non c’è alcuna contraddizione effettiva in questo, perchè come abbiamo visto ci possono essere fattori legati alle caratteristiche dei singoli partecipanti al calcolo statistico che sono stati deliberatamente o involontariamente ignorati.

By Schutz – Own work, Public Domain, https://commons.wikimedia.org/w/index.php?curid=2240877

Correlazione non implica causalità: le correlazioni spurie

Trarre considerazioni dalla statistica senza considerare il contesto è sempre rischioso, e molte persone tutt’altro che stupide o inesperte ci sono cascate, a volte anche per via dei format televisivi frettolosi e “caciaroni” che troviamo in giro.

Aggiungo: se due grafici riportano andamenti simili per due fenomeni, non è detto che un fenomeno “dipenda” dall’altro come si sarebbe portati a credere: la falsa causalità è un bias cognitivo molto diffuso, specie tra i non addetti ai lavori. La causalità è facile da determinare e questo porta all’idea sbagliata che sia sempre una deduzione esatta, ma non è così. In questi casi di parla anche di correlazioni spurie.

Lo prova ad esempio, in modo divertente, il grafico del consumo di mozzarella pro capite negli USA che ha un andamento simile con quello del numero di dottorati in ingegneria civile (fonte): il punto è che ragionevolmente le due cose non c’entrano nulla tra loro, eppure la loro correlazione statistica è prossima al 100%.

 

La massima molto citata correlation does not imply causation (correlazione non implica causalità, ovvero il fatto che due grafici di andamenti siano simili o sovrapponibili non significa affatto, come molti tendono a pensare, che uno causi o influenzi l’altro) si lega bene al discorso che abbiamo proposto, e all’esempio forse più chiaro tra quelli presenti in letteratura.

Paradosso di Simpson ed efficacia dei vaccini per il Covid-19

Si è parlato di paradosso di Simpson l’estate scorsa, anche in Italia, in relazione a dati statistici controversi (mal interpretati) dal punto di vista di persone, gruppi, politici contrari ai vaccini (e qui non approfondisco per amor di brevità, mi si passi l’eventuale approssimazione).

Dai dati sembrava che i vaccini fossero inefficaci, poichè i dati recenti sembravano mostrare che su un campione di ricoverati per Covid in forma grave, più della metà (58,4%) fossero completamente vaccinati (paese di riferimento Israele). Il Washington Post ha spiegato bene, per fortuna, perchè questa deduzione è sbagliata: all’epoca dei fatti l’80% degli israeliani erano vaccinato. L’aumento apparente di contagi tra vaccinati in Israele è legato proprio al fatto che i vaccinati sono più numerosi (popolosità maggiore rispetto a non vaccinati), detta in maniera estremanente semplice.

SMSHosting Usa il codice PROMO per uno sconto sul primo acquisto: PRT96919

Partiamo pertanto dal presupposto che se anche il 100% lo fosse stato, una piccola percentuale di ricoveri o casi fatali di Covid-19 ci sarebbe probabilmente stata lo stesso. Nessun vaccino è purtroppo in grado di dare protezione nella totalità dei casi, anche per via delle sintomatologie specifiche dei singoli, che possono cambiare caso per caso (è un po’ anche questa la “variabile nascosta” della situazione).

SMSHosting Usa il codice PROMO per uno sconto sul primo acquisto: PRT96919

Ad agosto 2021, poi, 301 persone (53 persone ogni milione di abitanti) con ciclo vaccinale completo sono state ricoverate; al tempo stesso, si rilevò che 214 persone non vaccinate erano state ospedalizzate anche esse. Qui viene il primo inghippo a cui fare attenzione: queste persone, essendo di meno rispetto ai vaccinati, finivano per costituire una frazione molto più grande della più piccola popolazione, per l’appunto di persone non vaccinate (164 su ogni milione). Di fatto, è corretto dire che i non vaccinati avevano il triplo di probabilità di essere ricoverati rispetto ai vaccinati, proprio perchè 164 è poco più del triplo di 53. Tornando al dato iniziale, quell’inquietante 58,4% comunque vaccinato e ricoverato, l’errore stava nel fatto che questa percentuale era aggregata: l’incidenza maggiore della mortalità dipende esclusivamente dal fatto che la maggiorparte dei vaccinati era anziana e quindi, per forza di cose, più soggetta a rischi (ennesima variabile nascosta, anche qui).

Gli israeliani vaccinati erano più anziani rispetto a quelli non vaccinati. Ed è per questo, e solo per questo, che sono stati ricoverati in maggior numero. Tra gli adulti israeliani sotto i 50 anni, al 15 agosto, 3,5 milioni erano vaccinati e 1,1 milioni no. Questo è ancora un numero considerevole di resistenze ai vaccini. Tra quei 3,5 milioni di giovani vaccinati, solo 11 sono stati ricoverati in ospedale, circa tre per milione. Nel frattempo, dei non vaccinati in questa fascia di età, 43 erano in ospedale, ovvero 39 per ogni milione. Foto di Goumbik da Pixabay

5/5 (1)

Che te ne pare?

Grazie per aver letto Il paradosso di Simpson spiegato ai non statistici di Salvatore Capolupo su Trovalost.it
Il paradosso di Simpson spiegato ai non statistici (Guide)

Articoli più letti su questi argomenti:

Seguici su Telegram: @trovalost