Spiegazioni facili: teorema di Bayes per imbranati

Steve è timido e introverso, ama leggere e, quando può, si rifugia nel proprio mondo. Ci sono più probabilità che sia un contadino oppure un bibliotecario?

Gran parte delle persone a cui sottoponessimo questa ipotetica domanda finirebbero per rispondere che è molto più probabile che Steve sia un bibliotecario: tendenzialmente però questa risposta cozza con le evidenze statistiche, che suggeriscono che – in media – ci sono più contadini che bibliotecari nella popolazione umana, per cui la probabilità più alta è in realtà invertita rispetto all’intuizione. Il fenomeno è un Bas ben noto che è stato scoperto da Daniel Kanheman durante gli studi di una vita, che gli sono valsi anche un nobel per l’economia, e sono stati popolarizzati dal suo libro Pensieri lenti, pensieri veloci. L’autore si spinge a considerare questa distorsione di giudizio (bias) una vera e propria irrazionalità del pensiero, per quanto la descrizione sia volutamente stereotipata e suggerisca un profilo in cui tendiamo a focalizzarci sulla descrizione per quello che è senza valutare il contesto generale.

Possiamo partire da un esempietto semplificato per comprendere l’importanza del teorema di Bayes: in una scuola sappiamo esserci il 60% di maschi ed il 40% di femmine, e sappiamo pure che le studentesse indossano sia gonne che pantaloni, mentre i maschi indossano solo pantaloni. Vediamo da lontano uno studente coi pantaloni: sarà più probabilmente maschio o femmina? Se vediamo uno studente con i pantaloni ciò ci porterebbe a ritenere che potrebbe essere sia maschio che femmina, poiché entrambi possono indossare pantaloni; tuttavia, considerando che il 60% degli studenti è maschio e i maschi indossano esclusivamente pantaloni, c’è una maggiore probabilità che lo studente visto da lontano con i pantaloni sia un maschio, dato che fa parte di un gruppo più numeroso. Per lo stesso motivo sarà più probabile che Steve sia un contadino nonostante la descrizione fuorviante, ammesso che sia ragionevole pensare ad un mondo con più contadini che bibliotecari (cosa che appare più che razionale, a ben vedere).

Come osservato dalla matematica Hannah Fry nel libro Hello Word, del resto, il fatto che un campione sia più popoloso lo rende anche più soggetto a eventuali errori di decisione: l’errore, infatti, si propaga sul campione più numeroso per un semplice fatto di probabilità, mentre quello meno popoloso paradossalmente rimane meno soggetto ad errori di attribuzione o classificazione.

Domanda: vedo che lo studente porta i pantaloni, per cui: è più probabile che sia maschio o femmina?

L’applicazione del teorema di Bayes avviene in questo modo:

  • P(A) è la probabilità a priori che lo studente sia femmina (40% ovvero 2/5)
  • P(B) è la probabilità a priori che lo studente porti i pantaloni (80% ovvero 4/5)
  • P(B|A) è la probabilità che – dato il fatto che lo studente sia femmina (A), porti i pantaloni (B), e in questo caso è del 50% (50%)
  • P(A|B) è la probabilità che – dato il fatto che porti i pantaloni (B), lo studente sia effettivamente femmina (A). Calcolando con la formula di Bayes, otteniamo che la probabilità in questione è:
{\displaystyle P(A|B)={\frac {P(B|A)P(A)}{P(B)}}={\frac {{\frac {1}{2}}\times {\frac {2}{5}}}{\frac {4}{5}}}={\frac {1}{4}}.}

mentre il suo complementare è del 3/4 (75%), più alta, che sia maschio.

In definitiva: il teorema di Bayes è un modo per aggiornare le nostre credenze su qualcosa quando otteniamo nuova informazione. Lo facciamo prendendo in considerazione sia la probabilità iniziale delle nostre credenze (chiamata “probabilità a priori”) sia l’evidenza nuova che abbiamo ottenuto.

Immagina di avere due cose che stai cercando di capire, chiamiamole A e B. Il teorema di Bayes ci aiuta a capire quanto sia probabile che A sia vero dato che B è vero, basandoci sulla probabilità che B sia vero dato che A è vero. In parole più semplici, immagina di avere una teoria su qualcosa (A), e poi trovi un nuovo fatto (B). Il teorema di Bayes ti aiuta a capire quanto il nuovo fatto (B) sostiene o contrasta la tua teoria originale (A).

Quindi, quando usiamo il teorema di Bayes, stiamo facendo questo:

  1. Guardiamo alla probabilità iniziale della nostra teoria (probabilità a priori).
  2. Consideriamo quanto è probabile che avremmo visto il nuovo fatto se la nostra teoria fosse vera (probabilità di osservare il nuovo fatto dato che la teoria è vera).
  3. Consideriamo anche quanto è probabile che avremmo visto il nuovo fatto se la nostra teoria non fosse vera (probabilità di osservare il nuovo fatto dato che la teoria non è vera).
  4. Usiamo queste informazioni per aggiornare la nostra comprensione e ottenere una nuova probabilità sulla base del nuovo fatto (probabilità a posteriori).

In breve, il teorema di Bayes ci aiuta a pesare la nostra vecchia conoscenza contro la nuova evidenza, permettendoci di ottenere una migliore comprensione della situazione.

Spiegazione più tecnica

Il teorema di Bayes permette di calcolare la probabilità che un’ipotesi A sia vera dato un insieme di dati o evidenze B. Questo teorema è ampiamente utilizzato in molte aree, tra cui l’apprendimento automatico, la diagnosi medica, la statistica bayesiana, l’analisi dei dati e la teoria delle decisioni. È particolarmente utile quando si devono prendere decisioni basate su informazioni incerte o quando si devono aggiornare le credenze in base alle nuove evidenze disponibili.

Come è scritta la formula del teorema di Bayes (e perchè)

La formula di per sè è nota e non dice nemmeno granchè, e la riproponiamo qui solo con le lettere cambiate rispetto alle solite A e B, per cercare di farla capire meglio (almeno, ci proviamo):

P(H|E) = P(H) • P(E|H) / P(E)

Significa che la probabilità che si verifichi H dopo che si è verificata E è pari al rapporto tra la probabilità che si verifichi solo H per la probabilità che si verifichi E in presenza di H fratto la probabilità che si verifichi soltanto E. Ricordare la formula a memoria non è troppo agevole, per cui si potrebbe ricorrere alla teoria degli insiemi: ricordando che lo spazio di probabilità si muove in un ipotetico quadrato di lato 1, dove le ascisse sono H e le ordinate sono E, possiamo inquadrare il problema nei termini di insiemi (probabilità a priori o, in alcuni casi, detta probabilità marginale, dato che fa riferimento ad un sottoinsieme di eventi) e sottoinsiemi dei precedenti (probabilità a posteriori). Questo evidenzia meglio, visivamente, quello che effettivamente succede, tanto che in questo video divulgativo si pone la questione come “la geometria del cambiare credenza”, nel senso che la valutazione della probabilità che facciamo di un qualsiasi evento E varia notevolmente al variare delle ipotesi H che poniamo, è bene ricordarlo, in modo arbitrario, e che possono condizionare la probabilità stessa (aree del quadrato che si allargano o restringono).

La probabilità condizionata di H rispetto ad E, pertanto, è data dal rapporto tra la probabilità marginale dell’ipotesi H per la probabilità condizionata di E rispetto ad H, fratto la probabilità dell’evento E. Una delle applicazioni più note del teorema è al problema di Monty Hall, ad esempio, per cui rappresenta una possibile soluzione alternativa rispetto a quella che abbiamo illustrato nell’articolo.

A volte il teorema di Bayes viene riferita non solo come teorema, in effetti, ma anche come formula di Bayes, il che dovrebbe testimoniare la possibilità che se ne faccia uso in contesti molto frequenti. Una formula da usare nella vita di ogni giorno (non proprio quando andate a ballare o andate al supermercato, ma insomma) dato che fornisce un modo per calcolare le probabilità iniziali (probabilità a priori) di un evento alla luce di nuove evidenze e/o informazioni (le probabilità a posteriori).

I termini della formula

Facciamo un piccolo spoiler e riveliamo da subito che abbiamo usato E per indicare un Event (evento) e H per un’ipotesi (Hypothesis), perchè questo aiuta a vedere la formula in modo più “discorsivo”, senza nulla togliere alla parte formale.

Abbiamo scritto che il teorema afferma questo:

P(H|E) = P(H) • P(E|H) / P(E)

in cui:

  • P(H) è la probabilità a priori dell’ipotesi H, ossia la probabilità che H sia vera;
  • P(E) è la probabilità a priori dell’evento E, ossia la probabilità che E si verifichi;
  • P(H|E) rappresenta la probabilità a posteriori che E si verifichi dopo che l’ipotesi H è verificata;
  • P(E|H) rappresenta la probabilità a posteriori che H sia vera dopo che l’evento E è avvenuto.

Quello che succede in altri termini è che ricorriamo alla formula di Bayes qualora abbiamo un’ipotesi (H) e un’evidenza o una descrizione E, e vogliamo calcolare la probabilità che l’ipotesi H sia vera data la descrizione o evidenza E, per l’appunto P(H|E). La cosa che afferma il teorema è che quest’ultima è legata alla probabilità P(E|H), dove i due termini sono invertiti, moltiplicato per la probabilità a priori dell’ipotesi, diviso la probabilità dell’evento E.

Si usa spesso l’esempio della diagnosi medica, a riguardo: se volessimo calcolare la probabilità di essere malato ed aver contratto un certo virus, nell’ipotesi di essere risultato positivo ad un test (ad esempio un tampone specifico), tale probabilità sarà P(H|E), ovvero probabilità di essere malato (H) nel caso in cui sia risultato positivo al test (E). P(H) entra in gioco nel calcolo come probabilità di essere malato a priori, mentre P(E|H) rappresenterà la probabilità di essere positivo al test nel caso in cui si sia effettivamente malati, con P(E) che rappresenta la probabilità di essere malato a priori. P(E) in genere viene scomposto nelle due componenti positive e negative, per inciso, e questo vale per qualsiasi calcolo andiamo a fare (dato che stiamo lavorando in uno spazio o universo [0,1]):

P(E) = P(E|H) • P(H) + P(E|¬H) • P(¬H)

Molto dipende da P(H), che spesso nella pratica è solo una stima o alla meglio un rapporto di frequenza (frequenza o incidenza effettiva della malattia), ma se questa è molto bassa (ad esempio 0.001) a quel punto condiziona la probabilità di essere effettivamente malati in presenza di positività al test.

Cos’è un filtro bayesiano (per rilevare lo spam)

Nella pratica informatica i cosiddetti filtri bayesiani, noti anche come filtri di spam bayesiani / classificatori bayesiani, sono algoritmi utilizzati per classificare automaticamente i messaggi in base alla probabilità di essere spam o non spam. Funzionano utilizzando il teorema di Bayes al fine di calcolare le probabilità condizionate dei messaggi in base alle parole o ai segni distintivi contenuti negli stessi. Un filtro bayesiano utilizza implicitamente il teorema di Bayes per calcolare la probabilità che un messaggio sia spam o ham in base alle parole o ai segni distintivi contenuti nel messaggio e all’addestramento precedente con dati conosciuti.

Il filtro bayesiano lavora in genere su questo schema, dove spam è un messaggio “cattivo” e ham uno “buono”:

  1. Training:
    • Raccogli un set di dati di addestramento contenente messaggi contrassegnati come spam (S) e non spam (H).
    • Calcola la frequenza delle parole (o dei segni distintivi) in ciascuna categoria.
  2. Probabilità:
    • Calcola la probabilità di trovare una parola o un segno distintivo in un messaggio di spam (P(Parola|S)) e in un messaggio di ham (P(Parola|H)) utilizzando la frequenza.
  3. Classificazione:
    • Quando arriva un nuovo messaggio con parole (o segni distintivi), calcola la probabilità condizionata per ciascuna parola o segno distintivo nel messaggio.
    • Utilizza il teorema di Bayes per calcolare la probabilità che il messaggio sia spam (P(S|Messaggio)) o ham (P(H|Messaggio)).
  4. Decisione:
    • Somma le probabilità calcolate per le parole (o segni distintivi) nel messaggio: P(S|Messaggio) = P(S) * P(Parola1|S) * P(Parola2|S) * … * P(Parolan|S) e lo stesso per P(H|Messaggio).
    • Confronta le probabilità calcolate e classifica il messaggio come spam se P(S|Messaggio) > P(H|Messaggio), altrimenti come ham.
  5. Raffinamento:
    • Il filtro può essere periodicamente addestrato con nuovi dati per migliorare la sua accuratezza e adattarsi a nuovi schemi di spam o ham, modificando di conseguenza le percentuali nello spazio di probabilità.

Foto di Алекс Арцибашев su Unsplash

.