Come funzionano i processi decisionali di Markov spiegati in modo semplice?

Question

Accepted Answer

I Processi decisionali di Markov sono un modello matematico molto sfruttato dall'intelligenza artificiale in alcune sue accezioni algoritmiche, e rappresentano un modo per affrontare un problema per il quale non abbiamo certezze, e siamo comunque costretti a prendere una decisione volta per volta, tarandola sulle condizioni ambientali. Può sembrare un ragionamento contorto ma un esempio aiuterà a capire, fin da subito. Immagina di essere un turista che sta visitando una città, avendo tre diverse opzioni per trascorrere la giornata:

andare al museo
passeggiare
fare shopping al centro commerciale

La scelta dipenderà esclusivamente, in questo modello, dalle condizioni meteo: "soleggiato", "nuvoloso", "piovoso". Possiamo rappresentare questo scenario utilizzando una catena di Markov, ovvero un formalismo matematico che modella ogni attività come uno "stato", e dove le condizioni meteo sono le transizioni da uno stato all'altro. Per intenderci, se ti trovi al museo e il tempo è "soleggiato", potresti decidere di andare a passeggiare. Viceversa, se stai passeggiando e inizia a piovere, puoi decidere di andare al centro commerciale, e così via.

Matrice di transizione

Ora, immagina di avere una matrice di transizione che descrive le probabilità di passare da uno stato all'altro in base alle condizioni atmosferiche. Ad esempio, potrebbe esserci una probabilità del 70% di passare dal museo al parco se il tempo è "soleggiato", una probabilità del 50% se è "nuvoloso" e una probabilità del 30% se è "piovoso". Pertanto nella prima riga vediamo che se sei al Museo e il tempo è "Soleggiato", c'è una probabilità del 70% (0.7) di passare al Parco, una probabilità del 20% (0.2) di rimanere al Museo e una del 10% (0.1) di andare al Centro commerciale.

                    S   N   P

Museo              0.7 0.2 0.1

Parco              0.3 0.4 0.3

Centro commerciale 0.5 0.3 0.2

In questa matrice, ogni riga rappresenta uno stato (Museo, Parco, Centro commerciale) e ogni colonna rappresenta una condizione atmosferica (Soleggiato, Nuvoloso, Piovoso). I numeri all'interno della matrice rappresentano le probabilità di transizione da uno stato all'altro in base alla condizione atmosferica, in questo caso. La probabilità, diffusa tra 0 e 1 come numero decimale, tiene conto di una sfumatura non da poco, nelle decisioni di ogni giorno, ovvero il fatto che una cosa sia molto probabile o poco probabile non da' l'assoluta certezza che l'azione verrà effettivamente compiuta (potrei decidere di andare comunque a passeggiare sperando che la pioggia non sia eccessiva, insomma posso assumermi dei rischi nelle mie azioni). La matrice di transizione ti fornisce le informazioni necessarie per calcolare le probabilità di transizione tra gli stati in base alle condizioni atmosferiche e utilizzare i processi di decisione di Markov per prendere decisioni ottimali. Utilizzando questa matrice di transizione e i processi di decisione di Markov, puoi prendere decisioni sulla tua giornata in modo ottimale. Ad esempio, supponiamo che tu sia al museo e il tempo sia "soleggiato". Puoi utilizzare i processi di decisione di Markov per calcolare la probabilità di trovare te stesso al parco, al centro commerciale o ancora al museo nelle prossime ore, in base alle probabilità di transizione e alle decisioni che potresti prendere in ciascuno stato. Mediante questo procedimento posso automatizzare il processo decisionale e creare sia un'app che possa suggerirmi cosa fare in base al meteo che, per estensione, dotare un robot della capacità di capirlo in autonomia. Per estensione, posso insegnare ad un automa come camminare su un terreno irregolare, resistere agli urti e tararsi da solo sulla base delle condizioni ambientali. In modo un po' più formale, un processo decisionale di Markov (MDP) è un processo di controllo stocastico a tempo discreto. Esso fornisce un quadro matematico per modellare il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore. I MDP sono utili per studiare i problemi di ottimizzazione risolti tramite la programmazione dinamica, e sono noti fin dagli anni Cinquanta. A ogni passo temporale, il processo si trova in uno stat s, e il decisore può scegliere qualsiasi azione (a', a'', ...) disponibile nello stato s. Il processo risponde al passo temporale successivo spostandosi casualmente in un nuovo stato s' e dando al decisore una ricompensa corrispondente R. https://www.youtube.com/watch?v=uhND7Mvp3f4

Processi decisionali di Markov nella vita di ogni giorno, spiegati in modo semplice

Matrice di transizione

👇 Da non perdere 👇

Processi decisionali di Markov nella vita di ogni giorno, spiegati in modo semplice

Matrice di transizione

👇 Da non perdere 👇

Guarda anche:

Guarda anche: