Che significa deep reinforcement learning?

Question

Accepted Answer

Il deep reinforcement learning è una tecnica di addestramento per un'intelligenza artificiale che offre il vantaggio di autoalimentarsi ed essere parzialmente "autonoma" nelle scelte, adeguandosi al contesto e all'ambiente sulla base della valutazione di una sequenza di stati. La tecnica si pone in uno scenario particolare in cui, in mancanza di indicazioni più specifiche, si procede per trial and error, ovvero letteralmente per tentativi: ovviamente ogni trial è seguito da una fase di valutazione dell'errore, di correzione dello stesso il che, alla lunga, porta all'esecuzione sempre più perfetta del compito. Il tempo a disposizione è la variabile chiave per determinare la bontà di questo approccio, che viene di seguito esemplificato da questa demo in cui il robottino (l'intelligenza artificiale) "impara" (machine learning) a seguire un determinato percorso sempre più intricato, a rispettare i vincoli (passare sulle caselle verdi), ad alzarsi in caso dovesse cadere e ad evitare se possibile pericoli ed ostacoli. La logica di fondo è mutuata da quella premio-punizione analizzata in ambito psicologico un po' di anni fa, e su cui si concorda generalmente in termini di scarsa efficacia. Nel caso esemplificato, al contrario, è il modo in cui possiamo addestrare la nostra macchina a funzionare sempre meglio rispetto all'obiettivo posto. Il senso è: se l'intelligenza artificiale deve imparare a camminare, nello specifico, lo deve fare sia ponendosi l'obiettivo di avvicinarsi ad un target (punti in più, se si avvicina) che evitando di strisciare per terra (punti in meno, se si muove carponi). Vale la pena di vedere l'intero video per comprendere la complessità del compito (a dispetto della sua semplice formulazione: il robottino deve "solo" imparare a camminare, alla fine) rispetto ai tempi in gioco, che sono decisamente lunghi (il video viene mandato avanti velocemente più volte), il che dimostra che insegnare ad una macchina a fare qualcosa in poco tempo, usando la tecnica sss, è irrealistico se non impossibile. Questo vuol dire pure che deep reinforcement learning è un tipo di machine learning non necessariamente efficace per apprendere compiti come questo, sia pure che devono essere scomposti a loro volta in più dimensioni e tengono conto di vari vincoli: il robottino deve stare in piedi su due gambe, bilanciare il proprio equilibrio, mantenerlo nel tempo, mantenerlo mentre compie il primo, il secondo, ... l'ennesimo passo, supportare correttamente la direzione ed evitare di precipitare nel vuoto. https://www.youtube.com/watch?v=L_4BPjLBF4E&list=UULFMT1Aw4R4nf_sFNDeuJqc6w

Che cos'è il deep learning

Il deep learning (apprendimento profondo) è la disciplina di riferimento in questo ambito e consiste in una forma di apprendimento automatico che utilizza una rete neurale o neuronale. Essa funziona in modo nominalmente molto semplice: prende vari strati di input, li elabora in una o più fasi consecutive, produce dati in output: di fatto, trasforma i dati dalla forma primordiale ad una rielaborata. I metodi di apprendimento profondo, che spesso utilizzano l'apprendimento cosiddetto supervisionato su insiemi di dati "taggati" o etichettati adeguatamente, hanno dimostrato di poter risolvere compiti che comportano la gestione di dati grezzi complessi e a molte dimensionali, come il riconoscimento di immagini e l'elaborazione del linguaggio naturale (ciò che abbiamo idealizzato con il robottino nel video precedente).

Che cos'è il reinforcement learning

L'apprendimento per rinforzo (reinforcement learning) è il processo in cui un agente software impara a prendere decisioni, sfruttando una tecnica trial and error. Da un punto di vista matematico, il processo viene modellato mediante un processo di decisione di Markov che modella, nello specifico, il passaggio di stato da s a s' mediante l'azione a, valutando nel contempo la ricompensa numerica (positiva per i premi, negativa per le punizioni) ad ogni passaggio. Si cerca così di massimizzare il rendimento dell'agente determinando progressivamente una politica adeguata. In termini schematici: un agent (agente) effettua un'azione all'interno di un ambiente (environment) e ne tira fuori una ricompensa R ed uno stato S, che poi vengono utilizzati come input al fine di alimentare il processo e decidere l'azione successiva da compiere. [caption id="attachment_94382" align="aligncenter" width="2714"]

By EBatlleP - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=86248030[/caption]

Deep reinforcement learning

A questo punto non dovrebbe essere difficile determinare cosa sia il deep reinforcement learning che abbiamo spiegato in precedenza, ovvero un metodo che combina le due tecniche precedenti per risolvere problemi di decisione (far camminare un automa, ad esempio), in cui si sfruttano sia le tecniche di apprendimento profondo (deep learning) che quelle di rinforzo. Il gran numero di dimensioni in ballo, evidenziato nel caso del robot dalle tre dimensioni, dal fatto di possedere vari "arti", doverli gestire nonchè dover mantenere un equilibrio nel tempo, contribuisce alla scelta di determinare l'algoritmo ideale in modo dinamico, addestrando la base di rete neurale sui dati a disposizione e "facendo fare esperienza" all'intelligenza sulla logica premio/punizione che abbiamo visto.

Machine learning: che cos’è il deep reinforcement learning

Che cos’è il deep learning

Che cos’è il reinforcement learning

Deep reinforcement learning

👇 Da non perdere 👇

Machine learning: che cos’è il deep reinforcement learning

Che cos’è il deep learning

Che cos’è il reinforcement learning

Deep reinforcement learning

👇 Da non perdere 👇

Guarda anche:

Guarda anche: