Al momento stai visualizzando Machine learning: che cos’è il deep reinforcement learning

Machine learning: che cos’è il deep reinforcement learning

  • Autore dell'articolo:
  • Categoria dell'articolo:Guide

Il deep reinforcement learning è una tecnica di addestramento per un’intelligenza artificiale che offre il vantaggio di autoalimentarsi ed essere parzialmente “autonoma” nelle scelte, adeguandosi al contesto e all’ambiente sulla base della valutazione di una sequenza di stati.

La tecnica si pone in uno scenario particolare in cui, in mancanza di indicazioni più specifiche, si procede per trial and error, ovvero letteralmente per tentativi: ovviamente ogni trial è seguito da una fase di valutazione dell’errore, di correzione dello stesso il che, alla lunga, porta all’esecuzione sempre più perfetta del compito. Il tempo a disposizione è la variabile chiave per determinare la bontà di questo approccio, che viene di seguito esemplificato da questa demo in cui il robottino (l’intelligenza artificiale) “impara” (machine learning) a seguire un determinato percorso sempre più intricato, a rispettare i vincoli (passare sulle caselle verdi), ad alzarsi in caso dovesse cadere e ad evitare se possibile pericoli ed ostacoli.

La logica di fondo è mutuata da quella premio-punizione analizzata in ambito psicologico un po’ di anni fa, e su cui si concorda generalmente in termini di scarsa efficacia. Nel caso esemplificato, al contrario, è il modo in cui possiamo addestrare la nostra macchina a funzionare sempre meglio rispetto all’obiettivo posto. Il senso è: se l’intelligenza artificiale deve imparare a camminare, nello specifico, lo deve fare sia ponendosi l’obiettivo di avvicinarsi ad un target (punti in più, se si avvicina) che evitando di strisciare per terra (punti in meno, se si muove carponi).

Pubblicità - Continua a leggere sotto :-)

(Tophost) l' hosting web più economico - Usa il coupon sconto: 7NSS5HAGD5UC2

Vale la pena di vedere l’intero video per comprendere la complessità del compito (a dispetto della sua semplice formulazione: il robottino deve “solo” imparare a camminare, alla fine) rispetto ai tempi in gioco, che sono decisamente lunghi (il video viene mandato avanti velocemente più volte), il che dimostra che insegnare ad una macchina a fare qualcosa in poco tempo, usando la tecnica sss, è irrealistico se non impossibile. Questo vuol dire pure che deep reinforcement learning è un tipo di machine learning non necessariamente efficace per apprendere compiti come questo, sia pure che devono essere scomposti a loro volta in più dimensioni e tengono conto di vari vincoli: il robottino deve stare in piedi su due gambe, bilanciare il proprio equilibrio, mantenerlo nel tempo, mantenerlo mentre compie il primo, il secondo, … l’ennesimo passo, supportare correttamente la direzione ed evitare di precipitare nel vuoto.

Che cos’è il deep learning

Il deep learning (apprendimento profondo) è la disciplina di riferimento in questo ambito e consiste in una forma di apprendimento automatico che utilizza una rete neurale o neuronale. Essa funziona in modo nominalmente molto semplice: prende vari strati di input, li elabora in una o più fasi consecutive, produce dati in output: di fatto, trasforma i dati dalla forma primordiale ad una rielaborata. I metodi di apprendimento profondo, che spesso utilizzano l’apprendimento cosiddetto supervisionato su insiemi di dati “taggati” o etichettati adeguatamente, hanno dimostrato di poter risolvere compiti che comportano la gestione di dati grezzi complessi e a molte dimensionali, come il riconoscimento di immagini e l’elaborazione del linguaggio naturale (ciò che abbiamo idealizzato con il robottino nel video precedente).

Che cos’è il reinforcement learning

L’apprendimento per rinforzo (reinforcement learning) è il processo in cui un agente software impara a prendere decisioni, sfruttando una tecnica trial and error. Da un punto di vista matematico, il processo viene modellato mediante un processo di decisione di Markov che modella, nello specifico, il passaggio di stato da s a s’ mediante l’azione a, valutando nel contempo la ricompensa numerica (positiva per i premi, negativa per le punizioni) ad ogni passaggio. Si cerca così di massimizzare il rendimento dell’agente determinando progressivamente una politica adeguata.

In termini schematici: un agent (agente) effettua un’azione all’interno di un ambiente (environment) e ne tira fuori una ricompensa R ed uno stato S, che poi vengono utilizzati come input al fine di alimentare il processo e decidere l’azione successiva da compiere.

Pubblicità - Continua a leggere sotto :-)
Cerchi alternative a Google Adsense per il tuo sito? Prova TheMoneytizer!
Usa il codice 189ed7ca010140fc2065b06e3802bcd5 per ricevere 5 € dopo l'iscrizione

Sei un webmaster? Prova TheMoneytizer per il tuo sito
By EBatlleP - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=86248030
By EBatlleP – Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=86248030

Deep reinforcement learning

A questo punto non dovrebbe essere difficile determinare cosa sia il deep reinforcement learning che abbiamo spiegato in precedenza, ovvero un metodo che combina le due tecniche precedenti per risolvere problemi di decisione (far camminare un automa, ad esempio), in cui si sfruttano sia le tecniche di apprendimento profondo (deep learning) che quelle di rinforzo. Il gran numero di dimensioni in ballo, evidenziato nel caso del robot dalle tre dimensioni, dal fatto di possedere vari “arti”, doverli gestire nonchè dover mantenere un equilibrio nel tempo, contribuisce alla scelta di determinare l’algoritmo ideale in modo dinamico, addestrando la base di rete neurale sui dati a disposizione e “facendo fare esperienza” all’intelligenza sulla logica premio/punizione che abbiamo visto.

Pubblicità - Continua a leggere sotto :-)
Sei un webmaster? Prova TheMoneytizer per il tuo sito

👇 Contenuti da non perdere 👇



Questo sito web esiste da 4664 giorni (13 anni), e contiene ad oggi 4353 articoli (circa 3.482.400 parole in tutto) e 23 servizi online gratuiti. – Leggi un altro articolo a caso

Numero di visualizzazioni (dal 21 agosto 2024): 0
Pubblicità - Continua a leggere sotto :-)
Segui il canale ufficiale Telegram @trovalost https://t.me/trovalost
Seguici su Telegram: @trovalost

Trovalost.it

Ho creato Trovalost.it e ho scritto quasi tutti i suoi contenuti relativi all'informatica. Credits immagini: pexels.com, pixabay.com, wikipedia.org, Midjourney, StarryAI, se non diversamente specificato.