Cos’è Google BERT
BERT è un acronimo che indica Bidirectional Encoder Representations from Transformers , espressione intraducibile in italiano che consiste in un algoritmo di intelligenza artificiale che è in grado di processare il linguaggio naturale, quindi ad esempio il francese, l’italiano, l’inglese e così via. Alla base di BERT vi è una tecnologia molto evoluta, fondata sulle reti neurali o neuronali, già in voga da diversi anni per altre applicazioni, e qui sfruttate in termini dei cosiddetti transformers. BERT ha ovviamente rivoluzionato il mondo dell’elaborazione del linguaggio naturale (NLP) con risultati promettenti, che si sono visti sia nell’evoluzione dei software come chatbot sempre più evoluti che nell’ambito puramente SEO, con SERP di risposta alle nostre ricerche sempre più evolute e “umanizzate“.
Si tratta di un caso particolare di rete neurale, detta RNN (Recurrent Neural Network, o rete neurale ricorrente) utilizzata per la comprensione del linguaggio da parte di un algoritmo, o per indurre ad un chatbot (ad esempio) la capacità di rispondere a domande specifiche poste dall’uomo. La parola recurrent denota la capacità di BERT di essere curiosamente dotata di “auto-attenzione”, una dote tecnologica che la presta naturalmente (per quanto si è scoperto) ad essere molto adatta a tradurre in automatico e in modo efficace articoli in francese, inglese e tedesco anche di natura molto complessa. A fronte di una maggiore qualità di “interpretazione” del testo che gli diamo in pasto (in input), richiede anche meno sforzo computazione e si candida, pertanto, ad essere usata con successo dentro BERT.
Esistono vari branch che si adeguano ad altrettanti scopi leggermente diversi: ALBERT, RoBERTa, ELECTRA e SpanBERT, che è quello che viene usato per lo più dai chatbot più evoluti.
Come funziona BERT a livello pratico: il pre-training
L’algoritmo BERT cerca di “imparare” una lingua dalla scansione di una fonte come un sito web, ad esempio, come potrebbe esserlo Wikipedia. Tale fase viene detta pre-training o pre-addestramento, e una volta che ha “studiato” sarà pronta ad effettuare operazioni come rispondere a domande poste in linguaggio naturale (ad esempio: “dove posso trovare un hotel in zona”, ma anche “quanti anni hai”, il che pone una serie di problematiche etiche emerse sul progetto LaMDa, ad esempio).
Alla prova dei fatti, gli sviluppatori sono in grado di effettuare le operazioni di pre-training per uso nell’ambito del cosiddetto NLP (Natural Language Processing), ovvero capacità di processare testi scritti in qualsiasi lingua parlata, in circa mezz’ora di tempo massimo dal lancio della procedura. Vale anche la pena immaginare cosa succederebbe se BERT fosse addestrato su un sito poco controllato o di notizie di scarsa qualità, ad esempio, e non è impossibile immaginare che diventerebbe un potenziale strumento di diffusione di fake news non da poco.
Come funziona BERT a livello di sviluppo
La versione open source di BERT si basa su tecnologia anch’essa open source ad oggi TensorFlow 2.3. Le attività software su BERT sono orientativamente basate sui seguenti passi che ogni sviluppatore o progettista deve eseguire:
- comprensione del transformer;
- test e addestramento di BERT su un modello di linguaggio (MLM);
- test su parole e frasi brevi;
- sviluppo software dopo apprendimento su una knowledge base adeguata (Wikipedia o altri);
- testing e affinamento del prodotto;
- varie ed eventuali: studio modelli interlinguistici (XLM, XLM-R), analisi dei risultati e migliorie progressive del prodotto.
Esempio pratico di BERT nelle SERP di Google
Un esempio classico per capire cosa cambia con BERT per le SERP è quello di immaginare delle ricerche-tipo e provare a vedere, sulla falsariga di quanto indicato dal loro blog, quanto sia sostanziale il mutamento della risposta.
Usa il codice
189ed7ca010140fc2065b06e3802bcd5
per ricevere 5 € dopo l'iscrizione
Il motore di ricerca nel dare una pagina web come risposta ragiona sul matching parziale, esatto o approssimato delle keyword che cerchiamo all’interno delle parole chiave. Questo va bene e va per la maggiore ancora adesso, ma di per sè non è più sufficente: in alcuni casi, infatti, può essere un approccio fuorviante, soprattutto quando il senso di alcune parole fosse ambiguo. Per risolvere la questione BERT ha rivoluzionato l’approccio, introducendo la possibilità per il parser che analizza la frase di cogliere l’essenza delle parole del testo in modo più preciso. I modelli usati da BERT sono infatti in grado di comprendere e analizzare il contesto della frase, ed effettuare quella che viene chiamata definizione della search intent, cioè le reali intenzioni di chi sta cercando a prescindere da come abbia scritto la ricerca (e da quanto la stessa sia a volte “poco ortodossa”, peraltro).
Quali sono le ricerche su cui lavora usualmente BERT, a questo punto? Non abbiamo una lista ufficiale in merito ma, per quanto ne sappiamo da Google stessa, sono frasi in cui sono presenti preposizioni come “per” o “verso” che abbiano una valenza più importante di semplici stopword, ovvero non siano parole da ignorare.L’utente non deve preoccuparsi di come scriva uan ricerca, perchè BERT dovrebbe in teoria essere in grado di capirla lo stesso, grazie ad un semplice motivo statistico: conosce varie forme di frasi scritte nella sua base di conoscenza, e può intuire (per dirla così) cosa sia leggermente diverso e assimilarla ad una semantica già nota.
Esempi pratici di BERT
Qualche esempio sarà di aiuto per capire di cosa parliamo, a questo punto. Google riporta l’esempio di un utente che cerchi “nel 2019 i viaggiatori brasiliani verso gli stati uniti hanno bisogno di una carta visa“? La preposizione “verso” è molto importante per comprendere il contesto: ci interessa capire cosa debbano fare i viaggiatori diretti negli USA, e questo senza BERT sarebbe impossibile da effettuare. La confusione potrebbe regnare sovrana, perchè Google potrebbe restituire pagine web che parlano di cittadini USA che vanno in Brasile, ad esempio. Motivo per cui, nei tempi pre-BERT, sarebbe apparsa in prima pagina su Google un articolo che parla di viaggiatori USA che vanno in Brasile o viceversa, imprevedibilmente. Oggi, con BERT, può comparire il sito dell’ambasciata brasiliana negli USA, con tutte e sole le informazioni necessarie.
Facendo un altro esempio per capire ancora meglio, ecco cosa succede con e senza BERT in risposta alla ricerca “gli estetisti fanno un sacco di lavoro“: senza BERT, esce plausibilmente fuori una pagina web che riporta semplicemente le corrispondenze delle parole utilizzate. Con BERT, al contrario, le parole della ricerca sono contestualizzate meglio, e Google comprende la sfumatura esistente del verbo stand, che non va inteso come “stare in piedi” e non va matchato nella pagina così com’è (screen a sinistra, sotto BEFORE), ma va inteso nel contesto di un sito differente che si occupa, ad esempio, della salute e dello sforzo fisico legato alla professione di estetista (screen a destra, AFTER).
👇 Contenuti da non perdere 👇
- Cellulari 📱
- Domini Internet 🌍
- Informatica 🖥
- Reti 💻
- Spiegoni artificiali 🎓
- 💬 Il nostro canale Telegram: iscriviti
- 🟡 Il tuo pacco sta arrivando – ma è solo una truffa
- 🟡 Che cos’è uno switch in informatica
- 🔴 Come programmare la sveglia sul Mac