Ma Google sta per fare un'altra rivoluzione Nel campo dell'intelligenza artificiale potenzialmente sì Guardando un Paper che è stato pubblicato recentemente su questa nuova architettura che si chiama Titans lo vediamo insieme questo è il paper mi sono segnato giusto un paio di cosine che voglio condividervi faccio un attimo un passo indietro gli strumenti che utilizziamo oggi no i vari cgpt Cloud eccetera eccetera in un certo senso dobbiamo ringraziare Google e quel famoso Paper del 2017 SEO sbaglio Attention is all you need l'attenzione è quello di cui ha bisogno diciamo nei quali si diciamo vi veniva presentato
per la prima volta questo approccio rivoluzionario questa architettura dei dei Transformers che poi nel tempo diciamo hanno portato a con n n anni dopo no n passaggi dopo hanno portato ad avere gli strumenti che ho semplificato tantissimo ovviamente eh i Transformers però hanno anche delle diciamo delle limitazioni e quella di cui si parla spesso che poi viene affrontata anche all'interno di questo paper ovviamente è il tema della contest Window no Quindi queste finestre di contesto che sono limitate sono sonoo piccole sono ridotte anche se diciamo stanno aumentando sempre di più e con gemina mi sembra
che la è la più grossa sul mercato al momento è di 2 milioni però comunque diciamo sono sono sono limitate e soprattutto portano una complessità enorme proprio in termini di di tempo e di calcolo per doverle gestire questo lo vediamo anche nel nel nel Paper Allora il paper è estremamente complesso Adesso ve lo anticipo estremamente compesso anche per me Diciamo che questa roba mi mi piace Peri ci sono qualche passaggio qu là Diciamo che sono riuscito a capire che voglio condividere con voi e che mi sono segnato poi vi lascio il link qua sotto e
invito come sempre di andare alla fonte Soprattutto a quelle un pochino più smanettoni più Nerd che sta roba piace che vogliono approfondirla in prima persa già nell' abstract c'è una cosa interessante dice che questa nuova architettura quella di Titans permette di scalare in maniera efficace Oltre alle alle contens Window di 2 milioni che come dicevo prima sono le più grandi al momento con elevata accuratezza anche nei Task needle in a High Stack che sarebbe il come dire il in italiano è lago in un pagliaio che che che ve lo ve lo posso spiegare in questo
modo sicuramente vi è capitata questa cosa caricate un PDF molto grande per esempio dentro chat GPT e vi rendete conto che se il PDF è veramente molto molto molto molto grande lo strumento fa fatica a utilizzarlo quindi l'informazione che gli chiedete se si trova nel la prima parte Magari la riesce ad accedere in maniera più facile più l'informazione invece si trova in basso più diventa difficile e alcuni pezzi è come se se li dimenticasse proprio non fosse in grado di di gestirli e di utilizzarli durante la la chat durante il il Task No questa è
la grossa è la grossa problematica Loro dicono che questa cosa viene risolta del tutto con con Titans mi sono segnato giusto un paio di cosine qua ve le faccio vedere le ho sottolineate Vabbè Qua dicono ovviamente che il grosso problema dei diciamo dei TR forance adesso è anche questo no Comes with quadratic time and memory complexity in terms of Cont length quindi la complessità e il tempo è di tipo quadratico no che quindi cresce in maniera incredibile al crescere diciamo della della del del del contesto un paio di passaggi interessanti loro basano diciamo tutto tutto
il concetto principale intorno al quale ruota il questo tipo di architettura è quello di prendere spunto daa memoria degli esseri umani no da da da da da come funziona la nostra la nostra memoria Qua c'è un passaggio Interessante no Dice ci sono diverse definizioni in letteratura in neuropsicologia della della memoria la maggior parte considerano la memoria come un aggiornamento neurale causato da un input Eh e definiscono l'apprendimento come un processo con il quale diciamo acquisiamo m pezzi utili di memoria no quindi diciamo prendendo questa cosa sto semplificando parecchio No il cervello umano funziona in questa
cosa se ti arriva un nuovo input questo nuovo input è per qualche modo importante interessante e quindi ho che ne so letto un articolo di giornale ho visto un'informazione su un in un film esco in strada e riconosco un un che ne so un edificio No questa cosa si si si va va a diventare un nuovo pezzettino della della della memoria questo aggiornamento della della memoria Qua ci sono un po' di riflessioni su questa cosa qua e poi diciamo loro arrivano a dire ok Noi partiamo da questo presupposto che vogliamo provare a costruire questo nuova
questa nuova architettura basandoci su sul concetto di come funziona la memoria ehm umana eh sul fatto che ci sono diversi tipi di memoria che hanno diversi tipi di complessità e vengono utilizzate in modi diversi no quindi la memoria a breve termine la memoria a lungo termine e così via e dic ci siamo posti alcune domande per strutturare bene questa cosa Quindi Quale può essere una buona struttura per la memoria Domanda numero un Domanda numero due Qual è un meccanismo di aggiornamento della memoria che abbia senso No che sia fatto bene quindi quando decidiamo di mettere
una nuova informazione in memoria e quando no questo diventa rilevante Qual è un buon meccanismo per andare a recuperare informazioni dalla memoria No per piare cose che effettivamente sono sono utili servono per quel contesto per quel momento specifico e così via In che modo possiamo progettare un un'architettura che diciamo riesce a utilizzare tutti questi moduli diversi No da mettere poi in in Diciamo in in comunicazione tra tra di loro e ultima domanda la la cinque c'è bisogno di un modulo di memoria aggiuntiva per conservare come dire informazioni che servono nel lungo periodo e queste cinque
domande loro provano poi a rispondere all'interno di questo Paper no E con il lavoro che hanno fatto di ricerca in questi in questi anni quindi cerchiamo di rispondere a queste cinque domande in che modo disegnando quindi progettando questo modulo no di di di memoria a lungo termine che può effettivamente questa è la cosa più importante secondo me learn to memorize a test Time quindi farlo nel momento in cui stiamo andando a utilizzare il Eh stiamo andando a utilizzare la la la la la tecnologia lo strumento e questa è una cosa importante cioè non è qualcosa
che avviene in fase di training no E quindi diciamo su quel modello abbiamo fatto un training queste informazioni c'erano a Monte e sono finite nei diciamo nei nei nei parametri iniziali ma è qualcosa che sta succedendo durante l'utilizzo Quindi durante l'utilizzo ha un meccanismo automatico di memorizzazione che permette di aggiornare in un certo senso quello che il modello conosce no quello che il modello ha memorizzato questo è l'aspetto più importante il fatto che avvenga a test Time questa cosa che poi la grande delimitazione di quello che invece sta succedendo oggi Ehm come la la fanno
questa cosa Questo è interessante anche qui si basano su come dire imitano quello che succede nell'essere umano abbiamo progettato questo modello di memoria eh In modo tale che quando un evento Viola le aspettative quindi è sorprendente è un un momento un'informazione che vogliamo memorizzare no Quindi c'è una sorpresa avviene una sorpresa scopre qualcosa che è una sorpresa poi ovviamente su sorpresa loro vanno a definire bene in dettaglio Che cosa significa sorpresa quando è una sorprese e quando no tutti i potenziali pericoli eccetera eccetera però diciamo per quello che dobbiamo sapere Noi no per il livello
a cui stiamo trattando questa cosa quando un'informazione È un'informazione che sorprende quindi in attesa questa informazione è degna di essere messa in memoria no E quindi viene Eh come dire spostata e messa in in memoria abbiamo Quindi anche realizzato un The King mechanism quindi un meccanismo per dimenticare No per rimuovere per per cancellare che considera quali porzioni della memoria e quali data Quali dati vanno diciamo andare a eliminare questo perché per un Better Memory Management Quindi per una gestione migliore della memoria Cioè significa non è che tutta sta roba Poi viene memorizzata all'infinito No è
sto modello accumula accumula accumula accumula per per sempre ma così come ha una parte che gli consente di memorizzare ciò che è importante c'è anche un'altra parte un altro modulo un'altra funzionalità come la vogliamo chiamare che consente di dimenticare quello che ha perso di importanza e anche qui no si va proprio a imitare quello che succede nella nostra nella nostra mente dove ci sono delle situazioni dove abbiamo bisogno di informazioni ne abbiamo bisogno per un momento molto specifico Dopodiché queste cose non servono più oppure a volte abbiamo bisogno di informazioni che invece devono restare lì
e ci devono restare lì per parecchio tempo no perché ci servono per per per parecchio tempo ovviamente come sto dicendo qua mi mi sono sottolineato solo alcune cose che ritengo interessante come spunti da darvi per stimolare proprio la la la la la riflessione immaginar Sari ipotesi di quello che potrebbe succedere e così via ma tutte le domande che vi stanno venendo sono risposte dentro al Paper no Quindi se volete sapere bene Che significa che alcune informazioni devono essere sorprendenti loro fanno vedere quali sono i parametri attraverso i quali un'informazione viene eh come dire resa degna
di nota e quindi va memorizzata perché è sorprendente e così via scendo un pochino sotto ta ta ta ta ta ce n'era un'altra cosa che volevo farvi vedere Mi sembra che questa qua è l'ultima che ho sottolineato Eh vabbè qua si diciamo nel la parte tre il capitolo 3 è quello dove si parla Quindi di cosa significa memorizzare a test Time ehm eccetera eccetera Diciamo quindi vabbè abbiamo presentato questo modulo che è un metam modello che impara a memorizzare a test time e Qua c'è scritto una cosa molto importante secondo me no dice quando ci
si è presentato questo problema in passato con con diciamo con i Transformers eccetera eccetera un'idea molto semplice Molto banale potrebbe essere quella di addestrare una rete neurale e aspettarsi Che memorizzi i dati di addestramento la memorizzazione però è risaputo che è stato un fenomeno No indesiderabile delle Neal network eccetera eccetera crea problemi di privacy Pure qua sopra ne abbiamo parlato C'è stato un momento nel quale se n'è parlato molto di cgpt che stava risputa eh accumulati memorizzati durante l'addestramento questi dati contenevano indirizzi numeri di telefoni email eccetera eccetera Non so se vi ricordate ma ne
abbiamo parlato all'epoca e poi vabbè c'è il grande tema del fatto che magari quel dato che t'ho messo lì a livello di addestramento Poi quando mi serve potrebbe essere semplicemente un dato come dire non più utile vecchio superato no inesatto eccetera eccetera Eh quindi ci sono queste queste problematiche di questo di questo tipo Ecco perché dico la vera figata qua la vera cosa interessante il cambio di paradigma è questo learns to memorize a test Time no Quindi farlo mentre lo sto utilizzando e qua c'è un altro piccolo passaggio sulla questione no Quindi un evento che
Viola le aspettative e quindi è un evento sorprendente un evento più memorabile per gli esseri umani Ci sono anche tutti i riferimenti in letteratura Se volete andare a vedere proprio la parte di neuropsicologia nella quale si parla No di queste definizioni e così via e qua ci sono anche proprio tutti i parametri fanno vedere quali sono i parametri che loro utilizzano per fare questa eh valutazione No Di cosa va memorizzato con quale peso va memorizzato eccetera eccetera e anche un piccolo passaggio voglio far vedere sul meccanismo di invece di di di di che permette di
dimenticare no Quindi di cancellare le cose dalla dalla memoria Eh quindi diciamo utilizziamo un meccanismo adattivo che permette di diciamo di di di di di di cancellare di dimenticare non mi veneva la traduzione forgetting Ok di dimenticare che permette alla memoria di dimenticare le informazioni che non sono più necessarie e questo permette di gestire la memoria meglio viste le sue capacità le sue capacità limitate ho ho smesso qua che le cose sottolineate c'è un pezzettino che ho saltato pure mi sono dimenticato di sottolinearlo per il video dove fa vedere Ah dentro vi fa vedere che
propongono anche tre tre modi alternativi diciamo di proporre questo modulo di utilizzare questo modo pure quella è una parte interessante che vi consiglio di approfondire e poi soprattutto i tre pezzi diciamo i tre moduli di memoria che vengono che vengono definiti Ah eccolo qua Questo è l'ultimo pezzettino che vi voglio far vedere avevo dimenticato di sottolinearlo perciò non lo non lo trovavo dove parla dell'architettura dice un pochino diciamo Quali sono i tre componenti principali all'interno di questi Titans no Quindi c'è una parte Core che viene considerata un po' come la memoria a breve termine no
quindi su quello che stiamo lavorando in questo momento Poi c'è Invece il secondo modulo il secondo componente il secondo pezzo di memoria Come lo vogliamo chiamare che è quella a lungo termine Ok quindi quella che è responsabile di memorizzare ricordare Long past la parte Diciamo un pochino più più lunga e poi c'è un terzo pezzo un terzo componente persistent Memory Quindi tutte quelle informazioni quei pezzi di dati che sono importanti fondamentali e che sono come dire indipendenti Dalla Dalla Dalla Dalla data No non hanno una una una scadenza Quest sono un pochino le tre componenti
le tre componenti principali come vi dicevo vi lascio il link qui sotto in descrizione so che ogni tanto qua sopra faccio vedere qualche Paper la parte con i Paper annoia molti di voi però secondo me questa era importante E vale la pena quantomeno sapere cosa sta succedendo in che direzione sta andando Google no perché le limitazioni di cui si parla spesso dei Transformers è interessante vedere anche come le altre aziende le stanno affrontando proponendo nuove architetture proponendo nuovi nuovi modelli no nuovi approcci ecco così via tra l'altro questo è un periodo molto molto caldo molto
intenso per Google come ho detto alla fine del 2024 negli ultimi 23 mesi si è ripresa alla grande no ho fatto quell video di considerazione ho detto Google è tornata prepotentemente con un sacco di novità super super interessanti se non l'avete vista una che dovete assolutamente provare è la nuova capacità di Gemini 2.0 di vedere il vostro schermo e guidarvi farvi dei tutorial darvi delle indicazioni su praticamente qualsiasi cosa qualsiasi argomento ho fatto un video qui sopra dove gli faccio fare praticamente un tutorial dico Google mi fai un tutorial di questo software e Google mi
guida passo passo cliccate il link Andate a vedere cosa è capace di fare