No guagliù no non non è possibile non è Allora Open e si è inventato sta cosa di fare 12 rilasci in 12 giorni ed è stata azzeccatissima una mossa azzeccatissima anche dal punto di vista del marketing mi metto per un attimo No Raffaele esperto di marketing è stata una trovata veramente geniale e hanno rilasciato un botto di roba dopo che hanno fatto un anno un pochino così e così sapete che mi sono lamentato spesso qui sopra di alcune cose che non mi hanno convinto alcuni rilasci che sono arrivati molto tardi alcune cose no che è

stato annunciato in pompa magna e poi AB dovuto aspettare quasi un anno per vederlo e qua C'hanno veramente bombardato di roba perché è arrivato finalmente Sora Hanno annunciato la versione full di ow ci hanno dato finalmente la telecamera in tempo reale dentro GPT da mobile eccetera eccetera ero molto curioso e super excited Come si direbbe in in inglese per l'ultimo giorno e ho detto che cazzo faranno questi l'ultimo giorno e probabilmente già avete letto la news A questo punto se state vedendo questo video o forse il titolo del del mio video se ieri non avete

visto niente è stato annunciato un nuovo modello è stato annunciato un nuovo modello questo nuovo modello si chiama o3 tra l'altro detto l'hanno chiamato o3 per non fare uno sgarro a O2 la compagnia telefonica non so se era una battuta era vera però hanno saltato e sono andato direttamente a o3 hanno rilasciato o3 e sembra fuori di testa Allora eh Questo è il video ufficiale dell'annuncio io ve lo lascio qui sotto ve lo vedete tanto sono 20 20 minuti diciamo si può vedere vi lascio pure i link Poi ufficiale ci sono un paio di passaggi

nel video che voglio farvi vedere veramente un paio proprio che secondo me sono interessanti qua è dove fanno vedere i Benchmark quindi faccio partire un attimo il video mettiamo pure i sottotitoli per sicurezza faccio partire il video Ah passaggio veloce il modello non sarà disponibile fino a fine gennaio 2025 Questo è quello che hanno detto nei commen molta gente ha detto sì però non facete come Sora che poi ce lo date dopo dopo un anno al momento è accessibile solo a ricercatori Quindi se uno è un ricercatore si può mettere nella lista d'es se ti

danno un accesso in anteprima solo per testarlo per motivi di sicurezza e dopo Diciamo pure qualcosina sulla questione sicurezza perché Open ha detto un paio di cose interessan pure su questo further ad I'll Hand it Over to Mark to talk about it Cool Thank you so much Sam So My name is Mark I lead Research at Open ai and I want to talk a little bit about o3 capabilities Now o is a really Strong Model at very hard Technical benchmarks and I want to start with coding benchmarks If you Bring Those up la prima cosa

coding Benchmark questo qua sulla sinistra sono i risultati che avevo ottenuto o One quindi non o One preview che era la versione diciamo ridotta che hanno rilasciato ma quella finale No quella quella completa il livello di accuratezza era poco sotto 50% su diciamo su questo tipo di Benchmark Wu da 50% a 71% on software Style benchmarks we have swe Bench verified Which is a Benchmark consisting of Real World software tasks We è un Benchmark fatto di Task nella vita reale no sta dicendo qua quindi Task nella vita reale task di programmazione nella vita nella vita

reale e è un salto proprio impressionante Cioè 20% in più è un salto impressionante per quanto ripeto sempre che i Benchmark Vanno presi con le pinze ma più avanti c'è un Benchmark che me ha lasciato senza parole perché questo è interessante ma c'è un Benchmark che è clamoroso vado un po' avanti Voglio vedere un Qua dice non solo sulla programmazione anche nella matematica vediamo nella matematica che combina o3 Cioè metto un attimo pausa Allora questa era One preview e quindi si piazzava su un onesto 60% o One era già clamoroso arrivando all'83 e3 83 tre

o tre quasi la perfezione cioè quasi 100% come dice poi dopo lui avanti nella diciamo nella nel nel video dice significa che o tre se gli date impasto diciamo no proprio tutte le domande reali di diciamo di di di di una competizione come questa del dell' Aime significa che sbaglia una domanda cioè che ogni tanto sbaglia sbaglia una domanda e phd level Science questions quindi domande fatte su diciamo livello phd quindi persone no che hanno un phd il benchmark è questo qua GP qua 87 e 7% 87 7% fuori di testa 7% accuracy versus an1

performance of 8.3% on the Amy What's your best am Score I did Get A Perfect Score da lui Tu quanto fai lui dice io faccio 100% Vabbè lui sarà uno dei più Tosti dentro dentro Open Ey e adesso succede una cosa interessante Come si nota dal grafico e come hanno detto molti esperti diciamo ormai da diversi mesi stiamo saturando questi Benchmark no stanno migliorando talmente tanteo che ormai da da 0 a 100 sti Benchmark stanno quasi a 100 e quindi la differenza Diventa molto molto minima cioè si passa da 95 a 96 a 97 ma

ormai ci siamo e quindi diciamo Adesso si sta iniziando a lavorare con dei Benchmark un po' diversi e molto più Tosti per valutarli perché questi qua ormai sono sono abbastanza diciamo hanno hanno sfondato tutto lo sfond bile Mettiamola mettiamola così vi faccio vedere quando chiamano lui che V una persona terza persona AR Benchmark Questi sono quelli di Arc Benchmark noi Arc Benchmark l'abbiamo citato mi sembra qua sopra un paio di volte Eh sono una serie di Benchmark che stanno nascendo per testare in maniera specifica i modelli di ultima generazione proprio perché con i Benchmark classici

andare a vedere Diciamo quelli degli esseri umani no Prima le competizioni di matematica gare di coding eccetera eccetera ormai siamo al 100% praticamente e quindi stanno nascendo questi Benchmark specifici sugli llm dove il diciamo il tipo di di di di di risultato che che ottengono Di solito è molto molto più più basso rispetto a un essere umano e Ark è uno dei più famosi vediamo i risultati che fa in Ark è fuori di testa V arriva arriva proprio Greg nosto Greg che è il presidente Greg fa un po' di spiega come funzionano questi Benchmark dice

che son fatti con problematiche di questo tipo dice queste sono problematiche che i modelli non riescono a risolvere un essere umano trova facilmente dei pattern qua dentro gli llm invece non ci riescono anche o One aveva molta difficoltà ad ottenere dei risultati decenti su diciamo su questo tipo di di Benchmark sono cose che invece un essere umano diciamo con con la logica riesce riesce a capire dice Associa i colori i numeri dei puntini e quindi capisce cosa sta succedendo in quel in quel test voglio andare direttamente al al risultato Eccolo qua un po' più avanti

e qua lui dice una cosa importante dice il benchmark che abbiamo creato noi era un Benchmark dove non era semplicemente non si valutava semplicemente la capacità di memorizzare cose dal passato e rispondere a domande no che poi il grande problema dei Benchmark che Molti dicevano però cioè se il benchmark è rispondere a 100 domande di matematica io addestro i modelli no a memoria su quelle domande di matematica di di di di scienza di programmazione di quello che è e mi piglia un risultato alto ma poi se prendo una domanda che non è nel dataset cosa

succede invece per Benchmark come questo per quello di Arc il modello deve imparare cose in tempo reale No passatemi passatemi il termine non è tanto memorizzare tante cose per dare una risposta ar ags e loro c'hanno questo Diciamo quello quello di punta che si chiama Arc Agi no Quindi proprio è usato un po' come riferimento per il raggiungimento delle gii qualsiasi cosa significhi per voi gii ne abbiamo parlato spesso di questo termine qua sopra quindi i modelli diciamo di di di di di punta in Ark gii negli ultimi 5 anni sono riusc a piazzarsi intorno

al 5% Fatemi mettere pausa Fatemi mettere pausa perché questo è uno dei dati più impressionanti che ho visto nel 2024 Allora lui ha detto negli ultimi 5 anni i top modelli sono riusci ad arrivare al 5% di questo di questo Benchmark si chiama Argi che è una semi private evaluation questo è un altro fattore importante arriva o One e One sono questi puntini in rosso e One riesce a piazzarsi già 8% con la versione mini e poi con l' One completo diciamo sale fino a un 32% che era già un dato clamoroso Guardate sto grafico

e vedete dove si è piazzato o3 87.5 Cioè abbiamo fatto un salto da questo 832 che era la fascia nella quale si muoveva o One a 8,5% cioè quasi massimizzare completamente l'arc Agi Benchmark Io sono curioso nei prossimi giorni vabbè nei prossimi giorni forse ancora presto ma nei prossimi mesi quando daranno accesso alle Epi ad altri Benchmark di questo tipo quindi qu privati semi privati specifici sui sui modelli di vedere come performano anche anche negli altri perché questo dato è clamoroso Cioè se veramente eh diciamo si sta lavorando per raggiungere Questa famosa Agi qualsiasi cosa

significhi Agi per per per le varie aziende coinvolte eccetera eccetera 87,5 per me significa che ci siamo molto molto vicini è clamorosa questa cosa veramente clamorosa vi faccio vedere un ultimo pezzettino dove fanno una demo fanno una serie di Demo Maio Vi voglio far vedere una demo lo fanno vedere in azione and hopefully can test out all the Low Medium High me allora lui qua adesso gli fa eseguire una cosa lo lo usa proprio no dentro C GPT quindi gli sta scrivendo gli sta dicendo adesso di scrivergli un pezzo di codice scri un pezzo uno

script Python che mi lancia un server locale che mi apre un file HTML con un textbox quando metto del testo dentro questo textbox e premo il pulsante invio deve mandare una request code alle api di o3 con questo parametro diciamo Medium eccetera eccetera prendere questo risultato metterlo dentro un file sul desktop eccetera eccetera eccetera Non si tratta più di dirvi farmi un pezzettino di codice e così via qua gli ha detto di fare una serie di passaggi vediam Sen che racconto Alli anding the Mod to use Python to implement code Generator and executer so If

I Launch this Run this like Python script It will Launch a server and locally with a with with ui that contains a text box and then we can make coding requests in a text box It will Send the request to call mini api non sto commentando il tizio sta spiegando la cosa che che ho detto io vado un pochino più avanti lo sta mettendo dentro un file pyon adesso apre l'indirizzo il primo pezzo è andato Ok la pagina HTML era la parte facile adesso dentro questa pagina dovrebbe fare una chiamata nel backend alle api di

se stesso Eccolo qua qua si vede nella console ha scritto questo file in locale sul desktop Eccolo qua si intravede pure questo file qua in basso a destra dentro il file c'è l'informazione che aveva chiesto il tizio metti la scritto Open High più numero Random esce 41 Poi dopo fanno una battuta e dice Ah magari nella prossima demo facciamo vedere pure un codice che si che si sistema da solo e Sam Altman fa dici No questo è meglio di no forse è meglio fanno parte di queste battute che stanno faccendo in questo periodo sul tema

delle gi ci hanno preso Eh ci hanno punzecchiato un po' per questi 12 giorni facendo una serie di battute sulle gii no parecchi l'hanno presa anche seramente tutte quelle scritte Don't show in live eccetera eccetera e poi all'ultimo giorno Hanno praticamente quasi annunciato un prodotto che si potrebbe definire Agi lo so che si deve andare molto catico con queste dichiarazione Ok lungi da me dire che questa roba qua Lo è però si va in quella direzione là no Quindi con una capacità di reasoning ancora più elevata addirittura con tre livelli dove gli puoi dire tu

voglio che ragioni per poco per tanto o per un per medio in base alla complessità del del del Task che gli è stato assegnato eccetera eccetera eccetera vi lascio il link completo al video e anche all'annuncio andatevelo sempre a vedere e a leggere queste cose no i miei video devono essere uno spunto ma poi mi raccomando approfondite per capire bene le cose un like e un commento tattico a questo video perché sto registrando di sera tardissimo dopo aver visto la conferenza in live per farvele uscire in tempo e per farvelo vedere perché questa roba è

fuori di testa se finisce il 2024 veramente con con il botto like commento tattico questo video se lo merita e Natale siamo tutti più buoni e se vi siete persi le altre novità che annunciato openi in questi giorni quella che io aspettavo da più tempo in assoluto è finalmente la possibilità di avere la telecamera in tempo reale su cgpt da mobile ed è una figata l'ho usato ci ho fatto una demo ve la faccio vedere in questo video Guardate un pochino cosa si può combinare adesso con cgpt cliccate il video che vi compare adesso a

schermo

OpenAI annuncia a SORPRESA o3: hanno raggiunto l'AGI?!