acaba de superar la ía el umbral hacia la agi sin siquiera darse cuenta Eso es precisamente lo que este artículo pretende examinar titulado la sorprendente eficacia del entrenamiento en tiempo de prueba para el razonamiento abstracto esta investigación proviene del mit y creo que va a ser un artículo fascinante ya que aborda uno de los puntos más difíciles que existen en la ia Pero antes un mensaje de nuestro sponsor dirías que estas personas de aquí son [Música] reales pues no no lo son son hechas por Inteligencia artificial apop a es una plataforma con la que puedes
generar todo tipo de imágenes de personas que no son reales pero Espera que se pone todavía mejor porque puedes incluso esas fotos y crear vídeos a partir de ellas es tan fácil como escoger cómo quieres hacer a tu modelo si es hombre mujer altura y una gran variedad de otros elementos Y en cuestión de segundos tendrás a tu modelo tal cual como te lo habías imaginado en tu cabeza pero si no quieres hacer todo esto esto no te preocupes tienes modelos previamente generados por la comunidad de forma totalmente pública y gratuita en su página voy
a enseñar mi propio modelo es tan fácil como darle a crear modelo y tienes una serie de opciones Como subir una imagen de referencia o dejar que la ia la cree por ti pones su nombre y una pequeña descripción si utilizas la ia te deja escoger entre hombre mujer la edad el país de procedencia de qué estilo sean sus ojos su pelo el color la forma de la cara y una gran variedad de opciones más también ofrecen un servicio de video Face Swap por si quieres cambiar tu cara a la de alguno de tus modelos
ahí la creatividad es infinita te dejo el link en la descripción con el que tendrás un 15% de descuento Ahora sí continuemos con el vídeo La mayoría de vosotros ya conocéis los puntos de referencia como gsm 8k y gpq pero sabíais que existe un punto de referencia específico creado por Francis choet ingeniero senior en Google conocido principalmente por crear la biblioteca de aprendizaje profundo que es en 2015 Échale un vistazo a lo que Comenta sobre el punto de referencia ar agi cuando os muestre los resultados de esta reciente investigación entenderéis lo importante que es ar
benchmark and need Why the we in a satur sure so ar is intended as a kind of iq test Machine intellig and mak benks It's designed to be resistant to memorization so if you Look at the way lms work They are basically this Big interpola Memory and The way you scal up the capabilities is by trying to cram as much Uh knowledge and pattern as possible into them and Uh by contrast ar does not require a lot of knowledge at all It's designed to only require What's known as Core knowledge which is basic knowledge about
things like Uh Elementary physics object Counting that sort of Thing um the sort of knowledge that Any foury old or fye old Uh possesses right um but What's interesting is that each puzzle in ar is novel is something that you've probably not encountered before even If youve memorized the entire internet and That's What makes it Sorry That's s makes ark challenging for lms and so Far lms have not been doing very well on it in fact the approach básicamente por si no has entendido lo que ha dicho Francis está diciendo que el punto de referencia
ark que inventó es muy distinto a los puntos de referencia tradicionales en los que los modelos de lenguaje extenso pueden sobresalir Incluso si han visto la pregunta este tipo de prueba es muy diferente porque implica que no se les puede entrenar específicamente para este tipo de examen los humanos suelen alcanzar un rendimiento cercano al 85 por pero los llm tienen muchas dificultades para que os hagáis una idea de cómo es este tipo de prueba aquí os enseño un ejemplo es bastante simple en este sentido podéis ver que hay áreas con huecos y en una de
ellas el área amarilla está rellenada luego en otro ejemplo hay un objeto con un agujero en el medio que también está rellenado con amarillo en cada uno de estos casos los huecos se rellenan con amarillo y se haría lo mismo en la salida los modelos de lenguaje extenso suelen tener dificultades con este tipo de pruebas ya que no las han visto antes esto implica que cuando se enfr enfrentan a problemas nuevos donde no hay un patrón conocido tienen problemas para razonar este es el llamado problema de que los llm luchan con tareas fuera de distribución
Si queremos alcanzar una Inteligencia artificial general necesitamos un sistema que rinda bien en es tipo de pruebas porque eso significaría que puede manejar tareas desconocidas de manera confiable en múltiples aplicaciones y sectores Aquí es donde entra esta investigación del mit titulada la sorprendente eficacia del entrenamiento en tiempo de prueba para el razonamiento abstracto este estudio analiza como los modelos de lenguaje han demostrado un rendimiento impresionante en tareas dentro de su distribución de entrenamiento pero a menudo fallan ante problemas nuevos que requieren razonamiento complejo el estudio Investiga la efectividad del entrenamiento en tiempo de prueba lo
cual implica actualizar temporalmente los parámetros del modelo durante la inferencia utilizando una pérdida derivada de los datos de entrada en resumen han logrado encontrar una forma de mejorar considerablemente estos modelos y los resultados son sorprendentes porque superan el nivel de razonamiento humano esto es increíble ya que es la primera vez que se consigue en un punto de referencia donde tradicionalmente se considera que los modelos de lenguaje extenso fallaban esto es básicamente lo que hicieron aquí podéis ver un ejemplo rápido de los datos de entrenamiento en tiempo de prueba sin entrar en demasiados detalles usaron un
método de búsqueda de posibles soluciones a una pregunta este método implicaba transformar el modelo vertical y horizontalmente y también aplicaron una estrategia de dejar uno fuera por ejemplo si intentaban predecir el número siguiente en una secuencia como 2 4 6 que sería ocho primero analizaban las predicciones Entre cuatro y seis para deducir cuál vendría antes dos luego miraban entre dos y seis para determinar cuál vendría en medio cuatro y así exploraban distintas combinaciones para predecir el siguiente número esta variación del algoritmo de búsqueda les permitía explorar diversas posibilidades de solución a partir de las predicciones
generadas por estas transformaciones aplicaron un método de votación jerárquica primero usaron votación de transformación a nivel individual y luego una votación global para elegir las respuestas más coherentes y correctas también mencionaron que usan un modelo de autoconsistencia para validar las predicciones a través de las diferentes entradas transformadas asegurándose de que la respuesta elegida fuese la que pareciera con mayor frecuencia en todas las variaciones esto se asemeja a una búsqueda de consenso o consistencia entre las salidas ahora bien podéis pensar vale toda esta técnica de búsqueda suena bien pero cuáles fueron los resultados de este estudio
lo sorprendente de todo esto y la razón por la que algunas personas afirman que estamos acercándonos lentamente a la ía de nivel agi es que nos encontramos como la rana que está en agua hirviendo esta analogía significa que si pones a una rana en agua muy caliente saltará de inmediato pero si la pones en agua que se va calentando poco a poco no se dará cuenta y terminará hirviendo Y eso es Aparentemente lo que ha sucedido ahora están afirmando que han alcanzado una precisión de validación pública de Última Generación del 61,9 igualando el promedio de
puntuación humana sus hallazgos sugieren que la búsqueda simbólica explícita no es el único camino para mejorar el razonamiento abstracto en estos modelos lo sorprendente de esto es que estamos viendo un rendimiento al nivel humano en un punto de referencia que en teoría nos indica si hemos alcanzado la agi algunas personas argumentarán que este tipo de prueba de razonamiento abstracto no determina Realmente si hemos alcanzado la agi especialmente si consideramos la definición de agi según Open la agi según una de las definiciones es un sistema autónomo capaz de superar a los humanos en la mayoría de
trabajos de valor económico existen varias interpretaciones pero creo que incluso si aplicamos estos métodos a distintos modelos podríamos entender Cómo hacer que los sistemas sean mucho más precisos y luego Traducir este Avance en trabajos valiosos lo interesante aquí es que esta investigación sugiere que podría haber un camino claro hacia la agi ahora muchas de las cosas que hemos visto empiezan a tener sentido Déjame explicarte exactamente a qué me refiero uno de los conceptos con los que ya muchos están familiarizados es probablemente el paradigma 01 este artículo se asemeja a dicho paradigma porque el modelo 01
de Open eye realiza búsquedas en tiempo de inferencia lo sorprendente es que en realidad no sabemos qué están haciendo estos modelos de Open eye durante la inferencia ya que los tokens de razonamiento están ocultos para proteger sus modos operativos Pero sabemos que a medida que aumenta el tiempo de cómputo durante la prueba es decir cuando permitimos que el modelo piense durante más tiempo su capacidad para obtener puntuaciones más altas en puntos de referencia y razonar de manera más eficaz aumenta esto es exactamente lo que muestra este artículo que evidencia una mejora de seis veces en
rendimiento usando solo un modelo de llm de 8000 millones de parámetros lo impactante del paradigma 01 es lo que revela sobre algunos de los datos previos que conocemos sobre la ia recuerdas alfago y lo que sus creadores decían sobre el futuro de los llm hace apenas un año think Mod um solving you need to Start searching so If I think about Something Like alp in the move 37 Famous 37 Where did that come from did that come from all Data that it's seen of human games or Something Like that no it didn't it came from
it identifying a move as Being quite unlikely but possible and then vi process of Search com to understand that the That was actually a very very good move so you need to get real creativity you need to Search through spaces of possibilities and find these sort of hidden GS That's what I think current Language models They don't really do that kind of a Thing they really are mimicking the Data they're mimicking All the human ingenuity and Everything Which they have seen from all this Data That's coming from the internet That's originally derived from humans if
you want a System that can go truly Beyond that and Not Just generalise a novel Ways so Can you know these models can Blend things they can do you know Harry Potter in the Style of a Kan West WAP or something even though Never happen they can Blend things Together but to do something truly creative that there's Not Just a blending of existing things that requires searching for a space of possibilities and finding these hidden gems that that sort of the hidden away in there somewh and that requires Search so I don't think we'll see
Y eso es precisamente lo que estamos viendo en la sorprendente eficacia del entrenamiento en tiempo de prueba para el razonamiento abstracto un punto de referencia en el que tradicionalmente los llm fracasan por completo sin embargo al aplicar estos métodos y técnicas de búsqueda Es evidente que se puede elevar aún más el rendimiento en dicho puente de referencia Shane Lake de Google deepmind no fue la única persona que habló sobre este tema Si os lo estáis preguntando También tenemos información de personas que trabajaron en el modelo 01 y fijaos en lo que comentan sobre un juego
anterior llamado hanabi observaron Un aumento drástico en el rendimiento que literalmente no podían creer y que por supuesto se debió a las técnicas de búsqueda This is what you would get by adding Search Alor toots so if you Take hand was 28 One that Had the highest expected value That would Boost your performance to nearly 60 per Which was beating All the previous deep rl Bots Just out of the Box this was using like a Single cpu Core at test Time Uh For Like a Second and The Beautiful Thing was that you could actually add
this on top of all the other depr rl Bots so if you added it to like the latest degrades Bot Uh deepl Bot you would Boost the performance even further to Uh around 72 per and then if you did this This is only if you did search for a single Player so if you did it for both Players That's The Green Bars and you can see the performance went up even more um now I should also Point out that the point of the Upper bound for this game is not 100% Because there are some there
are some like deal outs that you just cannot Win so really the top performance possible Is Like I think Maybe 9% um and so you can see like we quickly saturating um performance in this domain Now when my teammates And I at fair um got this result my teammate literally thought It was a bug Because It was Just unimaginable You Do this like simple Thing and the performance jumps up from like 2% to State of the 8% um por eso vemos una Clara tendencia hacia un futuro en el que el computo en tiempo de prueba
y en tiempo de entrenamiento ser fundamentales para permitir que los llm y otros sistemas de ia utilicen diferentes mecanismos de búsqueda existen varias maneras de realizar búsquedas en estos sistemas de ia pero parece evidente que esta será la próxima técnica que muchos sistemas futuros emplearán para desbloquear razonamientos avanzados Y por supuesto para enfrentar problemas fuera de distribución Lo importante es que aunque la búsqueda Es una herramienta increíble esto me llevó a reflexionar si comparamos Cómo funcionan los humanos con los sistemas de ia está claro que un sistema de ia puede explorar hasta 1000 o incluso
10,000 posibilidades Pero qué pasaría si esta búsqueda fuera aún más eficiente en cuanto a muestras fijaos En lo que dice deis hassabis porque es precisamente en esto en lo que estoy pensando claro podemos crear sistemas de ia que superen las capacidades humanas pero este tipo de búsqueda Simplemente no es tan eficiente como la de los humanos Alpha Zero and Alpha Go made You look around tens of thousands of um possible positions in order to make a decision About what to move next but a human grandm a human World Champion Uh probably only looks at a
few hundreds of moves even the top ones in order to make their very Uh good decision About what to play next so that suggests that obviously the brute Force systems don't have any real model other than the heuristics about the game Alpha Zero has quite a decent uh uh model but the world but the human you know human top human Players have a much richer much more accurate model than of Go or chess so that allows them To Make You know World Class decisions on a very small amount of Search so I think there's Still
there's a sort of tradeoff there like you know if you improve the models then I think your Search can be more efficient and therefore you can get further With Your se cuando entendemos esto vemos como estos sistemas de aa explorar una variedad de posibilidades generando salidas más creativas Ajustando la temperatura del modelo lo cual permite obtener soluciones más diversas y aumentar la probabilidad de llegar a la respuesta correcta luego se entrenan estos patrones de pensamiento que llevaron a las respuestas correctas quizás os preguntéis Entonces si este es el motivo por el que Sam alman mencionó
en una entrevista reciente que saben exactamente Qué deben hacer para alcanzar la agi Y claro recordemos que en el blog de Open eye cuando hablaron del modelo 01 mencionaron como al permitirle 10,000 intentos por problema el modelo alcanzó una puntuación destacable esto muestra que lo que viene de Open eye ya no parece ser solo publicidad realmente parece que tienen una hoja de ruta hacia la agi posiblemente mediante una combinación de distintas tácticas de búsqueda Y perfeccionando cómo hacer esa búsqueda aún más eficiente Será interesante ver qué ocurre con el modelo 02 ya que samman predice
que alcanzará un 105 por en el punto de referencia gpq y también anticipa que saturar muchos de estos puntos de referencia además muchas Investiga ion de otras compañías parecen respaldar el paradigma 0102 Me encantaría conocer vuestras opiniones sobre si realmente hemos alcanzado la agi en el aspecto fuera de distribución pero sin duda será fascinante ver Hacia dónde se dirigen las cosas a partir de ahora