un nuevo artículo de investigación en ia ha revelado algunas sorprendentes estructuras geométricas en los conceptos aprendidos por los modelos de lenguaje grandes llm Max techar ha publicado recientemente un artículo que Revela la sorprendente estructura de los cerebros de la ia habla sobre cómo nuestro nuevo artículo sobre ia Revela la sorprendente estructura geométrica si no está familiarizada con el hecho de que los modelos de lenguaje Grandes como gpt han sido algo así como una caja negra es decir sabemos que funcionan pero comprender exactamente cómo lo hacen ha sido un desafío es un poco como tener un
coche que funciona perfectamente pero sin poder ver lo que hay debajo del capó recientemente científicos han desarrollado herramientas llamadas autoencoders dispersos estos autoencoders dispersos funcionan esencialmente como máquinas de rayos X para la ia permitiéndonos echar un vistazo al interior y ver cómo estos modelos organizan la información es como si finalmente pudiéramos mirarar bajo el capó de ese coche y descubrir un motor sorprendentemente organizado los investigadores encontraron tres niveles de organización distintos cada uno más complejo Que el anterior y lo más fascinante es que esta estructura en capas no fue programada surgió de forma natural a
medida que la ia aprendía primero tenemos el nivel uno que es la estructura atómica aquí es lo que encontraron los investigadores descubrieron que en su nivel más básico la ia organiza los conceptos en patrones geométricos imagina un gran rompecabezas tridimensional en el que los conceptos relacionados están conectados entre sí en formas específicas un ejemplo clásico que usaron es comoo la ia comprende la relación entre palabras si representan los conceptos de hombre mujer Rey o reina en el espacio mental de la ía forman un paralelogramo perfecto que es esencialmente una forma similar a un rectángulo estirado
la distancia entre hombre y mujer es la misma que entre rey y reina esto muestra que la ia ha aprendido que Añadir el concepto de feminidad funciona de la misma manera ya sea al hablar de la realeza o de personas comunes aquí es donde encontramos algo fascinante he conseguido crear un pequeño artefacto con Claude que ayuda a visualizar exactamente lo que estoy explicando podemos ver que la relación entre hombre y mujer es paralela a la misma relación entre rey y reina formando un supuesto paralelogramo sin embargo Claude Tiene bastantes dificultades para representar esto de forma
precisa esto también se aplica a las capitales de los países como puedes ver aquí las relaciones entre países y sus capitales forman patrones similares en la comprensión de la ia lo mismo ocurre con los tiempos verbales en pasado los verbos en pasado muestran relaciones paralelas aunque no siempre de forma tan regular como en otros ejemplos Esto fue un tema tratado en el artículo y personalmente me pareció algo fascinante pero antes un mensaje de nuestro sponsor y Level labs Es una herramienta de ía generativa de voz que ofrece una de las tecnologías de texto a voz
voz a voz y también clonación de voz más avanzadas del mercado quieres crear voz de narradores realistas para tu contenido o necesitas un lector de texto fácil de usar y Level labs tiene la solución al principio estos patrones eran difíciles de detectar porque estaban ocultos entre información irrelevante es como intentar ver una constelación con contaminación lumínica primero hay que filtrar las luces que distraen los investigadores descubrieron que elementos como la longitud de las palabras generaban ruido que necesitaba ser eliminado para revelar los patrones reales a partir de Ahí llegamos al nivel dos la estructura cerebral
el hallazgo más emocionante fue que el conocimiento de la ia está organizado en regiones o lóbulos distintos de manera similar a como el cerebro humano tiene diferentes áreas para funciones específicas esta organización no fue programada surgió de manera natural Ahora hay tres lóbulos principales está el lóbulo de codificación y matemáticas donde se especializa en programación y conceptos matemáticos este se activa de manera intensa cuando la i aborda una tarea de codificación o un problema matemático mostrando límites claros con respecto a otros tipos de conociento luego tenemos el lóbulo de lenguaje general que maneja el procesamiento
de texto en inglés estándar y se ocupa del conocimiento general y la comprensión amplia este lóbulo procesa contenido más largo como artículos y documentos por último está el de diálogo especializado en texto conversacional y mensajes cortos este se activa especialmente durante las interacciones en chat y maneja estilos de comunicación diferentes a los del lóbulo de lenguaje general la investigación en ia demostró que estos lóbulos no son aleatorios al Mostrar que las características que suelen activarse juntas están físicamente próximas en el espacio mental de la ía esto es sorprendentemente similar a como las neuronas que se
activan conjuntamente en un cerebro tienden a estirar físicamente cerca de unas de otras luego tenemos el nivel tres del cerebro de la ia que es la estructura galaxia aquí es donde al observar todo el sistema en su conjunto Los investigadores encontraron que el conocimiento de la ía está organizado de manera específica siguiendo patrones matemáticos esta organización no es aleatoria sino altamente estructurada especialmente las capas intermedias de la ia algunos hallazgos clave indican que esta organización es más notable en las capas intermedias de ia donde las representaciones se vuelven muy abstractas y consolidadas reflejando las transformaciones
más significativas de los datos de entrada esta capa actúa como una especie de cuello de botella de información en el que solo se retienen las características más esenciales para su procesamiento posterior mejorando la capacidad del modelo para generalizar además la información en este cerebro de ia parece estar comprimida de forma eficiente de manera similar a como el cerebro humano reduce las entradas sensoriales complejas en fragmentos manejables para un procesamiento eficaz las capas intermedias de la ia condensan grandes cantidades de datos en representaciones simplificadas de alto nivel lo que permite el modelo centrarse en las características
mientras descarta los detalles irrelevantes lo que mejora su rendimiento En diversas tareas la estructura sigue patrones matemáticos específicos esencialmente leyes de potencia que sugieren una organización óptima estas leyes de potencia indican que la distribución de la importancia de las características no es aleatoria sino que sigue un patrón organizado y predecible los componentes principales más grandes dominan en la representación mientras que los componentes menores van disminuyendo creando una jerarquía natural de la información esta Estructura jerárquica No solo hace que la ella sea más eficiente sino que también se alínea con la forma en que los sistemas
biológicos incluido el cerebro humano tienden a priorizar y procesar la información ahora por qué eso relevante y significativo para la investigación en ia gracias a este análisis podemos observar cómo los sistemas de ia organizan la información lo cual tiene importantes implicaciones tanto en investigación como en aplicaciones prácticas esto ayuda a explicar Por qué las ias son tan efectivas En diversas tareas al comprender la organización interna de estos sistemas podemos ver cómo los modelos son capaces de generalizar identificar patrones y adaptarse una amplia variedad de desafíos desde la traducción de idiomas hasta la resolución de problemas
esta organización detallada es lo que dota la ía de Sub versatibilidad y eficiencia además esta comprensión abre la puerta a posibles mejoras si sabemos cómo estos sistemas organizan los conceptos podemos realizar mejoras específicas por ejemplo podríamos perfeccionar la forma en que se aprenden las características para mejorar la claridad de ciertos lóbulos o incluso desarrollar nuevos métodos de entrenamiento que refuercen ciertas capacidades este conocimiento también puede ayudar a reducir sesgos optimizar la eficacia computacional Y hacer que los modelos de ia sean más interpretables lo cual es esencial para su implementación en áreas sensibles como la sanidad
y las finanzas es bastante sorprendente porque guarda paralelismos con la cognición humana esto sugiere que podría existir un principio fundamental sobre cómo la inteligencia organiza la información el hecho de que la ía y los cerebros biológicos hayan llegado de forma independiente a maneras similares de estructurar el conocimiento implica que podría haber reglas universales que rijan el procesamiento eficiente de la información este hallazgo tiene el potencial de influir en el diseño de futuros sistemas de aa haciéndolos más alineados con la inteligencia natural además esto podría ayudarnos a comprender mejor tanto la ia como la cognición al
estudiar estas estructuras en la ía podemos trazar paralelismos con el cerebro humano y aprender más sobre cómo funciona nuestra propia mente comprender Por qué la ía desarrolla estos lóbulos y las funciones que cumplen podría llevarnos a crear mejores modelos de la cognición humana ofreciendo una visión más profunda de cómo pensamos y resolvemos problemas este conocimiento también podría ser Útil para abordar problemas ctivos enseñar herramientas avanzadas de aprendizaje o desarrollar ia que colaboren de forma aún más efectiva con los seres humanos sin embargo existen limitaciones y advertencias en toda la investigación de ia esto no significa
que las ias sean como cerebros humanos las similitudes son organizativas no biológicas aunque las estructuras de la ía se asemejan a las de un cerebro son fundamentalmente diferentes la ia no es consciente ni piensa como un humano procesa entradas y produce salidas basadas en patrones aprendidos pero no tiene conciencia ni experiencia subjetiva estos patrones son matemáticos no biológicos las estructuras que emergen en la ia son el resultado de procesos de optimización que buscan manera más eficiente de representar la información matemáticamente a diferencia de los procesos biológicos que evolucionaron durante millones de años estos patrones están
diseñados para maximizar la eficiencia en la computación y la resolución de tareas no para replicar el funcionamiento de un cerebro humano por supuesto este es solo el comienzo de la comprensión de esas estructuras se necesit mucha más más investigación para entender plenamente sus implicaciones apenas estamos comenzando a comprender Cómo se forman estas estructuras y qué significan para el funcionamiento general de los sistemas de ia existen muchas preguntas abiertas Como por ejemplo cómo cambian esas estructuras a medida que los modelos se vuelven más grande además queda por Investigar si estas estructuras pueden influir activamente durante el
entrenamiento para mejorar el rendimiento o la interpretabilidad el campo de la ia está evolucionando rápidamente con constantes avances nuevas técnicas y descubrimiento el estudio de estas estructuras similares a las del cerebro probablemente conducirá a nuevos avances no solo en la creación de mejores sistemas de ía sino también en la comprensión de aspectos fundamentalmente de la inteligencia en sí misma a medida que más investigadores exploren estos conceptos podríamos encontrar paralelismos que vayan Más allá de la ia ofreciendo potencialmente nuevas perspectivas en ciencias cognitivas neurociencia e incluso la filosofía de la mente os recuerdo que ya he
sacado mi newsletter la señal donde mando informes cada día sobre nuevas noticias empleos y herramientas relacionadas con la Inteligencia artificial es totalmente gratuita Así que Échale un vistazo te lo dejo en el primer link de la descripción saludos