liang we feng era un estudiante de ingeniería en la universidad de seyang en China la ingeniería era algo que la apasionaba pero en sus años de estudiante se dio cuenta de que si realmente quería hacer dinero tenía que empezar a explorar otros temas ahí fue donde se empezó a interesar por las finanzas y formó un grupo de estudiantes dentro de su universidad para hablar y aprender sobre mercados financieros la bolsa aplicando los conocimientos de ingeniería a la bolsa empezó a hacer sus primeras inmersiones en el mundo del quant trading el quant trading es cuando la
acción de comprar y vender activos las hace un ordenador o sea en lugar de tener una persona que está ahí comprando y vendiendo acciones a mano tenemos un modelo matemático tenemos un ordenador con un software que está ahí haciendo análisis de todos los datos Y decidiendo cuándo hay que comprar y cuándo hay que vender no es el típico Bot de bolsa que te deja el link de descarga a tu youtuber de inversiones favorito sino que estamos hablando de modelos matemáticos avanzados Pero la idea del lank iba Más allá de simplemente hacer un Bot de bolsa
su idea era usar Machine learning aprendizaje automático para poder tomar las decisiones y dedico gran parte de sus años universitarios a todo esto tanto es Así que en 2016 tras terminar la universidad funda High flyer una firma de inversión 100% basada en decisiones de compra automatizadas por ordenador y con los años se convirtió en la firma top cuatro de China manejando activos por 8000 millones de dólares vamos que mal no le fue pero uno de sus sueños desde el principio era usar Inteligencia artificial aplicada a los mercados financieros tener una Inteligencia artificial que fuese capaz
de determinar con mucha precisión cuándo comprar y cuándo vender el tema de la Inteligencia artificial era tan interesante para para el young que en 2021 compró miles de tarjetas gráficas de nvidia muchos lo vieron como un millonario excéntrico que compraba juguetes para quitarse el gusanillo de jugar con tecnologías Que de momento no tenían ningún uso fuera de un proyecto universitario y otros sabían que lo que se venía iba a ser una Revolución dos años más tarde el 17 de julio de 2023 funda la empresa hano Deep seic artificial intelligence basic Technology research Corporation limited también
conocida como deeps una empresa con menos de 200 empleados que a finales de 2024 lanzó un modelo de Inteligencia artificial que hizo temblar a toda la industria tecnológica la bolsa e incluso puso nerviosos a más de un gobierno de qué iba este lanzamiento Bueno pues seguramente lo hayas visto en las noticias deeps es un modelo de Inteligencia artificial creado con un presupuesto supuestamente bastante bajo y que aún así es mejor que algunos de los mejores modelos creados por las mejores empresas de Estados Unidos en algunos aspectos Pero por qué dips ha causado tanto revuelo Qué
tiene de especial que una empresa china haya desarrollado un modelo así bueno Pues lo más probable es que leyendo las noticias no te hayas enterado de nada porque a mí también me ha pasado Así que hoy te voy a contar exactamente y sin tonterías ni clickbaits qué tiene de especial deeps y por qué ha puesto el mundo patas arriba pero antes de continuar un mensaje de nuestro sponsor jb gore es tu tienda de claves de software de confianza donde puedes encontrar entre otras cosas claves de Windows originales para Windows 10 home professional y Windows 11
que de hecho es donde yo las suelo comprar para mí mismo estas claves son bastante más económicas que las que vende Microsoft porque son claves om o sea hasa están pensadas para fabricantes de ordenadores que compran el por mayor para meter a sus distintos equipos y es perfectamente legal revenderlas por mucho que Microsoft no le guste demasiado Así que pequeño hack para conseguir Windows original sin necesidad de instalar un crack en tu ordenador abajo te dejaré los enlaces para que puedas ir a la web a comprar las claves pero no solo eso sino que también
te dejaré un pequeño código de descuento para que puedas ahorrar algunos euros gracias a jv gimol por patrocinar este vídeo y ahora sigamos con el contenido de hoy [Música] hay dos puntos muy importantes que tenemos que aclarar sobre deeps el primero es que es una empresa fundada con el capital de highflyer High flyer es esta firma de qu trading que tiene el yang no que funda yang al salir de la uni lang usó dinero de su firma de inversión para crear esta empresa por lo que realmente si bien el gobierno de China Es verdad que
está incentivando la Inteligencia artificial realmente no es una empresa que tenga ningún tipo de afiliación con el gobierno es una empresa del young o mejor dicho de High flyer está el gobierno chino de alguna forma ayudando a deeps Bueno pues la verdad es que es difícil saberlo o sea Nosotros ahora mismo no tenemos forma de Saber esto Pero en principio los planes de China para incentivar la Inteligencia artificial son más bien proyectos de construir centros de datos potenciar la ia en las universidades Y hacer que las leyes favorezcan de alguna manera la ia generativa no
que no esté tan restringido como en Europa que no se puede hacer nada estas cosas tendrán efecto a largo plazo en 10 años cuando tengamos una nueva generación de estudiantes que sepan pues un montón de Inteligencia artificial que tengan educación a nivel top acceso a los mejores ordenadores Pero bueno ahora mismo no hay pruebas de que china como gobierno tenga nada que ver con Deep seek Deep seek viene de High flyer de nuestro amigo lang al puro estilo capitalista americano y lo que han lanzado en noviembre de 2024 son dos modelos uno se llama Deep
seic R1 y el otro se llama Deep seic v3 los dos llms o sea large Language models al estilo de chat gpt claud gemini o Lama básicamente son modelos que generan texto y a ver existen muchos modelos de este tipo pero no tan buenos como este Mirad existen pruebas para valorar Qué tan bueno es un modelo Comparado con otros y aquí podéis ver algunas de estas pruebas son pruebas que le ponen desafíos al modelo no tiene que contestar preguntas resolver acertijos etcétera etcétera Pues resulta que en algunas de estas pruebas dipsi qv3 ahora mismo es
mejor que los mejores que teníamos hasta la fecha superando a Cloud 3.5 y a gpt 4o podemos ver aquí en la web oficial de deeps que es mejor en pruebas de rendimiento como mml redux que incluye pruebas de conocimiento general razonamiento lógico y comprensión avanzada en múltiples temas como matemáticas historia ciencias y más tenemos también por ejemplo a Drop que es discrete reasoning over paragraphs que mide la capacidad de razonamiento sobre textos largos donde las respuestas a veces requieren cálculos combinaciones de datos o razonamientos lógicos otro ejemplo de prueba es eer polyglot que evalúa la
capacidad del modelo para trabajar con múltiples lenguajes de programación entendiendo y ejecutando tareas con distintas sintaxis Bueno pues esto para hacernos una idea lo que nos dice es que en alguna alunas de estas pruebas no solo es muy parecido al rendimiento que tienen otros modelos muy avanzados como el de chat gpt sino que en algunos es incluso mejor y esto es impresionante porque en general no es tan fácil crear un modelo que sea tan bueno o sea muy pocas empresas en el mundo entero lo han conseguido y ese es el primer motivo por el que
deeps es tan impresionante pero no se termina ahí el segundo punto interesante es que las tarifas para usar Este modelo son bastante más baratas que la competencia la web para chatear con deeps la típica web rollo chat gpt Bueno pues esto es incluso gratis como chat gpt pero la forma en la que realmente ganan dinero estas empresas es a través de la Api la Api es la application programming interface esto básicamente en cristiano es una forma de conectar programas entre ellos Imagínate que tienes una app Como por ejemplo yo que sé una app de fitness
de entrenamiento personal y quieres que esta app tenga Inteligencia artificial por ejemplo pues un chat con un entrenador personal que en realidad es una ia y te dice recomendaciones te dice cómo vas con los ejercicios etcétera Bueno pues para esta empresa que tienes tú de aplicaciones de deporte programar y utar Inteligencia artificial a nivel de chat gpt o gemini o deeps no está al alcance de de tu mano vale es algo muy complejo que necesita mucho dinero de inversión y muchos servidores para poder ejecutar toda esa inteligencia Así que tu mejor opción es conectar tu
aplicación con una de estas inteligencias artificiales que ya existen Y ese es el servicio que ellos proporcionan Ellos tienen las inteligencias artificiales instaladas y ejecutadas en un centro de datos de Open Ai de Google de lo que sea ellos pagan sus servidores pagan la luz pagan todo y lo Ejecutan ahí y tú lo que puedes hacer es es que tu aplicación hable con esos servidores y Cómo se conectan Bueno pues utilizando esta Api la Api lo que hace es que tu aplicación pueda interactuar directamente con una de estas inteligencias artificiales es una vía de comunicación
entre dos aplicaciones la app de deporte le daría una serie de datos tuyos prompts el historial de entrenamientos datos biométricos un montón de cosas más tus consultas y chat gpt o lo que tenga detrás generaría una respuesta que sería pues válida para la aplicación en cuestión O sea que simular ira este entrenador personal Bueno pues usar esta Api tiene un precio evidentemente no es gratis vale Y el precio se mide por token cada token es más o menos una palabra generada un poquito menos ya lo explicamos esto en el vídeo sobre cómo funciona chat gpt
cuantas más palabra general a ía más se cobra al dueño de la aplicación este es uno de los modelos de negocio más importantes que existe en este tipo de servicios no como chat gpt etcétera vale se supone que es uno de los principales motores que va a hacer que toda esta industria funcione y que todos también podamos tener ía tanto es así que Apple incluso este año conectaría a Siri con chat gpt para que pueda dar por fin respuestas inteligentes a ver si es verdad mientras que los tokens de salida de chat gpt cuestan 10
por el millón de tokens en su modelo gpt 4o el estándar digamos dips con v3 cuesta 1,1 por millón de tokens unas 10 veces más barato que chat gpt pero no se termina ahí vale Esto no es lo más impactante Mirad estos modelos de Inteligencia artificial como decíamos antes necesitan de Super ordenadores con muchísimas gráficas para poder ejecutarse en centros de datos con millones de inversión vale que sería algo muy difícil de tener en tu casa o incluso en tu empresa o que es algo en lo que quizás no te interesa invertir no por todos
los costes que tiene de infraestructura personal etcétera por eso chat gpt se ejecuta Pues en los servidores de Open Ai ahora si tú te quieres Descargar chat gpt el modelo Vale y correrlo en tus propios super ordenadores tampoco podrías porque Open Ai Pues no te deja descargarlo no te lo libera hay algunos modelos que sí te lo permiten Como por ejemplo Lama de Mark zuckenberg y meta que de hecho es uno de los mejores para esto y hay muchas versiones incluso alguno que lo puedes correr en un portátil o incluso otros que necesitan un centro
de datos entero para ejecutarlo pero los mejores modelos del mundo rara vez te los puedes descargar y ejecutarlos en tu infraestructura no O sea chat gpt o gemini de Google solo los puedes usar en los servidores de cada una de estas empresas y bueno Esto es algo que para la industria es normal o sea te imaginas que gpt fuese libre y gratis y te lo pudieras bajar y te lo ejecutas en tu servidor o sea le montaría literalmente la competencia a chat gpt podrías modificarlo hacer tu propia versión tenerlo corriendo en tus servidores para tu
empresa sin pagar nada más que la electricidad sin tener que pagar el precio de la Api y todas estas cosas Bueno pues Agárrate porque resulta que dips ha liberado de forma Open source y totalmente gratuita su modelo dips v3 y R1 o sea literalmente te los puedes bajar y ejecutarlos en tu centro de datos Eso sí para el modelo más grande de dips R1 por ejemplo que tiene 671 miles de millones de parámetros necesitarías unas 16 gráficas a 100 de nvidia que tienen unos 80 GB de memoria cada una sumando en total 1280 GB de
memoria montarte esto te costaría algo así como medio millón de dólares pero bueno podrías ejecutar dipsi r1 con todo su potencial Y esto es una amenaza bastante grande contra la industria americana de la Inteligencia artificial no solo tenemos un modelo mucho más barato de usar sino que te lo puedes bajar y usarlo por tu cuenta incluso personalizarlo Y qué tal está funcionando a nivel de descargas O sea hay mucha gente que se lo está descargando Bueno pues la primera semana de lanzamiento ha tenido más de un millón de descargas Esto no es gente que se
haya bajado la app en el móvil o que se haya registrado en la web y haya hablado con la con la ia vale esto es gente que se ha bajado el modelo entero para ejecutarlo por su cuenta y probarlo o sea son gente ya técnica avanzada que tiene la infraestructura para poder hacerlo en resumen es una ia igual o mejor que chat gpt aunque ya veremos que tiene diferencias no es tan poco igual ni mejor en todo con la que puedes interactuar de forma más barata e incluso Te la puedes descargar y ejecutarla tú mismo
cosa que con chat gpt no puedes hacer esto por sí solo ya ha sido bastante revuelo dentro de la industria pero no es todo deeps tiene algunas otras cosas que son muy impresionantes una de las cosas de las que más se habla es de que deeps fue increíblemente barato de entrenar pero no solo de entrenar sino que además es barato de ejecutar no solo se hizo el entrenamiento con una cantidad de gráficas bastante pequeña y en un tiempo sorprendentemente corto sino que también cuando hicieron R1 el modelo que razona también gastaron muy poco dinero respecto
a lo que la gente se esperaría no en crear un modelo de ese tipo pero luego es que además los propios costes de operación o sea lo que les cuesta correr ese modelo en el día a día y la cantidad de gráficas que se necesitan es mucho menos de lo que estamos acostumbrados en otros modelos de Inteligencia artificial parecidos cómo hicieron esto Bueno pues con una serie de mejoras técnicas evoluciones y optimizaciones que son las que permiten que sea suficiente el primer gran punto de deeps es la arquitectura que tiene detrás los modelos a los
que estamos acostumbrados como yama o gpt se basan en una red neuronal generalista que se entrena con un montón de conocimiento de todo tipo para generar texto sobre cualquier cosa o cualquier área de conocimiento chat gpt sí que es verdad que por ejemplo tiene módulos que le ayudan a buscar cosas en Google que le ayudan a hacer cálculos matemáticos Pero bueno en general cuando generan palabras lo que tenemos es un gran cerebro que procesa cada uno de los prompts que pone el usuario dips Por otra parte se basa en una arquitectura que se llama mixture
of experts que se podría Traducir como mezcla de expertos aquí la idea es que en lugar de tener un gran modelo que se ejecuta de forma completa cada vez que vamos a procesar el prompt que escribe el usuario tenemos como varios modelos más pequeñitos que están especializados en distintos temas Esto no es una idea original de deeps vale No se les ocurrió a ellos sino que ya se implementó por ejemplo en un proyecto de Google que se llama gard o en el modelo mixal e incluso viene de un paper de 2017 vale no es una
cosa nueva y es una forma de escalar modelo grandes o sea hacerlos más grandes llega un momento que al final si quieres que una red Neal sepa tantas cosas la mejor manera es dividir este Cerebro en varios cerebros expertos como haríamos en la vida real no O sea si quisiéramos trabajar con muchos temas distintos montaría un grupo de expertos en lugar de una sola persona que lo sabe todo bueno Pues resulta que dips como os decía está hecho de un montón de expertos distintos un montón de redes pero muchísimas Vale entonces lo que tenemos delante
es un enrutador el enrutador es el que va a elegir quién se encarga de resolver esa cuestión vale Entonces nosotros escribimos un prompt le damos a enter el mensaje le llega a este enrutador el enrutador se encarga de analizarlo y le pone una puntuación a cada uno de los expertos esa puntuación básicamente lo que dice es qué tan relacionada está la pregunta con el área de conocimiento que tiene pues ese experto en concreto no y en base a eso elige Cuál es el mejor experto para contestar una pregunta en concreto normalmente es más de una
red y aquí te preguntarás vale tenemos distintos expertos Cómo se decide en Qué es experta cada red quién lo decide esto Bueno pues durante el entrenamiento del modelo acordad siempre que tenemos como dos fases una en la que el modelo aprende y otra en el que modelo explica los conocimientos vale el entrenamiento es donde está aprendiendo Pues todo no de cero pues durante el entrenamiento tenemos una red que va catalogando los distintos textos de los que está aprendiendo el modelo y le va diciendo Pues mira este es de un tema Este es de otro Este
es de otro más Y de esa manera pues de alguna forma va agrupando los textos por temas distintos de forma totalmente automática sin intervención humana y le va pasando esto a distintas redes Y de esa manera va diciendo Pues mira tú te vas a encargar de todos los textos relacionados con esto tú te vas a encargar de todos los textos relacionados con esto otro de esa forma por ejemplo podemos tener un experto que sabe Mucho de bioquímica otro que sabe de polí otro de literatura otro que sabe hablar como un niño pequeño otro que sabe
Mucho de animales y bueno sería un poco esa la idea realmente las divisiones de conocimiento no son tan tan obvias no son tan simples de entender pero bueno es para que nos hagamos una idea esto tiene un efecto brutal vale porque estamos haciendo funcionar solo una parte concreta del modelo para contestar a temas muy concretos en lugar de todo el modelo al mismo tiempo en modelos muy grandes como gpt cuando se generan palabras se usa todo el modelo a la vez y dentro de todo ese modelo Pues hay alguna parte que influye en la respuesta
que hace cosas y otras pues no influy fluyen porque directamente no se activan pero aún así estamos usando todo el cerebro a la vez y eso necesita mucha potencia con el mixture of expert se selecciona de forma mucho más específica no lo que se va a usar en concreto es como tener un cerebro que se usa todo el tiempo al 100% o que solo usa pues unas partes concretas para hacer tareas concretas y eso realmente lo que hace es ahorrar mucha energía al sistema Por lo cual necesitamos menos gráficas para ejecutar el modelo pero aquí
realmente el gran mérito que tiene deeps porque ya os dije antes que no lo inventaron ellos Esto vale Es que la arquitectura mixture of experts es muy difícil de implementar o sea es muy difícil que funcione bien nadie hasta ahora había conseguido hacer un buen modelo con este sistema y ellos lo consiguieron haciendo que el modelo tenga primero que nada muchos más expertos de lo normal de lo que se había usado hasta ahora y además asegurándose que cada uno de los expertos no tenga conocimiento repetido con otros Además de que cuando se detecta que hay
conocimientos que son como intermedios entre varios temas Pues hay expertos especiales que son mixtos vale que saben como distintos temas a la vez y de esa forma pues pueden complementar el conocimiento de uno con otro y estos expertos mixtos siempre se activan a cada interacción y por eso mismo un pequeño detalle vale en la web de deeps cuando vamos a ver cuántos parámetros tiene el modelo Ellos dicen que tiene 671 miles de millones de parámetros estos parámetros es el total entre todos los expertos pero solo 37 miles de millones están activados Y esto es porque
cuando se ejecuta la red solo activa 37 miles de millones vale No activa más porque selecciona esos expertos que corresponden con esa cantidad de parámetros esto es muy interesante la verdad eh Y es y es eso no al final es optimización pura y dura ahora otra optimización que hicieron que esta es un poco más difícil de entender fue entrenar el modelo con una precisión más baja de lo normal en concreto con fp8 esto ya lo expliqué en mi vídeo sobre cómo mejoro mi empresa con Inteligencia artificial donde os hablo de que cada parámetro tiene una
precisión concreta recordad que los parámetros en un modelo son las partes que se van Ajustando durante el entrenamiento vale sería como si un modelo es un cerebro genérico cuando lo entrenamos hay una serie de parámetros que se van Ajustando que podéis imaginarlos como pequeñas manivelas pequeños po dimetros que se van modificando para configurar el modelo para que dé el resultado que nosotros queremos Bueno pues estos parámetros tienen una precisión que podéis imaginarla como Pues el número de cifras que tenemos después de la coma como estamos en un ordenador estos números se representan en binario que
también si quieres entender esto tengo un vídeo sobre cómo funciona el binario y las puertas lógicas que es muy interesante Bueno pues fp8 o floating Point 8 es un formato de binario que te permite representar un número decimal o sea un número con coma con una precisión de ocho cifras binarias este binario es distinto del que os he explicado en el canal vale es un binario especial que tiene un trozo que representa el número otro que representa el signo si es positivo o negativo y otro que representa dónde estaría esa coma un poco como la
anotación científica Vale entonces tenemos una serie de cifras binarias y con esto tenemos que representar los números cuantas más cifras binarias tenemos más ocupa este número en memoria pero también más precisión tiene o sea más numeritos después de la coma vamos a tener Cuántas menos cifras binarias tenemos pues ocupa menos en memoria pero a la vez el número es mucho menos preciso Por ejemplo si representá demos el número pi en fp32 tendríamos amos suficientes cifras como para tener el número 3,14 15 9 27 en fp 166 podríamos tener la precisión para representar solo el 3,14
y en fp8 probablemente 3,1 o sea como podéis ver es muy impreciso pero el número ocupa menos en memoria Qué significa esto para el modelo de Inteligencia artificial Bueno pues si tenemos este potenciómetro si el número es más pequeño sería como tener menos opciones vale tiene como menos ajustes con fp32 tendríamos un montón de ajustes bastante finos con fp16 tendríamos menos y con fp8 pues menos aún entonces el modelo es menos preciso Pues sí es menos preciso pero han encontrado la forma de que usando en ciertas partes fp32 el modelo sigue siendo muy preciso y
ocupa menos espacio en memoria y además el tiempo de entrenamiento es mucho más rápido esto se conoce como mixed precision framework o marco de trabajo de precisión mixta porque tenemos distintas precisiones en distintas partes vamos que han buscado recortar de donde se podía tanto en memoria como en tiempo pero afectando lo mínimo posible al resultado lo que viene a ser optimizar lo que no hacen en los juegos de hoy en día otras dos cosas que hace el modelo que son un poquito más complicadas vale es que primero que nada en la capa de atención tiene
múltiples cabezas por lo que puede prestar atención a varios términos a la vez y analizar la frase desde distintos ángulos esto ya para entenderlo mejor tendrías que mirarte mi vídeo de cómo funciona chat gpt que ahí te lo explico de forma estupenda y la otra cosa es que puede generar múltiples tokens a cada pasada mientras que modelos como gpt van generando un token a la vez pues este haría una predicción múltiple o sea sacaría varios tokens de una sola tirada Y esto se ha visto que no da peores resultados y además es más eficiente o
o sea ayuda a que el modelo se ejecute más rápido y con menos energía Entonces por estas cuatro cosas el mixture of experts el usar fp8 la capa de atención con múltiples cabezas y la generación múltiple de tokens deeps es mucho más rápido y barato que la competencia y ahora bien hasta este punto no han inventado nada realmente nuevo pero hay que entender que esto en el ámbito de la Inteligencia artificial es completamente normal vale Así es como está evolucionando la tecnología hoy en día la Inteligencia artificial se creó en el mundo académico o sea
en el mundo de las universidades o sea se basa en proyectos de investigación de universidades todo este conocimiento investigación y pruebas son básicamente públicos o sea puedes leer sobre ellos en muchas publicaciones y te explican exactamente cómo funcionan muchas de las tecnologías que utilizan modelos de difusión Transformers redes neuronales todo esto viene de software de código abierto que los investigadores y los programadores comparten de forma totalmente gratuita a ver las empresas evidentemente se aprovechan de esto para crear luego sus tecnologías privadas Como por ejemplo Google pero el caso más extremo sería el Open Ai que
es una empresa que empezó con la idea de investigar y liberar el conocimiento de forma abierta libre y gratuita vamos que la empresa se llama openi por algo y lo que pasa es que con el tiempo pues han desarrollado alguno de los modelos más avanzados del mundo que hacen cosas que muy pocos otros en el mundo pueden hacer y esto pues lo han privatizado y no lo comparten con nadie o sea los detalles de cómo funciona eso por dentro no lo sabe nadie pero realmente la tecnología que tiene detrás todo el conocimiento de cómo conseguirlo
Es algo que de alguna forma es público no es algo que puedes llegar a leer que puedes llegar a implementar Y si eres lo suficientemente bueno puedes llegar a montar un modelo como chat gpt en tu casa Bueno en tu casa no pero ya me entiendes de todos modos que deeps haya conseguido esto es bastante impresionante pero no se termina ahí el segundo punto impresionante que ha conseguido deeps es el modelo R1 Esto sí que está a otro nivel R1 es un modelo que razona Mirad con el tiempo las empresas como Open Ai se dieron
cuenta de que los modelos no son buenos resolviendo cualquier tipo de problema como por ejemplo acertijos lógicos hay un vídeo muy bueno de computer file donde Mike pound de la Universidad de nottingham nos explica que por ejemplo si le decimos a chat gpt que tenemos un recuadro rojo con uno arriba de color azul y otro arriba de color amarillo y movemos el azul arriba de todo y además añadimos otro verde por encima chat gpt no es capaz de decirte el orden Exacto final de estos cuadrados y esto es porque para resolver este problema hay que
seguir una serie de pasos imaginarte la escena y razonar no Cuál va a ser el orden final de los cuadrados no puedes simplemente improvisar sobre la marcha este razonamiento cuando lo hace un humano lo hace a través de una serie de pasos muevo este luego cambio este luego Este vale Y este proceso se llama cadena de pensamiento Chain of thought Bueno pues para eso Open aa inventó chat gpt o1 que justamente lo que hace es ir desarrollando cada uno de los pasos que necesita el problema para resolverse hasta este momento Este era uno de los
modelos más avanzados del mundo en Muchas tareas complejas en muchas de las pruebas de las que hablamos antes ahora deeps con R1 se acerca tanto a chat gpt o1 que vamos o sea da hasta miedo y además lo hicieron con muy poco dinero y muy poco poder de cálculo cómo lo consiguieron Bueno pues realmente de una forma bastante sencilla y estúpida para entrenar un modelo de razonamiento como chat gpt o1 sabemos que Open Ai utiliza el método de reinforcement learning by human feedback o sea cogen chat gpt 4 vale el que ya tienen y empiezan
a hacer lo que se llama fine tuning y de esta manera pues van Ajustando y Ajustando y Ajustando el modelo hasta que acaba respondiendo de una forma concreta en el caso del razonamiento justamente lo que quieren es que el modelo saque un texto muy largo a través del cual vaya razonando y vaya haciendo toda esta cadena de pensamiento y esto lo siguen pues pasándole ejemplos a chat gpt vale hay humanos que hacen ejemplos de cómo razonan un problema y esto se lo se lo pasan a chat gpt para que aprenda a hacerlo de esta manera
el tema del rl hf ya lo vimos en el vídeo sobre cómo funciona chat gpt pero bueno básicamente en lo que consiste es que hay un gran grupo de humanos que evalúan los resultados del modelo o sea el modelo va generando cosas y luego tenemos una serie de humanos que le van diciendo qué respuestas son buenas qué respuestas son malas Cuáles son más amigables Cuáles no etcétera etcétera entonces con un gran set de respuestas de calidad creado por el feedback de los humanos Se entrena otra red que es capaz de decir si una respuesta es
buena o no es buena según el criterio del humano no pero bueno total para que te hagas una idea que hay seres humanos ahí que están interactuando con la ia están generando resultados para que la ia aprenda de ellos vale Este sería un poco el sistema de Open Ai Bueno pues lo que ha hecho Deep seek ha sido decir esto es muy caro esto no lo vamos a poder hacer así que vamos a hacerlo como se hacía de toda la vida vamos a usar el reinforcement learning o sea aprendizaje por refuerzo pero sin humanos o
sea todo automático Cómo funciona esto cómo lo hicieron Bueno pues para entrenar a R1 primero que nada partieron de v3 O sea ya tenían el deeps v3 y dijeron vamos a crear en base a esto un modelo que razone y pueda resolver problemas complejos cómo lo vamos a hacer Bueno pues vamos a elegir una serie de problemas complejos de los cuales tenemos una una respuesta que es determinista o sea podemos chequear fácilmente que la respuesta es correcta o no Como por ejemplo un acertijo un problema matemático un código de programación que cuando lo ejecutas te
da un resultado x y bueno distintas áreas en las cuales podemos poner Este modelo a prueba y podemos comprobar si ese resultado está bien o está mal entonces básicamente lo que hacen es ponerle estas cuestiones a deeps y deeps tiene que generar respuestas por su cuenta vale tiene que contestar y existe un sistema que evalúa qué tan bien o qué tan mal está esa respuesta o sea si se acerca más al resultado que necesitamos o si se aleja mucho y a estas pues les pone un positivo no entonces el modelo recoge ese feedback y dice
vale esta respuesta se acerca más a lo que tengo que decir y vuelve a generar otras respuestas pero condicionado con este feedback genera las nuevas respuestas y el software vuelve a evaluar Pues mira ahora esta se parece aún más a lo que yo espero y le pone pues una puntuación positiva Entonces el modelo pues lo vuelve a hacer y así sucesivamente muchas veces hasta que al final consigue contestar a la pregunta de forma correcta vamos que no se le está explicando a deeps cómo tiene que pensar o no se le está dando ejemplos de Cómo
resolver los problemas sino que simplemente cuando da una respuesta que más o menos está bien que va en buena dirección pues esto se le da un punto extra Y en este proceso no hay No hay ninguna intervención de ningún humano todo esto es automático y haciendo esto durante mucho tiempo con muchos casos al final el modelo aprendió a razonar y la parte impresionante de todo esto es que nadie se esperaba que eso funcionase de hecho fueron viendo durante la fase de entrenamiento durante la fase de fine tuning que el modelo de repente iba haciendo respuestas
cada vez más largas y más complejas lo cual se iba acercando cada vez más a un razonamiento Y de esa manera totalmente automática sin humanos sin nada con el modelo probando a ver si funcionan las respuestas Pues fue aprendiendo aprendiendo aprendiendo hasta conseguir resultados que están al nivel de los de chat gpt o sea es totalmente increíble esto tan increíble que incluso han acusado a dips de destilar el conocimiento de chat gbt Qué significa destilar bueno Pues básicamente preguntarle cosas a chat gbt que chat gbt responda y pasarle esas respuestas a dips para que aprenda
responder como chat gpt pero esto no hay pruebas de que se haya hecho vale o sea en principio el sistema que han utilizado es este que os acabo de contar el reinforce learning totalmente automatizado ahora una cosa importante vale Y es que tanto v3 como r1 no fueron entrenados con el esfuerzo de humanos y por eso chat gpt es mejor en cuanto a crear respuestas que son más agradables suenan más humanas son más creativas es mejor creando historias y en general para las tareas que necesitan una cierta creatividad mientras que deeps como tiene ese entrenamiento
tan basado en problemas matemáticos y problemas lógicos es mejor para tareas industriales problemas lógicos y de carácter más científico aún así a mí me parece una locura que exista un modelo como deeps R1 hecho con este proceso y que tenga los resultados que tiene que haya sido tan barato de entrenar pero sobre todo que sea gratis vale porque tú te puedes descargar R1 y correrlo en tu super ordenador como decíamos antes cualquier Universidad o cualquier empresa con la suficiente infraestructura puede ejecutarlo si quiere y modificarlo y entrenarlo para que haga lo que ellos quieren volvemos
a la misma pregunta cómo ganan dinero si lo dan todo gratis Bueno pues este es uno de los temas que tratamos largo y tendido en mi libro en el capítulo sobre el software libre pero bueno básicamente al liberar el modelo lo que consiguen Es que la comunidad les ayude a mejorar el producto gana mucha popularidad porque vamos esto ha hecho ruido por todas partes partes pero la mayoría de gente a la hora de la verdad no va a querer bajárselo y ejecutarlo en su propio centro de datos sino que directamente lo van a correr en
su servidores y van a pagar el servicio es que les sale más barato básicamente otra cosa bastante astuta que ha hecho deeps son los modelos destilados que son modelos más pequeños versiones más pequeñas que puedes correr en tu propio ordenador y que en realidad no están basados en deeps sino que son otros modelos Como por ejemplo yama y tienen un concepto muy distinto esto por cierto los veremos en otro vídeo en el canal vale donde probaremos deeps en mi ordenador y en ese vídeo pues os explicaré más en detalle Cómo funciona el tema pero ahora
os quiero contar lo que para mí es lo más impresionante que ha hecho dips lo más complicado de todo y es entrenar Este modelo en Hardware que en teoría no tiene la potencia para hacerlo en 2023 el gobierno de los Estados Unidos creó una serie de restricciones para que nvidia no pudiese vender libremente tarjetas gráficas en China no me refiero a la típica 4080 o 4090 que con un poco de suerte tendréis dentro de vuestro PC de casa sino que estoy hablando de gráficas especiales las H100 las H100 son gráficas que no puedes comprar así
como así vale son gráficas para empresas y para organizaciones que necesitan un gran poder de cálculo están pensadas para cálculo científico avanzado simulaciones modelos e Inteligencia artificial son la gama de producto Más alto que tiene envidia vale para que te hagas una idea y en concreto estas H100 son las que se usan para entrenar modelos como chat gbt Bueno pues estas restricciones lo que hacen es que estas gráficas se puedan vender en China pero en una versión un poquito menos potente en cuanto a Potencia de cálculo pero tienen otra restricción que es bastante más grande
y es la de la memoria para entrenar una Inteligencia artificial necesitamos un montón de gráficas conectadas entre ellas esto se hace para combinar el poder de cálculo y para combinar este poder también necesitamos que compartan datos de lo que están trabajando en todo momento de la forma más rápida posible por ejemplo en concreto la H100 es una caja que dentro tiene ocho chips o sea ocho gráficas distintas y estas tienen que hablar muy rápido entre ellas bueno Pues resulta que la versión China tiene la velocidad de comunicación entre gráficas limitada mientras que la H100 puede
mandar entre 600 y 900 GB de datos por segundo la versión china solo puede mandar 300 GB por segundo luego la lectura de la propia memoria por parte de la Gráfica la memoria que tiene cada una de las gráficas pasa de 3,35 tb en la versión americana a 1,6 tb en la versión china Por otra parte la H100 americana llega a más de 400 teraflops de cálculo de fp16 mientras que la versión China tiene algo así como la mitad unos 200 teraflops Aunque en fp8 sigue siendo igual de potente ahora ya sabéis por qué lo
han entrenado usando fp8 esta versión china se llama h800 y el objetivo de todo esto es que china no pueda crear proyectos de Inteligencia artificial tan avanzados como los que se crean en el resto del mundo Bueno pues deeps usó 2048 gráficas h800 para entrenar su modelo có hicieron para conseguir estos resultados a pesar de no tener las H100 que se venden en Estados Unidos Bueno pues Agárrate porque ahora es cuando viene lo más impresionante de toda esta historia como os decía antes la velocidad con la que las gráficas hablan entre ellas es un problema
no son suficientemente rápidas como para conseguir un en rendimiento Así que le dieron unas cuantas vueltas al problema y pensaron Qué pasaría si creamos un sistema de comunicación entre gráficas programado desde cero por nosotros que intente aprovechar al máximo ese ancho de banda que tenemos podríamos por ejemplo comprimir los datos ya sabéis que el típico archivo zip o rar que está comprimido ocupa menos espacio en memoria respecto al archivo original Bueno pues esto sería un poco lo mismo y si comprimimos los datos antes de mandarlos entre gráficas y qué más podemos hacer Bueno pues por
ejemplo montar un sistema que en lugar de esperar a que terminen los cálculos vaya andando ya datos a otras gráficas Para aprovechar el tiempo otra cosa que podríamos mirar es qué datos hay de la otra parte para solo mandar lo que hace falta y no volver a enviar partes que ya se han enviado por error Total que se montaron un software bastante complejo muy inteligente que intenta aprovechar este ancho de banda al máximo con estos 300 GB por segundo Y de esa manera consiguieron que comunique de forma mucho más rápido optimizando lo todo lo posible
y consiguiendo resultados parecidos a la versión americana pero esto realmente no es fácil vale o sea para programar gráficas de nvidia Normalmente se usa un sistema que se llama kuda cuda es la forma estándar de hablar con la Gráfica de envidia para poder pedirle que haga cálculos pero claro cuda tiene pues una serie de limitaciones no puedes pedir a la Gráfica cualquier cualquier cosa Vale para hacer cosas un poco raras envidia tiene un lenguaje de programación muy complicado de bajo nivel que necesita mucho conocimiento No solo del lenguaje sino también de cómo funciona una gráfica
en sí Y ese lenguaje se llama ptx ptx No es para cualquiera vale complica mucho las cosas y hace falta un equipo con mucho conocimiento para poder usarlo Bueno pues lo que hizo deeps fue usar ptx para que una parte de la Gráfica vale una parte de los núcleos 20 de los 132 SMS que tiene la tarjeta gráfica se usen exclusivamente para correr este código especial encargado de comprimir los datos y enviarlos a través de la memoria vamos optimizar las comunicaciones Esto es algo que repito es imposible hacer con kuda y no es para cualquiera
tampoco vale realmente tienes que saber mucho para poder hacer algo por el estilo y deeps lo consiguió y esto realmente ha sido muy polémico Porque mientras que las empresas están invirtiendo en mejorar las gráficas comprar últimos modelos de nvidia que son un poco más rápidos gráficas que son un poco más potentes gráficas que hablan un poco más rápido entre ellas y en general invertir en escalar el Hardware vale tener mejor Hardware para que los modelos sean mejores pues dips al final de forma forzada nos está demostrando que optimizando el software optimizando las gráficas aprovechando mejor
lo que ya tenemos podemos conseguir resultados increíbles y esto En parte hizo que los inversores pierdan un poco la fe en el crecimiento de envidia haciendo que también la empresa caiga en bolsa esta caía en bolsa hasta un cierto punto es normal no porque los mercados reaccionan super rápido a este tipo de noticias no significa que la empresa realmente haya bajado las ventas de forma directa pero sí que nos da mucho que pensar y bueno Después de todo esto yo creo que no cabe duda de que deeps para bien o para mal es impresionante a
muchos niveles es un antes y un después en el mundo de la ia y es un modelo a seguir en muchos aspectos es impresionante que esto haya ocurrido en China o sea realmente es tan raro que haya pasado en China en concreto Bueno pues en mi opinión no O sea china es un país donde hay mucha gente mucha gente muy preparada con mucho talento hay universidades con muchos recursos y hay empresas que tienen mucho dinero mucho capital así que me parece tan tan raro que esto pueda llegar a pasar de hecho china es una potencia
en Inteligencia artificial desde hace muchos años tienen centros de datos tienen grandes empresas tecnológicas y en general en algunos aspectos incluso están más avanzados respecto a lo que es Estados Unidos ahora la gran desventaja que tiene China respecto a Estados Unidos y esto es un punto clave de hecho voy a hacer un vídeo sobre este tema es que no puede fabricar chips tan avanzados esto es porque las fábricas más avanzadas del mundo están en Taiwán Estados Unidos Corea del Sur y algunos sitios más países que son aliados de Estados Unidos a los cuales se les
ha prohibido compartir conocimientos maquinaria y otro tipo de cosas con China si china quiere chips tiene que pasar por caja comprarlos pagarlos e incluso sufrir restricciones como la que tiene con envidia no que no puede comprar gráficas igual de potentes que las que se venden en el resto del mundo si no fuera por eso si no fuera porque china no puede fabricar chips como los que fabrica amd Apple Sony Intel nvidia y muchas más pues es muy probable que las cosas fueran muy distintas y por eso Estados Unidos juega la carta que tiene vale que
es poner restricciones comerciales están habiendo restricciones Incluso en cuanto a intercambios de estudiantes en universidades en cuanto a compartir conocimientos entre universidades de China y Estados Unidos para evitar que china pueda tener acceso a esas tecnologías que tiene Estados Unidos porque como os decía antes la ía viene del mundo universitario el mundo de la investigación que es un mundo donde el conocimiento se comparte y se desarrolla en conjunto independientemente del país donde estés O sea todos trabajan para avanzar a nivel global sin importar si estás en China en Estados Unidos en Taiwán o donde sea
ahora al ver que china es una amenaza para la industria de la Inteligencia artificial una industria que lidera Estados Unidos el gobierno quiere poner todas las trabas que pueda a mí personalmente Y esta es mi opinión vale la comparación que se está haciendo con la guerra fría con la carrera espacial y todo esto a mí personalmente no me gusta no la veo tan parecida realmente vale porque comparar a China con la unión soviética creo que es un poco estúpido a veces la gente llega a pensar que china está por detrás cuando tienen empresas como Huawei
que hacen productos increíbles y que literalmente han tenido que banear la porque prácticamente toda la infraestructura de redes era de Huawei incluyendo Estados Unidos O sea Estados Unidos no podía competir literalmente con Huawei o por ejemplo aplicaciones como tiktok que tiene un algoritmo que desde el principio ha demostrado que engancha muchísimo y que está a la altura de las redes sociales americanas Como por ejemplo Instagram Como por ejemplo Facebook y que también la han baneado aunque Bueno ahora está como en un periodo de gracia a ver qué pasa o incluso los coches chinos a los
cuales se les está poniendo aranceles y así con muchas otras cosas que solo nos demuestran que china es igual o más competitiva a nivel de productos de tecnología que Estados Unidos y que la única forma de que no se quede con estos mercados es poniendo restricciones yo creo que Estados Unidos sigue siendo líder en ciertas cosas de momento pero que realmente se está aferrando a la única carta que puede jugar para mantener El dominio de las pocas áreas en las que todavía tiene cierto control del mercado y por eso todos estos baneos con la ia
está pasando Exactamente lo mismo pero bueno Este es un tema que da para un debate muy largo Yo también en este vídeo me quería centrar en los logros tecnológicos en todo aquello que aporta a nivel tecnológico deeps y no tanto en un debate de China contra Estados Unidos pero sí que me gustaría hacer un vídeo hablando de los chips porque realmente es el tema más caliente es una tecnología mucho más difícil de dominar y es realmente el punto de olor que tiene China mucho más allá de la Inteligencia artificial Lo que pasa que es tan
complejo que muchas veces pues no nos hablan de él no porque hace falta tener un conocimiento más profundo para entender realmente Dónde está el problema no a la hora de fabricar estos chips pero quiero hacer un vídeo sobre el tema así que si te interesa Este vídeo Dímelo abajo en los comentarios en fin y aquí nos quedamos si te ha gustado este vídeo ya sabes déjame una manito para arriba suscríbete al Canal y nos vemos en el próximo vídeo for [Música]