open a est la principale entreprise d'intelligence artificielle et leur récente série de modèle O1 et de loin lia la plus avancée à laquelle nous avons accès ce modèle diaia a été entouré d'un tel secret que si vous osez lui demander ce qu'il pense pendant qu'il génère une réponse il vous dira de ne plus jamais poser ce genre de question si vous insistez trop vous risquez même d'être banni des services d'opena le modèle vous donne une réponse qui vous interdit de poser à nouveau ce type de question si vous le faites trop souvent vous pouvez effectivement
être banni des services d'Open a la raison de tout ce secret est que c'est une étape importante vers l'AG et beaucoup pensent qu'Open ai sera probablement la première entreprise à y parvenir de nombreuses personnes ont voulu comprendre exactement comment ce système fonctionne open ai a publié quelques articles mais rien qui nous permette de vraiment comprendre ce qui se passe sous le capot cependant un groupe de chercheurs chinois a récemment publié un article de recherche et nous nous demandons maintenant s'ils ont réussi à percer le code on découvert comment o 1 fonctionne et publier une feuille
de route pour construire quelque chose de similaire voici l'article scaling of search and learning une feuille de route pour reproduire o Un depuis une perspective d'apprentissage par renforcement cet article pourrait tout changer car si c'est vrai cela signifie que les règles du jeu sont équilibrées et ce n'est qu'une question de temps avant que de nombreuses autres entreprises commencent à produire des modèles d'IA comparables à open eye je vais décomposer cela en quatre parties mais commençons par comprendre les bases du fonctionnement de cette IA l'une des premières choses que nous avons est bien sûr l'apprentissage par
renforcement avec lia prenons une analogie avec un jeu imaginez que vous essayez d'apprendre un tour à un chien vous donneriez une friandise au chien qui est la récompense quand il fait quelque chose correctement et il apprend alors à répéter ses actions pour obtenir plus de friandis c'est essentiellement l'apprentissage par renforcement avec lia le chien est est essentiellement un programme et la friandise est une récompense numérique et le tour peut être n'importe quoi de gagner une partie à écrire du code pourquoi l'apprentissage par renforcement est-il important pour la série O1 c'est parce qu'openï semble croire que
l'apprentissage par renforcement est la clé pour rendre son modèle si intelligent c'est fondamentalement ainsi que chat GPT apprend à raisonner et à résoudre des problèmes complexes par essai et erreur selon l'article il y a quatre piliers vous pouvez voir ici qu'il nous donne un aperçu du fonctionnement d' un nous avons l'initialisation de la politique qui est le point de départ du modèle cela établit les capacité de raisonnement initiale du modèle en utilisant le pré-entraînement ou le fine tuning c'est essentiellement la base du modèle nous avons la conception de la récompense qui est bien sûr la
façon dont le modèle est récompensé dont nous venons de parler ensuite nous avons la recherche qui intervient pendant le temps d'inférence où le modèle est entre guillemets en train de penser c'est ainsi que le modèle recherche différentes possibilités et bien sûr nous avons l'apprentissage où vous améliorez le modèle en analysant les données générées pendant le processus de recherche vous utilisez ensuite différentes techniques comme l'apprentissage par renforcement pour améliorer le modèle au fil du temps l'idée centrale est essentiellement l'apprentissage par renforcement le mécanisme central relie ses composants ensemble le modèle qui est la politique interagit avec
son environnement les données circulent des résultats de recherche vers le processus d'apprentissage et la politique améliorée et réintégrée dans la recherche créant une boucle d'amélioration continue le diagramme met en évidence la nature cyclique du processus la recherche génère des données pour l'apprentissage l'apprentissage met à jour la politique et ainsi de suite pour vraiment comprendre comment cela fonctionne nous devons comprendre la politique ce sont les bases c'est le fondement du modèle imaginez que vous enseignez à quelqu'un à jouer à un jeu complexe comme les échecs vous ne le mettriez pas face à un grand maître dès
le premier jour vous commenceriez par lui endre les bases comment les pièces se déplacent les stratégies de base et peut-être quelques ouvertures courantes c'est essentiellement ce qu'est l'initialisation de la politique pour l'IA dans le contexte d'une IA puissante comme chat GPT l'initialisation de la politique consiste à donner à l'IA une base solide de raisonnement avant même qu'elle ne commence à essayer de résoudre des problèmes vraiment difficiles il s'agit de l'équiper d'un ensemble de compétences et de connaissances de base sur lesquelles elle pourra s'appuyer grâce à l'apprentissage par renforce ement l'article suggère que pour o 1
ce départ anticipé se fait probablement en deux phases principales le pré-entraînement que nous pouvons voir ici c'est là où vous entraînez l'intelligence artificielle sur des données textuelles massives imaginez que vous laissez lia lire l'intégralité d'Internet ou du moins une grande partie en faisant cela l'intelligence artificielle apprend comment fonctionne le langage comment les mots sont reliés entre eux et acquièrent une vaste quantité de connaissance générale sur le monde pensez-y comme apprendre la grammaire le vocabulaire et les faits de base avant d'essayer d'écrire un roman et elle acquirra aussi des capacités de raisonnement basiques après l'entraînement sur
ces données vient la partie importante le fine tuning avec des instructions et un raisonnement proche de lui-même c'est là que nous donnons à lia des leçons plus spécifique sur la façon de raisonner et de résoudre des problèmes cela implique deux techniques clés que nous pouvons voir ici l'ingénierie des prompt et le fin tuning supervisé l'ingénierie des prompt consiste à donner à lia des instructions ou des exemples soigneusement élaborés pour guider son comportement l'article mentionne des comportements comme l'analyse de problème où l'on reformule le problème pour s'assurer qu'il est bien compris la décomposition des tâches consiste
à diviser un problème complexe en étapes plus petite et plus facile où l'on dit littéralement réfléchis d'abord étape par étape et bien sûr avec le fine tuning supervisé que l'on voit ici sous l'abbréviation SFT cela implique d'entraîner l'IA sur des exemples d'humains résolvant des problèmes en lui montrant essentiell ement la bonne façon de penser et de raisonner cela peut inclure de lui montrer des exemples d'experts expliquant leur processus de réflexion étape par étape en résumé l'initialisation de la politique consiste à donner à l'IA une base solide en matière de langage de connaissance et de compétences
de raisonnement de base cela la prépare au succès pour les étapes ultérieures d'apprentissage et de résolution de problèmes cette phase d' 1 est cruciale pour développer des comportements de raisonnement semblable à ceux des humains dans l'a leur permettant de penser systématiquement et d'explorer efficacement les espaces de solution ensuite nous arrivons à quelque chose de super intéressant la conception des récompenses cette image que vous pouvez voir à l'écran illustre deux types de systèmes de récompense utilisé dans l'apprentissage par renforcement la modélisation des récompenses par résultats ORM et la modélisation des récompenses par processus PRM l'explication est
en fait assez simple la modélisation des récompenses par résultat évalue uniquement la solution en fonction du résultat final si la réponse finale est incorrecte la solution entière est marqué comme fausse dans cet exemple certaines étapes sont en fait correctes mais comme le résultat final est incorrect l'ensemble est simplement marqué comme faux c'est là qu'intervient la modélisation des récompenses par processus qui est bien meilleure avec la modélisation des récompense par processus chaque étape de la solution est évaluée individuellement les étapes correctes sont sont récompensé et les incorrectes sont pénalisés cela fournit un retour plus détaillé qui
aide à guider les améliorations pendant l'entraînement on peut voir que les étapes 1 2 et 3 sont correctes et reçoivent donc des récompenses tandis que les étapes 4 et 5 sont incorrectes et sont donc signalés comme des erreurs cette approche est bien meilleure car elle identifie les erreurs exactes dans le processus plutôt que de rejeter la solution entière ce diagramme soulligne l'importance des récompenses par processus dans les tâches impliquant un raisonnement en plusieurs étapes cela permet des améliorations itératives et de meilleures résultats d'apprentissage ce qu'il pense être essentiellement ce qu'utilise au 1 c'est là que
nous arrivons à la partie vraiment intéressante mais avant de voir ça très rapidement j'aimerais vous parler du nouveau projet que j'ai en ce moment comme vous le savez sur cette chaîne on analyse toutes les sorties et toutes les nouveautés en rapport avec lia mon but est avant tout de faire découvrir cette magnifique technologie au plus grand nombre et surtout et avant tout d'éveiller les consciences par rapport à liya comme je vous l'ai déjà dit je ne sais pas vous mais moi quand j' parle autour de moi les gens n'ont pas vraiment conscience de ce qu''est
lia ils ne se rendent pas compte de l'impact que celle-ci va avoir dans la société un impact monumental alors je l'ai déjà dit je ne fais pas de placement de produits sur cette chaîne je veux la garder la plus authentique possible alors c'est pour cela que j'ai créé une formation si vous voulez apprendre à utiliser lia dans absolument tous les domaines de votre vie dans d'ailleurs si vous regardez cette vidéo je pense qu'il y a deux très grandes chances que vous utilisiez déjà Alya notamment chat GPT par exemple et bien si vous voulez pousser beaucoup
plus loin votre réflexion et apprendre à utiliser tous les outils de Lia et savoir comment exactement les appliquer à tous les domaines de votre vie vous pouvez regarder le lien que je vais vous laisser en commentaire épinglé sous la vidéo donc n'hésitez pas à y faire un tour si vous êtes intéressé par le sujet je tiens juste à préciser que vous aurez également accès à la communauté vision Ia j'ai lancé le projet il y a très peu et vous êtes déjà plus d'une centaine à avoir fait l'acquisition de la formation ce qui est vraiment bien
c'est que vous venez de beaucoup de domaines différents et j'adore discuter avec vous régulièrement de savoir comment appliquer les outils que vous apprenez dans vos domaines précis c'est vraiment intéressant bref désolé pour la petite coupure je ne perds pas plus de temps et je vous rappelle que vous trouverez tous les liens dans la description ou dans les commentaires de la vidéo car c'est là que nous abordons la recherche que beaucoup ont salué comme l'élément qui pourrait nous mener à la super intelligence en fait j'ai j'ai récemment vu un tweet qui l'affirmait je veillerai à l'ajouter
à l'écran alors quand nous décidons de décomposer cela c'est essentiellement là où nous avons l'intelligence artificielle qui réfléchit quand vous avez une IA puissante comme O1 elle a besoin de temps pour réfléchir explorer différentes possibilités et trouver la meilleure solution ce processus de réflexion est ce que l'article appelle la recherche en réfléchissant davantage ils disent moque une façon d'améliorer les performances et de penser plus pendant l'inférence cela signifie que au lieu de générer une seule réponse elle explore plusieurs solutions possibles avant de choisir la meilleure par exemple pensez à l'écriture d'un essai vous n'écrivez pas
seulement le premier brouillon pour le soumettre n'est-ce pas vous réfléchissez aux idée vous écrivez plusieurs versions vous révisez et modifiez jusqu'à ce que vous soyez satisfait du produit final c'est aussi essentiellement une forme de recherche il y a deux stratégies principales dans le domaine de la recherche et l'article met en évidence ces stratégies coum pourrait utiliser pour ce processus de réflexion en premier lieu nous avons la recherche arborescante imaginez un arbre qui se ramifie où chaque branche représente un choix ou une action différente que l'IA pourrait potentiellement prendre la recherche arborescente consiste à explorer l'arbre
en suivant différents chemins pour voir où il mène par exemple dans une partie d'échec une IA pourrait considérer tous les coups possibles qu'elle pourrait faire puis toutes les réponses possibles de son adversaire et ainsi construire cet arbre de possibilité elle utilise ensuite certains critères pour décider quelle branche explorer davantage et lesquelles élaguer se concentrant sur les chemins les plus prometteurs c'est un peu comme un jardinier qui taille sélectivement les branches pour aider un arbre à pousser dans la bonne direction un exemple simple est l'échantillonnage des n meilleures options où le modèle génère n solutions possibles
puis choisit la meilleur selon certains critères en bas à droite nous avons les révisions séquentielles c'est comme écrire cet essai dont nous parlions plus tôt l'intelligence artificielle commence par une première tentative de solution puis l'affine étape par étape apportant des améliorations au fur et à mesure par exemple une IA pourrait générer une réponse initiale à un problème mathématique puis vérifier son travail identifier les erreurs et réviser sa solution en conséquence c'est comme réviser votre essai repérer les erreurs et l'améliorer à chaque relecture il faut aussi réfléchir à la façon dont l'intelligence artificielle décide quel chemin
exploré dans la recherche arborescante ou comment réviser la solution dans la révision séquentielle l'article mentionne deux types de guidage nous avons le guidage interne où l'IA utilise ses propres connaissances et calcul internes pour guider sa recherche un exemple est bien sûr l'incertitude du modèle où le modèle peut estimer son niveau de confiance dans certaines parties de sa solution il peut se concentrer sur les zones où il est moins certain explorant des alternatives ou faisant des révisions c'est comme revérifier son travail quand on n'est pas vraiment sûr d'avoir fait une erreur un autre exemple est l'autoévaluation
où l'IA peut-être entraîner à évaluer son propre travail identifiant les erreurs potentielles ou les zones d'amélioration c'est comme avoir un correcteur interne qui révise votre écriture et suggère des changements ensuite nous avons le guidage externe qui consiste à obtenir des retours du monde extérieur pour guider la recherche un exemple est le retour environnemental où dans certains cas l'a peut interagir agir avec un environnement réel ou simulé et obtenir des retours sur ces actions par exemple un robot apprenant à naviguer dans un labyrinthe pourrait recevoir des retours indiquant s'il se rapproche ou s'éloigne du but un
autre exemple est l'utilisation d'un modèle de récompense dont nous avons parlé PL tôt le modèle de récompense peut fournir des retours sur la qualité des différentes solutions ou actions guidant l'a vers de meilleurs résultat c'est comme avoir un professeur qui note votre travail et vous dit ce que vous avez bien fait et ce que vous devez améliorer en essence l'élément de recherche et le processus par lequel O1 explore différentes possibilités et affine sa solution sont guidés à la fois par ses connaissances internes et ses retours externes c'est une partie cruciale de ce qui rend ha
ainsi performant dans les tâches de raisonnement complexe la recherche est donc la façon dont lia réfléchi à un problème mais comment s'améliore-t-elle réellement dans la résolution de problème au fil du temps c'est là qu'intervient l'apprentissage l'article suggère que O1 utilise une technique puissante appelé apprentissage par renforcement pour améliorer ses performances la recherche génère les données d'entraînement rappelez-vous comment nous avons parlé de la recherche générant plusieurs solutions possibles et bien ces solutions ainsi que les retours du guidage interne ou externe deviennent des données d'entraînement précieuses pour l'IA c'est comme un étudiant qui s'entraîne pour un examen
il pourrait essayer de résoudre différentses exercices obtenir des retours sur ses réponses et apprendre de ses erreurs chaque tentative qu'elle soit réussie ou non fournit des informations précieuses qui l'aident à apprendre et à s'améliorer il existe deux méthodes principales d'apprentissage et l'article se concentre sur deux méthodes principales que un pourrait utiliser pour apprendre à partir des données générées pendant cette recherche la première méthode concneent les méthodes de gradient de politique comme PPO ces méthodes sont un peu plus complexes mais l'idée de base est que lia ajuste sa politique interne qui est sa stratégie pour choisir
ses actions en fonction des récompenses qu'elle obtient les actions menant à des récompenses élevées deviennent plus probables tandis que celles menant à de faibles récompenses deviennent moins probables c'est comme affiner le processus de prise de décision de l'IA basé sur ses propres expériences PPO ou optimisation de politique proximale est une méthode populaire de gradient de politique connue pour sa stabilité et son efficacité c'est comme avoir une manière prudente et méthodique de mettre à jour la stratégie de l'IA s'assurant qu'elle ne change pas trop drastiquement en réponse à une seule expérience ensuite nous avons le clonage
comportemental qui est une méthode plus simple où lia apprend à imiter les solutions réussies c'est comme apprendre par imitation si le processus de recherche trouve une très bonne solution une qui obtient une récompense élevée liia peut apprendre à copier cette solution dans des situations similaires c'est comme un étudiant qui apprend à résoudre un problème mathématique en étudiant un exemple résolu l'article suggère que O1 pourrait utiliser le clonage comportemental pour apprendre des des meilleures solutions trouvées pendant la recherche cela permet d'ajouter efficacement ces solutions à son répertoire de stratégie réussie ou cela pourrait être utilisé comme
une façon initiale de préparer le modèle avant d'utiliser des méthodes plus complexes comme PPO nous avons ensuite la recherche et l'apprentissage itératif et la véritable puissance de cette approche vient de la combinaison de la recherche et de l'apprentissage dans une boucle itérative l'intelligence artificielle recherche des solutions apprend des résultats puis utilise ses connaissance amélioré pour mener des recherches encore meilleures à l'avenir c'est comme un cycle continu de pratique de retour d'information et d'amélioration et l'article suggère que ce progrès itératif est la clé de la capacité 21 à atteindre des performances surhumaines sur certaines tâches en
cherchant et en apprenant continuellement lia peut dépasser les limites de ses données d'entraînement initiales et potentiellement découvrir des solutions nouvelles et meilleures que celles auxquelles les humains n'ont pas pensé maintenant que nous avons expliqué le fonctionnement d' 1 et que vous connaissez les bases les quatre piliers clés pensez-vous que nous sommes proches de la super intelligence après avoir lu cet article de recherche et compris les détails précis du fonctionnement d'1 je comprends vraiment pourquoi la communauté de Lia au sens large affirme que la super intelligence n'est pas si loin si une IA peut rechercher des
solutions puis apprendre de ses résultats et utiliser ses connaissances améliorées pour mener des recherches encore meilleures à l'avenir avoir un cycle continu de pratique de retour d'information et d'amélioration atteindre des performances surhumaines serait possible en théorie donc peut-être que la super intelligence artificielle n'est pas si loin