é pessoal A antropic tá se preparando para fazer o lançamento dos modelos de raciocínio dela YouTube já também já começou a lançar ferramentas para lançamento de shorts utilizando vo2 e alguns estudos tentando explicar as habilidades de raciocínio das llms vamos entender o que que tá acontecendo É isso aí vamos lá pessoal Sempre agradecendo a todo mundo que deixou seu like a todo mundo que se inscreveu um agradecimento especial a todos os membros que patrocinam esse canal aqui de Inteligência Artificial então Então olha só essa notícia o estudo de a revela fatores chave por trás das
habilidades de raciocínio de longo prazo dos llms é gente porque agora ficou quase que sinônimo utilizar a inteligência artificial com algum modelo de raciocínio eles funcionam muito melhor Olha só uma investigação sistemática revela os métodos pelos quais as longas cadeias de pensamento dos modelos de raciocínio são geradas bem interessante né porque na verdade o modelo de raciocínio é só uma evolução de um modelo de base Afinal Por que que ele raciocina os resultados fornecem dicas práticas para otimizar estratégias de Treinamento Olha só vamos lá a equipe da in ai junto com pesquisadores da Universidade de
Ching hua e da Universidade de Kennedy Melon mapearam como os modelos de a desenvolvem sua capacidade de trabalhar por meio de longas cadeias de pensamento é isso aqui parece interessante hein ó no seu estudo sistemático usou o ajuste fino supervisionado que ele chamam de sft e aprendizado por reforço que é o reinforcement learning para identificar os principais fatores por trás dessa capacidade e olha aqui o que eles entenderam né a pesquisa produziu quatro insights principais primeiro embora o Fin tuny supervisionado torne o treinamento mais eficiente e direto ele não é essencial apoiando que o deeps
descobriu com seu modelo R10 então para fazer o modelo de raciocínio a parte de fine tunning não é essencial a equipe testou isso usando elos matemáticos lama 3.18b e o qen 2.57b treinando-os com dados de cadeias de raciocínio longas e curtas eles descobriram que o fetan supervisionado com cadeias de pensamento mais longas não apenas teve um desempenho melhor mas também tornou as melhorias subsequentes de reinforcement learning mais eficazes então aqui Aparentemente parece que tem uma contradição mas não tem não eles só estão falando aqui que essa parte de F turn supervisionado não é essencial mas
se você fizer ela melhora ali os próximos passos essa que é a conclusão correta hein segunda coisa que eles descobriram embora mais poder de computação durante o treinamento do reinforcement learning tenda melhorar as habilidades de raciocínio isso não é garantido é gente olha só o comprimento das cadeias de raciocínio nem sempre cresce com a forma constante durante o treinamento de reinforcement learning tornando o design de recompensa correto crucial para uma melhoria consistente mas isso aqui me parece até Óbvio até demais né Afinal ficar falando um monte significa que você tá falando coisas corretas Não claro
que não às vezes quem fala menos vai mais direto ao ponto e chega na resposta certa mais rápido e por isso que tem que ter aprendizado por reforço para dar recompensa para quem acerta e para quem acerta mais rápido também terceira coisa obter sinais de recompensa confiáveis em escala é a chave para o treinamento de reinforcement learning bem sucedido e isso aqui é a parte que faz o aprendizado por reforço ficar tão divertida e isso vale tanto pra Inteligência Artificial quanto para animais quando você você escolhe a recompensa que você vai dar pelo comportamento que
você tá esperando diferentes Recompensas em diferentes contextos fazem toda a diferença a equipe explorou o uso de dados extraídos da web com soluções imperfeitas para aumentar esses sinais testando com o conjunto de dados web instruct eles compararam diferentes métodos de verificação e descobriram que a verificação baseada em regras funcionava melhor ao filtrar respostas mais curtas bem interessante né porque às vezes a resposta que você tá tentando descobrir ali é mais curtinha e outras vezes a resposta ali que você tá esperando pode ser um testão e olha só usar dados diversos mesmo que pouco ruidosos provou
ser especialmente valioso para lidar com casos incomuns em comparação com modelos treinados em dados cuidadosamente verificados Olha que interessante esse caso aqui hein significa que tem um monte de respostinha mais ou menos é mais interessante do que ter uma única resposta correta ali precisa e Certeira parece que a inteligência artificial prefere se adaptando ao invés de ter que acertar ali tudo bem corretinho em quarto lugar embora os modelos básicos já contenham recursos essenciais como correção de erros usar reinforcement learning para aplicar essas habilidades a tarefas complexas pode exigir recursos de computação significativos é gente isso
aqui é um problema antigo do reinforcement learning né tarefas complexas em que você tem muitas etapas no meio do caminho em que você não sabe exatamente no meio daquele monte de etapas qual que é que mais contribui pra resposta final isso sempre foi um problema isso não é de hoje e olha só isso daqui ó modelos maiores ainda parecem ser importantes isso porque o nosso sonho né é fazer uma a8b que tem uma super inteligência mas isso aí aparentemente não vai rolar a pesquisa sugere que alguns comportamentos como checar duas vezes as soluções podem ser
aprendidos durante o pré-treinamento Possivelmente a partir de discussões humanas entre fóruns online que engraçado né o chat tá ali olhando os fóruns aprendendo como é que a gente faz e algumas vezes as pessoas pessas fazem um duplo cheque ali o aprendizado por reforço parece ajudar principalmente os modelos a recombinar habilidades que eles já adquiriram durante o pré-treinamento e isso aqui é bem interessante gente porque isso tem a ver com comportamentos emergentes isso na psicologia a gente já estuda imagina que se você já tem um comportamento a E você também tem um comportamento b e o
comportamento c é a mistura do a com o B aqui eles estão falando que bom se você já tiver o a e o b pronto porque o C já vem rapidinho porque a inteligência oficial Já sabe as etapas anteriores isso É bem interessante hein a equipe acredita que o tamanho do modelo continua sendo a principal restrição ao desenvolvimento de habilidades de raciocínio mais sofisticadas em modelos menores eles estão considerando testar o aprendizado por reforço com modelos de base maiores no futuro embora a infraestrutura de código aberto necessária para Tais experimentos ainda esteja em desenvolvimento Então
aquela coisa você tá fazendo aquela sua pesquisa e tá tudo dando certo no modelinho 8b para você sair desse modelinho 8 b e fazer um treinamento de um modelão de 630b vai ser um problema né vai precisar de muito mais memória e de uma arquitetura de treinamento e dinheiro muito mais alta os modelinhos menorzinhos mesmo vão fazer um raciocínio mas não vai ser aquele raciocínio tão bom como se fosse grande comenta aqui se você tá utilizando modelos de raciocínio dentro do seu computador localmente e se está dando certo próxima notícia YouTube traz a criação de
vídeos com i para o shorts com o vi2 do Google é gente se você não lembra o vo2 é basicamente a versão do Sora da Open ai só que na versão Google e a galera gostou 1000 vezes mais do vo2 e o feedback de quem utilizou ele é muito mais interessante Agora imagina você começar a fazer shorts gerando vídeo Hein o YouTube está adicionando o modelo de geração de vídeo vo2 do Google ao seu recurso de shorts permitindo que os criadores adicionem clips e Fundos gerados por ia aos seus clips isso aqui eu não vejo
a hora de poder utilizar hein a utilização se baseia no recurso Dream screen existente do YouTube e adiciona dois recursos os usuários agora podem criar Fundos gerados por ia para seus curtas e podem criar videoclipes Independentes Para incorporar ao conteúdo existente que é o que eu quero fazer né E aliás é o que acho que todo mundo quer fazer a geração de vídeo funciona por meio de prompt de texto simples com opções para especificar estilos tipos de lentes e efeitos de filme o YouTube Diz que o sistema gera vídeos mais rápidos do que versões anteriores
eles mostram o clipezinho aqui desse cachorrinho aqui que comeu sem querer aqui a teína e virou um cachorrinho gigante mas aparentemente eles não utilizaram Inteligência Artificial aqui aparentemente foi só um exemplo do recurso ali de que ele tá usando essa nova edição que permite que você consiga fazer algumas coisas direto ali no editor do shorts e aí ele continua né YouTube adicionará marcas d'água de cint ID invisíveis a todo o conteúdo gerado por ia identificando claramente como tal os recursos estão sendo lançados nos Estados Unidos Canadá Austrália e Nova Zelândia com planos para lançamento mais
amplo posteriormente então aqui no Brasil ainda não chegou Nem adianta dos videoclipes a compreensão do mundo fora dos curtas metragens O vi2 do Google pode criar vídeos com resolução até 4K que pode ser estendida para vários minutos de acordo com o Google ele também está disponível por meio do víde fx e da plataforma vertex ai e essa versão aqui do vde FX por enquanto tem que entrar na wait list nem todo mundo conseguiu utilizar o do vertex eu não testei ainda mas aí teria que ser pago em testes de mais de 1000 prompts os usuários
consistentemente classificaram o desempenho do vi2 como superior aos dos concorrentes incluindo Sora Turbo da Open ai isso está em linha com o feedback Geral das mídias sociais desde que ambas as ferramentas foram lançadas em dezembro Isso é verdade né muita gente falou excelentemente bem desse vo2 e muita gente não gostou definitivamente do Sora como outros geradores de vídeo Deia o vo2 ainda tem dificuldades com cenas complexas movimento e física básica enquanto empresas como o Google esperam eventualmente usar esses modelos para criar modelos de mundo abrangentes a tecnologia atual os limitas a clipes e efeitos mais
curtos tornando YouTube shorts um ajuste natural por enquanto e para mim faz todo sentido né utilizar a inteligência artificial generativa ali num contexto menorzinho mais enclausurado mais controlado 15 segundos sei lá vídeos curtos isso ajuda a antropic prepara novos llms híbridos de cloud com capacidade de raciocínio é gente todo mundo já percebeu que o cloue não tem feito nenhum lançamento basicamente aconteceu muita coisa em dezembro e janeiro ali de tudo quanto é empresa e a antropic tá meio parada sem lançar nada Mas de repente eles estão aí para lançar né ó a antropic Está se
preparando para lançar um novo modelo de a que combina recursos de modelo de linguagem tradicionais com funções avançadas de raciocínio segundo the information o modelo estará disponível nas próximas semanas com foco em aplicações empresariais o momento se alinha com o anúncio recente da Open ai de que o GPT 5 chegará nos próximos meses como um sistema que incorpora as capacidades de raciocínio de seus om model em função de modelos de linguagem padrão e se você não assistiu o vídeo assista aqui que eu fiz ele completinho explicando o que que tá rolando a Open ai decidiu
não lançar seu modelo de raciocínio A3 separadamente isso É bem interessante né juntou tudo ambas as empresas estão ajustando suas estratégias para esses modelos híbridos pois o dimensionamento dos modelos de linguagem tradicional adicionando mais dados e parâmetros mostra retornos decrescentes é gente tá todo mundo ali é meio que apavorado parece que as inteligências artificiais tém que empacadas a openi não introduziu um modelo de linguagem significativamente melhor desde o GPT 4 em março de 2023 e a antropic adiou indefinidamente seu modelo principal Opus 3.5 embora os modelos de raciocinam possam ter um desempenho significativamente melhor em
tarefas como respostas certas ou erradas Claras como codificação em matemática ainda não está claro se E como eles podem melhorar o desempenho geral dos modelos de linguagem especialmente em áreas como escrita e criação e obter novos conhecimentos fora da distribuição de dados de treinamento é isso aqui tá sendo repetido de tudo quanto é lado né Que eles só conseguem melhor orar na parte de matemática porque a resposta é Clara e que ajuda no aprendizado por reforço mas a verdade é que eu tenho utilizado esses modelos de raciocínio inclusive para tarefas ali de escrita e tá
funcionando bem sim porque ele acaba pensando sobre algumas ideias e ele acaba refutando conceitos que ele tá percebendo que estão ali no texto que você pediu para não colocar e que faz sentido usar isso aqui sim às vezes essas ideias assim que tem que ter a resposta Clara e certa para ser melhor vira uma coisa meio de papagaio jornalístico que todo mundo começa a repetir repetir repetir e que não necessariamente é exatamente isso que tá acontecendo na hora de treinar o aprendizado por reforço Que bom que você tenha uma resposta certa e que seja clara
e que seja curta como uma matemática que diz que é dois e a resposta é dois acabou e não tem outra resposta Mas isso não significa que você não consegue raciocinar um pouco melhor ali num texto e melhorar ali um parágrafo o controle de recursos atendem às necessidades da empresa uma característica fundamental do novo modelo da antropic é a sua locação de recursos variáveis os usuários podem ajustar quanto o poder de computação o modelo usa para cada tarefa por meio de um controle deslizante simples e isso é bem legal né porque às vezes tem que
pensar um pouquinho mais às vezes nem tanto em sua configuração mais baixa o modelo funciona como um modelo de linguagem padrão sem geração de cadeia de pensamento atualmente o open limita os usuários a três níveis pré-definidos de seus modelos de raciocínio e eu acho que isso é o normal né raciocinar um pouquinho para aquilo que não é muito importante às vezes você quer fazer um raciocínio mais longo quando você tá querendo escrever um artigo ou fazer uma apresentação Então tudo varia de acordo com as fontes do denf os primeiros testes sugerem que o modelo tem
um Bom desempenho em tarefas práticas de programação um usuário relata que ele lida com bases de código complexas com milhares de arquivos de forma mais eficaz que o modelo O3 mini da Open ai e gera o código funcional e de forma mais confiável na primeira tentativa e isso é o que eles acabam falando bastante dos modelos de reflexão Nem adianta fazer uma segunda tentativa se ele não acertar de primeira só vai piorar os modelos da openi mantém uma vantagem em tarefa de programação acadêmica bem interessante essa parte acadêmica né eu acho que a Open tá
se esforçando bastante para fazer uma inteligência artificial que sirva para avançar a humanidade mesmo e agora não tô falando pelo bem da humanidade mas avançar o conhecimento da humanidade e é por isso que parece que o s alman tá tão preocupado com o A3 mini aqui e fazer com que esse ciclo feche sabe com a inteligência artificial batendo uma meta mínima de conseguir avançar o pensamento científico de forma autônoma eu acho que é isso que ele tá buscando porque atingir isso vai liberar a sociedade para evoluir de uma forma e vai gerar valor pra empresa
dele principalmente pra empresa dele eu não acho que ele vai vender isso e vai definitivamente criar um avanço tecnológico no nível global é um negócio muito doido a antropic prevê forte crescimento de seus negócios de API de acordo com o The information a antropic projeta uma receita de até 34,5 bilhões até 2027 um cenário otimista sua projeção é a base de 12 bilhões o que ainda é um aumento significativo em relação à projeção atual de 3,7 bilhões para 2025 mas esses valores aqui que eles podem mudar né vamos ver o que que vai acontecer de
acordo com a Adesão e com a dança dos preços de acordo com a evolução da Inteligência Artificial a empresa Quer dominar especificamente o mercado de apis projetando uma receita três vezes maior que a da openi até 2027 o mesmo ano em que a antropic espera obter seu primeiro lucro é gente olha que interessante essa frase aqui ó eles já estão imaginando que 2027 vai começar a ter lucro pela primeira vez na vida se você nunca acompanhou o ciclo de uma Startup É bem isso ela escolhe uma tecnologia escolhe uma aplicação faz todo um investimento começa
devendo a cada mês que passa ela mais gasta do que recebe a partir do impacto que eles calculam daquela tecnologia no futuro eles fazem a tal da avaliação da empresa que no caso a PNI tá avaliada em 300 Bilhões de Dólares que significa que ao longo do tempo ela vai começar a parar de dar prejuízo em algum momento ela empata as contas até chegar no médio longo prazo entre 5 10 15 anos em que ela deve atingir aqueles 300 bilhões lá de fato a antropic já ganhou terreno no desenvolvimento de software assistido por ia uma
análise de investidores mostra que sua participação de mercado dobrou de 12 para 24% em grandes partes graças a seu modelo sonet abre aspas 3.6 enquanto a participação da Open ai caiu em 50% para 34% e é interessante esses números se ele subiu de 12 para 24 ele tirou 12 pontos de alguém se a Open caiu de 50 para 34 vamos supor que a antropic tirou os daqui ó então foi para 40 38 então pelas contas aqui tem pelo menos 4% faltando aqui que Muito provavelmente foi para de psic que tá levando uma boa parte do
mercado para lá também é isso aí comenta aqui se você usa o cloud da antropic porque realmente eu acredito que a maior parte das pessoas que usam o cloud utilizam para aplicações profissionais mesmo não tão ali muito no chat estão mais ali fazendo realmente os chatbots os assistentes porque a confiabilidade e a inteligência que o clou tem é muito boa e ela é excelente para gerar de texto e muita gente que trabalha com o ia que tá ali na fronteira fazendo produtos pros clientes tem preferido utilizar o clou faz bastante tempo mas o que eu
já percebi é que pro público em geral a galera prefere o chat GPT E também o deeps porque ali os dois me que fazem uma frente mais genérica e mais ampla para uso de tudo quanto é coisa comenta aqui o que você tá pensando em relação a isso se você quiser apoiar o canal para continuar vendo vídeos como esse seja membro os membros TM acesso ao grupo do WhatsApp e vídeos antecipados É isso aí deixa seu like valeu l