Por algum motivo, alguém decidiu vazar os prompts internos do cloud, uma das e mais avançadas do mundo hoje em dia. E a gente tá falando aqui de um arquivo de texto grande, com cerca de 24. 000 tokens e que expõe pra gente como que Antropic faz para estruturar os seus agentes.

E ao analisar esse arquivo, a gente consegue perceber uma série de técnicas sofisticadas de engenharia de prompt que qualquer pessoa que use inteligência artificial no dia a dia ou que esteja construindo agentes deveria saber. Só que nesse vídeo eu fiz esse trabalho por ti e eu vou trazer as sete lições que eu aprendi ao analisar todo esse arquivo. Só que antes de começar esse vídeo, eu queria deixar duas coisas bem claras.

Em primeiro lugar, todas as IA que a gente conhece hoje em dia, Chat EPT, Cloud, Geminii, elas não são consideradas apenas modelos de inteligência artificial, Llims puras, mas sim uma combinação entre a rede neural com os seus parâmetros já pré-estabelecidos, ferramentas. Então eles têm acesso a ferramentas de pesquisa na web, de transcrição de áudio, algumas de geração de vídeo e aqui no meio tá o elemento mais importante que é a cola entre o modelo de linguagem e as ferramentas que é o prompt e essa combinação de três fatores que caracteriza todas essas IAS hoje em dia como agentes. E o segundo ponto é que na minha opinião, o prompt que tá aqui no meio, é talvez a variável mais importante para definir se tu vai ter um bom agente ou não.

Porque eu já vi inúmeros casos de modelos ruins dando origem a agentes muito bons simplesmente porque o prompt foi bem estruturado. Às vezes tu pode colocar um modelo pequeno como um lhama, 60 bilhões de parâmetros aqui, fazer ele superar de repente um chato3 de pensamento, modelo caríssimo, simplesmente por ter estruturado bem o prompt aqui no meio. Então é por isso que analisar documentos como esse tem tanto valor, porque eles são capazes de nos ensinar muito, muito, muito mais do que a gente acha que sabe sobre engenharia de prompt.

Então bora lá. Lição número um. Não tenha medo de escrever grandes promptes.

Uma das coisas que mais me surpreenderam ao analisar esse documento é o seu tamanho. Ele possui quase 18. 000 palavras, o que dá mais ou menos 24.

000 tokens. Isso é curioso porque há 2, 3 anos atrás, mais ou menos, a janela de contexto dos modelos de linguagem era bem pequena. A gente táa falando aí de 4.

000, 8. 000 tokens. Só que isso mudou.

Qualquer modelo meia boca hoje em dia já passa fácil de 128. 000 tokens. O próprio Gemini do Google tá batendo a casa dos 2 milhões de tokens.

E Antropic nos deu um grande exemplo aqui sobre como utilizar essa janela de contexto de maneira adequada. Mas a primeira lição é essa. Usem essa janela de contexto.

Quanto mais instruções vocês passarem aqui dentro, quanto mais informações tiverem disponíveis pro modelo sobre como utilizar determinada ferramenta, como se comportar em certa situação, o que que eu não devo fazer, o que que eu devo fazer, que tom eu devo utilizar, melhor. Lição número dois, use XML para organizar blocos de instrução. E essa lição número dois tem muito a ver com a lição número um, porque simplesmente sair descrevendo um cromte gigantesco não vai fazer com que teu modelo performe melhor.

E o que eles fazem ao longo de todo o prompt dele é organizar blocos de instrução com tags XMLs. Para quem já trabalhou com HTML, imagina em tags HTML, onde a gente tá colocando dentro dos conchetes qual o contexto na qual aquilo deveria ser utilizado e coloca ela no final quando aquele contexto deixa de ser utilizado. E isso faz com que os modelos de linguagem consigam acessar, vamos dizer assim, aquele trecho de informação da maneira mais eficiente possível quando aquilo fizer sentido para ele.

Se ele for fazer uma pesquisa, ele vai ter bem marcado quais são as instruções, como que ele tem que fazer uma pesquisa, como é que ele monta uma query, o que que ele não deve fazer. Eu não tenho 100% certeza quanto a isso, mas eu acredito que esse comportamento tem a ver com o mecanismo de atenção dos Transformers, que é a arquitetura base de todos os modelos de linguagem tradicionais e que é como se aquele bloquinho de XML se ligasse quando ele percebesse que o contexto da pergunta que a pessoa fez tivesse relação com aquilo. Número três, um bom prompt, ele é 80% prevenção e 20% instrução.

E essa aqui é contrainttuitiva, porque prontos de amadores como os nossos, na grande maioria das vezes, eles são baseados em nós dizendo o que que o modelo deveria fazer. Faça uma pesquisa para mim sobre um assunto X e monte um relatório de cinco páginas, levando em consideração A, B e C. Atu como um analista senior, seja conciso.

Então são instruções que a gente tá passando pro modelo. O promptopic ele é quase como o oposto. Ele foca muito em dizer pro agente o que ele não deve fazer, coisas que ele deve evitar, erros que ele não pode cometer.

E ele se comporta muito mais como uma política de tomada de decisão do que como um bloco de instrução em si. Ao invés de dizer seja conciso, eles vão lá e dizem não emojis, por exemplo. Número quatro, programe a IA.

Use lógica condicional e regras binárias. O prompt do cloud usa dezenas, centenas de exemplos de condições do tipo: "Se isso aqui acontecer, então faça isso, do contrário, faça tal coisa". É como se de fato eles estivessem programando a IA.

Eu encontrei nele 167 ocorrências da palavra if. Um exemplo super legal disso é um trecho do Prompt que dizia quando que ele deve fazer uma pesquisa na internet. E ele perguntava se a informação que estão te pedindo ela é imutável no tempo, ela é o temporal.

Então, simplesmente responda. Se ela se move de maneira devagar, proponha pro usuário dê sua resposta, mas proponha pro usuário que você possa fazer uma pesquisa. E se ela se move rapidamente, se é uma informação que troca o tempo inteiro, cotação do dólar, pesquisa imediatamente.

Número cinco, melhore a eficiência do uso de ferramentas com exemplos negativos. O prompt simplesmente não mostra como usar, por exemplo, uma chamada de API, mas ele também mostra como não fazer isso. Isso é muito interessante, porque no aprendizado humano a gente também costuma aprender através de análise de erros e por que a IA seria diferente, né?

Então a lição aqui é: não apenas ensine o sucesso, mas também momentos e situações erradas. Número seis e na minha opinião é uma das mais poderosas, que é incentive pausas para reflexões após chamadas de funções. Porque eu imagino que vocês já conheçam modelos de reflexão como o A1, o O3, o Dipsic R1, que são aqueles modelos que antes de dar uma resposta, eles vão lá e emitem uma longa cadeia de pensamento pensando, escrevendo uma série de coisas antes de te dar resposta.

Esse tipo de forma de output dos modelos de linguagem, eles performam muito bem no que a gente chama de stem, ST. seriam as áreas de ciência, tecnologia, engenharia e matemática. E aqui uma explicaçãozinha um pouquinho mais técnica do por que que isso acontece.

Porque os modelos de linguagem eles são o que nós chamamos de autorregressivos. Eles trabalham emitindo um token por vez, analisando toda a cadeia de sequência que eles estão observando dentro da janela de contexto. E se a gente faz uma pergunta técnica em algum momento aqui, por exemplo, x + 2 = 0, qual o valor de x?

Se o modelo tentar devolver a resposta de cara, é muito mais provável que ele erre, porque ele vai ter que acertar um único token com toda a a linha de pensamento que deveria existir para poder chegar nessa resposta. E isso seria ruim. E eles perceberam que modelos, toda vez que eles tentam emitir uma longa cadeia de pensamento antes, com toda a reflexão, com toda uma sequência de passos que poderia levar ele a uma resposta correta antes.

Então, por exemplo, x + 2 = 0. significa que x = 0 - 2. Se ele escrevesse isso antes, a probabilidade do modelo acertar esse token final com a resposta é muito maior, porque ele já tem toda uma sequência de passos feitas antes que está indicando para ele qual que é a resposta certa.

Os modelos, quando eles escrevem uma série de coisas, quando a gente faz uma pergunta dessas, eles não estão fazendo isso pra gente, para nós olharmos ali e entendermos o raciocínio dele, é muito mais para ele, para ele conseguir aumentar a sua própria probabilidade de acertar essas perguntas. E qual que é o problema? Esses modelos de pensamento eles são muito caros, porque às vezes eles gastam uma sequência de tokens muito longa com coisas que não são tão relevantes.

E aqui que vem a grande sacada. A gente pode instruir para que o modelo pause e pense, escreva de repente algum parágrafo de reflexão apenas em situações que nós julgarmos necessárias. É como se a gente pudesse pegar um modelo que não é de reflexão, como um GPT 4.

1, um Gemini 2. 5 Pro e transformasse ele no modelo de reflexão apenas em momentos específicos. Isso economiza tokens e isso faz com que o modelo ele performe muito melhor.

Então, uma simples regrinha de promptes podem colocar. Por exemplo, eu desenvolvi um agente recentemente que faz pesquisa para mim para poder substituir o Deep Research. E antes de montar o relatório final, eu peço para ele, cara, antes de escrever seu relatório, sintetize quais foram os principais pontos que tu viu, quais deles estão mais alinhados com o que foi pedido pelo usuário final.

Só de fazer isso, a qualidade do relatório melhora muito. E sétimo e não menos importante, repita instruções importantes ao longo do prompt. O que Tropic fez é como a janela de contexto ela às vezes a gente monta um prompt muito grande, ele acaba se perdendo.

Algumas informações podem acabar não sendo consideradas o tempo inteiro, o modelo quase como se ele esquecesse. Eles introduziram uma repetição estratégica de coisas que são importantes ao longo de todo promptis que de fato valem a pena, que são importantes, como de repente o nome da empresa de vocês ou o nome do agente ou o nome do usuário, possam estar presente em vários momentos para que de fato aquilo grude e que ele aumente a probabilidade dele considerar aquilo na resposta. Então, na minha opinião, tanto a lição dois quanto a lição sete, elas são antídotos pros problemas que a lição número um causa.

Então é isso. Essas são as principais lições que eu aprendi. Mas se pudesse colocar em um uma frase final, assim, seria pra gente poder parar de pensar os prontos como simples comandos, como simples instruções e pensar mais como políticas de tomada de decisão, quase como um documento para que o modelo de linguagem ele pudesse se consultar com aquilo e entender o que que ele não deve fazer e quando que ele deve fazer.

Se vocês pensarem mais dessa forma, os resultados dos seus agentes serão muito melhores. Então é isso. Espero que esse vídeo possa ter sido útil para você.

E se você quer aprender mais sobre como construir agentes de inteligência artificial utilizando frameworks modernos como LC Chain, CE AI, AgNO, quer criar mais aplicações com inteligência artificial modernas, eu te convido a conhecer as Imov Academy, que é a maior escola de Python do Brasil, na qual eu faço parte, e é só clicar no link que eu tô deixando aqui embaixo. Qualquer comentário, dúvida, por favor, deixa nos comentários. Forte abraço a todos e até o próximo vídeo.

Alguém vazou os prompts do Claude... e aqui está o que aprendi com eles