Gastei 25 milhões e de tokens e quase um casamento inteiro para conseguir aprender coisa para caramba sobre o OpenCla. E a real é que eu tô viciado nesse negócio. Para mim, isso aqui não é só uma diversão, algo que eu estou fazendo, porque nossa, é muito legal você controlar uma IA pelo Telegram, mas a real é que eu como um empreendedor consigo ter uma visão 360 de todas as minhas estruturas de negócios.
Eu consigo enxergar todos os meus produtos, funis, tickets de reclamação, consigo ver toda a minha comunidade, produzir conteúdo. Eu consigo literalmente me tornar um empreendedor 10 vezes mais poderoso usando o OpenCop. Nesse vídeo aqui de hoje, eu quero trazer pra vocês duas coisas que eu aprendi ao longo dessa jornada que são fundamentais você saber para você construir o seu open claw, que são duas coisas que no meio desses 25 milhões tokens que eu gastei, provavelmente foram as coisas que eu mais quebrei a cabeça para construir, que é o meu sistema de memória.
Então, como eu construo um sistema de memória persistente que não fica apagando as coisas, que não sobrecarrega ao longo prazo e que compartilha memória quando você tem múltiplos agentes? E também como construir uma estrutura de múltiplos agentes. Então, eu saí de uma estrutura que eu tinha alguns é um agente para alguns poucos agentes e durante o carnaval eu coloquei 35 agentes trabalhando numa estrutura extremamente complexa e meu open quase quebrou.
Então eu quero trazer para vocês nesse vídeo tudo que eu aprendi ao longo desses 14, 15 dias gastando 25 milhões de tokens para que você também não precise passar por isso, tá bom? Então, partiu o vídeo de hoje. Se você é novo aqui no meu canal, eu sou o Bruno Camoto e aqui no meu canal eu falo muito sobre startup, sobre SAS, sobre microsas, sobre a e na real eu curto muito falar no geral sobre empreendedorismo.
Então, ao longo desses anos, eu me foquei muito em construir vídeos educativos. Eu adoro eh aprender coisas, eu adoro ensinar o que eu aprendo e eu sinto que eu aprendo muito mais quando eu ensino vocês. Então esse vídeo é mais um vídeo da minha série de co de vídeos que eu ensino vocês, coisas que eu aprendi que eu acho isso muito divertido, tá?
Então só para dar um contexto antes de falar de Open Claw e tudo mais, eu quero e explicar algumas coisas, né? Então assim, o primeiro ponto é sobre tokens, né? Então muita gente fala assim: "Mas Bruno, você tá fazendo como com tokens?
Como que você tá fazendo? Quanto que você tá gastando? " E tudo mais.
E essa questão de tokens, ela é muito importante. Então eu quero deixar claro aqui o que eu estou fazendo e o que eu recomendo que vocês façam. Então sobre tokens, o que eu estou fazendo é o seguinte.
Eu estou usando a minha assinatura do cloud code de R$ 11. 100, que é o Max de 20. Então eu uso esse plano porque o meu plano Max 5X, eu tava estourando ele quase todas as sessões diárias com o meu nível que eu estou de OpenCall.
E eu também uso muito cloud code para montar várias coisas, vários projetos. Então eu tava assim estourando toda hora o limite eu tive que migrar, mas eu sinto que pagar R$ 11100 assim ainda é um ROI absoluto, né? Então o que eu recomendo vocês é que é o seguinte, hoje a Antropic ela atualizou os termos de uso dela e ela deixou explícito que quem tiver usando a assinatura deles em ferramentas terceiras corre o risco de ter a conta banida.
E eu fiz uma pesquisa na internet muito profunda para entender se de fato Antropic tá banindo as pessoas. E o que eu descobri nessa pesquisa é que a Antropic ela ainda não está banindo as pessoas. O que ela está fazendo, ela é está dando um susto na galera.
Então, muitas pessoas assim, não, muitas, eu não encontrei muitas, mas eu encontrei pessoas na internet, sim, principalmente no X e no Reddit, que falaram que levaram uma bronca da Antropic, ou seja, elas abriram a conta delas e elas estavam temporariamente banidas com aviso dizendo assim: "Olha, a gente suspeita que você está usando a sua conta para outros fins e a gente está te dando um aviso aqui. Você pode clicar nesse botão e a gente vai reativar sua conta, mas considere esse avisado. " Então, assim, a nível de risco, o que eu penso, tá?
Hoje eu não vejo como pagar pelos tokens usando API Dantropic. Eu não vejo como. Hoje, se eu fosse gastar tudo que eu estou gastando com API, né, pagando API, eu estaria gastando facilmente entre 800 e por mês, no mínimo, assim, para ser bem pé no chão.
Eu acho que vale 5 pau. Putz, não sei ainda. Pagaria até dois, talvez.
Tenho minhas dúvidas esses cinco, mas eu ainda acho que não cheguei no auge da minha curva de aprendizado do OpenCla, porque realmente é é uma ferramenta que ela é tem 1 milhão de possibilidades, né? Então você consegue estruturar como funciona tudo nela e tudo tem e é e uma tudo tem algo que você tem que aprender, né? Então ele vem com um sistema de memória padrão, mas você tem que ficar fazendo testes para evoluir esse sistema de memória para fazer ele performar melhor.
Ele vem com uma questão, por exemplo, de agente padrão, mas se você tem muitos agentes, você precisa customizar. Então assim, tudo você tem que aprender. Então seria difícil aprender tudo isso torrando grana dessa forma.
Porém, também o que eu recomendo é que vocês também usem uma ferramenta chamado Open Router, né? Então eu vou até abrir aqui na minha tela. Então vamos abrir aqui, ó, Open Router.
Então essa ferramenta aqui do Open Router, você consegue plugar múltiplos lls, né, dentro do seu OpenCall. Então você pode pegar uma LLM gratuita, como o Kimi, por exemplo, ou tem outras LLMs e usar. Você também pode usar uma versão mais barata, né?
Então ou você usar sua própria assinatura do chat GPT, né? No caso, a Open AI, ela comprou o o a OpenCl. Então eu imagino que você possa usar assinatura, não tem grandes problemas.
Imagino que inclusive ao longo prazo eles vão tentar facilitar o máximo possível para que você use a assinatura do da Open AI no Open Cloud, tá? É até difícil, né? Open AI, open clog, agora tudo virou open, né?
Mas é isso, tá? Então assim, primeiro ponto, tiramos o elefante da sala para falar de tokens. É isso que eu tô fazendo.
É, não recomendo se você não quiser correr esse risco. Se você quiser correr esse risco, vai lá e corre. Se você não quiser, usa o open router, enfim, faz o que você tem que fazer aí.
Então agora que nós tiramos esse elefante da sala e a gente não tem esse fator token no meio, então vamos falar agora sobre a estrutura, tá? Então eu gerei aqui, né? Então esse aqui é meu HQ aqui, né?
Então eu tenho hoje só para mostrar a minha estrutura, né? Então eu tenho aqui hoje eh são 1 2 3 4 5 6, né? Então eu tenho a Boss Amora, que é a minha bigos.
Eu tenho aqui o meu C Amora, que é o meu Chief of Stef. Então, ela é a mora que me ajuda a pensar em tudo, que organiza tudo, que controla todos os agentes. Ela é a minha meu braço direito que cuida de tudo, de todo mundo, de todos os meus negócios ao mesmo tempo.
Eu tenho o FLG Amora, que é essa pessoa incrível que me ajuda na produção de conteúdo, que inclusive me ajudou a fazer o conteúdo que eu vou ensinar para vocês aqui agora, tá? Então, vou até deixar aberto esse aqui. Eu tenho aqui também a Marketing Amora, que é a pessoa que me ajuda com toda a questão de marketing, né?
Então ela me ajuda com landing pages, funil, métricas e conversão, criativos, né? Então ela me ajuda com tudo. Eu tenho o MGM Amora, que é a amora que me ajuda com o meu microSAS, né, principal, com a Group Matrix.
Então eu tenho aqui é plugado ela no meu roadmap, eu tenho plugado ela no meu suporte, eu tenho plugado ela no meu Analytics, eu tenho plugado ela absolutamente em tudo. Então eu consigo lançar feature aqui pelo Telegram, eu consigo rodar K e eu consigo ver se as reclamações do meu suporte condizem com as features que nós estamos desenvolvendo. Então eu consigo ter uma visão 360 no meu negócio inteiro aqui com o MG Meamora e eu tenho o curso OpenCla porque eu estou lançando um miniurso do OpenCla.
Então como eu estou literalmente torrando grana e aprendendo e eu tenho vontade de fazer 1 milhão de vídeos no YouTube, só que ao mesmo tempo eu não tenho vontade de fazer vídeos curtos, né? Então, por exemplo, para eu fazer esse vídeo aqui do YouTube, eu não consigo sentar e gravar um vídeo de 4 horas para ensinar vocês passo a passo a fazer as coisas. não faz sentido para mim eh gravar esse tipo de vídeo.
Então, o que eu fiz foi que eu estou lançando este curso aqui, que eu vou deixar o link aqui embaixo, que é um curso bem baratinho, prometo para vocês, que é para justificar, né, o meu esforço e meu tempo e tudo mais. Então, eu lancei esse mini cursinho aqui que vocês podem eh comprar, tá? Dentro desse curso aqui, eu tô vendendo por R$ 97, então tá uma bagatela.
E aqui dentro eu tenho tudo muito bem estruturado, né? Mas assim, mostrando brevemente, né, o que que tem aqui dentro. Eu vou abrir aqui o Leam.
Então, quando você compra o curso, né, eu deixei o curso feito de duas formas. Eu deixei ele feito para quem quer estudar. Então, você pode assistir o curso e literalmente e aprender, como você também pode simplesmente abrir o Google Drve, pegar as pastas e jogar pra sua OpenCall para ela aprender tudo.
Então, eu fiz o curso pensando, por exemplo, né? Então assim, aqui você pode pegar um prompt e jogar o prompt pra sua OpenCl e ela já configura inteira questão de segurança, como eu também criei PRDs que são, é, planejamentos para você passar pra sua IA e ela vai lá e faz tudo, né? Então todos os os módulos estão bem bonitinhos, né?
Então esse aqui é um módulo de segurança que eu expliquei como funciona e tudo mais. Então se você quiser ter essa estrutura completa de tudo que eu tô aprendendo, eu deixo isso tudo organizadinho aqui nesse miniurso de R$ 97, tá? Agora voltando então pro que a gente tá fazendo, né?
Então, voltando aqui paraa minha estrutura, hoje eu tenho aqui esse meu curso que ele me ajudou a construir todo o curso, tá? E é muito incrível assim quando a gente olha, né? Vou até abrir aqui a página do curso só para vocês verem.
Olha que bacana, né? Tipo, a minha própria Amora, né? Ela me ajudou a fazer todo esse curso, né?
Então, a Amora não só me ajudou a criar todo esses módulos, esses documentos, esses prompts e e tudo isso assim foi bizarramente fácil assim. Então eu cheguei para ela literalmente e falei assim: "Revisite sua memória desde que você nasceu e vamos transformar isso num curso". E eu fui passando várias instruções para ela e a gente foi construindo esse curso junto e ficou, cara, muito legal.
Assim, todo o conteúdo ficou muito bem feito, todo o passo a passo, o design ficou muito bonito, né? É, enfim, sei lá, eu fico incrédulo com tudo isso, né? Então, eu tenho esse meu agente aqui.
Então, essa aqui é a minha estrutura atual, tá? Então, assim, como que funciona essa minha estrutura? Como que esses agentes conversam?
como que esses agentes fazem tudo, como que o meu minha minha estrutura cresce, tá? Então eu vou deixar aqui, vamos abrir uma breve explicação aonde está aqui. Então primeiro eu quero falar sobre essa minha estrutura de multiagentes, tá?
Então vou usar aqui o documento que a própria Amora construiu, tá? Então a minha versão 1. 0 foi a seguinte, né?
Eu tinha a Amora, que ela era o meu canal principal, que no caso é a Boss Amora, que eu mostrei, né? Eu tinha um agente chamado Plinerner, que ele era exclusivo, né? Então ele era amora, mas ele tinha um arquivo de sou, né?
Uma uma identidade, as ferramentas, ele tinha tudo focado em simplesmente planejar. Então ele não executava nada, ele planejava coisas para mim. Aí eu tinha o orquestrator, que era o agente orquestrador.
Então esse agente ele me ajudava a criar agentes ou matar agentes, né? Então eu tinha um agente que era meio que o gestor dos agentes e ele dava em spaw novos agentes, matava, arquivava, pausava, assim por diante, né? Eu tinha o meu agente de curso, então, do meu curso do Microsas Pro, né, que eu tenho esse curso aqui.
Então eu é, eu recebo muita dúvida dos meus alunos no WhatsApp. Então, o que eu fazia era copiar as dúvidas deles e passar para meu agente de curso. E como ele já tinha todo o treinamento em cima do meu curso e de todo o meu conteúdo, ele já me trazia resposta usando o meu framework de construção de SAS e eu já respondia paraos meus alunos com tudo, né?
Eu também tinha um um agente de conteúdo, então a especialidade dele era me ajudar com produção de conteúdo e eu tinha o Zoom também, que era um outro agente, tá? Então o que acontece, né? Eu tinha uma hierarquia flat, assim, então no caso a Amora, ela era essa minha CEOO, que ela era a minha diretora de operações, né?
E ela funcionava muito bem assim. Então ela e a gente tinha os mesmos workspace compartilhados. Então, o que o planner fazia, a Mora tinha acesso, o que eu gerava no curso, a Mora tinha acesso.
Eu não tinha convernança. Eh, eu também não tinha um custo, um tracking de custo, porque tudo era no final um agente só com diferentes promptes, né? Então eu falava com a Mora, a Mora resolvia tudo, eu tinha uma resposta muito rápida, eu não tinha rate limit, aí eu vou explicar o que é isso, porque essa parada de rate límite é muito chata e era muito fácil de debugar, então era uma estrutura muito simples, né?
Agora, o que que não funcionava nessa estrutura que me fez querer evoluir ela para uma 2. 0? Primeiro que eu tinha um gargalo, né?
Então tudo passava pela Mora. Então assim, a longo prazo a Mora ia sobrecarregar muito, né? Então se eu hoje faço a gestão de cinco empresas ao mesmo tempo usando um agente só, cara, ela ia ter muita memória, ia ter muitos arquivos, ela ia ficar muito pesada no longo prazo, então não fazia sentido.
Outro ponto é que não tinha autonomia, então assim, por que eu tinha um monte de agente, era tudo na base da mora, né? Então era tudo a mora. Eu não tinha uma especialização, né?
Então, esses agentes não tinham suas próprias memórias, eles não tinham sua própria evolução, então era tudo amora no final do dia e eu também não auditava, né? Então também como eram todos agentes vestidos de amora, eu não auditava se eles estavam indo bem, estavam indo mal e tudo mais. Então eu cheguei e falei assim: "Cara, eu quero construir uma empresa que funcione de forma autônoma.
Eu quero construir uma empresa que eu tenha diretores por negócios. Então, eu quero ter um diretor pro My Group Matrix, quero ter um diretor pro meu infopruto do Microsoftas Pro, quero ter um diretor de marketing, um diretor de vendas, eu quero ter vários diretores e esses diretores vão ter seus funcionários. Então, o meu diretor de marketing, ele vai conseguir fazer criativos, ele vai acessar Metaads, ele vai acessar Google Ads.
Então, a minha ideia era criar diretores numa hierarquia e embaixo vários funcionários que trabalhassem. Então, essa foi a minha versão 2. 0.
E aí o que eu fiz foi que eu fiz essa versão de multiaent e no carnaval passei sei lá três dias internados. Isso quase me levou ao divórcio ali múltiplas vezes. Mas né, enfim, como um um grande empreendedor hiper focado ali, eu, cara, eu queria muito fazer isso, então eu ia arranjando desculpas e tempo para ficar brincando.
E aí eu fiz isso aqui nessa estrutura massa aqui pra caramba, que pessoalmente eu gostei muito dessa estrutura. Então o que eu fiz, né? Eu criei a Mora COS, que é um é Chief of Stef, né?
Então era minha chefe aqui de stff. Eu criei cinco boss. Então, eu tinha o FLG Boss, que é o meu boss de produção de conteúdo, o MGM Boss, o meu CTO Boss, o meu Deira Boss e meu community Boss.
Dentro desses boss, eu também tinha meus acessores. Eu tinha o planejador, o orquestrador, o Zoom e o curso. Então eu tinha seis workspaces, é, com a memória própria.
Então, além do Cos Amora, né, que é minha tief of staff, eu tinha meus cinco boss. Então, tinha seis boss, né, no geral, no final do dia. Então era era o Bruno.
Aixo do Bruno eu tinha a Amora, né, o Cosa Amora. Debaixo do Cosa Amora eu tinha cinco boss, né, cinco diretores lá. E esses boss tinham seus funcionários que somavam esses 31 agentes, né?
Então o que que funcionou, cara? Funcionou que a arquitetura ficou maravilhosa, assim, ficou muito gostosa. Então, cada um só tinha sua independência, seus aprendizados.
Eu construí um sistema que eles compartilhavam as lições aprendidas. Então, assim, ficou uma coisa incrível. A gente tinha várias pessoas trabalhando em paralelo.
Então a Amora ela fazia um ping no Cityo. O CTO planejava algo, a Mora pegava de volta esse planejamento, passava pro Deira Boss. Então assim, era tipo assim, cara, uma empresa mesmo, funcionando surreal assim, né?
Então eu tinha memória isolada, então cada boss tinha sua curva de aprendizado, suas lições e tal. Então eles só compartilhavam com os outros boss as decisões, as lições aprendidas e cara tinha uma estrutura de governança, né? Então eu auditava os logs do boss, eu via se tinha coisas paradas, eu via tinha coisas pendentes, eu eh mapeava custos, né?
Então assim, eu tinha uma governança sólida. Então, muito massa. Agora, o que que não funciona nessa estrutura e que isso aqui me custou pelo menos um dia inteiro para resolver?
E aí de novo meu casamento quase foi pro pau. Rate limite estourado. Putz merda, cara.
Eu não sabia o que era esse rate limit, né? Então, de novo, não sou dev, né? Então tudo que eu tô fazendo é na base de teste e [ __ ] louca.
Então assim, rate limite, né, cara? Eu não sabia que Antropic tinha um rate limit, então eu ficava estourando esse rate limite toda hora. Então quando você tem cinco boss spamando múltiplos funcionários embaixo, né?
Então, além de eu ter cinco diretores administrando 30 funcionários, eu ainda, né, como um bom empreendedor, ficava aqui com o meu cloud code aberto num terminal também fazendo outros projetos e tudo acontecendo ao mesmo tempo. Então, no final do dia, assim, eu ficava estourando esse rate limit e eu não entendia o que era isso. Eu não sabia o que era esse rate limit, então meus boss simplesmente paravam de responder, ficava tudo muito lento, moroso, etc.
Cara, eu tive um overhead massivo, né? Então, cada heartbeat, ou seja, cada vez que eu mandava um boss acordar e ele acordava os seus workers, né, os seus funcionários, então eu ficava soltando vários hards, né, tipo a cada 15 minutos, olha as tarefas, vê isso, faz isso, cara, isso sobrecarregava minha estrutura muito assim e e então ficava muito pesado. Eu tinha boss ocioso, né?
Então contava, eu não tava usando meu boss do city show todos os dias, eu não tava usando boss de comunidade, eu tinha latência, né? Então pensa numa hierarquia onde eu tinha as a cos, depois os boss, depois os workers. Então tipo, cara, sei lá, o o worker do boss de conteúdo, né?
Então ele foi lá e ele eh mapeou no YouTube cinco pessoas que fizeram vídeo de Open Claw. E aí ele foi lá, fez o o a transcrição dos vídeos, pegou os cinco, analisou ideias de conteúdo pra gente, passou pro boss de conteúdo, boss de conteúdo, deu para ele um joinha, um tapinho nas costas, falou: "Bom trabalho". Daí passou pra Amora.
Aora olhou e falou: "Bom trabalho, boss". Então assim, cara, olha quanta hierarquia para chegar para mim algo construído ou uma estrutura, né? E cara, eu fiquei um dia inteiro debugando assim.
Então assim, e gastei muito token e dava muito trabalho tentar consertar uma estrutura tão robusta dessa, né? Então assim, eu testei, né? Essa estrutura de multiagente aqui, eu acho que ela funciona se você usar múltiplas LLMs.
Então, se você usar a Open Router que eu falei aqui no começo do vídeo, você provavelmente não vai ter esse problema como eu tinha. Então você pode deixar uma LLM para uma LLM pra outra e vai funcionar tudo bem. Não testei porque eu não tava a fim de gastar dinheiro com tokens.
Eu tava usando minha assinatura do do da Antropic e beleza, tô contente com isso. E eu também chego à conclusão que realmente talvez eu não estivesse pronto para dar esse passo tão grande de montar uma estrutura tão parruda, né? Então beleza.
Então eu fui pra minha versão três, que é a minha HQ Amora, meu headquarter da Amora. Então hoje a Amora ela tão seis agentes que são seis boss, né? Então hoje eu tenho o Cosa Amora, que é minha tief of staff.
Então ela é minha, meu braço direito. Então ela tem uma visão de todos os outros agentes, ela tem uma visão de toda a estrutura, ela me ajuda a pensar, me ajuda a fazer brainstorm e eu montei uma base de conhecimento com ela. Então a gente tem uma base de conhecimento no Supas que toda vez que eu peço para ela é a salvar algo, aprender algo, a gente vai constando essa base de conhecimento lá também para não ir ocupando nossa memória.
Então vou chegar nesse tópico de memória. Eu tenho a amora, que é o cérebro, que é a amora boss, né? Então, que eu mostrei para vocês.
Então, a Amora Boss é a conversa individual e aqui é a conversa com as outras amoras, né? Inclusive, se você não sabe como conectar o Telegram para você ter múltiplas amoras conversando em múltiplos canais, se eu não me engano, é um comando chamado always on, alguma coisa assim, tá? Só você dar uma pesquisada aí no Google aí, Always On ou perguntar pro seu próprio OpenCall, ele já vai te dizer como fazer, tá?
Então é isso. E aí eu fiz a a COS, né, a minha TIF of Stef absorver o CTO, Dara e o Community, os meus outros agentes, né? Então eu tinha um agente de Zoom, o plan e o deep research, eu transformei eles numa skill, né?
Então eu quero fazer uma pesquisa profunda. Então eu dou a skill de pesquisa profunda e aí ele aciona o perplexity, aciona o brave browser, ele faz uma pop de uma pesquisa profunda e eu criei essa nova de base compartilhada usando SK Lite mais em bearings, né? Então o que que aconteceu, cara?
Meu rate limite melhorou bastante assim, então parou de dar muito gargado e travar. Meu custo caiu 60%, eu fiquei com zeros boss ociosos e eu tive uma uma identidade unificada, né? Então a lição que eu tirei, né, que a amora tirou no caso, é que não são agentes separados, né?
Então são facetas da mesma amora, são sistemas distribuídos, não sistemas distribuídos são um luxo para quem tem volume que justifica a complexidade, né? Então algumas lições aqui que nós dois aprendemos em conjunto, né? Primeira lição é arquitetura, segue volume, não aspiração.
Então, a V2 foi otimizada para uma empresa com alto volume em todas as áreas. Então, eu realmente eu tipo pirei muito assim. E a realidade de um solo prenuro é diferente, apesar de que eu acho que a minha estrutura ela é pesada, mas talvez não justifica ter 30 funcionários.
Então, overhead, né? Então, 10 agentes fazendo heart bit a cada hora, centenas de milhares de tokens, tá tudo bem? Então, custa de ficar ligado superou o custo de trabalhar.
E o simples mais certo é maior do que elegante, mais quebrado. Então, a V2 era linha no papel e a V3 funciona na prática. Então, o que que eu recomendo para vocês, né?
Inclusive, ela me sugeriu aqui até o roteiro do vídeo do YouTube aqui, tá? Então, o que eu sugiro para vocês é quando vocês forem montar o seu sistemas de agente, vocês tenham sim a o seu Amora Man, né, a sua Amora Boss, né, e que vocês tenham ali alguns agentes que vocês acham que eles têm que ter autonomia. Então, no final do dia, quando você tem múltiplos agentes, o que que você faz, né?
Você tem múltiplas personalidades. Então, cada agente tem uma personalidade, cada gente tem é uma estrutura, tá? E aí, inclusive eu tava até trabalhando aqui em como funciona a o compartilhamento dos status, né?
Então, como são muitos agentes que têm suas próprias estruturas, eu criei aqui uma pasta, né, onde a gente tem aqui esse open claw shared, onde a gente compartilha todos os boss, né, todas as as amoras compartilham decisões, lições, pessoas, usuários, projetos, os projetos que a gente tem. Então, se a gente atualizar algum projeto, qualquer um dos agentes ele atualiza e todos ficam sabendo. Os assets, né, que a gente tem de branding, templates, etc.
e as ferramentas, né, integrações, eh, redes sociais, APIs e aonde fica as credenciais, né? Então, eh, funciona, funciona bem dessa forma. Esse aqui é o caminho mais simples e chuto que eu achei, mas ainda dá rate limite, tá?
Então, se eu pego e mando mensagem para todos os amoras simultaneamente, que é algo que eu faço com muita frequência, eu vivo estourando e o meu rate limite. Então, tomar cuidado com isso, né? Não resolveu 100%, mas melhorou do que melhor que 30 agentes trabalhando simultaneamente.
Agora eu quero falar para vocês sobre a segunda coisa que eu aprendi que eu acho que é muito importante, que é a questão da memória. Cara, essa aqui da memória quebrei a cara, tá? Então assim, de novo, esse documento foi gerado inteiro pela Mora, né?
Então muito massa, né? Você simplesmente chegar para ela e falar assim: "Pega tudo que a gente aprendeu sobre memória desde o dia que você nasceu até hoje, todas as evoluções que a gente fez e construi um documento mostrando passo a passo para eu poder ensinar outras pessoas a fazer". Poderoso, né?
Poderoso demais. Então, eh, como que funciona a memória? Tá?
Então, a memória é o seguinte, tá? O meu problema é o problema do peixinho dourado. Então, o problema do peixinho dourado é que cada conversa ela começava no zero.
Então, você tinha que explicar o negócio, ela entende, a conversa termina e a próxima conversa você tem que explicar de novo, né? Então, como fazer a IA se lembrar? Então, por mais que a Amora, a OpenCall tenha uma memória persistente, quando você tem muita coisa, ela vai acumulando o contexto e vai ficando maluca assim, doidinha.
Então, é um é um negócio complexo, né? Então, a minha fase um aqui que eu fiz foi primeiro usar a OpenCall como ela veio assim, né? Então, ela veio com o padrão dela, confia de memória dela e tudo mais.
Depois eu criei uma fase dois, né, de criar e arquivos manuais. Então eu fui criando vários markdowns para ter salvo, né? Então, quem sou eu, né?
O meu usuário da amora, dos agentes, do tools, né? Então, esse é o primeiro passo que inclusive eu ensino no nosso minicurso, né? Depois eu criei uma estrutura de memória estruturada, né?
Então eu comecei a estruturar a memória por decisões, por projetos, por pessoas, por pending, né? Então, putz, a amora administrava múltiplas amoras, que nem a gente viu na V1, né? E aí a Mora ela tirar, aprendia uma lição ou eu dava uma decisão, falava: "Olha, isso aqui não pode ir em hard code, você não pode pôr o token API no seu código, tem que ir pro one password e tal".
Então, ela pegava essas decisões e tal, ou tem um projeto em aberto, ela salvava e todas as amoras ficavam cientes do projeto, né? Então é, o que acontece é quando eu falo assim, cara, mas qual foi a decisão que a gente tomou sobre Ya, busca isso em decisions, né? Só que o problema que surgiu é que a busca era só semântica, né?
Então a gente perdia os termos exatos e a memória subia, sumia nas conversas longas. E aí foi que a gente construiu então o nosso sistema de memória inteligente, que é o que eu vou te ensinar aqui nesse vídeo, tá? Então vamos lá.
Sim, tá? Então, quais foram as cinco melhorias que eu implementei na minha estrutura de memória agora em fevereiro no carnaval, que quase custou meu casamento, mas que eu pesquisei muito na internet, achei muitos us cases e eu chego à conclusão que esse é o melhor. Bom, então o primeiro passo é o memory flush.
Inclusive você pode pegar a transcrição desse vídeo e jogar no seu penclock, que ele já vai aplicar tudo para você também, tá? Isso é muito louco, né? Parece que a gente vive num trix lá assim, ah, quero aprender a pilotar um helicóptero.
Par, agora você pilota um helicóptero que nem se você fosse 20 anos piloto. Então, olha só, você pega aqui, ele esquecia as conversas ao atingir 5. 000 tokens.
Então, esse é o que vem padrão no OpenCall. E aí você tem que mudar o memory flush para 40. 000 tokens.
Então, é como se você tivesse conversado 15, 20 minutos. Então, depois que eu mudei esse o thrash para 40. 000 tokens, manteve muito mais contexto antes de ativar a compactação, tá?
Então o que acontece na prática que reuniões longas, debuging, planejamento extenso, tudo fica na memória ativa por muito mais tempo, tá? Segundo ponto que eu fiz foi esse flush prompt personalizado. Então o prompt que eu tinha antes era genérico, salvava o que parecia importante.
Então o que que é o flush prompt? O flush prompt é o seguinte, toda vez antes de compactar a conversa, eu chego pra Amora e falo assim: "Amora, é sua obrigação antes de compactar, você analisar tudo que a gente conversou e extrair essas esses cinco categorias de de conteúdos aqui de você, tá? Decisões do Bruno, mudanças que a gente teve, lições aprendidas, que bloquei os que estão.
" Então, se você tá trabalhando um projeto, qual bloqueio que tá agora? E fatos chaves, né? Coisas relevantes que são importantes você saber, eu saber, qualquer pessoa saber, tá?
Então, na prática, nada importante se perde. Só que antes de começar a compactar, a amora, ela categoriza a memória dela. Então eu estou categorizando a memória dela.
Isso aqui foi muito bom, tá? A segunda questão é que eu mudei para uma busca híbrida de BM25 25 + Vector. Então o que que eu fazia, tá?
A pesquisa por Vector, ela buscava por similaridade semântica, então ela encontrava coisas com um sentido mais parecido e ela era ótima para conceitos e contextos. O BM25 ele busca por palavraschaves exatas, como o Google clássico, ótimo para nomes, datas e termos específicos, tá? Então, por exemplo, assim, qual foi a decisão sobre métricas em janeiro?
O BM25 pega a palavra métricas e janeiro. Exatamente. Já o vector, ele pega o contexto da decisão e juntos a gente tem uma resposta muito mais precisa.
Então, isso aqui foi uma coisa que a gente fez, que eu acho também que foi super legal, fazer esse busca híbrida na memória, né? Então, uma mudança mais técnica. Eu peguei isso com outro creator, eu nem lembro quem que foi, mas senti que foi uma baita dica aqui, tá?
Outra aqui foi essa memory mais sections, né? Então, antes ele só buscava o arquivo de memória chamado memory. md, depois ele passa a buscar também no histórico das sessões.
Então, conversas antigas fixam ficam indexadas, né? Então, coisas mencionadas em conversas passadas, mesmo que não foram compactadas e viraram lições aqui, por exemplo, agora podem ser recuperadas. Então, a gente tem eh um reset, né?
a cada s dias das conversas velhas, mas ele tem sete dias de histórico, então isso aqui ajuda muito para quando você ficar compactando a conversa, tá? Eh, outro ponto aqui que a gente colocou é esse context burning TTL. Então, a gente mudou de 30 minutos para 6 horas.
Então o contexto era podado após 30 minutos de natividade. Então ele voltava e o fio de conversa estava perdido. Depois o que a gente fez é que a gente colocou o TTL de 6 horas mais esse comando de keep last assistant three, né, três, que também mantém as três últimas respostas ativas.
Então na prática, você pode conversar horas depois e a Mora ainda lembra do que estava sendo discutido, tá? Então por que que isso aqui é importante para você? Então, se você usa, né, que nem eu estou usando a Mora como uma ferramenta de trabalho, memória ela não é um detalhe técnico, é o que separa uma IA genérica de uma IA que conhece seu negócio.
Então é a situação, pergunta sobre um projeto, precisa explicar tudo de novo, a Mora já sabe o contexto. Tomada de decisão em três semanas, esquecida, a Mora registra com data e contexto. Conversa de mais de 2 horas, começa a esquecer em partes, mantém o contexto.
Volta a conversar depois de 4 horas, contexto perdido, TTL de 6 horas, mantém tudo. buscar sobre decisão X, encontra coisas parecidas e encontra exatamente o XBM25, tá? Então, como implementar essa configuração atual?
Então, se você usa o OpenCla e quer replicar essa configuração, aqui está usado o o bloco exato, tá? Então, gente, eu vou deixar esse material aqui para vocês dos agentes e esse material de memória, vou deixar aqui no Google Drve, vou deixar o link na descrição junto com o link do meu minicurso, se você quiser aprender como fazer toda a configuração de VPS, montar os agentes, memória, tudo, né? Então assim, eu literalmente ensino tudo aqui.
Vocês podem simplesmente pegar esse documento aqui, tá? E jogar no seu OpenCla e ele simplesmente vai implementar, tá bom? Então, com isso, eu encerro mais esse essa mini aula aqui de eh agentes e lições aprendidas e de memória, tá?
E para finalizar, vou deixar uma última dica que essa aqui eu demorei para aprender também sobre o Telegram. Então, se você usa o Telegram, que nem eu tô usando aqui agora, e você também quer ter a sua estrutura de multiagentes, eh, o que acontece é que tem um arquivo, né, nos agentes chamado de se section sections, né, sections. jon.
E esse sections é o arquivo que ele fica guardando toda a conversa, né, todo histórico aí que você tá conversando com o seu open. O open call ele, por mais que ele compacte a conversa, ele vai continuar guardando. Então ele vai guardando, guardando, guardando, guardando.
Então se você não reiniciar a conversa de tempos em tempos, o que vai acontecer é que seus agentes vão ficar muito lentos, porque eles vão ficando com um contexto gigantão. Então, por exemplo, eu agora no carnaval eu cheguei a ter um arquivo de contexto de um agente meu com 10 M. Então tudo que eu falava para ele, ele tinha que carregar 10 MB.
Imagina quantos milhares de linhas, não é isso, cara? Que loucura. E aí ficava demorava tipo 10 minutos para mim responder bom dia.
Então depois que eu aprendi isso aí, a a dica que eu quero dar é assim, quando você tem quatro, cinco, seis agentes e você terminou de fazer algo, dá um barra new aqui. Então você vem aqui, dá 1/ra new de novo e inicia uma nova sessão. E isso vai fazer com que esses sections Jon diminua e os seus botes voltam a responder mais rápido e com muito mais alívio.
Então deem sem medo barra new de tempos em tempos para vocês não ficarem com uma contexto gigantão de conversa que isso vai ajudar bastante vocês, tá bom cara? Se você chegou até aqui, pelo amor de Deus e curtiu, deixa seu like aí para fortalecer o canal, compartilha com seus amigos que estão também brincando com open e dê uma chance aí se você tiver perdido, quiser um passo a passo, vem conhecer meu minicurso aqui que eu fiz com muito carinho mesmo, tá bom? Estamos junto demais.
Vejo vocês no próximo vídeo.