testes unitários. Então, na aula anterior, a gente parou aqui, né? A gente fez essa conversa com o nosso com o nosso amigão aqui, com o nosso agente de A.
E o que acontece? Quando você testa uma conversa que você gostou do resultado dessa conversa, você pode salvar essa conversa como um teste unitário, que é que eu vou fazer agora nesse exato momento. Então, toda vez que você rodou um teste e você viu, cara, legal, gostei da resposta do agente, deixa eu clicar aqui em salvar.
E agora eu vou salvar o quê? como sei lá, o título que você quiser, né? Eu vou chamar de interesse e reunião.
Vou colocar uma descrição lead que demonstrou interesse e pediu uma reunião, OK? Aí a gente tem a categoria. Isso daqui é só para você diferenciar um teste do outro quando você vê todos os seus testes, para você filtrar melhor, né?
O functional é um teste funcional apenas de uma pequena parte ali do seu prompt ou do seu script de vendas. Integração pode ser a chamada de outros agentes, OK? Performance pode ser um teste onde você quer testar sua performance.
Quão rápido que ele vai responder uma pergunta. Headas são casos esporádicos, então você pode criar scripts para diversos casos. Agora, o percentual de eh de mensagens e o percentual da conversa, esse daqui é o quão parecido você espera que a resposta do seu agente tenha que ser no mesmo cenário.
Beleza? Como a gente tá no mining e a gente não tem temperaturas aqui no 5 milion, a gente sabe que a resposta pode variar um pouco. Então eu vou colocar uma média de 70%.
Se passar 70% para mim tá OK. Se for menor do que 70% eu espero que seja bem diferente a resposta e aí vai quebrar o meu teste tanto por cada mensagem ou na conversa inteira, que é o que eu tô fazendo aqui. E aqui são palavraschaves.
Você pode adicionar que tem que contar no seu teste ou palavraschaves que não podem aparecer no seu teste. Não vou usar isso daqui ainda, tá? Então vou salvar.
E agora tá salvado esta conversa. Aonde que eu vou? aqui em cima, ó, em testes, ó.
Eu vou clicar em testes. E agora tenho um teste aqui, ó, que não rodou ainda, tá ativo, ó, interesse em reunião, tá? O meu teste 12 mensagens.
Então, para rodar, eu posso clicar aqui para rodar só esse teste. Eu posso clicar aqui para rodar todos os testes de uma vez só. Tanto faz.
Então, se eu tiver 20 testes, eu clico ali em cima, rum, ele roda os 20 testes de uma única só vez. Bom, então aqui, que que tá acontecendo? Nesse exato momento, ele vai tá pegando mensagem por mensagem e vai est colocando um outro agente para falar o teu agente de A nesse exato momento.
Muito louco que tá acontecendo aqui, ó. E aí você vai ver que quando você abrir aqui os testes, você tem essas informações. Você vai ter a descrição do lead, que ou seja, que é a descrição do seu teste, e você vai ter qual foi a temperatura ou qual foi o modelo que foi utilizado.
Beleza? Então, se você fez um teste no modelo 5 mini, que é o que a gente utilizou, esse teste só vai rodar no modelo 5 mini, OK? Se você quiser mudar o teu modelo, você tem que criar o novo teste lá no modelo que você já acetou, tá bom?
Aqui em tempo real você pode ver, ó, que as perguntas estão sendo respondidas. Se por qualquer motivo você quiser paralisar o seu teste, você pode clicar aqui parar teste. Ele vai mandar um sinal lá no nosso servidor onde vai falar assim: "Cara, eu não preciso mais rodar esse teste, por favor, pare ele".
E aí ele não vai mais rodar, ok? Aí você também vai ter as métricas do seu teste, que são o nível de pass rate, ou seja, qual que é o perceitual de todos os testes, a média de todos seus testes que foram passadas. Então você vai ver aqui que ele sempre vai calcular a média dos seus testes e você vai ver quantos testes estão ativos e qual que é a média da sua regra de testes também.
Beleza? Ó, muito bacana. Isso daqui é o que dá muita confiança na hora da gente colocar o agente de produção.
Então eu sempre crio o meu agente e aí eu já coloco ele para testar, para ver se tá passando alguma coisa e se travou algum outro teste, eu volto ele e aí eu vou alterar o que que tá acontecendo. Então vamos ver aqui, ó. Na última pergunta, já ele vai mostrar aqui pra gente qual que foi o teste.
12 mensagens, né? Então são uma mensagem que vai e volta para cada gente funcional e ainda ele não não passou nada. Muito legal isso aqui.
Ó, beleza? Então, ó, ele terminou o teste e agora você vê que ele passou com 83% de êxito. Muito legal.
E aí você vai ver aqui, ó, que minimizado ele fica assim, ó, né? O percentual que ele passou, a data do último teste e aqui tá esse teste. Então, na hora que a gente expande o teste, a gente tem algumas informações que você tem que ver, ó.
Então, eu tenho o modelo da Openii, o 5 mini, e eu tenho qual que foi o prompt. já eh, ou seja, o prompt exato que foi injetado naquele modelo na hora da execução. Então você vê aqui exatamente o prompt e mais as inferências que a gente faz no final do prompt para você, né?
Tá tudo aqui. E agora você vê que algumas mensagens falharam, ó, ele passou eh passou quatro mensagens e duas mensagens falharam. Então eu mandei um olá, eu esperava aqui, oi, como vocês fazem qualificação de L hoje?
Ele perguntou: "Oi, qual o tamanho da sua equipe de vendas e atendimento? " Então, foi uma pergunta diferente, né? E aqui você vê que ele houve uma chamada de ferramenta e a chamada aqui de ferramenta foi bem parecida com outra vez que a gente fez.
E aí ele classificou como 54%. Os testes não são perfeitos. Só para te deixar claro, não é perfeito.
Às vezes a classificação não vai tá é muito abstrata a entender o que que é próximo, porque a gente não trabalha pela palavra, mas a gente trabalha pela intenção. Será que a intenção da resposta foi parecida? Então é assim que a gente classifica essa essa nota que a gente tá dando.
Aí a gente respondeu, somos quatro pessoas. Ah, entendi. E aí ele perguntou, pô, legal, quanto tempo vocês acabam perdendo por dia com leaders desqualificados ou com tarefas repetitivas?
A gente tava esperando perguntar aqui quanto tempo a equipe perde com qualificados. Então, assim, a pergunta é bem parecida a intenção da pergunta. Por isso que ele classificou com 96%, passou.
Legal. Aí a gente respondeu: "Vixe, acho que umas 4 horas por dia. " Aí, olha só a pergunta, isso impacta muito o resultado de vocês?
Ó, como respondeu: "Puxa, 4 horas por dia é pesado, hein? quer que eu mostre como a gente já poderia recuperar esse tempo? Então, a pergunta realmente foi bem diferente a intenção, por isso que a falhou, mas novamente, né, a gente não tá em modelos deterministas.
O 4. 1 seria determinista. Você poderia mexer na temperatura dele e colocar como zero, né?
O mil é determinista, então você não consegue fazer esse tipo eh de resultado. Mas ele ainda passou porque passou com 82%, né? Porque os outros ficou igual total, pô.
Isso que queremos implementar a gente de A, né? Aí, ah, legal, ó. Que tal a gente dar uma call?
Já mandou para call. Bacana. Bacana.
Para que que seria? Seria para eu mostrar, né? Ele, ó, serve para apresentar também, ou seja, bem parecido.
A pergunta no final, quer dar uma call rápida? Quer dar uma call rápida? Então, as perguntas estão bem parecidas.
Aí eu falei: "Ah, tá, pode ser. Tá aqui o meu comercial". Ele respondeu: "Perfeito, reunião agendado pro dia 13.
envie o link antes, respondeu bem parecido aqui, né? E as chamadas de ferramentas, você pode ver que no teste ele chamaria a ferramenta corretamente, ó, de e-mail, chamaria a ferramenta de reunião corretamente também e status mudaria o lead de status. Então, para mim tá perfeito esse teste aqui.
Tô muito satisfeito com o teste. Agora, se você acha que por algum motivo ele você mudou seu prompt, né? Ou seja, agora ele não chama mais para uma reunião, ele fala de uma forma diferente.
Você pode clicar aqui, ó, aceitar todas as falhas como base. Então, se eu clicar neste botão, ele vai atualizar a resposta que falhou para essa resposta nova. E aí você vai rodar novamente o seu teste, né?
Então, toda vez que você altera seu prompt e o teste falhou, porque você alterou o prompt, você quer que aquele novo teste ele se atualize, basta você clicar aqui que ele vai atualizar todas as respostas como sendo de base. Agora muito legal. Então, esses daqui são os testes unitários, OK?
Assim, você consegue criar o seu agente, testar ali e salvar a conversa, tá? Toda vez que você clicar aqui, ó, testar o seu agente, salva a conversa aqui embaixo. Salvou, tá bonito?
Tá perfeito, tá bom? Uma coisa só que é legal você entender quando você tá testando e a gente faz bastante isso eh no suabase é esse daqui, ó. Olá.
Vamos supor que você quer testar a resposta do seu agente e aí você muda. Pronto. Acontece muito isso, né?
Você tá no meio da conversa e aí você quer fazer uma alteração. Então você pode alterar qualquer coisa aqui no seu agente e depois, ó, você pode excluir a mensagem. Então eu posso simplesmente voltar no tempo, nas últimas duas mensagens, eu posso excluir elas e mandar de novo na hora que eu tiver testando, ó.
Tá vendo, ó? Eu posso excluir do meu teste e começar novamente. Isso daqui é muito importante porque na hora que você tiver lá na 10ma mensagem e você vê que puxa, aqui embaixo nesse ponto poderia ser diferente.
Você altera o prompt, você só exclu as duas as duas últimas mensagens e você manda de novo. Tá bom? Espero que você tenha gostado.
Na próxima aula a gente vai tá então dando de fato o início na mensageria, OK? Te vejo na próxima aula.