Olá pessoal aqui é o Rafael Damaceno é um prazer estar aqui com vocês participando do evento Eh quero agradecer muito a ta pessoal da comunidade C Brasil por ter me convidado para conversar com vocês e hoje a gente vai falar alguns minutos aí sobre algumas dicas uma certa forma de roteiro erros comuns enfim resumidamente algumas sugestões algumas coisas que eu gosto de chamar a atenção das pessoas que são dúvidas também que surgem com frequentas e erros comuns como eu falei que acontecem no processo de ciclo de vida de um teste AB mas obviamente para isso
caber nesses nossos minutos de conversa eu não vou vir desde o começo falar de Diagnóstico pesquisa formulação de hipótese e tudo mais eh a gente vai ter um escopo bem mais específico mais paraa fase final digamos assim de selecionar e hipótese e rodar o teste AB e e como eu falei óbvio não dá para cobrir o escopo inteiro de um processo desse que pode ser bem complexo mas como eu disse trazer alguns pontos centrais que ajudam muito quem tá começando e e até quem já tem alguma experiência a melhorar eh o seu processo de gestão
e planejamento do ciclo de vida de um teste AB vamos nessa Então vamos lá eh eu sou o Rafael eu sou um dos fundadores junto com o Felipe Reis da Supersonic eh a gente é Pioneiro né na em otimização de taxa de conversão e teste AB no no Brasil e América Latina eh trabalhamos para clientes Não só do Brasil mas também dos Estados Unidos e Europa e já são mais de 11 anos se minhas contas estão certinhas e acho que dá para falar que eu já vi de quase tudo né Depois desses anos todos trabalhando
com experimentação porque são literalmente centenas de clientes de todo tamanho desde Startup que tá começando nem lançou produto ainda até as fengs né as maiores empresas aí de tecnologia algumas delas tive prazer de trabalhar né Feng para quem não sabe aí é Facebook Amazon Apple Netflix e Google consegui Lembrar de todos eh enfim e todo tipo de mercado dos SAS mais clássicos possíveis a asilo e todo tipo mais aleatórios de de mercado que você possa pensar eh com sei lá quantos testes eu rodei uma pergunta que eu escuto frequentemente quantos testes eu Rodei na vida
eu não faço a mínima ideia mas foi bastante eh então assim são 15 anos de mercado já antes de C Eu já trabalhei né dei aula e liderei equipes na na na área de se de mídia de web Analytics de w e hoje eu sou diretor de ativação na brios né a gente é um grupo de mídia a gente tem alguns sites em dezenas de países pelo mundo e a gente tem alguns milhões de usuários ativos passando pelos nossos sites todo mês né que é um é um playground para quem gosta de fazer teste AB
você ter muito usuário ativo né Eh como eu disse o nosso escopo de hoje ele começa na seleção de uma hipótese então não vou falar novamente de Diagnóstico eh também não vou falar da parte de como escrever a cópia ou fazer a o design o ex e tudo mais isso aí é outro mundo a gente pode falar disso outro dia eh eu quero falar mais do processo de de gestão de um ciclo de teste AB de gestão de um processo de teste AB mesmo então a gente vai falar da seleção da hipótese Quais cuidados a
gente tem que ter sobre esse ponto de vista entender a viabilidade estatística do teste né ali a gente já vai matar alguns mitos e poupar alguns trabalhos digamos assim ou talvez dar algum trabalho a mais vai depender do seu contexto e também a configuração do teste alguns pontos eh importantes a não serem esquecidos e por fim eh Encerrando o teste os resultados alguns erros comuns e coisas importantes a se fazer também vamos nessa começando do começo selecionando uma hipótese Olha aí a gente vai falar de priorização né como priorizar entre as hipóteses que você tem
aí como priorizar uma pro próximo teste AB e não falta modelo de priorização hoje em dia acho que pô toda agência ou todo profissional consultor vai querer te falar de algum modelo de priorização aqui tem alguns exemplos de alguns de muitos e muitos modelos né muita gente gosta de falar do Pixel por causa do alcance que antigamente o blog da cxl tinha Eles vieram com esse pi Excel deles aí e acabou ganhando uma visibilidade grande mas para mim sinceramente é só mais um Talvez ele tem um grande ponto fraco de altamente complexo eh e para
diversos e diversos contextos ele contextos ele não se aplica mas já peguei muito cliente que quando a gente começou a trabalhar tava usando ele vocês aí que estão assistindo devem conhecer também é um exemplo dos vários que tem aí mas eu quero ir numa linha contrária ao invés de ficar pirando demais criando colunas demais no seu modelo de priorização ou usando um desses que já vai meio que ser descendente de algum modelo de growth Marketing e e as outras áreas variações que tem aí Eh eu quero ser bem simples com vocês porque no fim das
contas pela minha experiência eh tem várias empresas que gostam até de pegar um modelo desses e customizar e tudo mais mas no fim das contas o que eu vejo funcion na melhor eh é o contrário da complexidade que a simplicidade eh rodar teste AB fazer experimentação é complexo convencer outros times a fazer que não tem tanto conhecimento é muito complexo também então onde der para ser simples a gente tem que ser simples e o que que eu costumo deixar muito claro e sugerir muito fortemente aos times você tem um critério para você se preocupar na
hora de olhar para todas as suas hipóteses esquece todos os outros 60 critérios que você já viu em outros modelos priorização Foca no potencial de impacto no negócio das hipóteses que você tá vendo ali qual tem maior potencial de impacto no negócio é óbvio que não é uma garantia de impacto porque se tivesse garantia não precisava rodar um teste AB mas dá para você ter vários cheiros de potencial de impacto dependendo se você tá rodando um teste que é para 100% do tráfego numa das suas páginas mais visitadas eh das suas principais features ou bem
no fundo do Funil ali num num Eli que se o cara converter é dinheiro imediatamente enfim dá para saber de várias formas eh o potencial de impacto no negócio como eu disse ali como vocês podem ver aí quanto que a métrica tá próxima do kpi do negócio receita margem etc então assim quanto mais por topo de funil menos próximo você tem um Business de modelo de negócio complexo que o seu teste é lá no homepage para aumentar mais clique no seu CTA não vai ser tão prioritário quando um teste lá no final do Funil eh
a métrica tá próxima de um kpi que é prioridade da empresa no momento isso é muito importante e kpis de empresas podem variar de acordo com o momento vai ter época que vai est mais focado em aquisição mais época que vai est mais focado em retenção etc etc então se você tem um okr ou algo semelhante e tenta priorizar os testes que estão relacionados a esse kpi você vai ter muito mais facilidade de engajar a empresa nesse aspecto algum kpi de negócio tende a ser impactado negativamente também é importante que se você pode reduzir o
risco do teste fazer um teste que não vai impactar muito eh ou tende a não impactar algum Capé importante na empira vai ter também novamente mais facilidade de aprovação menos resistência menos batalhas políticas para enfrentar então o principal critério para mim é esse na H Esquece o resto por enquanto na hora que você olhar paraas suas hipóteses e enxergar aquela Ou aquelas que você enxerga o maior potencial de impacto no negócio se você tem um empate técnico ali digamos assim Aí sim eu te sugiro olhar para mais duas outras coisas para desempatar que são a
complexidade qu complexo é Rodar esse teste e por complexidade a gente entende não só Quantas horas de designer e de Dev a gente vai usar mas também Quantos stakeholders precisam aprovar essa ideia se você pode decidir aprovar sozinho a ideia tranquilo Às vezes tem que aprovar com seu Líder direto às vezes tem que aprovar com outras quatro cinco equipes envolvidas e e e mais o time de suporte não sei o qu e o presidente E aí você já tem um esforço de horas políticas digamos assim muito maiores só isso é complexidade também eh e outros
critérios n Como eu disse eh a complexidade envolve também outros times que precisam ser envolvidos aí você tem que alinhar eh opiniões disponibilidades etc comercial Custom sexes e financeiros são coisas clássicas a gente ter que envolver em testes mais complexos então atenção a isso também quanto menos complexo melhor o teste para você e por fim confiança né Eh e quando eu digo confiança de novo também não é algo que dá para garantir porque senão não precisava testar mas se algo parecido já funcionou em outros testes que a empresa fez no passado ou pela sua própria
experiência como profissional e se a hipótese está embasada Quando eu digo embasado é por dados quantitativos ou qualitativos né um quantitativo é um dado no no seu Analytics mostrando que ali é o lugar que onde você mais perde usuários no seu funil inteiro é um dado qualitativo é uma um teste de desabilidade que você fez que mostra problemas ali uma coisa que você viu num num session replay num gravação de tela eh numa ferramenta mostrando que as pessoas têm dificuldade nessa tela enfim quanto mais embasado sinceramente mais confiante você pode ser eh de que você
vai resolver aquele problema né porque enfim de novo esse não é um Essa não é uma apresentação um papo sobre eh hipóteses e como criar soluções e tudo mais mas no fim das contas que eu sempre falo nesse assunto é se você fez a pesquisa bem feita a pesquisa te entrega a solução de mão dada então se você tem dado quantitativo e qualitativo a sua chance de ganhar esse teste é muito maior então a sua confiança vai ser muito mais alta então resumindo tudo que eu falei para essa primeira parte o seu principal critério tem
que ser o potencial de impacto no negócio a sua carreira inteira como profissional de experimentação o engajamento das lideranças da empresa e tudo mais depende de você conseguir impactar o negócio então você tem que ter o seu olhar focado nas coisas que mais tem potencial para impactar o negócio nada é tão importante quanto isso Ah mas eu só tenho coisa complexa para fazer que vai impactar o potencial do negócio então vai lá e faz as coisas complexas não interessa Porque se é simples mudar o c da L page é mas dificilmente vai garantir um aumento
da cultura de experimentação na sua empresa e stakeholders mais interessados mais crescimento profissional para você porque você tá mudando algo que é um um Nice to have mas se você tá impactando o negócio aí sim a coisa para valer e entre os testes com mais potencial de impacto você tem mais de um para escolh os menos complexos e nos quais existe maior confiança de sucesso como eu falei critérios secundários de decisão Beleza então Digamos que a gente selecionou a nossa hipótese com maior potencial e a gente quer entender a viabilidade estatística do teste né que
essa é uma parte muito importante e é um erro clássico de quem tá começando meio que ignorar essa parte sendo que se não vou falar que é mais importante mas não dá para rodar um um experimento sem passar por essa parte que é tão importante quanto as mais important Anes eh eu vou usar talvez a ferramenta mais clássica aí de de se usar para Para se entender de habilidade estatística que é a calculadora da espiro não é a que eu uso no meu dia a dia tem outras um pouco mais completas com mais informações e
tal mas essa eu acho que tem a interface mais simples pros conceitos que eu quero destacar aqui com vocês eh e e eu vou estar sempre mostrando o print aqui e à direita vocês vão ver os pontos que eu quero destacar sobre a calcul você vai lá nesse link da calculadora da espiro e vai começar clicando lá em cima em pretest analises e aqui em cima para você fazer um planejamento pré-teste né exatamente ver a viabilidade estatística do teste e você sempre começa preenchendo três informações no caso aqui a espiro pede o seu tráfego semanal
né Se for um teste que você vai randomizar sessões você usa sessões se você vai randomizar usuários você que é o mais comum você coloca aqui usuários enfim e o número de conversões que você tem semanal e o número de variantes que você vai rodar nesse teste se é a e b control e variation são duas variantes se a se é a BC o teste ABC são três variantes E por aí vai beleza isso aqui você vai preencher tem segredo são Dados que você tem e aí é o seguinte eh você tem algumas informações muito
importantes que eu quero passar pelo conceito delas da forma mais acessível possível primeira coisa que você tem ali é o intervalo de confiança que você quer trabalhar intervalo de confiança como tá escrito ali é a confiança de que o resultado que você tá vendo não é por acaso não é simplesmente sorte ou azar é realmente causado pelas mudanças que você fez ali o padrão de mercado é 95% não é um número mágico você pode ir com um pouco menos pode ir com um pouco mais né um pouco menos se você tá disposto a correr mais
risco um pouco mais Se você tá querendo muita certeza mas Digamos que o padrão é 95 Tem muita gente que é rigorosa M contra ser menos que 95 Enfim acho que é uma discussão que que não cabe muito aqui mas para para você ter uma orientação mínima A não ser que você tenha um bom motivo para não ir com 95 vai com 95 para fazer esse cálculo de viabilidade estatística do seu teste AB ele já se eu não me engano ele já vem com 95 aqui na espiro inclusive o risco de você não levar em
conta um intervalo de confiança alto você deixar ser baixo você usar um abaixo de 95 90% enfim seja lá qual for o número é que quanto menor hora esse número for mais incerteza você tem sobre a validade total do do seu teste AB Como eu disse o intervalo de confiança existe para que você eh possa confiar no resultado que você tá vendo e saber que ele é só é resultado da sua mudança e não simplesmente uma versão da da página que teve mais sorte ou azar do que a outra então qualquer número pode ser impactado
eh se torna menos confiável quando você tem um um intervalo de confiança menor Ok outro número absurd importante menos discutido do que o intervalo de confiança menos citado e que o intervalo de confiança mas que tem a mesma importância é o poder estatístico né que muitas vezes vocês vão ver como Power eh e essa é a probabilidade de teste detectar uma diferença ou efeito real quando esse efeito realmente existe ele tem uma recomendação padrão de 80% e digamos assim que muita gente ignora o Power a a minoria dos profissionais vamos dizer assim calcula o Power
com antecedência calcula qual como é que seu teste precisa ser para ter um Power de pelo menos 80% e isso é um problema gigantesco porque o Power ele vai te dizer para quantos usuários você precisa expor aquele teste para ter o Power que você precisa digamos assim que a quantidade de pessoas que você vai envolver no seu experimento né Isso vai depender do seu Power eh e tem muita gente que pula isso acaba rodando um teste com pouquíssimo usuário que vai ter um Power baixo eh que vai te gerar vários problemas entre eles e talvez
o principal superestimação do efeito né esses cases ridículos que a gente vê em LinkedIn por aí de gente falando que nossa mudei a cor do botão ou qualquer outra mudança tão esdrúxula quanto e agora eu tô convertendo 78% a mais 160 a mais Eh isso é o cenário clássico não precisa nem perguntar número para ninguém só de olhar para isso você já pode saber imediatamente que alguém que rodou um teste com um Power muito baixo e Então teve um efeito que primeiro Possivelmente é um falso positivo né esse é o segundo Bullet ali riscos de
falsos positivos e negativos e é um falso positivo com efeito super estimado né Isso é coisa clássica mesmo quando você tem um negócio com Power um pouco mais baixo você vai ver que às vezes você tem uma super estimação ali do do impacto é uma mudança mínima Geral 80% de aumento eh isso é um sinal Fortíssimo de de power baixo de que não foi eh planejado com excedência rodar esse teste para uma quantidade mínima de pessoas ali para atingir o seu Power de 80% tá eh então por favor sempre levem em conta antes de rodar
o teste planejem o teste com antecedência planejem quantos usuários vocês vão precisar em cada variante antes de olhar pro resultado desse teste ali eh para você ter um pouco mais de confiança que você tem o seu Power ali de 80 e por fim não menos importante e meio que o resultado né digamos assim desse cálculo todo que você faz e que gera muitas lágrimas é o nosso mde o efeito mínimo detectável mínimo detectable effect em em inglês que é o impacto mínimo que você precisa causar na taxa de conversão para conseguir né para ter um
resultado estatisticamente confiável por estatisticamente confiável entenda isso aqui que você botou o seu Confidence level o seu estatístico Power e claro levando em conta sua taxa de conversão atual seu tráfego e e e tudo mais o md né lendo de outra forma né Vamos pegar pela pelo jeito que essa calculadora disponibiliza aqui sei lá aqui tem o número de semanas ela tá te dizendo que nesse cenário seu aqui de 5.000 usuários 250 conversões duas Verões pro teste que que dá uma taxa de conversão de 5% e o Confidence level e Power no padrão para se
você for rodar esse teste em duas semanas se você tiver Só duas semanas para rodar esse teste essa linha aqui você precisa aumentar ou diminuir a taxa de conversão em pelo menos 22,52 né isso ele tá calculando com um número total de 5.000 usuários né que é você falando que você tem eh 5.000 usuários por variação né Você tem o teste AB que são duas variações 5.000 usuários por semana dá 10.000 usuários dividido pelas duas variações 5.000 nesse cenário você precisa impactar a taxa de conversão em pelo menos mais 22.50 2% ou perder para você
ter significância estatística eh no seu resultado né de 95% com um Power de 80 o que na maioria dos Testes é um número gigantesco né você subir ou diminuir uma taxa de conversão num cenário minimamente decente né se um site horroroso é outra história mas num cenário mais ok Você impactar uma taxa de conversão em 22.2 é improvável na maioria dos casos vamos dizer assim eh então aqui é uma notícia ruim nesse exemplo aqui diz que você tem uma chance gigantesca se você tem duas semanas para rodar esse teste você tem uma chance gigantesca de
que você vai ter um teste inconclusivo que não vai te dar segurança estatística no nível que você pediu eh enfim porque você não dificilmente vai chegar em 2252 de aumento na taxa de conversão eh Óbvio quanto maior o aento o impacto na taxa de conversão menos usuários você precisa mais fácil é você ter você ter segurança estatística da do seu Impacto né por isso que que essa é uma variável tão importante se você tem mais semanas para rodar o teste acho que ess essa calculadora aqui vai até seis né se você rodar em seis semanas
12% não é pouco mas é um cenário obviamente mais viável do que 22% né O que te exige 15.000 visitas por variação nesse nessa nessa conta aqui e o mde quando você tem essa informação ele é o resultado né de todos esses conceitos que a gente passou ele é o momento de você tomar uma decisão extremamente importante né Eh se você tem um MD muito alto pode ser um sinal forte de que você vai perder tempo rodando aquele teste de ab porque você não vai ter certeza estatística no final do tempo você vai est só
gastando o seu tempo o tempo de outras pessoas e o tempo de custo de oportunidade da empresa para esperar ter um resultado do teste então assim às vezes se você confia mesmo na sua mudança ou acha que ela não tem um risco tão grande não roda O teste eh ignora e vamos falar um pouco mais disso né porque assim se a sua hipótese não é uma mudança muito forte é uma coisa mais secundária você não tem muita confiança é um negócio lá na terceira dobra da página ou alguma coisa que assim você nunca viu funcionar
igual você tem um conso que você tem uma hipótese mais fraca com um mde exigindo um impacto de dois dígitos na sua taxa de conversão para você ter chance de ter significância estatística então É um cenário que assim na maioria das vezes não vale a pena perder esse tempo e você não vai poder ter o luxo de um teste AB para confirmar qual foi foi o impacto real da sua mudança ou vai lá e faz ela de qualquer forma mesmo ou esquece eh tem um outro ponto né que é a duração do teste a gente
acabou passando um pouco por ela também são quantas semanas o teste precisa para rodar para que você tenha um MDA Ao lado né e nisso eu recomendo pelo menos uma semana de teste AB e não mais do que oito semanas tá eh ah pro meu mde eh para um MD que eu acho legal que é 5% eu preciso de 25 semanas vou rodar cara não não faz isso Sinceramente se o mde de 8 semanas ainda tá muito forte para você surgiro esquecer a possibilidade de conseguir rodar um teste no cenário que você tem e menos
de uma semana é problemático porque tem Impacto sazonal muito forte em muitos Negócios em muitos negócios o começo da semana é um comportamento diferente do fim da semana e o final de semana em si é muito diferente durante semana e esses comportamentos se você não fecha uma semana Cheia podem impactar muito os seus dados tornarem eles menos confiáveis eh e você pode ter até um dia ou outro dia específico também que teve o comportamento diferente do usuário porque um concorrente fez alguma coisa ou alguma coisa muito relevante aconteceu no no mundo no mercado enfim é
menos de uma semana você tem Chan De ter dados menos confiáveis e mais de o semanas primeiro que é tempo demais esperando por um resultado de teste pra maioria das empresas né importante se mover rápido então esperar demais não faz muito sentido na maioria das vezes e você também começa ter dados poluídos que as pessoas vão limpando os cookies dos navegadores delas vão acessando de novo Primeiro ela viu na controlle depois ela vê na variation aí vai converter pela variation mas tinha sido persuadido pela control ou vice-versa e enfim você começa a ter vários cenários
onde os dados começam ficar mais poluídos também por isso a minha sugestão de pelo menos uma semana e no máximo oito semanas e para você escolher qual que vai ser a duração que você vai planejar pro seu teste AB Ok de no isso aqui tem que acontecer antes do teste tá você vai planejar quantas semanas seu teste vai rodar antes de rodar ele isso é muito importante vamos falar um pouco mais disso lá na frente e como eu disse se os seus números de MDR te dão vontade de desistir que te exije um tráfego gigante
ou com o tráfego que você tem exige um aumento na taxa de conversão gigante não hesite em desistir de rodar esse teste AB por é perda de tempo não é para desistir de fazer cro né de aumentar taxas de conversões melhorar interface com ux com cpia com pesquisa e tudo mais isso é fundamental para qualquer negócio mas é a minoria dos negócios é uma realidade que pouca gente gosta de falar nesse mundo que tá todo mundo tentando vender alguma solução de teste AB mas a realidade é que a pequena minoria dos Sites e empresas pode
se darar o luxo de rodar teste AB C aumentar conversão entender o usuário melhorar cpia melhorar eex Todos deveriam fazer rodar teste AB é paraa minoria e essa é a realidade do mundo da estatística não sei que um grande gênio para mudar tudo isso aí um dia esse é o mundo que a gente vive se você não tem tráfego suficiente para ter um mde viável não perca seu tempo rodando teste tente embasar o máximo a sua mudança para que ela eh surja gera o impacto que tenha que gerar Mas você nunca vai se dar o
luxo de saber qual que foi esse Impacto real eh só que antes de desistir você ainda pode tentar três coisas usar conversão de topo de funil se onde você não tem conversão suficiente seu MD é muito alto É na Fin finalização de compra ali usando um e-commerce como exemplo beleza sobe mais um nível ali pro início do checkout o cara não finalizou a compra mas iniciou o checkout não é tão bom quanto mas já é alguma coisa não deu iniciar checkout adicionar o carrinho pô se o teste é lá no topo do Funil e nem
adicionar o carrinho dá visualizar o produto né andou um passo à frente na na jornada de conversão pelo menos quanto mais para cima pior menos menos úteis serão os seus dados mas é melhor do que nada eu acho que você pode se você tem tráfego para rodar um teste pelo menos que na na sua Home de ecommerce digamos assim mas que dá para medir o número de de gente que você conseguiu levar para visualizar o produto eu já acho melhor do que nada né mas claro o ideal é você ter volume para conseguir lá a
geração da do kpi mesmo que é a venda que é a receita lá na finalização da compra você pode também e deve usar o mínimo de variantes possíveis né Eu sou um grande fã de teste AB e eu costumo desgostar bastante de teste ABC abcd abcde que também é um erro comum de quem tá começando às vezes começar a pensar variável demais teste abcd para todo lado que você olha e isso como vocês podem ver nessa tabelinha aí isso infla absurdamente a quantidade de usuários que você precisa participando de um teste Quanto quanto mais variáveis
você coloca num teste AB mais usuário Você vai precisar participando para dividir esses usuários entre todas essas variáveis que você pensou tem outros probleminhas também mas são um pouco mais avançados eu nem vou entrar entrar nisso nesse nosso papo aqui mas veja aí que se um teste AB que precisa num cenário aleatório ali parecido com aqueles números que vocês viram ali precisaria de 61000 pessoas para ter 95% de no intervalo de confiança eh com se ele for a b são 61.000 se ele é ABCD que é o dobro de de de páginas são quatro ao
invés de duas são 122.000 você dobrou o número de pessoas que você precisa então tente sempre concentrar eh os seus testes no mínimo de variantes possível de preferência A e B ok e por fim outra opção que você tem muito importante é Rodar testes com mudanças audaciosas como eu falei mais cedo Quanto mais agressiv quanto maior é a taxa de de a diferença na taxa de conversão que você gera maior aumento que você gera na taxa de conversão ou queda na taxa de conversão menos tráfego você precisa para ter segurança estatística do daquele efeito que
você gerou então só para vocês terem um exemplo mantendo ser tudo igual nessa outra calculadora aqui eh se eu tenho um impacto na taxa de conversão de 5% meu MD é de 5% eu preciso de 115 dias para identificar esse Impacto de 5% nesse cenário aleatório aqui desenhado tá eu preciso de 115 dias se o meu Impacto é de 5% nesse mesmo cenário se eu consigo impactar a taxa de conversão 20% 7 dias uma semana então tipo assim 500.000 gerações sei lá quantas semanas que dá 115 dias ou uma semana é a diferença que eu
preciso só mudando o meu impacto na taxa de conversão de 5 para 20% então se você não tem tanto tráfego assim ou precisa rodar um teste para um segmento que não é lá tão grande só vai valer a pena se você fizer uma mudança realmente agressiva que se funcionar tende a impactar muito a taxa de conversão e esquece mudar coisa lá na quarta dobra trocar sinônimo cozinha de não sei o quê pra maioria dos Business aliás esquece Qualquer mudança de exx A não ser que você tem um problema de usabilidade horroroso mas esse tipo de
de impacto você vai ter com mudança de cop de oferta de proposta de valor coisas bem mais agressivas digamos assim avançando pro nosso terceiro ponto configuração do teste AB o que eu quero destacar né De novo escopo aqui poderia ser infinito mas o que eu quero destacar aqui é que na definição do seu KP e do seu test AB Como que você vai medir o resultado n a gente falou um pouco disso logo na na primeira parte tem que ser relacionável a alguma métrica do negócio difícil dificilmente você vai ter visibilidade engajamento de outros times
se você fica rodando teste para aumentar métrica tipo Bounce rate né taxa de rejeição tempo no site essas coisas são muito divertidas mas para quem é do Business interessa muito pouco você vai conseguir não vai conseguir provavelmente trazer mais verba pra sua área escalar na empresa e tudo mais então tenta focar nos caps da empresa faturamento LTV sei lá qual que é o o k de momento da sua empresa eh e saiba e se e se você não consegue rodar um teste só para focado em faturamento tem que ser algo mais no topo do Funil
igual a gente falou Às vezes você nem consegue medir o impacto lá no final do faturamento pelo menos tenha na ponta da língua explicação paraos seus stakeholders de como esse kpi que você tá aumentando impacta diretamente Eh o negócio o crescimento da empresa empresa ganhar mais dinheiro lucrar mais etc eh E como eu falei ainda melhor se o Ki pudesse relacionado a kpi do Quarter o okr porque aquilo é o foco de momento da empresa tem um pequeno detalhe também que muito stakeholder ganha bônus em cima de meta de okr então se você consegue ajudar
um stakeholder a ganhar mais dinheiro a ganhar um bônus maior no final daquele Quarter daquele ano magicamente ele vai se tornar alguém muito engajado com você um defensor da sua área eh e um grande amigo para ajudar você a escalar a crescer na empresa Mas além do kpi principal é muito importante também muita gente não faz isso aqui você ter métricas de guard rail né que assim como um guard rail na vida real ele vai evitar que o seu seu negócio caia do prícipe tem métricas que você não quer impactar negativamente com a sua mudança
né Eh então assim um exemplo super clássico você vai t decap o nível de engajamento com uma feature de produto que você reformulou você deu uma nova abordagem para uma feature ali no produto aumentar o engajamento com ela é super importante mas você não pode aumentar seess engajamento ao custo de reduzir o engajamento com outras features né porque se você tá canibalizando esse engajamento de outros features não não valeu nada Às vezes o impacto foi negativo Então você quer adicionar engajamento e não trocar o engajamento de uma feature pro outra por outra Esse é um
exemplo clássico de guard raal para times de produto que a maioria que eu interajo no Brasil Estados Unidos não usa mas tem que ter sempre né trocar seis por meia dú não ajuda ninguém às vezes até piora Então tenha sempre nesse Exemplo né são milhões de exemplos aí que vocês podem pensar de guard rei o teste que adiciona alguma coisa na página mas não pode aumentar o tempo de carregamento enfim são opções infinitas mas esse exemplo específico eu quis trazer que é clássico em time de produto mexu numa feature mede o engajamento só nela mas
esquece de medir se tem queda ou não no no engajamento em outras features Então tenha sempre as suas métricas de guarde reio e o cenário que você vai ter paraa tomada de decisão no final é se você aumentou o seu kpi conseguiu aumentar o kpi e o guard rail também aumentou sua métrica de guard rail maravilhoso melhor dos mundos tudo aumentou é uma vitória se o se o seu kpi venceu mas foi impactando uma métrica importante da empresa de guarda de Rail não adianta não é uma derrota né aquele teste não pode ser implementado se
você aumentou o kpi e não identificou nenhum Impacto eh não tem nenhuma prova de impacto foi digamos assim sem significância o impacto no guard ra normalmente isso é uma vitória você vai ter alguns cenários onde eh algumas empresas mais exigentes vão exigir prova de que você não está impactando negativamente o guard rail que é algo estatisticamente um pouco mais complexo e exige mais volume também mas isso não precisamos entrar demais aqui também normalmente se você aumentou o kpi e o guard reio ali ficou no zero a zero já é prova suficiente mas tem que medir
o impacto na ou normalmente nas métricas de guarde reio da sua empresa beleza ok um ponto também sobre implementação importante client Side server Side né Tem comparações clássicas de que que é um teste client Side um teste server side eh que muitas empresas fazem e tudo mais mas eu vou trazer mais Uma Verdade Inconveniente aqui para para muita gente que ganha dinheiro vendendo ferramentas de teste abei vai ter sempre uma opinião enviesada para lá para lá ou para cá no fim das contas você tem que fazer o possível para sempre trabalhar com teste server Side
não estou falando que é errado rodar teste client Side é literalmente muito melhor do que nada mas server rodar server side é melhor do que rar client Side e ponto final a verdade é essa qualquer coisa diferente que seu vídeo ah depende não sei o que é florea é melhor rodar client Side Se você não puder rodar client Se você não puder rodar server Side é melhor rodar client Side do que não fazer nada isso é certo e já foi meu cenário com inúmeros clientes mas rodar server Side é melhor do que rodar client Side
alguns motivos para isso alguns problemas do client site impacto na performance é impacto na taxa de verão isso é matemático Quanto mais tempo leva para carregar pior vai ser a sua conversão tem milhões de dados estudos sobre isso então a variation sempre sai perdendo no teste client S né então se você torce para variation já já tem essa notícia ruim de cara para você o resultado é menos Preciso né Por motivos como esse do tempo de carregamento e outras coisas que vocês vão ver aqui os testes normalmente são menos impactantes impactantes Porque se é client
Side você não vai conseguir mudar um algoritmo uma f que interage com backend para acontecer tipo uma ordenação de alguma coisa uma recomendação de produto coisas do tipo eh Isso tudo só vai rodar no server Side eh e testes com muitas mudanças correm o risco de quebrar para alguns usuários JavaScript né é uma coisa digamos assim que não dá para confiar cegamente e esses testes tem muitas mudanças refazendo uma página inteira vão exigir muito JavaScript para que essas mudanças sejam implementadas normalmente eh então você tem um risco aí de quebra também tem dificuldade em escalar
experimentação já já que muito time não vai conseguir validar suas hipóteses só com test client site não vai ter time de produto time de app obviamente que também não tem como rodar essas coisas eh client Side e times que tem features de backend nenhum desses caras vai poder usar experimentação não vai engajar em nada com você porque você não tem como ajudar eles na nas metas deles e ainda por cima se o teste V vem a implementação demora mais porque normalmente implementado de qualquer jeito no client Side para rodar o teste mas se o teste
ganhou aí tem que ir pro time de Dev para pensar direit como é que vai implementar aquilo de verdade no longo prazo e tudo mais quando é serverside essa ponte é muito menor muito mais fácil ser atravessada que a coisa já foi implementada certa desde o começo então assim aí Tem vai ter aquela coisa Ah mas o server Side demoram mais para implementar é um pouco mais difícil de configurar É isso mesmo mas se você não quer uma vida limitada a ficar otimizando um l page de marketing o caminho é esse e se você não
quer enfrentar esses outros problemas que a gente tem o caminho é tentar migar pro server assim que possível de novo não é para se sentir errado por rodar client Side mas não se luda é pior do que rodar server Side e não por fim nessa coisa de configuração não se preocupe e com mais de um teste rodando ao mesmo tempo tem esse gráfico clássico lá do pessoal do Bing que eles conseguiram disparar em volume de experimentação e escalar a experimentação interna justamente quando eles conseguiram passar a permitir eh testes simultâneos rodando né no no Bing
né tem esses casos clássicos de booking que tem milhões de versões de páginas No Ar ao mesmo tempo e não sei o quê todas as empresas de altíssimo nível de experimentação rodam experimentos ao mesmo tempo então quem tá começando tem essa insegurança gigantesca de meu Deus vou rodar dois experimentos na mesma página ao mesmo tempo e aí quase nunca quase nunca Isso vai ser um problema tem casos muito específicos mas digamos assim resumidamente se uma uma um teste não quebra o outro né não quebra a página ou não tem uma informação completamente contraditória do outro
se o seu cenário é esse muito muito muito provavelmente você não precisa se preocupar em rodar esses dois testes ou três ou 200.000 testes ao mesmo tempo desde que um não quebre o outro eh E desde que um não ten informação contraditória a do outro por fim encerrando E analisando os resultados pergunta clássica é OK dar uma olhada nos resultados do teste de vez em quando e a verdade é que sim desde que a sua ferramenta aplique eh o que a gente chama de sequential testing eu sei lá como que traduz isso para português não
porque quando eu aprendo aprendi essas coisas Infelizmente foi nem em inglês mesmo mas Possivelmente se a sua ferramenta tem sequential testing não vai ser difícil de você achar essa opção para ser habilitada lá nos seus testes que é basicamente uma gordura que é adicionado ali no seu potencial de impacto né no seu no seu intervalo ali de impacto eh para garantir que se você tá olhando o resultado do seu teste antes da hora que é antes daquele número exato de semana que você planejou lá na nossa etapa dois de viabilidade estatística se você vai olhar
antes para você não olhar um número completamente mentiroso eles adicionam essa essas gordurinhas para para baixo né para queda e para aumento de taxa de conversão igual vocês veem aqui para você poder olhar à vontade a hora que você quiser o resultado do seu teste se você não tem sequential testing você tem que esperar as semanas exatas que você planejou para aquele teste nem mais nem menos e só naquele só naquele momento olhar o resultado do seu teste ok vejam como é perigoso se eu não tivesse sequential testing habilitado nessa ferramenta aqui essa aqui é
o stat sig essa esse Impacto aqui ó teria sido com estatística significância com significância estatística né esse taxa de conversão no forma de cadastro teria tido um aumento porque ele ia tá acima do zero aqui ó então eu já teria significância estatística aqui mas como eu tô olhando antes do meu período planejado ele aplica essa gordurinha de sequêncial Test e me mostra que não segura sua onda aí porque a gente ainda não tem um resultado garantido aqui mesma coisa para métrica de baixo que seria uma derrota abaixo do zero é mas não não necessariamente é
uma derrota ainda porque você tá olhando antes da do que você planejou do número de semanas que você planejou sacou eh se a sua ferramenta não tem sequência ao testing como eu falei espera o número de semanas que você decidiu apostar aqui 1 2 3 4 5 6 7 8 fique à vontade espera o número de semanas não né o número de usuários né Não importa quantas semanas Se desde que você tenha o mínimo de uma e o máximo de oito quando você chegar pegar no número de usuários aqui e e fechar um número de
semana exato uma semana redonda com o número de usuários que você precisa aí você vai encerrar seu teste olhar se ganhou ou perdeu ou foi inconclusivo se você não tiver o sequential testing na sua ferramenta por fim atenção ao sample Rational mismatch eh se você tem isso a maioria das Ferramentas hoje em dia já tá detectando isso com alguma segurança mas descrito de um jeito muito simplista se você planeja um teste AB para rodar 50% para contol 50% dos usuários para variation e no final você tem não tem isso você tem um bocadinho mais de
gente na variation do que na control isso mesmo que seja um eh uma diferença pequena e seja identificado esse mde pode estar significando vários problemas no seu teste AB não é simplesmente o problema de ter mais gente numa versão do que na outra o fato de ter acontecido isso pode indicar vários problemas técnicos não dá pra gente entrar nisso aqui hoje mas pode identificar vários problemas técnicos para você eh que inv d o seu teste por algum motivo técnico tem muito mais gente indo para uma versão do que para outra um pouco mais gente indo
para uma versão do que para outra isso pode acarretar vários problemas aí no efeito dominor eh e na hora de reportar o resultado do seu teste AB pro resto da empresa outros stakeholders e tudo mais clássico reporte o delta do seu resultado e não a média então não reporta o impacto médio exato da taxa de conversão nesse caso aqui 3,6 você você vai reportar o mínimo e o máximo você vai falar nesse contexto aqui nosso Você não vai falar que você aumentou a conversão em 3% porque não é isso que o teste tá te falando
o teste tá te falando que você tem 95% de de segurança estatística ali caso você tenha atingido os 95 de que o seu o seu teste identifica um aumento na taxa de conversão entre 0,4 e 6,8 por. o que que é isso é esse esse Delta aqui que você tá vendo aqui representado por esse mais ou menos 3.2 aqui então é é 3.6% é o é o meio ali do caminho mas pode ser 3.2 a menos que isso ou 3.2 a mais do que isso o que dá esse Delta de 0,4 a 6,8 isso é
o resultado do teste qualquer impacto no fim das contas depois que implementar que ficar entre esses dois aqui isso não tem como medir com exatidão né mas enfim o que você identifica estatisticamente é que B é melhor do que a alguma coisa entre 04 e 6,8 qualquer número aqui tem o mesmo número a mesma chance de ser a realidade do que o 3,6 que é a média Ok então cuidado para não reportar só a média e gerar expectativas erradas se o seu teste essa é a última coisa e e muito importante se o seu teste
Apresentou um Resultado surpreendentemente positivo provavelmente ele tá errado né a realidade é essa a vida é dura né o Linkedin não tem essas coisas normalmente mas se tá surpreendentemente positivo provavelmente tá errado e essa lei de tman ela resume muito tudo que é qualquer figura que pareça interessante ou diferente geralmente está errado então se o seu teste é é um resultado inesperado eu sugiro muito fortemente que você Rode o teste novamente confira todo o setup de novo antes disso se você tem um ambiente ou site semelhante para rodar esse teste Rode lá também porque o
seu papel como líder de experimentação ou na área de experimentação não é ganhar teste É lógico que você quer que a sua variation ganhe e dificilmente você vai ter muita energia para rodar um teste surpreendentemente positivo de novo mas sua missão não é ganhar a sua missão é encontrar a verdade né Eh a gente é que é Ciência não é outras coisas esotéricas aí então você tem que encontrar a verdade se tá surpreendentemente positivo provavelmente tá errado e tem aquelas aquele conceito clássico da ciência que afirmações extraordinárias requerem provas extraordinárias e a prova extraordinária aqui
é rever tudo do zero você tá de novo em outro ambiente se for preciso e rodar novamente esse teste tá E esse é o caminho certo Por mais que muitas vezes não é o que a gente quer no no nosso coraçãozinho beleza agradeço muito o tempo de todos esqueci de contar Quanto tempo demorou isso aqui não sei se foi muito se foi pouco se foi muito peço desculpas mas espero que tenha sido útil e relevante para todo mundo tem o meu site com os artigos que eu escrevo por aí todos centralizados lá meu LinkedIn para
quem puder me adicionar aí vai ser um prazer bater um papo com vocês Mesma coisa no Instagram e muito obrigado