[Música] bom uma vez vencida essa fase de treinamento da ferramenta busca na realidade né o que nós vimos aqui é que nós aplicamos um nós aplicamos um ambiente um arcabouço de busca da melhor solução não supervisionada para uma agrupamento de processos tendo como entrada A petição inicial e que a gente pudesse entregar melhor relacionamento dessas petições iniciais com precedentes qualificados então houve lá aqueles mais de 168.000 experimentos e a gente entregou essa solução baseada em C médias e t fdf bom uma vez a solução entregue validada matematicamente pelo índice eh eh o r índice ajustado
né que nos ajudou a chegar numa solução ótima numericamente uma vez também passado pelo cribo do do de uma análise do pessoal de regra de negócio pessoal de direito nós temos então uma solução que pretensamente ela pode ser utilizada para inferência né que que é inferência né agora dado uma petição inicial eu quero que a ferramenta me entregue agora quais precedentes qualificados essa petição inicial eh está relacionada bom então nós vamos falar sobre isso isso agora né como que é a parte de inferência do modelo então primeiro o fluxo de inferência aqui a ferramenta que
trabalha da seguinte forma dada uma nova petição inicial né que eu chamei de Pi aqui eh a gente vai fazer um melhoramento do sinal dela usando essas ferramentas que eu citei né de extração de ruído identificação de entidades nomeadas depois a gente vai fazer a formatação da entrada nesse caso aqui a solução final ela formata isso aí ela ela ela pega o texto e transforma ele no TF DF e esse tfidf ele entra aqui no modelo de a que que o modelo de a vai fazer ele vai pegar essa entrada vai mapear essa entrada em
algum em um dos clusters que estão ali já formados pela ferramenta que já foi previamente treinada então a vez identificado Em qual grupo que que essa amostra ela ela foi relacionada eu vou pegar todas as amostras que estão ali naquele grupo tá e vou eh eh Por uma questão de de similaridade com a a com a petição de entrada eu vou eh verificar ali quais daquelas amostras ali me apontam precedentes qualificados e vou atribuir a essa petição de entrada essa essa petição inicial que eu estou avaliando aqueles rótulos de precedentes qualificados que estão eh relacionados
a amostras que são muito semelhantes a essa petição de entrada Essa é a lógica da inferência então com isso eu consigo entregar para os usuário final que me entregou uma petição inicial no final consigo entregar para ele uma lista de repercussão geral e uma lista de repetitivo para ele tá como eu disse para vocês anteriormente nós temos uma função de similaridade né quando a gente vai procurar relacionamento dessa dessa amostra de entrada que tá representada aqui pelo um círculo amarelo com x no meio e a gente calcula a similaridade dela com as outras amostras Então
isso é um parâmetro livre da ferramenta então Endo do perfil do usuário ele pode querer que essa ferramenta seja mais restritiva ou menos restritiva se ela for menos restritiva ela vai trazer ele vai trazer potencialmente mais precedentes qualificados para ele se ele for mais restritivo ele vai trazer menos uma lista menor de precedentes qualificados Ou seja eu só vou trazer aqueles que cuj as amostras petições iniciais sejam muito mais semelhantes à amostra de entrada então esse parâmetro livre né que que que coordena a função de similaridade ele é algo que pode ser parametrizado né e
ele é um parâmetro fácil de entender que ele é em termos percentuais então eu posso querer uma similaridade próximo de 100% a amostra que eu estou avaliando eu posso ser menos restritivo Car eu quero quero ver ver a ver indicações de processos que que que e sejam menos parecidos com o meu isso vai muito do comportamento do do do objetivo do usuário que está usando essa solução então a gente entendeu que seria importante deixar esse parâmetro livre para que a própria pessoa pudesse eh eh parametrizar o como que ela prefere que a ferramenta se composte
com mais restrição ou menos restrição vamos ent end aqui vou dar um um passar aqui sobre Como que essa inferência ela acontece com um pouco mais de detalhes então aqui eu tenho uma petição inicial né aqui do lado esquerdo que eu chamei de petição esse círculo aqui eh escuro então uma vez dado uma petição eu tenho do lado direito aqui um algoritmo que já seccionou minha base toda de de amostras em grupos né os grupos que são representados pela separação dessas linhas azuis eh os círculos azuis aqui são amostras sem rótulos e os triângulos são
amostras que tem precedentes qualificados apontados a elas lá pelo rotulador automático né e cada cor aqui eventualmente indica um um um um tipo de precedente qualificado diferente né um um uma repercussão geral diferente um repetitivo diferente Então esse é o cenário da inferência bom o desafio que nós temos aqui é pegar essa petição inicial agora e ver onde ela se encaixa aqui nesse espaço de amostras Digamos que ela se encaixou aqui no primeiro grupo né eu vou encontrar o grupo representativo dessa amostra então eu vou por por meio de similaridade Lembrando aqui similaridade de petições
iniciais eu vou localizar Qual é o grupo que essa que essa amostra pertence esse é o primeiro passo né então eu já fiz isso é esse grupo que tá circulado aqui né por essa linha contínua segundo passo uma vez que eu já sei o grupo eu vou selecionar as amostras mais semelhantes né esse th aqui que tá entre parênteses é o threshold Né o linear que eu vou aplicar aplicar de CTE aqui ou seja eu vou pegar esse grupo pegar todas as amostras deles vou ranquear ele essa pilha de amostras aqui tá significando que a
mais baixa e a menos parecida a no topo é a mais semelhante à petição de entrada bom com ISO eu vou aplicar agora um threshold um Limiar nesse caso aqui eu botei 85% de similaridade só para efeitos de exemplificação então todas essa lista acima dessa linha pontilhada aqui ou seja todas essas amostras sejam elas repercussão geral ou seja repetitivos serão apresentadas como solução final para o usuário eh fazer as suas análises as suas decisões abaixo qualquer outra amostra que esteja abaixo dessa linha pontilhada significa que ela tá a menor do threshold tem uma similaridade menor
do que 85% eu a a ferramenta vai entender que essas amostras não são do interesse do usuário e ela não será apresentada na interface final Ok bom essa é a solução né Eu espero que eu tenha sido Claro aí para explicar como que foi desenvolvido o que que tá por trás dessa solução e como ela funciona né [Música]