[Música] trata formatação a gente acabou agora agora vamos paraa trata abreviatura vamos lá achar aqui pronto mesmo jeito é um Pipe com seus sub pipes e esse aqui ele vai trocar como o nome já diz mesmo ele trata muitas abreviaturas minhas que a gente encontrava às vezes abreviado às vezes não às vezes abreviado de maneiras diferentes então a gente procurou padronizar logo isso vamos aqui pro troca número que é o primeiro o troca número Ele simplesmente vai procurar alguns tipos de abreviação da palavra número e vai substituir pela palavra número mesmo com acento com a
letra maiúscula sempre igual então a gente às vezes achava num com acento sem acento nums podia ter ponto podia ter algum dos caracteres né de grau eh podia ou não ter um espaço depois e um número seguido a gente sempre tava preocupado em ter realmente um dígito depois para garantir que não era alguma coisa de outro texto falando de outra coisa então essa aqui é a padronização de número para artigo a mesma coisa a gente encontrou Isso tudo foi feito com análise estatística dos dados a gente via os casos de abreviações mais comuns e tudo
mais e Art com o sems com ponto ou sem ponto a gente padronizou tudo para artigo letra maiúscula sem nada mais vamos lá decreto a mesma coisa talvez você não precis mostrar não viu certoo porque esses são bem incrementais n os que forem incrementais Ah não se que o pessoal queira ver né ah mas como eles são todos incrementais são basicamente é um padrão de Rex todos seguem a mesma lógica né então todos esses dessa dessa trata abreviatura eram abreviaturas que a gente padronizou para o texto inteiro sem nen uma abreviatura mesmo deixando a coisa
então temos artigo decreto emenda constitucional medida provisória eh os nomes de leis esse aqui é um [Música] não foi ISS foi você v consumidor Criança e Adolescente penal militar e teve uma razão também pra gente por que a gente fez o trato abreviatura né Porque que a brura tem ponto certo a gente estava querendo fazer de um jeito que a gente tentasse eliminar a queria ver final de a ch época que a gente queria tentar identificar a frase e tirar a frase e passar a frase paraa Raquel por exemplo E aí começou com essa com
essa coisa da frase né tipo para você identificar o ponto final ah como é que a gente identifica um ponto final ah porque tem ponto no na lei tem ponto na abreviatura tem tem ponto um monte de coisa né E aí uma das coisas que a gente fez essa abreviatura para padronizar tá foi por causa disso e porque por exemplo para número a gente queria ter um tamanho específico que fosse ficar entre a Lei e o número o número que eu digo o dígito mesmo né porque aí acho que na época fic ficou mais fácil
pra gente deixar isso padronizado né isso eh Então esse dentro desses de abreviatura troca nome lê eu acho que é o mais diferente Zinho né OK então número súmula e súmula vinculante também são abreviaturas normais Vamos pro próximo trata sigla ele é simplesmente isso eh abrindo também as siglas do STF STJ TCU CNJ eh para ficar por extenso Então esse aqui eu também não preciso entrar ele é é só um código eh caracter especial esse aqui também foi uma demanda do classificador né Eh a Raquel Tava tendo problemas com alguns caracteres e a gente resolveu
simplesmente banir eles do texto eh tanto o os diferentes tipos de grau né e eh o o a ou o o acho que isso é a questão do tokenizador do Bert né éa o tokenizador do Bert e eh Lembrando que eh essa função aí deixou separadinha porque caso mais algum caractere Venha que descubra que tá atrapalhando é só inserir ele aqui e no no reex que a gente já tira ele substitui por um espaço vazio não não um espaço né um caractere vazio esse aqui é bem mais complexo mas agora que a gente tem todos
os nomes completos né a gente não tem mais nenhum abreviatura É sóa trata termo o que que ele vai vai fazer ele vai fazer uma pré padronização Como diz eh o próprio as próprias funções mas e ele vai botar tudo com ó por exemplo o de número ele vai pegar o qualquer palavra número e vai deixar Sempre letra maiúscula acento com acento mesmo o jeito do Certo Correto do português artigo também porque aqueles a gente só tratou os que estavam abreviados agora a gente tá pegando tudo que não tava tava abreviado já tá no padrão
o que não tava abreviado também vai entrar no padrão então para artigo a gente faz isso padroniza lei é a palavra lei em si né vai também ficar letra maiúscula ou no plural lei ou leis eu acho que tem um que foge disso aqui um pouquinho ã lei complementar nome lei pronto pré padroniza nome lei ele é mais um dicionário grandinho com os nomes as leis que tem os apelidos mais populares aqui a gente simplesmente tá padronizando para ter acento a a letra maiúscula né capitalize Em cada cada palavra aqui só para deixar todos no
mesmo formato ela é grande mas ela é como a passado né de abreviatura que é Mais do Mesmo agora o trata legislação vamos lá trata termo trata legislação eh esse aqui ele vai tratar eh a citação da legislação em si o como ela vem né o artigo dela um um documento um dispositivo legal por exemplo o código de defesa do consumidor agora a gente tem certeza que todo artigo vai est escrito como artigo com letra maiúscula podendo ser no plural ou não e ele eh tem um pode ter um espaço entre os caracteres e um
dígito ótimo a gente eh tá pegando esse padrão e vai substituir vamos dizer que ele tem artigo número 10 a gente vai esquecer esse o que tem no meio e vai botar artigo 10 junto simplesmente isso para padronizar essa citação da legislação tem um detalhe aqui aí também que eu tenho que comentar a toda essa análise foi feita aqui né que no no início pro classificador a gente por exemplo se você tiver a gente fez uma versão que a gente tentou contemplar isso só que a gente fez um downgrade né sequências que são sequências né
então pra gente aqui mesmo se por exemplo se tiver uma a artigo 1 e 1 2 e 3 do CDC a gente só padroniza se tiver artigos Artes ponto 1,2 e 3 ele vai ficar só artigo um tipo a gente não vai mexer no dois e três não certo então ele fica ele fica desse jeito ou seja basicamente a gente só trata os primeiros elementos da se tiver uma sequência certo a por exemplo mesma coisa acontece com por exemplo leis 1 2 3 e 5 4 6 a gente só trata a primeira certo a gente
coloca lei alguma coisa espaço a e a e a a numeração padronizada né então tem esse detalhe um outro detalhe é que por exemplo isso aqui é diferente do aa que a gente vai apresentar amanhã né nessa época e por trates Lote a gente não viu questão de padronização inciso parágrafo inciso parágrafo E por aí vai a gente parou em artigo porque Justamente a gente já é invasivo você fazer esse tipo de coisa e aí para padronizar o resto das coisas ficava mais a gente não vamos parar aqui que aqui pelo menos a gente garante
que a gente tá padronizando ok né uma melhoria que poderia ser feita aqui realmente eh com mais calma e com mais tempo a fazer a padronização de sequências que é Desafio também né que fazer é porque ele pode tanto ser explícita quanto implícita ele pode dizer artigo 1 ao 10 eh então tem tem vários jeitos que e seguintes e seguintes é o aí você não sabe onde é que para porque você teria que consultar o knowledge graph para poder para poder dizer para você então tipo a gente Rapaz isso é complicado demais vamos vamos tentar
fazer o mais simples pro classificador eventualmente depois se o pessoal tiver interesse a a a gente poderia até continuar né mas aí acabou que a gente decidiu ficar desse jeito né isso ah outra coisa só er out trata texto em lote é como eu falei ele basicamente entra texto sai texto e ele basicamente é como se fosse um pipeline de reex então ele não faz nenhuma consulta no gcl quem faz consulta no gcl é a versão do backend que a gente vai mostrar amanhã do aa né ou aa né a gente simplesmente pega o texto
que tá confia nele e padroniza padroniza Eh ok então se uma citação Legal tem um artigo e um um dispositivo né um documento agora a gente vai a Gente padronizou o artigo a gente vai padronizar essa lei esse decreto ou o que seja eh então tem mais três funções aqui dentro padronizar a lei em si o que que a gente faz a gente olha se é alguma dessas lei decreto decreto lei e eh Coloca ela próxima do número dela então então se tiver lei número 14932 a gente vai botar lei 14932 com o devido ponto
de separação tudo certinho como como manda a norma o ponto do casa 14000 vamos dizer lei 14300 a gente bota 14.392 pronto lei padroniza número nmero é justamente o ponto aqui é ou ou só colocar uma coisa essa padronização de disp a do artigo ela é mais fácil porque enfim é só o o artigo ele só tem um número né em teoria sim pra gente aqui né a padronização do dispositivo é como se a gente tivesse que dividir ela em três partes pra gente tentar padronizar ela foi o que a gente fez a gente dividiu
a primeiro voltar lá é primeiro no no tipo né que é o padroniza lei né que é tipo sim o tipo Néa o tipo da lei a gente junta com o número exato E aí ela tem que ter um número na frente aí depois vem a padronização do número em si e depois a mais complicada é a padronização da data porque às vezes o que acontece é o que o cara tem lei 1 2 3 vírgula de Janeiro março de não sei o qu bá bá bá a gente rapaz porque geralmente a padronização que a
gente perguntou pro pessoal do direito é geralmente é lei número barra ano e aí a gente ficou rapaz será que tipo a gente vai ter que tratar essas datas o pipeline de data aí é o mais complicado a gente tenta padronizar quando ele F é o ano né se ano é dois dígitos ou quatro dígitos ah a gente tenta padronizar se tá por extensa a data né que aí você vai ter que identificar o mês e tudo todos os separadores todos separadores tanto de tanto tá tanto traço tanto tanto barra tanto é a gente supõe
algumas coisas né Tipo a gente tenta pegar o o máximo de padrão possível mas ah essa parte é a mais complicada né a gente poderia ter simplesmente ignorado né só como a gente tava nessa nessa coisa de não vamos tentar o quanto melhor a gente padronizar melhor vai ficar o classificador dela né E aí a gente seguiu essa lógica né então trato legislação aqui é isso é a citação da legislação Vamos para o próximo trata jurisprudência a gente vai padronizar o órgão em si né Eh é mais um dicionário porque eh às vezes poderia vir
só ó aqui ó eh Justiça com c dilha ou não a gente tá vendo acentos a mesma coisa para só para padronizar mesmo deixar que a gente saiba que todos os órgãos vai ter o a iniciais maiúsculas e acentuação correta aí a gente vai ver a súmula jurisprudência padrones órgão eh simplesmente juntar a a agora a gente sabe que tem súmula vinculante ou sem ser vinculante e o número dessa súmula a gente vai botar junto e a mesma coisa paraa súmula vinculante é simplesmente para eh pegar o o o tipo da da lei né se
é súmula súmula vinculante o número dela e o órgão que ela pertence e pronto agora terminamos todos os módulos e agora esses são os dois métodos que eu vou falar de utilizar a biblioteca né como a gente citou antes eh atualmente isso aqui estando lá no sinapses é uma requisição post eh no começo da apresentação tem o o o URL se vocês quiserem copiar ele tudo certinho e ele espera algo desse jeito aqui que é uma mensagem tem o tipo texto puro e o conteúdo que é uma string essa aqui é a string que vai
ser tratada Quando você joga ele retorna isso aqui é só os headers dizendo que tá correto e ele retorna aqui extensão e na no valor dessa chave a sua string depois de passar o pipeline inteiro a gente pode ver aqui Art um do artigo 1 do código de defesa consumidor Então é assim que está tá disponibilizado agora como consulta lá no sinaps eu ia mostrar caso ele vá para o Git do CNJ você pode usar aqui simplesmente como a biblioteca Python importando ela aqui aqui a gente tem o os o noso dataset de amostra eu
pego a coluna do do texto e passo o a função trata texto e sai uma coluna de texto tratado simples assim bem transparente e aqui terminou a apresentação mas isso aqui depois de passar por aquele pipeline que eu mostrei né como eu mostrei aqui né depois de passar pelo trat texto aqui eu tô dando uma olhada nessa amostra tratada que a gente salvou e eu peguei um casz aqui para mostrar a a diferença como o texto não é estruturado né É é é ruim meio de ver mas olha aqui ó isso aqui de cima é
o texto bruto e a gente tem aqui Um caso ó lei 1060 de 50 e lei 7115 de 1983 você pode ver aqui que o Tratado 1660 de 1950 a gente deixou a data toda padronizadora artigo eh aqui com letra minúscula mas na em algum canto aqui pronto não esse aqui é o artigo séo mas você pode ver que esse de baixo tratado todos os artigos estão letra maiúscula e o número dele então e é bem claro que o o trata texto vai fazer ele pega esse texto todo você pode ver aqui os barra n
tudo bem bem Não padronizado e aqui o texto Limpo padronizado segundo a a biblioteca né Ele é bem transparente e fácil de utilizar [Música]