[Música] Olá pessoal tudo bem seja bem-vindos a nossa disciplina de processamento de linguagem natural né hoje a gente está tendo a nossa primeira videoaula vamos falar um pouquinho sobre a introdução então ao PLN né o processamento de linguagem natural que é o conteúdo que a gente vai abordar aí durante essas 8 semanas de curso bom os tópicos que a gente vai ver na aula de hoje então falar um pouquinho sobre linguagens né O que que são linguagens no contexto geral falar sobre o processamento de linguagem natural os níveis linguísticos né que a gente tem aí
para poder trabalhar durante esse processamento e algumas aplicações sobre de processamento de linguagem natural né a gente tá no período bem interessante para falar sobre esse conteúdo né porque o que a gente tem visto ultimamente que tá bem na moda todo mundo tá falando todo mundo tá utilizando que é o chat de PT né e o chat GPT nada mais é de que do que um sistema de tln né então é uma é um curso que vem bem a calhar aí nessa época do da nossa história Bom primeiramente falar um pouquinho sobre linguagens né características
diferentes entre o que que seria uma linguagem natural que que seria uma linguagem artificial linguagem artificial é aquela que foi criada artificialmente para algum propósito vocês né então estudando computação né então vocês já podem imaginar como funciona as linguagens artificiais alguns exemplos como a linguagem Java a linguagem C né Python que a gente tem utilizado bastante aí durante o curso vamos utilizar nessa disciplina também né e a linguagem natural é aquela linguagem que os seres humanos né utilizo para se comunicar né tem algumas diferenças bem importantes né sobre esses dois tipos de linguagem né O
que que a gente vai ver agora né a linguagem natural e a linguagem artificial né a linguagem natural pessoal ela tem ambiguidade ela é usual e informal está vivo e muito flexível né Isso é um ponto importante já vou voltar aqui para a gente conversar um pouco sobre isso já a linguagem artificial ela não tem ambiguidade né as nossas linguagens tanto é que nos permite por exemplo usar uma interpretador como a linguagem Python ou usar um compilador como a linguagem C por exemplo né e ao utilizar essas linguagens a gente vai ter erros facilmente entre
aspas detectáveis tanto em termos de interpretação né do momento que a gente tá executando o código como acontece em parto como no próprio compilador né quando a gente está trabalhando com linguagens é que utilizam de compiladores né como a linguagem C né E esse tipo de linguagem por não não permitir ambiguidade né Ela é muito mais formal e naturalmente poucos conhece né na linguagem de programação se a gente for ver quantidade de pessoas que já trabalhou com linguagem de programação a gente vai ver que é um número bem reduzido né E ela não admite tanta
flexibilidade né ninguém conversa com linguagem artificial vamos dizer assim né Por não ter ambiguidade por ser mais formal nos permite fazer muitas coisas né É que na linguagem natural é muito mais difícil esse é o grande ponto aqui né trabalhar com linguagem artificial principalmente os exemplos que a gente consegue utilizar aqui que são as linguagens de programação é muito mais fácil e mesmo assim já é difícil né do que trabalhar com linguagem natural né Justamente não só por isso mas principalmente por conta da ambiguidade né E por ser usual informal então muitas vezes a gente
eu mesmo tô falando com vocês aqui eu não tô usando todas as formulando as frases das formas corretas sintaticamente correta assim semânticamente perfeito a gente acaba pronunciando palavras de forma diferente né Eu por exemplo eu uso muito tu em vez de você por conta do do sotaque né do costume Gaúcho e utilizar o tour não é o problema o problema é que quando a gente utiliza a gente não conjuga da forma correta então é só para dar um exemplo para vocês da dificuldade que a gente vai ter de trabalhar com linguagem natural quando a gente
tenta fazer isso de forma automática né processar essas informações né num texto né Por Exemplo né então aqui uma definição de sobre o que que é linguagem né Para a gente começar os nossos estudos é um exemplo aqui de uma das definições que é bem Aceita né que é um sistema de símbolos de um vocabulário que quando colocados numa determinada ordem e expressas num determinado contexto emitem um significado então em algumas aulas que a gente for trabalhando a gente vai falar um pouco destacar um pouco onde que a gente tá aqui dentre essas opções aqui
de símbolos de vocabulário ordem contexto e significado tá bom a medida que a gente for ter nas nossas aulas a gente vai Relembrando isso bom os termos linguística computacional linguística mais computação ou computação mais linguística né são termos que são bastante utilizados e às vezes é de forma diferente para determinados autores né Mas o que importa aqui que a gente entenda qual é o papel da linguagem que qual é o papel da Computação em processamento de linguagem natural né então a gente utiliza a linguística para quê para modelar uma determinada linguagem né e a computação
para implementar os modelos para trabalhar com essas linguagens né O que que a gente tem aqui né Vamos pensar para que que serve aproximamente linguagem natural né tenho aqui um exemplo bem interessante né eu até coloquei como sugestão para vocês assistirem esse filme que é o rurry ou ela né no em português e provavelmente muitas de vocês Já assistiram esse esse filme né mas esse filme aqui mostra de novo um exemplo bem claro do que que pode ser feito com PLN né é o jockey Fênix um cara no filme que chama Theodore se eu não
me engano e ele se apaixona conversa muito com uma com uma com um computador né que chama Samanta que ela conversa com ele por voz né e o que que é interessante aqui né que ele ele conversa tanto com ela que que ele entende que aquela que aquilo lá é uma pessoa que não é nem um não é um computador né claro ele sabe que é mas é ela conversa tão bem ela consegue processar também a linguagem né conversar com ele de uma forma aqui se ele não soubesse previamente que era um computador provavelmente ele
não ia saber ele não ia conseguir identificar né a diferença entre esse computador e uma pessoa de Fato né então esse filme aqui ele é muito interessante né Eu sugiro que vocês assistam ele porque pode parecer um pouco de ficção mas já não é né ficção né porque a gente tem casos aí que que bem próximos a isso né e justamente uma das aplicações de PLN É não a gente vê muita aplicação com texto né que tem muito mais aplicação com texto mas não se não se restringe a isso pode ser com voz mesmo também
né pode trabalhar com texto ou pode trabalhar com com sinais com voz e e tá trabalhando com um processamento de linguagem natural porque a gente não fala só sobre ali a língua escrita né o PLL envolve também a língua falada por exemplo né então aqui é uma aplicação bem interessante eu sugiro que vocês assistam esse filme aí pra vocês verem onde que a gente consegue chegar com essas técnicas de PLL né Então quais que seriam os objetivos né do processamento de linguagem natural então nós computadores aptos a processar essa língua essa língua natural né que
como eu disse na maioria dos casos Você trabalha com texto mas não exclusivamente é isso né então o que que seria esse processar essa língua natural seria entender gerar extrair conhecimento então a gente viu por exemplo a Samanta nesse filme ela tá ela tá se expressando né ela entende o que ele pergunta ela gera conhecimento porque ela Responde às perguntas dele faz perguntas para ele e mantém uma interação né uma conversas como se fosse uma pessoa mesmo se comunicando né E que é um também dos objetivos aqui que é comunicação né tudo que se puder
fazer né com linguagem natural a gente trabalha com esse fazia de forma automática né como o processamento de linguagem natural né aqui tem alguns exemplos de quão difícil é processar a linguagem natural considerando uma frase uma sentença bem simples como essa que tá aqui né O menino foi pra escola de ônibus né ponto é uma frase só então a gente vai ver alguns algumas etapas alguns exemplos nós vamos durante a disciplina trabalhar e mais detalhes sobre isso né mas só pra gente ter ver alguns exemplos aqui do que que a gente precisa fazer para começar
a trabalhar é com linguagem natural né Então a partir desse texto aqui a gente pode ter um processo de tocantinização que a gente chama né que é umportuguesara a palavra né tal né que eu tô organizador que é de origem inglesa né que na verdade nada mais é do que dividir o nosso texto em pedaços em tokens né nesse caso aqui normalmente que se faz cada toca seria uma palavra vamos dizer que eu sou unidades de processamento que a gente está querendo separar aqui né Às vezes a gente a gente pode tokenizar no nível de
sentença por exemplo né pegar um texto grande em vez de cada toque em ser uma palavra ser uma frase por exemplo a gente tem essas possibilidades também né Mas normalmente são as palavras então aqui nesse processo de tocantinização a gente dividiria essa palavra aqui nesses toques que a gente tá vendo aqui destacados né o nível também a gente pode pode alterar né Qual é o separador por exemplo né aqui a gente utilizou alguns os caracteres especiais vamos dizer assim para separar né porque o ponto ficou um pouco em separado então a gente colocou aqui que
os espaços fazem essa separação e quando a gente tem um ponto por exemplo ele também fica sozinho né embora não tem espaço entre o ônibus e ponto né então a gente acaba dividindo a nossa frase dessa forma nesse Exemplo né tem também um processo de etiquetação né É ou também tipo trabalha bastante com o pior né que é para encontrar né ou Quais são os quais os significados dessa palavra isso aqui é um verbo isso aqui é um é um é um substantivo né então a gente tenta encontrar a classe gramatical né o processo de
encontrar a classe gramatical desse estoques que a gente tem do nosso texto né ou no nosso a sentença no caso aqui né bom a gente também tem etapas de chucking né como dedicação de sintag Mas então tentar encontrar quais são o que que é sujeito o que que é predicado por exemplo né então a gente pode são dois exemplos né que a gente pode colocar aqui né da palavra né então saber que o menino se junta com o é um sujeito e aí o resto vai foi para a escola de ônibus a gente teria o
nosso predicado e etc fazer esse tipo de identificação tá outra coisa que a gente pode fazer aqui análise sintática que é o parça o que que seria isso aqui seria o nosso entre aspas compilador da nossa língua natural né que é para poder identificar fazer essa análise sintática para saber se as frases né se essa sentenças elas estão é sintaticamente corretas né que quando a gente trabalha com uma linguagem de programação né a gente vai lá e ver ó assim quando a gente tem um laço fora a gente vai ter que abrir o conteúdo do
laços foco no linguagem C por exemplo tem que colocar um abre as chaves então a gente sabe que vai ter que encontrar um fecha as chaves depois né no pai da gente fazer a orientação um pouco mais simples mas o processo de análise sintática é o menos para saber se o nosso o nosso programa está sintaticamente correto né e a mesma coisa é feita pra linguagem natural só que a gente sabe que é muito mais difícil de fazer essa análise né Não só pela questão que eu falei para vocês né da benignidade pela questão da
informalidade da linguagem né mas também porque o vocabulário é muito mais amplo né do que uma linguagem de programação por exemplo né O que que a gente tem de possíveis palavras e varia de língua para língua língua inglesa é uma coisa a questão sintática de um jeito na língua portuguesa é outra e assim por diante várias outras línguas né então a gente vê a dificuldade que a gente tem para trabalhar com isso né outra questão importante aqui análise semântica né Então aí a gente já tem já tá começando a querer entender o significado né do
contexto do contexto não do que tá acontecendo o significado daquela sentença daquele texto né nesse caso aqui entender que menino se refere a uma pessoa a gente tá colocando uma foto aqui só para a gente entender né é visualmente vamos dizer assim né então a gente sabe que menino a gente mais ó o que que significa isso é uma criança é um guri pequeno que nem tá ali né escola o que que seria uma escola e até ali uma foto pra explicar não essa escola seria a gente consegue imaginar uma sala de aula com algumas
carteiras e tal uma lousa um ônibus que seria um ônibus né tá ali O que seria um ano então saber que essas palavras o que que elas representam Qual o significado dessas palavras né que a semântica é isso né também é uma etapa bem difícil né E aí a gente também também tem análise do contexto né que a gente chama de pragmática né que que seria isso então pessoal é um pouco além da semântica porque porque seria o significado que a gente tem daquelas imagens que a gente viu anteriormente daquelas palavras que a gente viu
anteriormente porém é o que que a gente consegue a partir disso implemente inferir né então por exemplo nessa frase aqui um exemplo bem claro bem importante a gente vê aqui e a gente consegue inferir esse tipo de de informação baseado no contexto né então a gente consegue chegar na conclusão de que Ó ali é um ônibus mas não é qualquer ônibus pelo contexto que a gente tá vendo aqui que é um menino que tá indo pra escola então seria um ônibus escolar não tá escrito em lugar nenhum então é o mais difícil ainda a gente
conseguir trabalhar e identificar esse tipo de coisa né Então tá ali a gente consegue inferir aqui é um ônibus escolar porque é um menino que está indo para escola né então é algo que faz parte da pragmática né que é um nível mais além de dificuldade né e por fim aqui um outro exemplo né um outro tipo de processamento que a gente pode fazer né é o Ground mini né que a gente ama né understand que o que que seria basicamente isso aqui pessoal é como exemplo é tentar a partir de um sensor no caso
aqui uma imagem né a gente tentar inferir o que que tá acontecendo né e tentar entender representar isso de alguma forma então aqui seria por exemplo o que que poderia representar o menino foi pra escola de ônibus a gente uma foto dessas aqui a gente poderia tirar essa informação só com a foto considerando que o sensor que seria a nossa imagem né ó essa imagem Aqui tem uma criança tá indo num ônibus escolar então a gente consegue entender que isso aqui é um menino que tá indo pra escola ou que foi para escola né então
é uma etapa ainda mais além né que a gente pode fazer com processamento de linguagem natural né bom Quais são os níveis linguísticos que a gente trabalha aí em PLN né eu vou falar um pouco rapidinho aqui para vocês né sobre Quais são esses níveis que a gente já viu um pedaço ali basicamente né a gente viu algumas etapas cada uma dessas etapas faz parte de um desses níveis linguísticos né então a gente teria que por exemplo a fonética é fonologia né que é o estudo dos sons das línguas teria morfologia que é o estudo
das unidades linguísticas então é ali que a gente começa a trabalhar com os tokens por exemplo fazer extração de estoques tem a sintaxe né que é o estudo das regras que ordenam essas unidades linguísticas né então a gente começa a trabalhar com a questão das ordens né Nós vamos trabalhar isso também mais adiante né que palavra que vem após determinada palavra dentro de uma sentença Qual é a palavra mais é recomendada né quando a gente vai fazer uma busca no Google a gente começa a digitar uma coisa a gente já vê que ele completa para
nós né O que que a gente tá fazendo uma busca entra nessa especta aqui né ele baseado no todo o conjunto de dados que ele que ele conhece né que a gente vai ver um pouco mais é adiante que a gente trabalha com corpos né que é basicamente a base do que que a gente vai trabalhar é utilizar para trabalhar com PLN né que é quantidade de palavras informações tudo que a gente puder ter de informações sobre essas de uma língua específica por exemplo né a gente tem um nível linguístico da semântica né que a
gente já viu né que é o estudo do significado né então a gente vê o exemplo ali na aplicação anterior e tem a pragmática também né que é o estudo da influência do contexto né na linguagem que basicamente então é a gente conseguir entender né dá mais informação semântica vamos dizer assim né mas que não tá escrito né a nível de contexto mesmo né informação implícita vamos dizer assim no texto né bom algumas estratégias que são utilizadas também né no processamento de linguagem natural então a gente teria que estratégia simbólica né linguística que a gente
pode pegar o conhecimento e mapear ele explicitamente né Por algum especialista para depois ser usado pela máquina então que tem um exemplinho só de tradução né então pegar algumas palavras específica né Pedro Cine Bárbaro no obstante e traduzir para português né Para nós no entanto entretanto com tudo né ou a um que apesar de passar para ir embora ainda que Apesar dele mesmo que em português né então seria um mapeamento direto assim de palavras né O que que teria de representatividade de uma língua para outra né isso não é uma ideia de tradução por exemplo
né também a gente utiliza muita estatística nós vamos ver aqui Principalmente quando a gente trabalhar com os modelos e nigramas né Faz parte aí da nossa de uma das nossas aulas aí nas próximas semanas e a gente tem aí baseado né nessas nessas estatísticas probabilidades por exemplo tentar determinar o que que seria quais palavras que seriam mais prováveis de aparecerem dentro de uma determinada sentença né Por exemplo ou aqui também numa determinada tradição nos textos que eu tenho aqui disponíveis a maioria traduz é Maria para Mary por exemplo como tá aqui né enfim isso tudo
vai depender dessas análises estatísticas que vão ser utilizadas né se utiliza muito também pessoal machine learning nós vamos trabalhar com isso que é o que tem mais de mais atual aí em PLN né é chat GPT um exemplo nós vamos ver como é que ele funciona também então a gente tem aqui por exemplo o aprendizado supervisionado que a gente pode utilizar para fazer anotação de um conjunto de treinamento e classificar textos por exemplo é textos de acordo com diferentes critérios ou diferentes classificações mas como como exemplo pegar uma notícia e tentar classificar e dizer se
de qual de qual parte do jornal ele pertence Ah isso aqui é de esportes é outra notícia aqui uma notícia de da da página policial e assim por diante né você usa muito Machine né e dentro do Machine Lane né O que se tem de estado da arte aí para trabalhar com isso são as redes neurais Profundas né Mais especificamente aqui os Transformers né que são muito estão estaduais estão obtendo os melhores resultados aí nas principais desafios que a gente tem de processamento de linguagem natural né Nós vamos também ter pelo menos uma aula prática
aí para mostrar para vocês como funciona durante o curso né saber como vocês podem pelo menos utilizar né modelos já pré treinados né para poder realizar alguma tarefa de processamento de linguagem natural né e aqui para destacar para vocês então né Por fim né as aplicações de São demais diversas aplicações que a gente tem aí de PLN né então a gente tem aqui Um exemplo da análise de sentimentos né que tá bem na moda também né o chatbot estão todos Quem de vocês nunca entrou para para tentar acessar um site aí para tentar reclamar de
alguma coisa na na Claro NET por exemplo ou não Claro NET é um exemplo que tem porque eu já utilizei né mas várias outras empresas aí que a gente vai entrar no site e a gente tá começa a conversar com robô né via chat né Então esse é um exemplo bem claro aí que já é bem antigo bastante utilizado aí é da área de processamento de linguagem natural né a assistente de voz a mesma coisa só quando a gente pega o telefone liga e um cara que nos atende começa a conversar com a gente tá
cada vez mais próximo de uma conversa natural vamos dizer assim né antigamente era tal coisa apareceu nenhum tal coisa Parecia um n2 hoje em dia o cara tu liga o cara tá conversando contigo e aí tudo bem Como é que tá daqui a pouco daqui a pouco ele que vai começar a te fazer mais pergunta do pra ele né tradução automática também eu não sei se vocês utilizam o Google Translator é um exemplo bem claro né ou quem já tem um pouco mais de idade vamos assim né Talvez o pessoal mais jovem de 18 anos
não consegue ver essa diferença mas o pessoal com 30 40 já vê né antigamente utilizar o Google Translator hoje em dia ele traduz é quase que perfeito ele é a tradução é muito boa né então faça o teste para vocês verem como ele traduz muito bem tenta pegar algo de em inglês em inglês que vocês mesmo escreveram por exemplo passar para português vocês vão ver que pega de inglês passar para português vocês vão ver porque fica mais fácil a gente analisar e ver se tá bem escrito ou não né detecção de fake News também uma
outra aplicação Entre várias outras aí de PLL né certo pessoal então só para finalizar né O que que a gente viu na aula de hoje falando um pouquinho sobre linguagem sobre processamento de linguagem natural níveis linguísticos e algumas aplicações aí nessa área interessantíssima que é processamento de linguagem natural né e na nossa próxima vídeo aula então a gente vai falar um pouquinho sobre sequência de caracteres e palavras Ok até a próxima então obrigado [Música] [Música]