Dando continuidade, veremos o Vector Space Model em detalhes. Especificamente, vamos falar sobre o TFIDF, que é uma versão dele. Esse modelo representa documentos e queres como vetores em um espaço multidimensional.
Cada dimensão corresponde a um termo único do corpus. Então, digamos que temos termo um, termo dois, termo três e conectados a eles teríamos os documentos e então tentaríamos ver onde a qu se encaixa. A ideia central aqui é transformar os dados brutos em um formato que possa ser manipulado matematicamente, o que nos permite medir similaridades entre documentos e queries.
Quando falamos sobre vector space model, existem alguns conceitos que precisamos entender. O primeiro são os termos e dimensões. Cada palavra única no corpus representa uma dimensão no espaço vetorial.
Depois temos os vetores em si. Tanto os documentos quanto as queries são representados como vetores, onde cada termo é um componente do vetor. E então temos a similaridade.
A relevância de um documento para uma query é determinada pela similaridade entre seus vetores. Nesse caso, quase sempre medida usando cosine similarity. Cossign Similarity é algo que vamos discutir e aprofundar ao longo do curso.
E na verdade a gente vai ter uma aula específica sobre isso. Mas por enquanto para resumir é o seguinte, você pega os documentos e cria vetores a partir deles. Depois pega uma query também cria um vetor e então analisamos qual é a similaridade entre o vetor da qu e o vetor dos documentos.
A pergunta agora é: beleza, como isso tudo funciona? É aí que entra o TF IDF. que é uma abordagem estatística para o vector space model.
Bom, TFIDF significa term frequency inverse document frequency. É uma estatística numérica que reflete a importância de um termo de documento em relação ao corpus inteiro. Esses dois componentes se conectam diretamente à fórmula.
Primeiro é o term frequence TF. O TF é bem simples, é basicamente em média com que frequência o termo aparece. no documento.
Então, quando olhamos pra fórmula, temos o número de vezes que o termo T aparece no documento D dividido pelo número total de termos no documento. Isso é feito para cada documento. Você pega um documento, olha para aquele termo específico, OK?
Esse termo apareceu X vezes. Já o IDF mede a relevância. O TF diz com que frequência aparece e o IDF diz qual a importância disso no corpus.
Na fórmula, usamos o logaritmo, que é um detalhe técnico, mas o ponto principal é número total de documentos dividido pelo número de documentos que contém o termo T. E aí temos a pontuação de TF IDF. Multiplicamos o TF pelo IDF e podemos realmente calcular isso.
A fórmula é bem simples. Vamos ver dois exemplos. No primeiro exemplo, temos três documentos.
Machine learning é uma área fascinante. Modelos de machine learning são poderosos. Algoritmos deep learning funcionam bem.
A pergunta é: imagine que queremos calcular o TF IDF para a palavra machine, começamos calculando o TF, primeiro o termo frequency, depois o inverse document frequency e então o valor total. Então, calculando para machine, no documento um, machine learning é uma área fascinante. Machine aparece uma vez em seis termos, né?
1/6. No documento 2, modelos de machine learning são poderosos. 1/6.
No documento 3, algoritmos de deep learning funcionam bem. Zero de se então temos 1/6, 1/6 e 0. Esse é o TF da palavra machine nos documentos 1, 2 e 3.
Agora o IDF. Temos três documentos. Em quantos deles aparece machine?
Em dois. Então a fórmula é log 3 por 2 aproximadamente 0. 17.
E se você calcular o TFIDF, documento 1 1/6 x 0. 176, né? 176 = 0.
029. Documento 2 vai ser a mesma coisa. Documento 3, 0.
Agora vamos para o exemplo dois, usando os mesmos documentos. Machine learning é uma área fascinante. Modelos de machine learning são poderosos.
Algoritmos e o deep learning funcionam bem. Vamos calcular para a palavra fascinante. TF para fascinante.
Documento 1, 2 e 3. No um apareceu uma de seis. Documento 2 e 3, 0.
No IDF temos três documentos, apenas um contém fascinante. Então, log 3 por 1 = 0. 47.
TF IDF documento 1 1/6 x 0. 47 = 0. 08 aproximadamente.
Documento 2 e 3 0. E isso é o que importa. Se você estiver procurando por algo relacionado a fascinante, você quer o documento um, os outros não interessam.
Vamos transformar isso numa regra geral. Palavras comuns como são ou nesse exemplo learning frequentemente recebem valores de TF IDF muito baixos ou até zero. Essas palavras são chamadas de stops e geralmente são removidas do corpus antes do processamento.
Isso melhora a eficiência e a precisão das tarefas de recuperação de informação. Para finalizar, o Vector Space Mod é uma ideia intuitiva e ao mesmo tempo poderosa para entender como funciona a recuperação de informação. E tudo isso se conecta com tópicos como Rug e JNAI.
Quando você domina esses fundamentos de sistemas de recuperação, consegue melhorar muito a forma como busca os dados usando Rug ou mesmo aplicando técnicas de prompt engineery. Lembre-se que ter esses frameworks em mente pode ser bem útil. no futuro.