Imagine que você está procurando os melhores livros sobre machine learning. Você digita sua pergunta em um mecanismo de busca e em segundos recebe uma lista de resultados perfeitamente adaptados. Já se perguntou qual é a mágica que rola por trás disso?
É exatamente isso que veremos nessa sessão. Vamos explorar os fundamentos dos retrieval systems. Vamos nos equipar com o conhecimento e as habilidades para entender e construir motores de busca poderosas.
Você vai dominar as técnicas essenciais por trás desses sistemas e ao final será capaz de fazer coisas que talvez achasse possíveis apenas para cientistas de dados e desenvolvedores mega experientes. Meu objetivo aqui é basicamente mostrar como implementar um mini sistema de busca. Então vamos começar com tokenization e preprocessing, ou seja, você vai aprender a quebrar textos em palavras ou termos individuais.
E isso é chamado de tokenização. Esse é um passo fundamental para lidar com texto. Teremos também práticas com técnicas de preprocessing como limpeza e padronização do texto, remoção de caracteres não alfanuméricos, conversão para letras minúsculas, etc.
Essas habilidades vão garantir que seus dados estejam prontos para análise. Além disso, veremos como construir e entender diferentes tipos de retrieval systems. Por exemplo, veremos os sistemas bulianos que usam operadores lógicos como and not para filtrar e encontrar correspondências exatas em documentos.
Você vai criar consultas precisas que retornam os resultados certos e na sequência veremos os Vector Space Models, onde você aprende a pesar a importância das palavras nos documentos usando TF IDF, tornando suas buscas mais precisas. E ainda métodos probabilísticos de recuperação. Você vai mergulhar em técnicas estatísticas para rankear documentos com base na relevância da consulta.
Com os dados indexados, vamos praticar a busca no índice para encontrar documentos relevantes e veremos também como rankear esses documentos por relevância, garantindo que os resultados mais importantes apareçam primeiro. Essa é, sem dúvida, a parte mais essencial para oferecer resultados de alta qualidade. Esses exercícios práticos vão consolidar seu entendimento e te dar habilidades necessárias para prosseguir.
Acredito de verdade que essas habilidades que você vai aprender aqui são fundamentais e representa o primeiro passo dentro do universo de Rug, Retrieval Augumented Generation. Vamos começar. M.