[Música] Olá bem-vindo à aula dois da disciplina de mineração de dados então a aula dois ela vai tratar de descoberta de conhecimento então o que que é descoberta de conhecimento a descoberta de conhecimento é o processo de explorar base de dados usando ferramentas adequadas para isso então essa descoberta de conhecimento ela também é chamada de kdd processo o kdd ele é um processo contínuo e composto de diferentes etapas ele vai consistir em desenvolver aprimorar e aplicar técnicas e ferramentas capazes de trir informações úteis dos dados armazenados para eu fazer essa atividade de kdd eu preciso

fazer a escolha da base de dados e fazer uma seleção de variáveis preciso realizar o pré-processamento desses dados fazer a transformações dos dados pré-processados e a partir disso fazer o reconhecimento de padrões e a interpreta dos resultados então Aqui nós temos uma sequência dessas atividades Então eu tenho os dados a partir desses dados eu faço uma seleção dos dados relevantes nesses dados relevantes eu vou Observar se todos os dados estão completo Se as informações elas são condizentes enfim eu vou fazer uma análise sem sem trazer o conhecimento ainda eu só vou olhar se os dados

estão em conformidade após isso se esses dados não tiverem em conformidade eu preciso realizar um pré-processamento para que os dados tenham um formato adequado para o tipo de técnica que eu vou utilizar feita essa transformações essas transformações aí eu aplico o conceito de data mining e faço a interpretação dos dados então para fazer a seleção dos dados primeiro eu preciso do domínio da aplicação segundo eu preciso ter alguns objetivos que possam ser alcançáveis dentro do conjunto de dados eu preciso fazer o ter uma visão mais profunda sobre o processo a ser analisado e fazer análises

criteriosas sobre as variáveis que são relevantes para o processo dentro de tudo isso aí eu faço a seleção correta das variáveis do estudo de caso Então vamos olhar aqui um exemplo com uma base de dados então eu quero para eu definir aqui o que eu quero trabalhar com esses dados a primeira coisa vai ser o quê definir o domínio da aplicação Então dentro desse domínio de aplicação eu preciso definir quais clientes podem adquirir empréstimos e dentro desse quais clientes podem adquirir empréstimos eu vou utilizar como padrão Ou como critério a média de idade dos Casados

que querem ou podem ter financiamento então Note que a base de dados ela tem muito mais informações do que só o estado civil e a idade então o que que eu tenho aqui nessa base de dados eu tenho idade eu tenho trabalho educação crédito saldo financiamento empréstimo contrato dia de vencimento desse contrato mês duração em qual campanha foi os dias que já passaram eh se se há algum algum empréstimo anterior e a aplicação disso Então veja que dentro desse conjunto de dados algumas informações por exemplo elas podem não ser muito necessárias para essa eh tomada

de decisão sobre quem pode adquirir empréstimo ou não Por exemplo eu tenho ali eh o campo educação então o campo educação ele tá marcado como primário secundário superior se eu quiser fazer uma relação só de idade eh e casamento eu poderia utilizar os campos idade estado civil crédito talvez e se possuir financiamento então vejam que as demais informações elas eh para esse caso aqui elas não são elas não são necessárias fazendo uma análise no primeiro momento mas vamos imaginar que eu quero saber qual campanha atinge esse público que eu tô buscando que é que é

na verdade não público mas descobrir essa característica de média de idade e se é casado ou não então eu poderia analisar por exemplo dentro de uma campanha específica qual público que eu tô buscando fez uma aquisição de empréstimo ou eh a duração de um determinado empréstimo frente a essas características que eu tô buscando então notem que como tem uma quantidade muito grande de informação fazer uma análise visual não é a forma mais correta ou não é a forma mais adequada para que eu consiga extrair informações para definir uma nova campanha e definir o prazo de

pagamento desse empréstimo eh como que oato como que o contato foi feito então tem várias informações aqui que a princípio elas não fazem sentido porque a princípio preciso só de idade e estado civil mas que podem influenciar em como eu vou eh abordar esse público e como que eu vou fazer para que ele possa absorver o empréstimo dentro do que eu tô buscando Então esse pré-processamento e transformações de dados H múltiplas variáveis e várias observações a respeito então o que que o pré-processamento vai fazer eu vou olhar dentro daquele conjunto de dados e vou fazer

uma preparação para fazer uma análise nele ruídos e dados inconsistentes e eu vou pegar e olhar todos os valores e ver se todos estão preenchidos por exemplo se todos se todos tiverem valores se não tiver nenhum valor faltando Ok mas se esses valores tiverem preenchidos e tiverem valores negativos para Campos que não podem ter valores negativos aí eu preciso ou excluir esse dado ou dar um valor positivo para ele então tudo isso vai ou excluir né Então tudo isso vai depender de como eu tô tratando esses dados se aquela informação é útil ou pode ser

útil pro que eu tô buscando Então se ela for útil se ela for necessária não dá para simplesmente ignorar mas também não dá para deixar informação inconsistente então é necessário esse nesse nessa etapa de pré-processamento fazer essa adequação dos dados fazer a integração de dados obtidos de múltiplas Fontes também é um problema então por exemplo Digamos que lá no cadastro do do banco Eu tenho dois tipos de de formulário eu tenho formulário eletrônico que o meu cliente ele preenche toda vez que ele vai fazer alguma alguma aquisição de empréstimo ou alguma atividade bancária e eu

também tenho o formulário que é o formulário utilizado por quem tá atendendo uma uma um atendimento físico por exemplo então pode ser que o campo idade no formulário eletrônico ele é uma entrada numérica mas o campo idade no formulário físico ele é uma entrada eh não numérica então ele é uma entrada escrita eu preciso fazer o quê ou converter todos os dados para um formato eh por extenso ou eu preciso converter todos os dados em formato numérico Então essa transformação Esse pré-processamento é isso é olhar os dados e fazer com que esses dados eles tenham

o mesmo formato e a partir desse formato é que eu vou conseguir fazer as atividades de mineração de dados então depois que eu faço esse pré-processamento né ou para fazer esse pré-processamento eu preciso utilizar estatística ou probabilidade ou aprendizado de máquina ou reconhecimento de padrões Para quê Para que se a minha tarefa for descritiva eu consiga encontrar padrões que descrevem os dados de maneira que o ser humano possa interpretar se elas forem tarefas preditivas então eu vou ter valores e esses valores eles vão dar alguma previsão para mim por exemplo de uma atividade que aconteceu

no passado e que pode ocorrer novamente no futuro então vejam que a descritiva ela é pontual eu tenho os dados e eu quero saber por exemplo Qual é uma média de uma determinada ocorrência já a tarefa preditiva eu tô tentando com base nas informações prever o que pode acontecer Então na verdade eu não tenho algo fixo não tenho algo que de fato ocorre mas existe uma tendência muito forte que ela ocor então Eh pegando aqui um exemplo de análise descritiva então eu tenho lá uma ONG que fez um levantamento do número de filhos por família

em uma localidade afetada por eventos climáticos Então essa ela eh esse levantamento foi feito para tentar eh conseguir eh suprimentos de ajuda 25 eh famílias foram consultadas né dentro das das famílias afetadas E aí eu tenho um conjunto de informação que é o quê o número de filhos então eu tenho lá as a as quantidades coletadas e eu quero saber o seguinte quais informações eu posso tirar desses dados coletados Então dentro dessa análise descrit o que que eu posso fazer eu posso catalogar o número de filhos então de zero a cinco filhos a frequência absoluta

disso então dos meus dados quem não das 25 famílias consultadas quem não tem filho então uma pessoa só quantas T um filho apenas três quantas T dois filhos sete e assim por diante então vejam que eu faço um levantamento aqui e começo a tirar valores a partir dos dados observados depois eu faço a frequência relativa ou seja dentro de um percentual consultado Qual é a maior ocorrência ou qual é a maior porcentagem de números de filhos nesse caso e a frequência eh acumulada disso tudo nesse caso posso priorizar entregue de suplimentos para as famílias que

têm dois ou três filhos por quê Porque as famílias que têm dois ou três filhos são e as famílias que tem a maior ocorrência eh dentro dos meus dados observados só que notem que além dos dois ou três filhos há situações onde eu tenho quatro ou cinco filhos Então qual seria essa relação por exemplo num contexto um pouco mais Geral de distribuição de alimentos então eu teria que fazer uma relação entre quanto três filhos consomem quanto qu cinco filhos consomem Porque por mais que três seja a frequência mais ocorrente mais recorrente Pode ser que essa

frequência recorrente consuma menos recurso do que a do que a frequência menos recorrente só que com mais filhos então a princípio com base só nos dados brutos e só na com base em média eu poderia priorizar três ou dois filhos Mas podem haver situações fora desse contexto aqui fora dos números que eu levantei que podem me indicar o seguinte tudo bem as famílias tem mais tem que tem três filhos são as mais recorrentes mas o maior consumo ainda vai ser para quem tem mais filhos análise preditiva Então essa análise preditiva que é tentar prever o

futuro ela vai ter duas atividades ela vai ter a classificação e a estimação então o que que é a classificação é a construção ou utilização de um modelo para avaliar uma classe de objeto não rotulado então dentro do da minha eh informação lá de filhos Será que cinco filhos consomem mais do que três filhos Então eu preciso a partir desse questionamento chegar num resultado então eu não tenho de fato essa rotulação não sei qual que é esse consumo e aí com base nas informações a mais que eu vou buscar eu vou tentar detectar padrões a

partir desses dados a mais que eu tô buscando e fazer uma classificação de consumo e a estimação vai ser o que então a partir dessa desse levantamento eu vou tentar inferir o o valor de um ou mais atributos ou variáveis dentro de um histórico de dados ali então seria o quê fazer análise de consumo de fato para a partir dessa análise de consumo fazer a priorização da minha distribuição de alimentos conseguir fazer isso conseguir cumprir essa atividade se um novo evento eh acontecer similar ao que já foi ocorrido por exemplo eu tenho uma outra região

que também foi afetada Eu tenho um conjunto de famílias esse conjunto de famílias tem uma quantidade de filhos eu já tenho uma uma condição eu já tenho uma informação que vai me indicar o quê para quem que eu posso priorizar essa distribuição de alimentos ou seja com base num conhecimento que eu já tenho se porventura ocorrer eu já consigo ter uma tomada de decisão mais rápida do que ter que fazer todo esse levantamento novamente para chegar à mesma conclusão E aí dentro desse desse domínio todo a gente vai precisar fazer eh o que a gente

chama de cluster ou agrupamento que é o quê agrupar um conjunto de variáveis em grupo de variáveis similares então cada cada grupo formado ele pode ser visto como uma classe de objetos Então essa clusterização ou agrupamento ela vai maximizar para mim o que é igual dentro da classe e tentar diminuir o fora de classe né O que tá o que não tá eh dentro do contexto então Digamos que eu tenho o consumo de alimento eu tenho o número de filhos mas eu quero saber eh a escolaridade por exemplo Então nesse caso não faz sentido eu

fazer essa relação porque eu tô buscando uma distribuição de alimentos né que ela quer priorizar um determinado consumo então não faz muito sentido eu olhar a escolaridade para esse tipo de problema já a associação ela vai tentar encontrar relações entre essas variáveis ou seja essas relações elas podem indicar causa e efeito entre duas variáveis tá então seria o quê além do número de pessoas Qual é o consumo dessas pessoas tá então eu preciso também fazer esse tipo de associação tá então aqui tem um exemplo um pouquinho diferente eh do do que o de consumo de

alimento então eu fui contratado lá para trabalhar com uma previsão de geração eólica e a base de dados eh com essas informações Ela traz para mim o seguinte Ela traz informações da velocidade do vento que aqui tô colocando como x Ela traz a direção do vento que tá sendo posto aqui como y e z que é a energia gerada pela turbina então usando Associação eu descobri que a velocidade do vento e a direção desse vento eles vão ter um impacto na geração eh dessa energia eólica ou seja existe uma relação de x e z que

é energia e existe uma relação de y e z que é a que é a energia gerada então tanto a velocidade quanto a direção do vento eles vão influenciar nessa geração de energia então para fazer esse kdd para que ele dê certo para que eu consiga aplicar a metodologia de fato eu preciso fazer o quê análise descritiva dos dados e essa análise descritiva dos dados ela pode fazer uso de análise de distribuição de frequência representação gráfica de séries temporais diagram de dispersão medidas de tendência central e posição o que que são essas medidas de tendência

central e posição é a média aritmética é a mediana é a moda são os percentis e eu também posso ter medidas de variabilidade amplitude Total desvio padrão coeficiencia de variação e algumas representações gráficas para que eu consiga visualizar isso de forma mais clara então um blockspot um histograma notem que pra descritiva ou seja paraa descrição dos dados eu vou usar conceitos matemáticos Ou seja eu vou olhar a estatística básica em cima do que foi coletado já paraa estimação eu vou poder utilizar regressão linear regressão polinomial modelos autor regressivos persistência rede neural e modelos markovianos então

eu agora eu preciso fazer o quê eu preciso aplicar técnicas um pouco mais sofisticadas também de probabilidade tá e também de estatística para fazer o quê para fazer a correlação dos dados de uma forma mais Ampla então uma regressão linear por exemplo eu preciso saber qual que é o desvio padrão dessa informação para partir disso fazer as correlações o mesmo acontece com os outros modelos então para pra gente conseguir enxergar né quais ferramentas utilizar em cada parte desse processo então pra classificação existe o KNN que talvez seja o classificador mais utilizado dentro e do domínio

de classificação para mineração de dados árvor de decisão redes neurais classificador nabase então paraa classificação há ferramentas específicas pro agrupamento ou clustering tem o camins que é também o mais utilizado dentro desse conceito de agrupamento lógica fuz árvore geradora mínima então para cada para cada fase para cada etapa Eu tenho um conjunto de ferramentas que vão auxiliar essa atividade de kdd e para sua Associação rede baana cadeia de marcov rede causalidade informação mútua correlação eh modelos de PDC notem que se eu pegar os dados de forma geral e fazer só análise análise estatística dele eu

posso não conseguir ter uma extração de conhecimento útil e valiosa se eu saio desse domínio mais direto de análise matemática e estatística e caia para um domínio onde eu aplico uma metodologia Ou seja que eu tenha uma noção de classificação de agrupamento de associação eu consigo extrair mais informação eu consigo extrair mais conhecimento e esse conhecimento extraído ele vai me auxiliar em atividades futuras para mais informações a respeito dessa desse conteúdo da aula apresentada uma consulta no livro de sobre né introdução e mineração de dados conceitos básicos e algoritmos e aplicações do Leandro Nunes Castro

e e o livro data mine do Diego César Batista entre outros autores Muito obrigado pela atenção e até a próxima [Música] [Aplausos] [Música] aula