[Música] mineração de dados introdução a mineração de dados a quantidade de arquivos e artigos publicados apenas em inglês na Wikipédia passou de 500.000 em 2005 para quase 4,4 milhões em 2013 o tempo necessário para o rádio atingir uma audiência de 50 milhões de pessoas foi de 38 anos a TV precisou de 13 anos a internet precisou apenas de 4 anos para alcançar esse mesmo número de pessoas ou seja mesmo o rádio e a televisão sendo muito populares a internet consegue atingir um maior número de pessoas e consegue gerar um maior volume de informações e a

obtenção dessa informação via esses meios de comunicação ela é diferente o rádio e a TV difundem a informação em broadcast e precisam de aparelhos específicos para fazer algum monitoramento ou seja quando o rádio faz uma transmissão quando a TV faz uma transmissão que quem tá transmitindo não consegue obter os dados de resposta ou seja não consegue obter a informação sobre quem tá assistindo e a percepção sobre quem tá assistindo já internet possui uma maneira distinta de transmissão de informação facilitando o registro do que é transmitido Ou seja a geração de informação pela internet é grande

e possui grande potencial de descoberta de informação nesse sentido surge a mineração de dados que é um processo computadorizado de inteligência de negócios que conduz buscas em grandes quantidades de dados e informações para tentar descobrir relações previamente desconhecidas mais valiosas entre elas pode fornecer respostas para perguntas organizacionais importantes ajudando a fazer predições e por consequência tomar decisões operacionais estratégicas então algumas aplicações dentro dessa área de mineração de dados detectar comportamento fraudulento especialmente relações eh de apólice de seguros de uso de cartão de crédito identificar padrões de compras de clientes recuperar clientes lucrativos dentro de um

conjunto de informações sobre clientes identificar regras de negociação a partir de dados históricos apoiar a análise de carrinhos de compra então além dessas a gente pode ter Outras aplicações para outras áreas mas vejam que a as possibilidades são amplas dentro e das possibilidades de aplicação porque nós temos a informação previamente já nós temos a posse dessa informação e posse de posse dessa informação a gente precisa fazer a descoberta de conhecimento Então essa descoberta de conhecimento Ela é conhecida dentro da área de mineração de dados como kdd e ela é uma parte um pouco mais complexa

do que a a mineração de dados propriamente dita então a mineração de dados ela é diferente do kdd só que a mineração de dados ela tá dentro do kdd Então o que seria o kdd então kdd compreende a seleção de dados o pré-processamento desses dados a transformação dos dados Aí sim a mineração dessa informação e a Interpretação ou avaliação dos dados obtidos então aqui eh um pequeno exemplo com base em algum algumas informações então eu ten uma base de dados que tem uma série de informações que elas são a princípio desconexas por exemplo eu tenho

lá um campo que registra 1000 milibares Eu tenho um segundo Campo que ele armazena lá eh uma velocidade qualquer então ele tem um 5,1 m/s uma temperatura qualquer 30º enfim eu tenho um conjunto de dados que esses dados sozinhos eles não fazem muito sentido a partir deles eu começo a Gerar informação por exemplo Qual que é a pressão atmosférica são 1000 m qual que é a velocidade de direção do vento Ah o vento tá em 5,1 m por segundo qual que é a temperatura do ar temperatura do ar tá em 30º nuvens Ah tem poucas

nuvens então com base nessas informações eu posso chegar no seguinte conhecimento a probabilidade de chuv é baixa portanto posso ir à praia vejam com os dados brutos a gente não consegue chegar direto no conhecimento a gente precisa gerar informação primeiro para a partir dessa informação chegar no conhecimento e dentro das tarefas de mineração de dados nós temos duas possibilidades que são as tarefas descritivas e preditivas as tarefas descritivas elas caracterizam as propriedades gerais dos dados ou seja envolve mais a parte matemática dentro da mineração já as já as atividades preditivas elas fazem inferência a partir

dos dados obtidos com as predições então o usuário não tem ideia do tipo de conhecimento contido nos dados ou como usá-lo para gerar modelos preditivos e dentro das tarefas preditivas também é importante a capacidade das Ferramentas de mineração e encontrar diferentes tipos de conhecimento Então essa an análise descritiva dos dados ela vai envolver ferramentas capazes de medir e explorar os dados distribuição de frequência medidas de centro eh variação medidas de posição relativa Associação de dados ou seja envolve mais a parte estatística dentro do conjunto que eu tô fazendo o levantamento e as análises descritivas elas

permitem uma sumarização e compreensão dos objetos das bases e seus atributos Como qual salário médio dos professores ouou Qual a distribuição salarial desses professores já a predição se refere à construção e ao uso de um modelo para avaliar a classe de um objeto não rotulado ou para estimar o valor de um ou mais atributos de dado objeto classificação e estimação constitui os dois principais tipos de problemas de predição classificação é usada para predizer valores discretos e estimação é usado para predizer valores contínuos nessa predição a gente pode fazer análise de grupos Então essas análises de

grupos ou clustering ela serve para fazer uma separação um particionamento um uma segmentação de um conjunto de objetos em grupos do inglês cluster de objetos similares agrupamento de dados considera dados de entrada não rotulados identificar grupos cada grupo formado pode servirse como uma classe de objetos essa parte de identificação de grupo ela compreende o treinamento não supervisionado ou aprendizagem não supervisionada que é quando eu tenho um conjunto de informação mas eu não consigo classificar ela de forma de forma automatizada sem ter um prévio conhecimento Então o que seria esse prévio conhecimento eu tenho uma uma

quantidade qualquer de dados e eu quero falar qual que é a média desses dados então eu consigo com base um cálculo qualquer olhar e falar assim não essa esses dados estão dentro de uma média quando eu não tenho essas esse supervisionamento quando eu não tenho essa marcação eu preciso de alguma forma explorar isso para chegar em alguma classificação no agrup os objetos são agrupados como um objetivo de maximizar a distância interclasse e minimizar a distância intraclasse um cluster pode ser definido como uma coleção de objetos similares uns aos outros e dissimilares a objetos pertencentes de

outras classes além da clusterização a gente pode fazer o trabalho de associação então a associação ela vai ser relacionada aqui a encontrar relações entre os atributos ou as variáveis levantadas e não entre os objetos e essa Associação ela vai ter algumas regras de associação que são descoberta de regras eh que apresentam valores de atributos que ocorrem concomitantemente com as bases de dados Então eu tenho aqui eh por exemplo um conjunto de dados onde eu tenho pessoas com idade igual ou superior a 16 anos e que possuem computador e acessam redes sociais então eu faço uma

relação de idade x então uma idade Qualquer que seja maior de 16 anos e se a elas possuem computador Então essa Associação vai ser x Ma Que 16 e x sim ou seja eu quero saber qual que é qual a quantidade de pessoas acima de 16 anos que tem computador e que acessa a rede social Então nesse caso o x vai ser uma variável que representa uma pessoa dentro de um conjunto de informação se a frequência for igual a 20% da base e essa regra parecer 80% das vezes nesse caso dizemos que a regra possui

uma cobertura ou suporte igual a 20% de de confiança ou a cura igual a 80% Então eu tenho os meus dados eu exploro eles faço ah algum tratamento para tirar alguns dados que não são importantes para esse tipo de análise e aí eu descubro que em 80% das vezes eu consigo descobrir que pessoas acima de 16 anos que T computador acessam redes sociais Então essa acurácia ela tá em 80% porque 20% dessa informação foi classificada errada ou foi associada de forma errada então às vezes a pessoa tem mais de 16 anos tem computador acessa a

rede social mas no meu levantamento de associação essa informação não tá presente então eu considero que dentro de 100% da minha informação 20 eu tô errando e 80 eu tô acertando E também temos dentro desse Conjunto O que a gente chama de detecção de anomalias então a base de dados ela pode conter objetos que não seguem o comportamento ou não possuem a característica comum dos dados ou do modelo que a gente tá buscando ali uma representação então quando a gente faz esse levantamento a gente estipula média estipula mediana estipula moda e dentro dessa estipulação nós

vamos ter dados que destoam da Média por exemplo esses dados que diston da Média eles são tidos como anomalias ou valores discrepantes chamados também de outliers então a maioria das Ferramentas eh de mineração de dados elas descartam as anomalias Por exemplo quando eu tenho um ruído ou ten tem uma exceção dos dados no entanto algumas aplicações como a detecção de fraudes e em cartão de crédito ela trabalha no sentido oposto ou seja os eventos raros podem ser muito mais eh informativos do que aqueles que ocorrem regularmente então eu olho o comportamento de uso de cartão

de crédito de crédito de uma determinada pessoa e eu vejo que ela tem uma rotina então todo mês ela gasta R no cartão ela tem um uma uma característica de parcelas de cartão que é sempre recorrente E aí em algum momento Essa média de utilização essa média de valores ela dá um salto muito grande então na representação de dados isso seria um outlier Então existe a média mas as informações eh de uso né de de compras elas ultrapassam a média então Opa tem alguma coisa errada dentro dessa informação então ao invés de descartar esse outlier

que que seria o comum a gente trabalha em cima dele para descobrir se aquele comportamento foi um comportamento da própria pessoa resolveu fazer uma compra maior do que ela sempre faz ou se o cartão dela foi clonado e alguém tá gastando eh em paralelo a ela então vejam que essas anomalias elas podem ser eh detectadas de várias formas incluindo métodos estatísticos né que ali a gente vai fazer eh por distribuição ou por modelo de probabilidade modelo de distância eh de média enfim a gente vai ter uma série de de formas ali que dá para identificar

isso e esses objetos eles depois que a gente detectar isso e e colocar ele como anomalia aí a gente vai fazer análise em cima deles então essa foi a introdução a disciplina de mineração de dados várias vários itens que foram discutidos aqui eh Eles serão explorados em outras aulas e para mais informações a respeito eh desse conteúdo vale a consulta no livro de introdução a mineração de de dados conceitos básicos algoritmos e aplicações do Leandro Nunes Castro ou o livro data mining eh do Diego César Batista Mariano Entre outros autores Então essas são as referências

utilizadas na aula muito obrigado e até a próxima [Música] aula

[UFMS Digital] Mineração de Dados - Módulo 1 - Unidade 1