o [Música] Olá nessa aula a gente vai falar sobre agrupamento de dados Ah tá o agrupamento de dados também é um conjunto de técnicas conhecido como aprendizado não-supervisionado tá nesse tipo de análise a gente tem dados que não tem os rótulos Ah então a gente não sabe essa informação a priori a gente o que a gente tem são as características dos objetos EA com isso que a gente trabalha né para fazer identificação e tentar descobrir Então as similaridades Entre esses dados e separá-los em grupos Ah tá então por exemplo aqui a gente tem algumas imagens

aqui de aves e peixes então a gente pode identificar que existem algumas características similares aqui entre os peixes né todos têm escamas e barbatanas e entre as aves aqui né todas tem bico por mais por mais que os formatos sejam diferentes né Tem penas e patas então a gente pode usar essas características similares e é o mesmo tempo são diferentes dos outros na para agrupar e fazer grupos aí que com objetos que são mais semelhantes Ah tá então no agrupamento de dados a gente usa uma série de métodos que vai analisar esses dados e tentar

colocar esses objetos similares em grupos homogéneos Tá e isso é feito tomando algumas medidas de dissimilaridade que vão Então identificar nas características dos objetos aqueles que são mais semelhantes Ah tá então a gente costuma usar o nome né de grupos ou clusters do inglês para dizer sobre o subconjunto são formados A partir dessa análise daí e o objetivo é conseguir uma coesão interna Ou seja que o grupo tenha objetos que são muito parecidos e ao mesmo tempo no isolamento externo né que dois grupos tem uma distância e que não haja mistura Entre esses objetos Ah

tá é o o agrupamento de dados ele é usado em várias áreas né na medicina por exemplo para identificar categorias de Diagnósticos né na Biologia para fazer taxonomia de animais e plantas ou no Marketing não é para identificar grupos de clientes ainda em análise de imagens também para identificar por exemplo Faces né Fazer o reconhecimento de faces e em diversas outras áreas também Ah tá as principais diferenças então entre o agrupamento a classificação são os rótulos né então na classificação a gente tem os rótulos coisa que a gente não tem no agrupamento e por consequência

também o na classificação a gente sabe a princípio Qual é o número de subconjuntos que existem os dados o que a gente não consegue com agrupamento daí tem um outro impacto do de não ter rótulos aqui com os rótulos a gente consegue fazer o treinamento dessas técnicas na classificação da no agrupamento agente executa esses métodos e verifica o resultado do agrupamento sem a etapa de Treinamento Ah tá e como é que a gente escolhe a quantidade de grupos né como é que a gente determina em geral isso é feito por tentativa e erro né então

a gente executa o método Verifique o resultado Se necessário roda novamente até achar um agrupamento que pareça razoável tá ou uma uma que a gente conseguiu interpretar aqueles dados como sendo distintos ou então a gente usa o conhecimento do Especialista do domínio de análise tá muitas vezes o especialista tem uma noção de quantos grupos deveriam ser formados a partir daquele conjunto de dados Ah tá o processo de agrupamento tem várias etapas e a gente vai falar um pouco sobre elas agora começando pelo pré-processamento que a gente já conversou né em aulas anteriores depois a definição

da medida de similaridade Oi tá Existem várias medidas são usadas para a finalidade eo objetivo delas é então é verificar proximidade entre os objetos de um mesmo grupo e ao mesmo tempo a distância não é o dissimilaridade entre dois grupos são formados dois ou mais grupos Oi tá na quando a gente tá fazendo esse tipo de análise a gente costuma utilizar uma matriz de dados nessa Matriz a gente vai colocar aqui nas linhas os objetos e nas colunas os atributos desses objetos que vão ser usados para análise Ah tá a possibilidade ainda de a gente

usar uma crise de distância ou Matriz de dissimilaridade tá ou ainda matriz de similaridades São sinônimos aí usados essa Matriz ela vai conter nas linhas e colunas os objetos os mesmos objetos em linhas e colunas e aí a gente vai fazer um cruzamento entre eles aqui na matriz e vai marcar a distância de um objeto para o outro por isso que aqui nessa diagonal né onde a gente tem o mesmo objeto em mim coluna a distância sempre zero tá os valores de distância que a gente coloca aqui na parte inferior da Matriz São os meus

valores que vão aparecer aqui na parte superior já que esses dados são a gente tem os mesmos objetos tanto em mim as contas em colunas tá Tá bom então a gente pode fazer e Existem algumas medidas de similaridade para dados categóricos e para dados numéricos também tá em geral os valores categóricos a gente tem medidas que dão resultado ali e intervalos né 0 1 ou 0 por cento a sem por cento e os dados numéricos a gente consegue utilizar os próprios valores né que são atribuídos a aqueles atributos para fazer a medição aí de similaridade

ou distância Ah tá então vamos ver um exemplo aqui para o uso de dados categóricos binários tá é uma medida usada é a distância de hamming tá a distância de hamming ela simplesmente verifica numa comparação entre dois objetos aqui a gente tem uma pequena mostra né da base de dados do zoológico com características dos animais tá então numa comparação aqui entre cobra do mar e Pato por exemplo a gente pode ver que tem dois atributos aqui que são diferentes entre a cobra do mar e o pato tão cada atributo vai ser tomado uma vez e

vai dar a distância considerando este conjunto de atributos nesse caso dois da quanto maior a distância mais diferentes são os objetos no caso do Robalo em comparação com a cobra do mar todos os atributos colocados aqui são iguais né para os dois hein 10 ou seja esses objetos são muito similares E aí existem outras medidas também para dados binários nessas medidas costumam usar uma matriz de confusão como essa né a matriz ela tem aqui é o a organização de um objeto não é um atributo de um objeto nas linhas e do outro objeto em comparação

nas colunas da os resultados 10 aqui significa uma presença ou não daquele atributo aí a gente tem a matriz de confusão aqui nessas colunas a gente faz também a somatória dos valores obtidos aqui para poder usar os coeficientes de similaridade existem vários tá eu trouxe três aqui por exemplo tá o mete o jacar e o Roger C tanimoto tá eles usam então aquelas os valores né das codificações de cada atributo tá no presente ou não em um outro objeto da e o importante para a gente O que é que o tanto o mete enquanto Roger

de tanimoto São simétricos ou seja eles consideram tanto os casos em que os dois objetos comparados tem o atributo quantos casos em que eles não tem aquele atributo A então dizem incluem aqui o fator de da Matriz de confusão na fórmula tá E aí Aqui um exemplo então do uso dessas 3 desse três coeficientes para aqueles mesmos dados tá então a gente veio aqui que o robalo EA cobra do mar que tem os atributos iguais vão dar um valor de coeficiente 1 ou seja quanto maior o valor do coeficiente é o limite é um sempre

mas quanto maior o valor maior a similaridade e a gente pode ver aqui que por exemplo o urso já tem uma cima EA similaridade menor com a cobra do mar tá em comparação com a cobra do mar Ah tá quando a gente está lidando ali com dados categóricos nominais né o que a gente faz é simplesmente somar né o pegar na verdade o número de total de atributos aqui o m minúsculo e fazer a diferença para o número de atributos que são iguais entre os objetos tá aí a gente faz a razão disso e a

gente obtém então a dissimilaridade considerando dados categóricos nominais Ah tá quando esses dados categóricos São originais aí já existe uma relação de grandeza entre eles já existe uma ordem né como ordinais quer dizer né então o que a gente pode fazer primeiro ordenar esses valores né que são Dados ali depois a gente atribui um valor de ranking para cada um desses valores daquele atributo tá por fim a gente pode então normalizar esses valores numa escala geralmente entre 0 e 1 também utilizando essa fórmula aqui tá então para ele sempre ficar vamos dar uma olhada aqui

no atributo pernas tá ainda dos animais Então a gente tem vários valores aqui de pé número de pernas que o que os animais podem ter a gente por serem dados ordinais né a gente consegue criar um ranking então de um em valores crescentes ali inteiros crescentes nesse caso vai de 1 a 6 e depois a gente normalize esses valores então na escala de entre 0 e 1 e obtêm os valores né para cada um dos para cada um dos valores distintos do daquele atributo Tá e com esses valores então a gente pode usar medidas de

distância o dissimilaridade para dados contínuos medidas como essas aqui então para valores numéricos continuous tá é é comum a gente usar a própria distância euclidiana quando a gente está fazendo essa análise uma outra medida bastante usada também a medida da distância de Manhattan tá euclidiana vai pegar né o quadrado da diferença entre um determinado atributo dos objetos comparados e tirar a raiz e na distância de Manhattan a gente faz sempre pegar o módulo da diferença entre os atributos daqueles obs e baratos Oi tá seguindo aqui no processo a gente tem também então a execução do

método de agrupamento Ah tá então os métodos de agrupamento eles podem ser hierárquicos ou particionais tal zerar Kikos podem ser aglomerativos ou divisivos e os particionais exclusivos ou não exclusivos e tals hierárquicos aglomerativos eles consideram like cada objeto pertence a um grupo distinto e eles vão ser aglomerados então né eles são agrupados consecutivamente até um critério de parada ou até formar um grupo único com todos os objetos já os divisivos eles consideram que inicialmente todos os objetos pertencem ao mesmo grupo Esse grupo é então subdividido de acordo com a similaridade até um critério de parada

também no limite até que cada objeto seja um grupo único Ah tá a gente tem também então os passionais exclusivos tá em que cada objeto pertence a um único grupo e a gente pode ainda ter os particionais não exclusivos em que um mesmo objeto ele pode pertencer a mais de um grupo partes do objeto pertencem a grupos diferentes esse tipo de agrupamento a gente chama também de agrupamento fase Ah tá ainda subir método de agrupamento a gente pode dividi-los em monotetico sou Poli técnicos quando a gente usa mais de um atributo eles são políticos da

Rádio fase então rádio quando a gente tem um objeto pertence a um único grupo fosse quando a gente pode dividi-los entre grupos diferentes da gente pode ver eles ainda como determinístico usou estocásticos quando o resultado do agrupamento é sempre o mesmo é a gente diz que aquele aquele método é determinístico quando não é sempre o mesmo Portanto ele é estocástico talhe a cada execução ele pode gerar agrupamentos diferentes e e a gente tem também então formas de representar esses grupos que são formados e isso depende aí varia de algoritmo para algoritmo tá é são quatro

tipos principais aqui de representação a representação por protótipos considera que um objeto ele vai representar aquele grupo né ele tá ele é um representante daquele grupo esse protótipo ele pode ser um objeto real ou pode ser uma média por exemplo dos objetos que fazem parte daquele grupo e a gente tenta me as estruturas em gráfico como representação em que os objetos de um mesmo grupo são ligados os objetos que são mais similares ali fazem parte de uma ligação em forma de grafo da gente tem ao uso de estruturas em árvore também então aqui a gente

tem um exemplo de um dentro do Grama tá aqui a um agrupamento hierárquico e que tem um formato de uma árvore binária ele tem sempre duas divisões em cada agrupamento Ah e ainda representação Por rotulação que não é uma apresentação uma representação visual mas que permite a gente rotular aqueles dados e ter Então essa informação a mais Então como se a gente colocasse um atributo o valor naqueles dados que a princípio não tinham essa informação na a gente adiciona o rótulo Ah tá e temos também como última etapa do processo né avaliação do agrupamento tá

durante essa etapa então o agrupamento vai ser verificado E caso ele não não seja satisfatório a gente pode voltar para as etapas anteriores então é um processo Interativo em que a gente pode dependendo da necessidade de ter que processar novamente esses dados é escolher outras medidas similaridade ou executar um outro método ou mesmo método com parâmetros diferentes Ah tá então Quais são os principais critérios né para fazer essa avaliação do agrupamento eles consideram a compactação na ou seja o relacionamento entre o objecto do mesmo grupo e entra grupo da e esse objetos idealmente as devem

estar muito próximos e considera também a separação ou seja o a relação intergrupos e o ideal é que esses grupos estejam os mais distintos possíveis tá é é e quais são os tipos né de medidas e avaliação a gente tem as internas nas internas elas vão avaliar as informações dos objetos nas características dos dados e as distâncias em tanto intragrupo contra o Inter grupo e as externas as externas elas são menos frequentemente usadas porque elas dependem de você ter um agrupamento ideal né então como se você tivesse um Gabi é daquele resultado que você espera

então e não é comum a gente ter esse tipo de informação a princípio Ah tá então como medidas de avaliação interna eu trouxe algumas das diversas que existem aqui uma delas é o índice de um tal índice de Doom ele faz análise então do de como está a relação de agrupamento intra e intergrupos tá ele trabalha numa escala de valores ali que vai de 0 a infinito e o resultado desse desse índice quanto maior o resultado melhor é o agrupamento tá esse índice ele é um índice que tenta verificar o equilíbrio né entre a compactação

interna dos objetos do mesmo grupo e a separação externa então em relação aos outros grupos Oi tá um outro índice bastante usado ou bezdek pau da obesidade pau ele considera que a separação entre os diferentes grupos é mais importante tá então ele ele dá a fórmula né de beck pau dá um enfoque para a questão da Separação tá E o que ele faz é pegar a um valor médio ali das medidas né de distância entre os grupos na intergrupos também ter um resultado aí no valor entre 0 e infinito tá aí nesse caso também quanto

maior o valor melhor é o agrupamento Ah tá e como medidas de avaliação externa as principais utilizadas são a entropia na entrou pela vai indicar Como tá a homogeneidade desse dessas classes né de objetos dentro desses grupos Tá quanto menor a entropia melhor ou seja mais homogêneos esses esses grupos estão na cada grupo tá e Então melhora a classificação do melhor o agrupamento tá E também a medida de Pureza tá que vai verificar a proporção ali de que é dominante dentro de um grupo de objetos que pertence àquele grupo então quanto mais objetos pertencem ao

grupo mais puro é aquele grupo tá então quanto maior o valor maior a pureza Ah tá bom esse é o conteúdo da aula de hoje né quero agradecer e até a próxima aula 1 [Música] [Música]

Mineração de Dados - Agrupamento de dados