Related Videos

AD IV - 2021-01 - Análise de Cluster - Aula 4 - Python

13512,090 Parole60m readGrade 18

E aí o gravando disciplina análise das quatro curso gestão da informação Universidade Federal de Uberlândia segunda-feira Dezenove de Abril 2021 16:13 conteúdo análise cluster ou análise de conglomerados ou segmentação é essa já é a quarta aula se eu não me engano 5ª aula que nós estamos tratando do assunto a nós câncer já tratamos da nadiclecia na parte conceitual do funcionamento dos Princípios já fizemos isso utilizando o software spss e hoje a ideia nós replicar mas reproduzirmos análise cluster mas só que agora utilizando o Python o parto para nós realizarmos para nós fazermos a nossa de

classe Então vou compartilhar aqui a tela com vocês e nós vamos conforme já havia nos comentários também em aulas anteriores nós vamos passar e a mente pela pela análise de cluster é só que só que agora utilizando o pai tu Tá então a gente vai utilizar a mesma base da Dica nós utilizamos E agora vocês visualizam minha tela Oi ok Oi beleza Beleza então vamos lá é o que é que esse material né desatres Ele tá disponível para você se esse notebook esse script e nesse script então algumas coisas que vai passar aqui mais rapidamente

porque né O que tá aqui na parte de definição dos conteúdos e conceitos porque a gente não discutiu em Aulas anteriores né o mesmo material que tá no PowerPoint slide só que aqui a gente trouxe para esse ambiente do escripto e o teu notebook aqui com uma vantagem né algumas mais uma delas é que eu coloquei aqui alguns links para conteúdos específicos olha só tem esse aqui olha o fonte de pesquisa de análise câncer Então tem um material da WS da da Amazon então negócio do armas 16 Maker é que fala do algoritmo caminhos como

funciona tem uma pele É de nade de informações aqui a cerca de especificamente desse algoritmo com exemplos então é uma boa fonte de pesquisa mas esses pontos de aprendizagem O que é exemplo de utilização Então esse aqui tudo nós discutimos em aulas anteriores e são todos os pontos né que estão presentes lá no PowerPoint do material lá nos slides do PowerPoint tá então a gente já vai tem tem as mesmas variáveis de seleção E aí aqui a gente já começa as Principais bibliotecas utilizadas nesse modo são as é o pandas matplotlib e aqui a gente

tem esses três bibliotecas estatísticos aqui ó UFC SC e pai escaler e o status models então nessas três bibliotecas são importantes bibliotecas para análise estatística de dados e o por exemplo se o e parece pai é a gente tem as algumas nela a alguns usos para álgebras como por é para áudio para como por exemplo a cálculo de matrizes cálculo de distância Então a gente tem algumas coisas interessantes tá então são bibliotecas úteis Bíblia biblioteca interessante que a gente pode utilizar então tem várias bibliotecas aí que nós importamos para esse ambiente do câncer é da

na jikan eu não sei se vocês observarão né da quem já teve a curiosidade de ver que mesmo a gente está no tratando em cada um dos Tópicos assuntos específicos de estatística referente a análise fatorial quando foi de análise fatorial Cruz ter Quando foi agora que a nas plantas teu nós vamos ver em regressão logística mas a gente tem para além dessas das técnicas específicas nós estamos utilizando é nós temos em cada um desses desses materiais esses notebooks nós temos os conhecimentos diferentes sobre o uso do do Python para análise de dados uma forma geral

né então alguns gráficos estamos não estão nos outros algumas coisas estão indo não estão em outros e que podem ser úteis né em Diversos momentos Então vale a pena vocês verem vocês analisarem isso tudo depois aqui a gente tem de novo as bibliotecas e os links para essas bibliotecas tá então né aquilo vou rodar eu tô importando se eu fazer o seguinte aqui para e eu vou reinicializar o caderno tá o jogo executar estudo de novo aqui pra gente executar não passo a passo bom então aqui o que eu estou fazendo agora Eu estou só

carregando as bibliotecas carregando as bibliotecas para o ambiente e tem dois aspectos é de colocar essas bibliotecas toda no início né eu gosto pelo motivo de organização da gente já observar que todas as bibliotecas que achou utilizar elas estão aqui em cima mas de alguma forma a gente acaba um pouco pesando ambiente que pode ser que eu preciso de biblioteca dessa só lá no final do processamento e eu não já Trouxe essa biblioteca tua memória então fiquem à vontade para deixar a biblioteca no começo ou no momento que vocês foram utilizar essas bibliotecas tá Eu

particularmente gosto muito de bibliotecas no começo então nós importamos a Bíblia as bibliotecas os dados é o nosso velho e bom agarbatti aqui de novo né esses dados utilizados acompanha o livro análise multivariada de dados do Hair então né quando dizer para vocês aí o arquivo em spss em XLS Excel então nós temos o que nesse arquivo tá das variáveis o X6 até a variável x 18 né lembrando Relembrando da X6 qualidade do produto X7 atividade de comer se até a variável x 18 velocidade de entrega representar a nota que cada um dos clientes pesquisados

atribuíram para os respectivos atributos né é e a nota varia entre 0 e 10 então aqui nós estamos lendo arquivo Excel né Nós estamos carregando é um arquivo que se Chama agarbatti. Xlsx e o nome da planilha da Binha é agarbatti eu estou carregando eu estou lendo um Excel estou Invocando o panda estou atribuindo esse arquivo por uma variável chamada de F né é um acrônimo para data Freire então rodamos e carregamos a biblioteca carregamos a nossa sempre a nossa base de dados e aqui eu não estou mostrando as primeiras três linhas Desse nosso aquilo

então né tenho é o identificador do cliente o cliente Um dois três a variável x 1 é o tempo cliente tem de relacionamento empresa x 2 o tipo de cliente ou X3 o porte o X4 a localização X5 tipo de entrega para experiência de forma direta ou indireta e da variável X6 até a variável x 18 Então são as notas que cada um dos em clientes inteiro estados pesquisados deu para as diversas contribuiu para as diversas características da empresa abate então aqui já está só conhecendo arquivo né quais são né as variáveis que Estão nos

nossos arquivos lá aí então Quais são as informações do utilizando né o DF que a nossa variável de data Freire estou aqui invocando nessa esse a característica essa função um fofo então e nós temos né Sem valores não nulos para cada uma das variáveis da variável X6 até a variável x22xev tipo flute a variável x 23 é do tipo objeto as variáveis X1 até X5 também são do tipo objeto tem dados discretos tá então o shape aqui é para mostrar exatamente Quais são as dimensões do nosso arquivo então nós temos né Sem linhas e 24

variáveis então é essa essa formato né a forma dos nossos do nosso arquivo esse aqui já está passando de passagem a gente se conhece bem esse arquivo também né dá um só tô mostrando como que eu já vou explorando como pegar vou conhecendo aqui porque eu tô trabalhando então aqui a gente traz as principais estatísticas para cada uma das variáveis né da X6 até a x no caso aqui olha só o que que Acontece né a gente e pediu describe a estatística descritiva é e não especifiquei Quais as variáveis que eu queria Então ele trouxe

aqui para gente as variáveis métricas Mas lembra que eu tenho um comando aqui que eu posso é que eu posso trazer todas as variáveis caso eu queira né aqui a gente tá trazendo a das variáveis médicas estão o n na contagem a o valor médio O desvio padrão o mínimo o primeiro partiu a mediana o segundo Partiu o terceiro Partiu e o valor máximo para cada uma das variáveis que nós utilizamos aí nós temos as variáveis não médicas no nosso arquivo né então a gente tem uma variável que é longe da cidade então o que

que eu tô falando quantos cliente tem o faixa de tempo de relacionamento com a empresa né então executamos aqui olha só bom e o que é que a gente tem nós temos 33 clientes que têm acima de cinco anos de relacionamento 35 clientes com tempo De relacionamento entre 15 anos e 32 sim deixa eu te perguntar acabei de chegar agora né correndo aqui você tá passando o quê agora a gente tá nós começamos a análise de cluster utilizando o pentao utilizando o Python Então até agora beleza do acabar não tô com uma eu tava com

uma dúvida nessa parte que você passou um trabalho para entregar hoje né que eu tô terminando ele e eu cheguei chorar hoje eu cheguei chorar de raiva que tava dando uns erros no trabalho aí Por fim eu descobri que é porque eu não tinha excluído os a parte vazia do arquivo você mandou os não sabe aham e eu não acho ele quando eu falo que eu chorei eu chorei meu em 4 dias aqui sentada eu não consegui resolver esse problema né para ver qual que é a foi mas não é possível que ele é esse

aí eu apertei excluir tudo que tinha mar fui Nossa quanto é bonito meu código aí aí ficou minha funcionou fiz as análises tudo mais aí me adulta ela Depois que eu fiz todos os alarmes nesse dia para fazer bem completa é só comentar os outros a qual que é essa saída a entrega de hoje desculpa é ela do deixa eu pegar aqui para casa mais variadas a atividade aff aff docência de docência é só comentar e os critérios lá da análise fatorial quais os componentes O que que você foi encontrando no passo a passo não

é copo foi o km OMS a é bom é ruim é a as comunidades a variância Total total explicada por cada um dos componentes aí você vai tratando e até você chegar na no resultado final dos componentes dos fatores que mais que você encontrou aí Você comenta esses componentes também Entendeu Beleza mas então 14 falou certo mas eu tô chorando de raiva chorei não apenas a base são 107 registros e tinha caipira 88 depois na hora que você exclui os números usados e deixa eu acho que é isso mas depois a Gente ver não vou

puxar atrapalhando a aula é o ep 88 tem seus então tá certo é isso mesmo pode terminar a beleza é então aqui pessoal continuando nessa exploração inicial do nosso agarbatti até aqui não tô fazendo nada de análise fatorial estou explorando estou analisando estou entendendo conhecendo a base de dados tá então aqui eu mandei né contar quantos clientes é por tempo de relacionamento com a empresa aí o que que eu fiz no Comando abaixo Observe aqui olha tá assim mais cinco anos tem que ir uns 5 anos e menos cinco de um ano tá fora de

ordem ta ta vendo às vezes é difícil da gente trabalhar a gente né organizar o pensamento não é necessário mas aqui eu só fiz o seguinte Olha só eu peguei e mudei aqui olha para coloquei esse valor aqui olha para um dois e três para ir a hora que eu fizer de novo agora olha só olha que o rodo de novo isso aqui agora eu tenho isso ordenado tá vendo Então eu Tenho agora os clientes mais novos os intermediários e os mais antigos o que eu fiz com esse código aqui debaixo aqui foi simplesmente mudaram

o nome da variável para mudar o conteúdo da variável para que hora que eu mandar contar ela fica ordenada ficar bonitinho Tá vendo só por isso tão somente tá é o tipo de indústria né eu estou querendo saber quantos que tem por tipo de indústria então tem 48 clientes que é de jornal e 52 ser revista a o porte da Empresa então tá bem está fora de ordem eu poderia fazer descende poderia mas eu fiz aqui também uma recodificação só para ficar bonitinho então quando eu faço isso aqui agora e manda executar aqui novamente então

agora tá ordenado em né é Pequenas Empresas dois grandes empresas então tô só brincando com os dados aqui nada de análise crua você até agora é contei também Quantos clientes região fora da América do Norte e a variável X E o os clientes com entrega direta e cliente com a entrega indireta então isso aqui é só explorando mesmo os nossos dados conhecendo mesmo que que a gente tem aqui de dados aí como o Igor Ele já sofreu né Mas resolveu parabéns viu parabéns pela iniciativa foi hoje que você me mandou mensagem ele foi pô eu

te mandei de manhã eu não te mandei mensagem eu tinha desistido já eu ia até deixar para falar agora na hora que eu Tava tão enrolado bom eu não consegui te responder também sem bom que descobriu também já resolveu não eu já tinha junto que eu já tinha largado aí eu fui andar um pouco na padaria A minha esposa né Aí eu no meio-de-campo eu falei cara não é possível que eu tô fazendo alguma coisa não é possível aí eu fui olhando eu falei quer saber eu vou excluir tudo que achar denan estiver vazio no

arquivo e pronto na hora que eu exclui tudo que eu rodei todo o código de novo ele é que eu Tô tudo bonitinho km ó o temporada e eu sinto desistido já não mas é bom que aprendi viu Parabéns esses Passos iniciais aqui eles servem exatamente para gente conhecendo sabendo para ver então qualquer técnica estatística que a gente utilizar é importante a gente explorar bem os dados conhecer bem os dados nós estamos trabalhando tá aqui a gente já começa a nossa brincadeira de verdade olha padronização dos variáveis Então é eu tenho aquelas formas que Estão

lá também no PowerPoint tá então tem o escola padrão Z neto do Range menos um metro do Ranger 01 min e máxima amplitude média um Então a gente tem que todas elas e aqui olha só o que que acontece como a gente vai tá precisando essas variáveis várias vezes o que eu fiz aqui foi criar um vetor com o nome das variáveis né porque eu não preciso de ficar digitando usando essas variáveis toda vez toda vez a utilizá-los basta utilizar o nome do Vetor né se essa variável que eu criei e essa variável que eu

criei chama variáveis é só para não ficar digitando o nome das variáveis o tempo inteiro tanto em Olha só quando eu executo essas variáveis exatamente o nome das variáveis e aqui o que que acontece eu criei né o que eu estou fazendo isso aqui olha só eu estou criando um outro vetor que eu tô chamando agora dizer variáveis eu criei um vetor nulo e para cada variável né que está no meu vetor Variáveis eu estou criando uma outra variável que começa com z Na verdade eu só tô criando o nome das variáveis eu não estou

colocando conteúdo nessas variáveis ainda tá então eu criei aqui né esse vetor né eu tinha um vetor com o nome das variáveis e eu criei no outro vetor com o nome das variáveis padronizar eu não coloquei conteúdo nessas variáveis ainda tá agora nós vamos utilizar olha padronizar utilizando Score padrão Z Qual que é a biblioteca que que a gente está utilizando é esse stand a Skyler Então eu estou fazendo o quê né a gente tem eu criei aqui olha só um arquivo né uma variável que se chama x né E essa xe eu x eu

atribuir para ela as variáveis o valor agora tá com as variáveis da X6 até ax18 então esse meu X Ele tem esses valores e o que que eu estou fazendo Olha só eu estou atribuindo né Eu estou criando agora uma variável X é stander ou seja x Padronizada Então eu estou invocando a biblioteca standardscaler e tô invocando a função se Oi mor esse esse arquivo aqui então eu estou criando aqui um um arquivo de variáveis padronizadas tá um vetor com variáveis padronizadas e o que que eu estou fazendo aqui olha só esse eu tô utilizando

esse comandinho aqui Esse comando é só para o seguinte Olha o que que aconteceria se nós fizéssemos isso aqui ó vocês olha só vou imprimir E se eu imprimir E aí ó E aí tu colocou o quê que acontece se eu imprimir eu mandei imprimir tá E aí no rodeio né eu tenho que fazer chinesa que tá aqui primeiro executei agora eu vou mandar imprimir o que eu criei então quando eu mando imprimir aqui o que eu criei Olha o que que o teu pai tu faz com a gente né ele gera as primeiras colunas...

As últimas as três Primeiros as três últimas as três primeiras linhas as três últimas linhas então quando eu uso essa função que não pai né então como um pai print option screen should = NP. Inf o que que acontece com essa aqui eu consigo imprimir eu consigo mostrar o arquivo inteiro tá vendo a gente tem que tomar cuidado com isso porque se o arquivo for muito grande vai gerar uma alguma coisa aqui do tamanho do mundo mas o que eu fiz aqui foi imprimir a saída inteira e Não é saída trincada como nós geramos aqui

em cima tá então vou excluir esse áudio aqui a ideia era oi pra vocês eu uso isso em algum lugar abaixo isso é útil para gente ver se a gente está gerando realmente que a gente gostaria de gerar tô limpando alto aqui também e ute só para mostrar para vocês Que esse né esse print aqui ele gera saída trancada Mas eu posso usar esse comando aqui para gerar a informação como um todo é imprimir tudo Que que a gente precisa tá então o que que eu tô fazendo então nós temos agora né esse esse vetor

bidimensional com as as 13 variáveis padronizadas e o valor para cada um dos 100 clientes então nós temos isso na nossa variado nessa variável que a gente tirou né então a gente tem às 13horas variáveis T6 zx6 ZX 7 ZX 80 até a CX é feito aqui olha e nós temos para cada um dos clientes a primeira linha para o cliente uma segunda por dois a terceira Por 3 a quarta 4 assim nós temos para os em clientes aqui então o que que a gente está fazendo agora a gente já tinha aquele primeiro agarbatti o

que eu estou fazendo aqui com Esse comando é juntar né o Data Frame que eu tinha eu estou concatenando com esse novo Vetor que a gente criou aqui então eu estou juntando aquelas colunas que eu criei com vetor com o um arquivo que eu já tinha Originalmente então lembra quanto que era simples lá no spss a gente mandava Padronizar e criar as variáveis e o né gente já tinha como sair de um arquivo com todas as variáveis aqui a gente tem que dar alguns passos a mais para fazer isso mas aqui então está o nosso

arquivo agora né com as em linhas nós tínhamos e com além das variáveis originais de cinco se sente 7 e nós temos agora né das zx6 até às vezes x 18 os valores padronizados Lembrando que na análise cluster recomenda-se padronizar as variáveis Quando elas estão em medidas diferentes ou com escala as medidas diferença ou quando elas possuem variabilidade diferente porque se assim não procedermos as variáveis que tem na maior escala ou que tem a maior variabilidade terá predomínio na formação dos cânceres na formação dos segmentos e não é o que nós queremos então nós padronizamos

para que todas as variáveis tenham o mesmo peso na análise final que nós fomos fazer tá então isso Aqui a gente já criou as variáveis padronizadas então lembre-se que lá no spss quando eu estou estava estou executando o clustering hierárquico eu posso padronizar no momento da geração da da execução do câncer mas Oi meninas eu teria que ter já essas variáveis padronizadas previamente Então o que a gente fez aqui foi padronizar essas variáveis e elas são padronizadas pergament tá e é falamos né que o análise de cluster Funciona Nely Rosa né A lógica é a

partir do cálculo de Matriz de distância de uma medida de similaridade ou medida de dissimilaridade e existem uma quantidade enorme de possíveis matrizes possíveis distâncias a serem utilizadas né a mais das mais comuns a distância a distância euclidiana euclidiana padrasto que tá mas tem outras plantas Então tá aqui no material né Tem tem esses exemplos para você está e aí a gente tem aqui como que a gente calcule essas Distâncias tá então a gente tem algumas opções não tem não tem só muito opção mais uma dessa né duas dessas e tem inclusive outras tá é

por exemplo também na biblioteca esse pai a Station é Station a distância entre a gente tem as edições e quando a gente clica aqui na ser vistas então a gente observa o seguinte Olha só eu falo qual a distância que eu quero utilizar e tem só esse Tantinho aqui tá então entre si que a gente falou Olha tem a distância euclidiana tem a distância euclidiana quadrática ou e Square euclidiana EA S que inclusive no material de vocês tá essa S que mas a s que não é a Squared Não é esse que é a módulo

é quando a gente faz o quadrado dos módulos das Diferenças tá então a euclidiana quadrático Squared é a s euclidiano a s que é o módulo e acho que não inscrito que eu passei para vocês estar s que então se quiserem utilizar a euclidiana quadrática tá é o s oque é E aí a gente vai ver isso lá então aqui eu estou fazendo também olha só eu estou chamando então o as e dist eu estou fazendo a matriz de distância entre as variáveis né o arquivo DF aquele agarbatti Lembrando que as variáveis né Elas são

da X6 até ax18 e aqui eu tenho a distância eu vou tirar esse que eu vou deixar só a distância né o s que Lembrando que é a módulo era o quadrado da diferença dos quadrados das Diferenças nos modos E aí euclidiana Mesmo é só essa então eu vou Executar a distância euclidiana quadrática então aqui a gente tem a distância que a gente calculou tá a matriz de distância então esse aqui é uma matriz Lembrando que eu fiz isso aqui né a utilizando o o ele print options o MP para gerar todas saída também todo

auto posto da Matriz é só que lembrando né Essa Matriz é uma matriz em por 100 então é uma atriz de Grande difícil até de visualizar vou limpar esse out aqui também eu não Quero esse é o tipo de todo aqui tá limpamos aí a gente tem também né então aqui lembra olha só para eu calcular as matrizes né mas tava eu fazer aqui essa né eu mudar se eu quiser euclidiano euclidiana quadrada mas lá nobs eu chamo essa mesma função a única coisa que eu vou mudar é qual é que tipo de distância eu

quero calcular tá outra coisa também aqui quando a gente fez aqui as medidas de distância de similaridade tá é a medida a padronização desculpa tá É essa A gente tem outras né outras funções também dá para gente Para gente calcular os tipos que a Ah tá então a gente pode usar outras outras outros tipos de padronização de variáveis também ou se não tiver a gente pode fazer né criar a nossa fórmula para fazer as padrões de ações que a gente quiser tá mas até coisa pronta para isso também e aqui então continuando bom então nós

já temos agora né Assim Isso aqui era aquela primeira parte ainda a gente ainda não está efetivamente também na ainda na de câncer nós estamos ainda na parte de preparação dos dados para a gente ir efetuar análises para você tá uma outra questão que é problema que nós falamos são os out Liars aí aqui a gente calcula né Tem como calcular o outline univariado uma das formas a gente calcular os auxiliares univariados através do box plot então aqui para as Variáveis padronizadas das estes seis até às vezes x 18 quando a gente olha as variáveis

de forma individualizada a zx7 apresenta alguns out Liars a zx-2 apresenta alguns out Liars EA ZX 16 apresenta alguns auxiliares mas olhando as variáveis de forma individualizada cada uma por vez univariada uma única variável por vez e a pesar de estar no mesmo gráfico todas juntas nós não estamos olhando a inter-relação entre elas nós estamos Olhando cada uma das variáveis por vez tá então aqui a gente observa que algumas das variáveis tem alguns outliner univariado tá É nos interessa muito em análise cluster os softwares multivariadas então o D2 de mahalanobis ele esse esse de dois

essa ao outline multivariadas nos interessa muito pra gente olha o vetor inteiro né a gente olha todos os auxiliares de uma vez só tá então a gente usou né a distância de dois mais lá naobse as mais ou menos Calculamos isso aqui tá só que o que que acontece quando a gente usa aqui em cima E se eu colocasse aqui a distância de mahalanobis para calcular a matriz tá a gente ia usar a distância de é aquele atividade aquele exercício que eu passei para vocês que a gente pode vir aqui olha só e eu mudar

aquela distância ali para a falar novos Olha só se eu mudar aquele texto para mais lá nobs eu vou calcular a distância de mais lá na obviamente Essas entre esses indivíduos entre esses objetos tá agora nesse caso aqui que nós estamos querendo utilizar a distância de mahalanobis para out lá e o que que nós estamos fazendo eu não quero calcular a distância de entre cada par de indivíduos nós queremos calcular a distância de cada um dos indivíduos até a média então nós utilizamos aqui algumas funções né criei uma função aqui que eu te amei demais

lá nobs então a gente recebe aqui alguns parâmetros né a Gente recebe a distância a matriz o vetor Matriz de dados contém colunas é nós queremos calcular a partir de qual né de qual observação é a matriz de covariância dos dados Então se a gente não passaram será calculada então aqui já está utilizando né a média e a covariância a transposta os valores transpostos a e algumas outras funções aqui tá então basicamente a gente tá fazendo isso a gente retorna a diagonal o valor da Diagonal esse valor da Diagonal é a distância de cada um

dos indivíduos até a até a média até o Vector mede então lá no spss nós utilizamos a função de regressão é um opção lá do do menu de regressão para calcular a distância de mahalanobis de cada um dos indivíduos até a média Aqui Nós criamos essa função Zinha para criar essa distância também e o que que nós fazemos três como tá um bom rodar aqui rodei executei bom então aqui a gente calculou essa Essa esse valor demais lá não abre está e a gente acrescentou aqui olha só e que nós fizemos tá e agora eu

criei uma variável mas alá nobres e ela tá também aqui no meu arquivo Olha só então eu criei essa variável e eu atribuir para ela né ah eu chamei a função que eu criei aqui em cima e essa função retorna O valor que eu atribuir para cada uma das variáveis aqui na nossa base da tá então é criei essa essa essa variável mas a lá na obra E lembrando que essa variável mas ela não sabe se ela é a distância desse por exemplo esse valor 10.34 é a distância desse primeiro indivíduo até o vetor Média

a distância do segundo a 16 do terceiro é 12 quanto mais próximo de zero significa que mais próximo da média o indivíduo estar quanto mais longe da quanto mais longe de zero mais distante da do vetor médio indivíduo está e uma referência para a gente saber se ao tilar lembrando a gente vai pegar O valor e multiplicar por 2 2,5 graus de liberdade tão graus de verdade é o número de variáveis nós temos utilizando aqui nesse caso então nós temos 13 variáveis vezes 12 e meio da 32,5 então valores né próximo ou acima deste 32

e meio indicam lá e indício de que aquele registro aquela linha sejam outliner e talvez seja Prudente é excluir tá então aqui encontramos né os valores maiores do que do que 30 tá então se a gente quisesse excluir esses valores aqui eu Mostrei né nós mostramos os valores maiores que 30 se a gente quisesse excluir esses esses valores aqui bastaria fazer assim olha só eu vou criar um Data Frame 1 DF o Max de F1 = isso aqui olha esse comando que eu fiz aqui vou copiar aqui colar aqui é só que eu vou inverter

as santinha agora oh oh oh E aí É só que ao invés de ser maior do que 30 colocar menor igual a 30 então eu ia iria criar um outro Data Frame com os valores que não são outline ears né então a gente ir excluir esses um dois três quatro valores da nossa base de dados então eventualmente Se quiserem fazer é assim que deve proceder tá aqui no nosso lembra que nós fizemos isso lá no spss fizemos o passo a passo Então se quiserem fazer Aqui também é assim que nós devemos proceder a gente poderia

Fazer no próprio DF até poderia só que a gente vai perdendo os dados originais tá se eu não salvar depois basta rodar de novo né mas se eu salvar esse data frente ao sobrepor o arquivo Excel eu vou perder essas coisas aí tá então OK agora a gente sim rapidinho é essa Matriz que mais falar no áudio aí que você pediu no Natividade que a gente tem que entregar hoje das padronizações é essa aí que o senhor fez por último ou aquela outra lá que que a gente coloca Coloca e em cima da forma a

primeira porque esta aqui eu essa aqui a gente tá fazendo o seguinte nessa aqui a gente está calculando na verdade eu não gera uma matriz eu Gero aqui só um setor porque eu eu calculo a distância de cada um dos indivíduos até a média então eu tenho não tenho aqui uma matriz eu só tenho injetor entendeu que eu tenho a distância do indivíduo um do dois e três quatro cinco então aqui é só um vetor é A distância de cada um para média eu gerar a matriz mesmo É aquela opção anterior o Reginaldo mesmo aqui

olha aqui eu troco para amarrar nove entendeu pa beleza obrigado Pois é Beijos a mais nova que eu posso usar a distância interquartil para definir o outline alguma outra método você para que você vai mais lá no mesmo aqui na verdade o plano é para que não é não assim eu poderia utilizar essas essas outras é só Que a inter parte tem que perguntou desculpa em São Paulo o Paulo a interquartil ela é muito útil para univariado também entendeu porque o olho uma variável por vezes observa à distância interquartil é equivalente a parecido com o

Né isso aqui na verdade eu poderia utilizar isso aqui é mas eu olho a variável um ela tem uma Considerando o intervalo interquartil né Tem valores distantes eu olho uma eu olho o outro olha o outro eu Tô olhando uma variável por vez entendeu E a vantagem ainda de sangue essa distância de mahalanobis é que eu observo todo o vetor de uma vez só então às vezes uma variável pode até apresentar vai poderia né dar indícios de ser outline univariado mas seu olhar todo o vetor de uma vez pode ser que não seja porque considerando

todo a combinação das variáveis é um comportamento esperado um comportamento normal entendeu Ah entendi beleza Partiu para univariado perfeito que muitas variáveis por vezes é que é mais eficiente inclusive que o box-plot embora o bloco pode ser muito útil mas é é visual né então quando eu olho interquartil é mais certeiro agora para olhar o outline multivariado aí essa cd2 é é a medida mais amplamente utilizada para gente olhar outline multivariado e descemos então calculamos de dois aqui a gente só tava mostrando né então eu Poderia copiar esse arquivo ali tá vou fazer que eu

li agora não aí a gente entra naquela teoria que mostrei pra vocês então eu tenho aqui olha só vários links boas referências para a gente estudar o clustering hierárquico tá então é por exemplo né tem a grande vantagem para quatro de inglês tá mas tem conteúdo artigos tem uma série de material bom riquíssimo muito rico para gente Para gente entender e estudar tá inclusive né é com link para para outros Artigos para outras referências a respeito da sendo tratado aqui tá bem interessante aí tem uma série de links aí que vocês podem utilizar então a

gente entra nos métodos zerar sair de novo e estes são os métodos aglomerativos o sistema o passo a passo isso aqui tá tudo lá no PowerPoint também tá então aqui a gente traz de novo essas definições tudo né O que que é o que que não é E aí agora a gente começa a entrar Na nossa aplicação mesmo tá então o que que nós vamos usar olha só a a gente vai usar o agarbatti O que que a gente está fazendo Olha só eu estou utilizando agora tá eu estou chamando o link de esse link

de vende onde qual que tá então de onde ele vem olha só é de onde que ele saiu a crescer Olha só dá esse pai clustering hierárquico eu importei o link já ligação tá então eu importei Isso é uma né é uma rotina uma função ali que nós Importamos e agora nós estamos aplicando Então olha aqui o que que eu já coloquei de observação quando a gente tá chamando aquela função Zinho ali olha só e eu já falei a sala observe o exemplo a distância utilizada foi euclidiana quadrática no de vocês eu acho que tá

S que eu meio que voltei tá então a métrica aqui tá no material de vocês eu acho que tá esse que nesse aqui eu te liguei se for s que não é euclidiana quadrática tá é a módulo é a modular tá Então aqui é né então foi utilizada a euclidiana quadrática e o método de ligação completa então lembra que a ligação completa né aquele método da gente liga todo mundo com todo mundo e a gente pega né a combinação dessas dos valores a gente gera então a e os grupos mais homogêneos possível e de novo

a que horas sai então quando eu estou por exemplo né esse alcance é e era linked seu clicar aqui no link na se clicarem no link que eu coloquei para Vocês então tá aqui também a definição que que é então eu tenho por exemplo método singu métrica euclidiana mas eu tenho eu posso mudar esses parâmetros né então eu tenho como passar outros parâmetros ali caso a gente queira vou dar um né eu posso mudar os parâmetros Então tá aqui também que que a gente pode fazer então isso aqui tudo né o método centróide os métodos

que eu quiser utilizar Olha singu é ver de cumprir Então as formas para cada um Deles e é esse texto que usaria né singu cumprir Eva i waited o centróide Então são os parâmetros que a gente poderia passar aqui olha só no método e a métrica é a matriz A qual a distância eu quero utilizar então aqui eu estou passando esses dois parâmetros Ok estou fazendo então né Estou criando né esse esse planejamento de aglomeração Olha só então e executei e aqui eu estou imprimindo tá O que eu estou fazendo aqui olha é imprimindo aquele

planejamento de aglomeração que você já conhece nada o spss também tá Então qual que é a diferença que eu chamo atenção daqui para o spss é o vetor aqui no Python começa do zero Então esse um que ele apresenta aqui já é o indivíduo dois porque o vetor começa do zero então juntou o indivíduo ai de dois com agir 44 EA distância entre eles é 0816 utilizando o método completo e a Distância euclidiana tá então é zero86 é e assim sucessivamente tá então essa aqui é a matriz de aglomeração outra diferença é a seguinte é

a nossa base de dados né ela tem sem observações então lá no spss é do 1 ao 100 é a base é a mesma mas aqui ela é do zero ao 99 então lá no spss também o que que nós observavam está é que quando o objeto se juntava a segunda vez ele guardava o número de um dos dois ou era Do primeiro ou do segundo aqui não aqui ele junta os 51 com 100 na nossa base não tem objetos em o que que esse objeto sem é um mais o 44 e já se juntaram

então o último que nós tínhamos era do 0 a 99 o próximo então eu sei mas agora o sem é um com 44 depois a hora que a gente for ver e em algum lugar aqui para baixo tá é outros eu de 100 ou então em algum momento a hora que a gente for ver us-101 E o 101 aqui olha só então o que que é o 101 o 101 é o objeto aqui de seguindo Essa ordem Tá mas é o ar de 2 White d45 e o Eyed 52 então esses três caras se juntaram

e se juntaram agora com 107 mas o que que eu 107 não se juntaram isso mesmo se juntaram com o e não se juntaram com o 106 Oi Pri e antes são o 2 se juntou com 106 e agora eles formam E o 107 dá uma leitura de isso é um pouco mais complicada juntou dois com 106 e forma 107 Então nesse caso aqui agora juntou 101 com 107 e vão se formaram 108 então a leitura desse negócio é mais embaraçado é mais complexa tá então importante a gente observando como que essas coisas vão acontecendo

tá então juntou um com 44 formou sem o quatro com 81 formou 101 o sete com 69 formou 102 agora juntou 51 com sem formou 103 o oito com 18 o 104 o 26 com 96 o 105 Então a gente tem que tomando prestando atenção de como que esses pares vão se formando que a leitura deles lá no spss é mais tranquila leitura deles aqui é a leitura é um pouco diferente tá mas enfim é só curiosidade mesmo e sem saber quando a gente quer ver o último objeto individual que se formou lá no spss

nós olharíamos Qual que é o último é cujo Valor anterior Era Zero aqui a gente olha o último cujo valor no Nosso caso aqui é menor do que 100 então o último objeto se juntar foi individual a se juntar foi objeto 21 tá lá no estágio já 99 98/97 Ou aquele que 96 né Então esse foi o último objeto individual a se agrupar tá então tá aqui isso que eu falei para vocês os dois meses caso sempre o Palito os casos uma 44 cuja distância aqui não é quando eu tinha utilizado se eu tiver utilizado

aqui por exemplo a distância que eu tinha utilizado é SQN É SQN o utilizando a distância S que Então esses primeiros casos é 0,76 tá então é o que tá no material aqui eu vou deixar para vocês verem tá só que a s que não é euclidiana lembrando ta quadrática é a módulo E então havia dois casos o último caso individual se juntar a seu caso 21 estágio 96 então explicando o que que é aí Aqui nós imprimimos também o dentro do Grama Bom então ao gerado dentro do grama em um gráfico que a gente

aqui ele tá mais fácil nós irmos que lá no spss pela tinha gerado na vertical aqui o seu gerando dentro programa na horizontal então é mais fácil nós observamos aqui dentro do Grama então é aqui a gente né a gente fez até agora nós também não agrupamos ainda né É nós estamos nós olhamos o padrão olhamos Como se forma como que se for Maria os grupos mas nós não decisão decidimos ainda pela Quantidade de grupos os métodos hierárquicos então a gente pode fazer isso observando aqui o incremento da Itália unidade Ou a gente pode fazer

isso observando dentro do Grama como que poderia ser feito isso observando dentro Eu amo senão as traçarmos linhas as paralelas e ao eixo X no caso aqui olha se nós tratássemos uma linha aqui aqui em cima se nós cortar semos entre acima que entre próximo de 90 e 100 nós iríamos Dividir em dois grupos Olha só iria ficar esse grupinho hein laranja da esquerda conta todo o outro grupo do lado direito senão as traçar se nos molinha entre os 60 e 80 aqui olha só nosso cortar Íamos nos separar ia no tá vamos traçar vamos

imaginar que nós vamos traçar uma linha e vamos cortar Vamos separar então nós separar iomos né esse primeiro grupo em laranja o segundo grupo em verde e o terceiro grupo em vermelho do lado direito aqui se nós Tratássemos uma linha mais abaixo o que que nós teríamos Olha só nós teríamos esse grupo e laranja o grupo em verde esse primeiro grupo em vermelho aqui Oi e esse outro grupo em vermelho do lado de cá senão as traçar se nos linhas mais abaixo nós iríamos separando os grupos Então dentro programa ele é ele facilita também ele

nos ajuda a visualizar a possibilidade de formação de grupos Tá mas outra né é outra que nós usamos nós utilizamos é a regra da Parada então quanto à agrupamento devem ser gerados né a gente pode observar a variação percentual entre os na idade então de novo a regra da parada baseada na avaliação da eternidade em soluções de agrupamento quando ocorrem grandes aumentos de três unidades corte situação anterior então é o que a gente discutiu lá né que a gente Melhorou a saída no spss e nós levamos para para o aro Excel aqui eu gerei então

né O que que eu fiz aqui olha eu criei um arquivinho data 1 O Freire tá com essa esse Z que nós geramos aqui anteriormente Olha só isso aqui era uma matriz né ou em vetor bidimensional o que eu fiz aqui foi transformar isso em um Data Frame é um arquivinho de dados gerei aqui as primeiras 55 linhas só pra gente ver a né então cluster um era um cluster 2 e 44 a distância entre eles é 76 então o número de casos no Crush era dois o segundo asseguro par foi o 4/81 distância um

para ver tem nove com dois Casos tá então esse aqui eu gerei só a o cabeçalho as primeiras linhas do arquivo só para nós vemos eu só gerei as primeiras cinco Minas e agora lá no eu estou criando até uma outra variável que a heterogeneidade então nem se arquivinho parada que eu criei eu e aqui uma variável que se chama heterogêneo idade eu estou calculando essa né a variação da heterogeneidade então tô calculando o valor da esse valor da disse aqui olha só do estágio é Do estágio anterior menos é do estágio né futuro -

estágio anterior dividido pelo estágio atual x sem então o que que a gente tá fazendo aqui né criei essa variável aqui é a forma lá do céu que nós utilizamos e aqui eu estou mostrando só os últimos dez estágios da aglomeração que nós temos então o que que eu criei aqui olha Nós criamos aqui a heterogeneidade então aqui eu tenho um é grupo dois três quatro cinco seis então com dois grupos parece uma boa Opção com três grupos parece uma boa opção em quatro grupos parece uma boa opção com cinco grupos não porque o incremento

na eternidade é muito pequena com seis grupos pareceriam uma boa opção também então a gente pode testar né Entre seis quatro três e dois escolher por ele está então o que que eu que aqui agora nesse material aquilo que que a gente desenvolveu tá não eu testei está testando as soluções tá Então como que Que nós vamos é testar essa soluções ali só bom então eu agora eu apliquei mesmo Olha só então eu tô aplicando cluster eu vou colocar aqui também a esse quê Porque foi aqui nós utilizamos ali em cima eu estou aqui agora

estou utilizando tá agora esse agglomerative clustering essa função aqui tá eu estou falando aqui é diferente né Eu já estou falando por um clã ser hierárquico aglomerativo que eu quero testar três Clusters então aqui eu já tô falando para ele quanto que eu quero a distância afinidade distância aqui no caso né a euclidiana modular e eu estou utilizando a ligação completa então nós vimos que três grupos pode ser uma alternativa então eu tô rodando e aqui eu estou falando só o seguinte o indivíduo um né com três grupos ele pertence ao grupo 02 a 03

ou 04 ou esse outro pertence ao grupo dois então que eu tô gerando aqui é esse vetor aqui olha que é A classificação de cada um dos indivíduos em um determinado grupo né nós pedimos para gerar três grupos então é cada um dos grupos que pode ser 0 1 ou 2 esse primeiro individual no grupo 0 o último indivíduo está no grupo 2 e tem de vidro que estão no grupo um então nós estamos utilizando isso aqui agora isso aqui né Eu estou pé eu sou só eu estou me certificando de quais parâmetros eu utilizei

olha só então né Nós utilizamos nós ajustamos nós fizemos isso para as Variáveis então um método esse tipo de uma negação completa número de cursos = 3 os parâmetros da nossa execução foram esses aqui é só mesmo né então acho que euclidiano é distância entre show não ligação completa são os parâmetros que foram utilizados aqui para não gerar esse clã ser tá então de novo isso aqui que eu tô fazendo é a mesma coisa desse nós fizemos aqui em cima ou ser feliz perdi ti tá mostrando como cada um dos case-se Em qual grupo cada

um dos casos Pertence esse clã ser ponto Leivas aqui é a mesma coisa estou repetindo número de casa né Francilene levas é o qual foi o tamanho da nossa amostra número de câncer gerados 3 que é o que a gente tirou é os né os primeiros aqui a formação dos grupos aglomeração apresentação dos cinco primeiros passos então de novo um e 44 4/81 Aqui nós já temos visto lá agora o que nós vamos fazer aqui eu vou né no nosso nosso arquivo de dados é o nosso Data Frame Que temos sem um devido e todas

as variáveis lá no spss quando a gente Rosa rodava esse crer será que com ele já criava para a gente a coluna e já marcava já volto lava é em qual grupo ind o locado aqui na Agora nós estamos fazendo o que nós temos essa essa e nós estamos aplicando essa função aqui para nós sabemos classificarmos cada um dos indivíduos e nós estamos criando uma coluna né Nós estamos concatenando tá Essa coluna que se chama grupo 3 ao nosso data Freire tá essa a esse esse aquilo que a gente já tinha Então eu estou fazendo

aqui e tô mostrando que olha só então eu criei no meu arquivo agora esta variável grupo três então com três grupos o indivíduo um pertence ao grupo 0 o indivíduo dois pertence ao grupo 0 o indivíduo três pertence ao Grupo Zero o que eu fiz aqui nesse bloco de comando foi rodar a e a o clustering hierárquico para as Variáveis padronizadas que eu tinha isso gera uma variável que eu tô chamando ela de grupo 3 e tô concatenando essa variável como Data Frame que eu já tinha aqui tá Então eu estou acrescentando uma variável nesse

nesse Data Frame nós E aí então o que que nós geramos quantos indivíduos têm cada um dos grupos tá o primeiro grupo tem que 73 o segundo tem cinco terceiro tem 22 aí lembra que nós levamos isso para o Excel para a gente calcular primeiro nós agrupamos lá para Nós vemos né o centro dos grupos então aqui nós geramos isso tudo aqui mesmo tá Então olha só o grupo zero né para variável X6 o valor médio para o grupo zero a zero 24 para o para a variável x 7 é menos 100 para x80 15

a nós temos para cada uma das variáveis que nós utilizamos e para cada nos grupos e aqui nós e vamos o gráfico dessa margaço aqui tá então foi isso aqui tudo que a gente tinha feito lá levar as coisas céu e nós Fizemos isso aqui para nós observar mas esses grupos nosso são realmente diferentes então três grupos ok parece um excelente solução tá então a gente tem três centros de grupos bem diferentes são bem distintos uns dos outros a gente tem uma quantidade satisfatória de casos em cada um dos grupos né tem 73/5 22 o

menor grupo tem pelo menos cinco por cento dos casos e a gente viu também É ué baseado na no aumento no incremento De heterogeneidade e três grupos seria uma solução boa inclusive o aumento de 3 unidade é máximo aqui só que nós testamos aqui também é nós vamos mostrar aqui tá no espírito de vocês é Ah eu queria chamar atenção de vocês o seguinte eu acho que no inscritos que tem para vocês eu estou dropando essa variável que eu criei esse grupo três então se tiver presta atenção no escrito foi gerado para vocês e não

executem ele coloca ele como comentário até deleta Ele daí tá porque se ele deletar a variável vocês não conseguiram fazer esse tipo de análise aqui para por exemplo que nós é que nós fizemos que nós fazemos do centro que nós damos graças então prestem atenção nessa linha aqui olha depois que nós como caráter não usa variável grupo 3 sintoma o lado para vocês não deletar em porque se deletar em precisa de vocês fazerem executarem de novo esse esse passo aqui senão vai dar errado tá Para vocês Gerarem o centro do grupo e para gerar o

braço tá então com três agrupamentos parece uma solução adequada poderia ser uma das alternativas Nossa tá mas a gente testa também com quatro agrupamentos então de novo o que é que muda aqui olha só o que muda aqui agora ao invés de três clusters and clusters ao invés de três agora eu tô falando para fazer quatro eu vou rodar também um SQN né a distância euclidiana para ficar igual em todos os lugares estou Executando agora com quatro grupos tá o mesmo nós já temos feito com três grupos e aqui agora eu estou concatenando a variável

estou né marcando com quatro grupos é onde cada um dos em devido sempre o paria Então esse primeiro no grupo 3 o segundo no grupo 1 é o primeiro segundo terceiro no grupo um Então observa em que agora nós temos a variável grupo Três e nós temos a variável grupo Quatro se você estiver executando Esse passo a passo nesse Ponto aqui tem que ter avaliar o grupo três senão você sai excluiram ali em cima e vai dar problema quando se sentarem rodar os passos abaixo tá com quatro grupos Olha o que que nós temos tá

então nós temos de novo um grupo com 5 outro com 47 outro com 22 e outro com 26 interessante porque o grupo com 5 ele continua né que nós temos com três grupos ele continua com cinco grupos bom então o que que a gente tem aqui o centro dos grupos aqui é mais difícil de Ver nós vamos ver direto né de forma gráfica o que que gerou o centro dos grupos tá Observe que nesse comando aqui olha só eu estou criando um conjunto de dados aqui e eu estou agrupando pela variável grupo 4 estou fazendo

a média para cada uma das variáveis está Estou arredondando para duas casas decimais para mostrar aqui e hora que a gente for dou o gráfico Então a gente tem o grupo 1 é o verdinho o grupo 2 o amarelo o grupo 3 o vermelho e o grupo 4 o azul Então nós temos grupos né a solução de quatro grupos nos parece também bem adequada tá então o centro dos grupos São relativamente diferentes a quantidade de casos por grupo tá adequada o menor grupo tá 15 por cento de carros aqui na nossa base e quando nós

olhamos o incremento de heterogeneidade quatro grupos é a também uma solução adequada tá a porque não usaram de três usaram de quatro o que aqui já aumenta consideravelmente tá E se nos mantivermos em quatro nós evitaremos de ter esse incremento de 18 por cento a poderia atestar a de 6 poderia então é aqui no caso tô mostrando encontrei com dores com 13 com 4 e entre três e quatro a recomendação seria para a de quatro grupos pela quantidade de caso pelo centro do grupo pelo incremento de heterogeneidade entre a uma solução de quatro grupos nos

parece ser uma boa solução tá é porque nós vemos aqui então é quatro Grupos bom então estou aqui ó o perfil com seis grupos perfil com quatro grupos é a síntese do perfil com três grupos o que nós fizemos agora para quatro grupos E acabamos fazer e o centro do grupo nós geramos e a descrição observa-se que a formação de grupos o primeiro grupo foi composto por cinco indivíduos o segundo por 47 o terceiro por 22 e o Quarto 26 indivíduos observa-se também que o centro dos formatos são substancialmente Diferentes então a escolha por três

ou quatro grupos se daria por outros fatores como a quantidade de grupos esteja já trabalharam tamanho dos grupos ou outras condições tá é como a quantidade mínima de indivíduos então nós aqui nesse exemplo optamos por quatro grupos e como esses parâmetros nas executaremos agora o procedimento de aglomeração não liberar caminho então agora nós já temos os parâmetros tá aqui também links para pro caminho tá para Outros materiais que vocês podem utilizar então aqui olha só então estou executando o algoritmo caminhos estou Invocando o caminho mas é importamos ele lá em cima eu estou passando parâmetro

tá de quatro grupos estou passando a semente a raiz então a raiz né o centro centroide é o arquivo que Nós criamos aqui em cima esse arquivo grupo Quatro aqui olha Então esse aqui é o centro que nós estamos passando pelo de parâmetro E aí já é estamos né então ajustando para as variáveis e pelas variáveis padronizadas Então estou executando estamos executando o caminho e nós geramos aqui então né a exibir separamos execução incluindo centroide utilizado Então esse aqui olha então um método caminhos os valores as variáveis iniciais para cada um dos grupos tá número

de vocês quatro e o valor inicial Então é só os parâmetros foram utilizados aí agora nós Estamos ajustando aplicando isso tá é estou Estamos fazendo predit né para as variáveis nós estamos utilizando isso aqui significa o seguinte ó quando nós executamos isso o indivíduo um ele pertence ao grupo 3 o dois ao grupo ou três alguns um o quatro ao 2 e assim sucessivamente para cada um dos grupos nós formamos tá então esse a mesma coisa do anteriormente só de uma outra forma e agora né então o que que nós estamos fazendo nós estamos criando

Uma variável no nosso arquivo e nós estamos chamando de caminhos essa variável caminho vai ter nesses valores que estão nesse Array aqui em cima né então o indivíduo ele vai ter o valor três ou dois vai ter o valor um é isso que nós estamos fazendo aqui Tá estou mostrando isso aqui na nossa arquivo então agora o nosso arquivo o que que ele tem olha só ele tem além das variáveis Nós já tínhamos tem então o grupo 3 que é o agrupamento hierárquico Com três grupos grupo 4 agrupamento hierárquico quatro grupos e o caminho que

é o agrupamento não hierárquica médias tá o caminho então no agrupamento irá com três o indivíduo pertence ao grupo 0 ou 2 ao grupo 03 algo 0 no canal no agrupamento gerar com com o indivíduo pertence ao grupo 3 o 2 a 1 e 3 a 1 e no caminho o indivíduo pertence ao grupo 3 o 2 a 1 e 3 a 1 e assim sucessivamente agora nós vamos analisar os resultados que nós geramos Tá então a gente quer saber agora o que eu tô fazendo aqui o seguinte quantos indivíduos né Eu estou imprimindo tá

eu coloquei um laço Zinho aqui para falar óleo o pôster zero tem nove indivíduos o câncer um tem 38 dois tem 26 e três tem 27 indivíduo então né é isso aqui é para ficar bonitinho Tá mas isso aqui já era a mesma coisa também ó esse print que eu fiz aqui né esse laço aqui foi só para deixar bonitinho aqui a impressão Tá mas esse comando aqui já era a mesma saída Também então é percebeu o seu melhor distribuição dos níveis pelo grupos menor group Optimus caso maior tem que ter oito no caso agora

e nós vamos gerar o gráfico de centróide final que gerou tá então nós temos o centróide Inicial Agora nós temos o centróide final e nós vamos imprimir esse centroide final para ver se os grupos são continuam substancialmente diferente sim os grupos estão né apesar de ter alguns pontos que alguns dos Grupos que parece na maioria dos pontos os grupos são substancialmente diferentes e ainda que se pareça um alguns dos pontos Praticamente em todos os outros os grupos são substancialmente diferentes Então esse é o resultado do nosso caminhos então o que que a gente tem agora

tá é e a gente vai ficar assim dos grupos que os grupos são substancialmente diferentes Nos outros está numa boa separação Tá então vamos fazer isso aqui É isso aqui é só para gente gerar essas variáveis aqui tá os custos legis Ah então tá mostrando aqui só tá utilizando acho que cruzando as variáveis x 6 com as variáveis quando a variável X6 a variável x 7 como que os indivíduos se comportam em relação a essas duas variáveis tá então as bolinhas vermelhas né são centros dos grupos um dois três quatro e os indivíduos né as

os pontinhos verdes né os pontinhos são como que os indivíduos Estão agrupados em cada um dos cânceres do segmento tá então foi isso aqui que a gente gerou com esse gráfico aqui também é aí nós geramos box-plot com as variáveis que nós utilizamos tá da variável X6 até a variável x 17 aqui nós geramos para o grupo 10 então aqui a gente tem gerando para cada um dos grupos igualmente aqui a gente tirou o comportamento das variáveis para o E aí bom então o que a gente observa Olha só Quando a gente observa né Por

exemplo do grupo tá rodando ali ainda né por sinal e não belezinha a execução ainda não bom então o que a gente observa né que por exemplo entre o grupo 0 grupo 1 as variáveis são bem diferentes né o comportamento das de todas as variáveis são bem diferentes eu não vou rodar mas eu rodei aqui para o grupo 2 tá então tem essa saída aqui para o grupo 3 a mesma coisa e o que nós observamos são Isso aqui foram as variáveis que foram utilizadas para cada um dos variáveis né mas isso aqui a gente

está descrevendo traçando o perfil dos grupos Tá mas para as variáveis que foram utilizadas é interessante e relevante mas é menos importante do que nós observar mos né outras variáveis que não foram utilizadas na segmentação se elas são efetivamente diferentes ou substancialmente diferença entre os grupos tá então aqui a gente está Gerando para o grupo 19 para a variável x 19 20 21 Então a gente tem a variável 19 para o grupo 0 para o grupo 1 para o grupo 2 e para o grupo três olha como que estão substancialmente diferentes a variável X e

a variável x 20 completamente diferente entre os grupos a variável x 21 ela é menos diferente mas ainda assim é diferente entre os grupos tá então a variável x 19 né x19 x20 x21 elas são diferentes entre os grupos e não sei se Vocês se lembram mas a gente observa o seguinte a variável x 19 é satisfação geral dos clientes a x20 recomendaria e as x 21v compraria então quando a gente olha o comportamento dos grupos em relação a estas variáveis e em relação a estas variáveis a gente observa que sim né os grupos têm

comportamentos diferentes tá fizemos também para a variável x 22 O que é essa aqui tá então também comparando os grupos também diferente aí Seus grupos É e aqui né outra forma de olhar esses gráficos mas ao invés de box plot de olharmos é gráficos de barra Olha só então a variável x 19 x20 x21 x22 Então como que ela se comporta né em relação a cada um dos grupos tá Então observa diferenças e a gente tem também as variáveis categóricas né então aqui por exemplo a gente está cruzando o tempo de relacionamento do cliente aqui

é o que é a variável x 1 com o grupo que eles pertencem tá então esse gráfico Aqui eu estou fazendo né Eu estou colocando aqui olha só é o tempo da gente tem aqui o que a gente tem os valores né então o cluster 0 1 2 3 a gente tem um indivíduo com menos de um ano seis indivíduos entre 15 anos e dois indivíduos acima de 5 anos então a gente tem aqui valores absolutos né o grupo um grupo zero ele tem uma predominância entre um e cinco anos o grupo um tem uma

predominância acima de 5 anos o grupo dois tem uma Predominância de 23 acima de menos um ano e o grupo 3 tem uma predominância também no grupo entre um e cinco anos Observe né que se eu não tivesse feito esse ajuste nesse no conteúdo dessas variáveis lá no início essas coisas iriam sair fora de ordem dificultando um pouco a nossa visualização aqui eu gerei o mesmo gráfico só que agora né eu coloquei as variáveis normalizados Ou seja eu coloquei em termos percentuais bom então quando a gente faz aqui E a informação né Teoricamente a mesma

de cima só que agora nós temos o que nós temos valores percentuais então o cluster zero ele tem sessenta e sete porcento dos clientes entre um e cinco anos o grupo 1 74 por cento dos clientes do grupo um tem acima de 5 anos oitenta e oito por cento dos clientes do grupo dois tem menos de um ano e 74 por cento dos clientes do grupo 3 tem entre 1 e 5 anos é analisando aqui agora com o tipo de É de indústria né se é revistas e jornal tão também aqui em percentual tá é

com a variável x 3 que é o porte da empresa mas já temos feito todas essas análises interpretação no spss tá por isso que eu tô passando bem rápido também tá só mostrando que a gente está reproduzido tudo que nós fizemos lá no spss também então aqui se os clientes fundamentos do Norte o fardamento do Norte Então os clientes do Grupo Zero predominantemente fora da América do Norte um Predominantemente da América do Norte dois predominantemente fora da América do Norte e o três predominantemente conhece fora da América do Norte tá quem é e com a

variável X a X5 O que é o tipo de entrega se a direta indireta ou tá aqui também os resultados foram gerados em tão aqui é o perfil dos grupos de errado resumo então aqui a interpretação que foi gerado tá Então Qual que é o perfil qualquer característica estado nos grupos então descrevendo o perfil dos grupos a interpretação dos refrigerados e por fim né Nós rodamos aqui uma nova para nós identificarmos a contribuição de cada uma das variáveis na formação dos grupos tá então basicamente foi isso que a gente sereias eu vou e o download

aqui eu só tô rodando o a nova tá para gerar Vou mandar imprimir isso aqui bonitinho também mais ou menos né para gerar aquela saída lá do SPC assim no final das contas para nós damos aquilo que a gente tava fazendo aqui é rodando ó status a nova a nova Eliene então eu rodei uma análise de variância tá uma nova para diferença de médias então nós calculamos aqui não interessa o p-valor interessa o efe então nós observamos que a variável mais relevantes para a formação dos grupos é ax17 a segunda x18 A terceira ax16 a

quarta x11 a menos importante foi a variável X 15 e a Interpretação da Tabela nova que nós geramos então aqui o que que nós fizemos nós reproduzimos integralmente o que nós havíamos produzido lá no SSS mas aqui utilizando o código né utilizando o e para nós fazermos as análises de uma forma geral chama atenção para quem quer para quem for trabalhar com isso para quem for seguir esse rumo à os métodos de agrupamento né cluster analysis Câncer nas agrupamento sedimentação é extremamente utilizado em vários Campos em vários lugares o algoritmo caminhos né é amplamente utilizado

então e nesses mundo sair de maiores empresas que vocês foram trabalhar né obviamente é o pai Thomé uma das plataformas a principal Talvez o air também muito utilizado tá então para quem pretende seguir caminho né seu nessa área esse conteúdo extremamente relevante e vale a pena vocês aprofundarem não se limitarem a Esses escritos que que nós colocamos aqui lembrando que tem outros algoritmos tem outras formas tem outros métodos de fazer aqui nós apresentamos nós colocamos vários links para vocês pesquisarem para irem atrás de outras de outras situações Tá mas é a ideia é essa aqui

então a ideia agora a gente então nós apresentamos nós discutimos né os fundamentos da análise cluster nós entendemos como que funciona nós entendemos de onde sai onde chega Utilizamos o spss para fazermos análise de cluster e reproduzimos aplicamos entendemos ao Python aplicado análise você também então é isso né Desse conteúdo até agora é a gente já tinha as aulas do período anterior gravadas mas foram mais rápidas devido às circunstâncias que foram obviamente e nós podemos podemos aprofundar bem mais é tanto né nesse tópico específico hoje como nós na própria na distância e nos outros conteúdos

que a gente está Tratando também é só isso disponível para perguntas para dúvidas Professor eu não tenho muitas perguntas mas não é referente à aula não acho que vou deixar para depois não sei se os meninos vão perguntar beleza e se perguntarem se não a gente já para a gravação E aí o professor Oi como esse script a gente não consegue é a gente faz só na visível aquele quando a gente tá pegando a Primeira parte da matéria da exploração de dados quando a gente tipo no trabalho de hoje a gente vê é só nesse

Script o score padrão né que eu usei se for o método de reagir e os outros seria pelo mesmo do mesmo jeito do Esquadrão na verdade é dá para a gente fazer é de uma forma relativamente fácil é o que quando para você calcular um corte aqui a gente brincou a gente chamou aquela função ali mas se você fizer por exemplo tá nesse vou ver se eu faço aqui Eu vou salvar tem problema não vou achar aqui ó E aí Oi ó por exemplo método do Range esse aqui por exemplo a o x dividido pela

amplitude tá esse aqui por exemplo então eu como que eu crio essa variável por que eu poderia criar nesse arquivo Nossa eu vou colocar aqui eu vou chamar o nosso Data Frame odf tá então BS eu vou criar uma variável e ela vai chamar de vamos chamar essa variável Nossa de é essa que eu vou criar aqui a o Max o Cricket o tempo de máxima tá E como que é a forma é qual que é a fórmula de padronização nessa variável Ah tá então por exemplo é Marcos amplitude nesse arquivo nosso eu vou chamar

na verdade eu vou pegar X6 eu vou pegar chispita máxima amplitude da X6 tá E eu tô criando uma nova colunas que se chama X6 Marques amplitude Ok Então como que eu vou criar essa variável ela é igual a de S o PS E aí o DF X6 o / é da máxima amplitude né ur de S o X6 o ponto mim como funciona Vamos ver eu vou passar Vergonha E aí E aí a PF. E aí E aí E aí eu acabei de criar variada tá vendo Então indivíduo um valor seria um ponto 71.6

4.84 viu como que eu calculei relaxamento sim ah ah então não precisa fazer nenhuma Transformação de jogar direto Essa é a transformação tá vendo essa é a forma da transformação então eu já peguei né eu peguei para casa eu pego o valor o X é o DF 6 dividido pelo e pelo mínimo tá vendo Então eu peguei o mínimo da variável X6 direto só para tirar uma dúvida porque foi a variável x mesmo não aqui eu dei um exemplo no caso vocês o peso e altura você vai fazer né variável peso e agora Aventura assim

tá então eu poderia fazer uma nova para Cada uma forma você pode fazer um laço igual eu tenho uns exemplos aqui abaixo né de você criar as variáveis para você não ter que fazer para aí você faz um laço que você faz para todas entendeu ah entendi ou faz algum laço para fazer para todos de uma vez mas assim caso contrário você vai fazer mesma forma sozinha para casa não entendi então Obrigado pessoal por nada ver mais perguntas a varanda gravação aqui então que aí o

AD IV - 2021-01 - Análise de Cluster - Aula 4 - Python

13512,090 Parole60m readGrade 18