E aí [Música] o Olá hoje a gente vai falar sobre classificação de dados Ah tá as tarefas de aprendizado supervisionado elas são caracterizadas por uso do registros históricos dos dados que têm resultado né esses resultados representam algum valor ali processado com base nos demais atributos né de determinados objetos que vão permitir a gente separar eles em subconjuntos tá então por exemplo a gente pode ter dado sobre cadastro de clientes né que tem Olá idade renda em tipo de financiamento pensando em dados financeiros podem de uma instituição bancária e o resultado que pode estar associado a

esses dados pode ser uma situação de adimplência inadimplência não é um bom pagador um mau pagador Ah tá então esse resultado ele pode ser importante para fazer essa caracterização dos objetos dentro de uma base de dados e ele também é conhecido aí como o atributo o alvo Ah tá e outros nomes que são Dados para ele é o rótulo de classe né então ele vai rotulá-la um determinado objeto e separar ele em subconjuntos ou ainda valor de saída Oi tá aí a gente pode usar esses dados Então esse essa rotulação para identificar Quais são os

objetos que estão são mais similares a outros e diferentes de de outros também Ah tá então é essa tarefa é conhecida como predição segundo o Dicionário Michaelis aí previsão é o ato ou efeito de predizer ou de afirmar o que se acredita que vai acontecer no futuro Ah tá dentro desse modelo a gente vai ter um objeto desconhecido Neco já cuja saída desconhecida a gente vai ter alguma forma aqui de classificá-lo em características né ou subconjuntos diferentes Ah tá a gente chama essa bola de cristal né que vai indicar para a gente quase qual classe

ou a qual o subconjunto um determinado objeto que um determinado objeto pertence de modelo preditivo tá então esse modelo preditivo ele é construído pelos algoritmos de mineração de dados e a gente vai estudar alguns deles nessa semana Ah tá então esse essa bola de cristal Vai representar esse modelo preditivo que vai permitir é fazer essa divisão em subconjuntos tá existem dois tipos de predição a classificação que a predição para quando a gente está tratando ali de classes e categorias né os subconjuntos discretos e a gente tem estimação quando a gente está lidando com valores de

saída que vão ser contínuos Ah tá então um exemplo de classificação discreta dentro do mesmo domínio definição cliente por exemplo ele pode ou não receber crédito a gente poderia ter classe sim ou não né ele aceita ou não para receber crédito e um exemplo similar para predição seria classificar qual é o valor de crédito que esse cliente poderia receber Ah tá então na tarefa de estimação é tem alguns algoritmos ou técnicas que são mais usadas uma delas é a regressão linear pode ser linear ou polinomial e as redes neurais artificiais também são usadas para dar

como saída e valores contidos tá o foco dessa aula vai ser mais em classificação aí a classificação então ela vai pegar um conjunto de valores objetos na dentro de um conjunto de dados e vai dividir em subconjuntos de acordo com as suas características similares tá uma divisão discreta Ah tá Quais são as etapas então de construção desse modelo preditivo tá essas etapas são treinamento e teste tá no treinamento é que vai o aquele algoritmo vai treinar para fazer a criação do modelo Entre esses dados vão ser executados esse modelo vai ser criado usando como informação

aí os dados rotulados tá E durante o teste a gente vai verificar se esse modelo criado É adequado ou não para fazer aquela tarefa de classificação tá E aí é usa assim tão dados que não foram usados no treinamento para conseguir ver se essa pressão está sendo satisfatória ou não Ah tá então a gente tem geralmente um conjunto de dados em que para o treinamento é separado uma quantidade de maior desses objetos disponíveis né e os dados de teste então fica com ficam com o restante que não foi usado durante o treinamento Ah tá quando

a gente classifica objetos a gente está sujeito a cometer erros também né o algoritmo ele pode errar algumas classificações e colocar objetos de uma que deveriam estar numa classe em outra da os principais erros que acontecem são o erro de representação também conhecido como é feito o Buzz tal baias aí que significa viés do inglês tá é esse erro geralmente acontece quando a gente tem todos os dados possíveis aí para fazer o treinamento construção do modelo disponíveis lá mais o modelo o resultado do modelo é inadequado isso pode acontecer ou porque o algoritmo está sendo

usado para fazer a classificação não é muito adequado para essa tarefa E aí a gente pode tentar usar o algoritmo o ou ainda porque precisa fazer algum ajuste naquele algoritmo para que ele tem o melhor desempenho o erro de generalização é também conhecido como variância tá E na variância é somente uma das amostras é uma pequena mostra ali daqueles lados tá disponível Então pode acontecer aqui durante o treinamento os aqueles dados disponíveis não são suficientes para representar mais objetos daquela classe Então pode acontecer um problema de sobre a generalização Ah tá então aqui nesse gráfico

eu tô mostrando a linha verde aqui tá representando o que seria um bom ajuste entre baias e variância tá então os dados eles estão representados aqui por esses pontos em laranja e a gente pode ver que a curva Verde ela ela não é muito precisa não tá exatamente em cima dos pontos dos dados mas ela acompanha bem o a curva né desses dados tá então esse seria um um bom modelo de Treinamento teria um resultado como esse de saída tá já os dados que tem o problema de rude by as geralmente modelo não está ajustado

então a o resultado gerado é completamente diferente ali do dos dados né bom e quando esses dados eles estão com algum problema de sobregeneralização eles podem estar ajustados demais ao conjunto de treinamento né Então essa curva amarela a Quina mostra essa linha amarela mostra aqui os dados estão extremamente ajustados aqui né o modelo E aí quando você for fazer o teste ousar fazer a pressão de dados diferentes isso pode dar um resultado diferente do esperado tá porque eles estão com estão muito adequados ali para o treinamento tá esse a representação não é boa e isso

pode aparecer de uma forma diferente quando você vai usar dados de teste Will outros dados que não foram treinados Ah tá então existe esse dilema entre o bairro EA variância aí o que a gente busca é um equilíbrio entre esses dois para ter um modelo que consiga classificar bem então para fazer esse esse processo de treinamento e teste tentar ajustar Esse é o Buzz ele tá muito os erros e baias em variância a gente usa a validação cruzada a gente vai falar mais um pouquinho daqui para frente tá é e a um critério de parada

que é adotado para evitar esse dilema né que é você é treinar aquele conjunto de dados várias vezes e quando o erro começa a crescer constantemente consecutivamente você para de treinar o modelo e aí você tem uma chance maior de ter um modelo bem ajustado Ah tá é Existem algumas etapas aí são feitas durante a predição de dados é o processo de pressão de dados o pré-processamento que a gente já tratou em aulas anteriores então a gente começa a fazendo aqui a separação entre treinamento e teste tá bom então na separação entre treinamento e teste

a gente vai pode usar critérios diferentes um critério É pode ser um critério pessoal ali do analista que decide por exemplo dividir metade ou pegar só os objetos Paris ou os ímpares não critério personalizado mas a validação cruzada é um critério bastante adotado na área e que tenta equilibrar o conjunto né o modelo de Treinamento com base de dados no conjunto disponível Ah tá então na validação cruzada o particionamento ele é sistemático ele é feito de uma maneira que pode ser reproduzida e ele tenta então fazer essa redução na variabilidade dos dados tá todos os

dados acabam sendo usados tanto para treinamento quanto para teste em momentos diferentes tá e a validação cruzada usam uma característica que a gente chama de cá pastas é o que que essa validação cruzada capaz a gente determina uma divisão dos dados né Por exemplo k pode assumir o valor de 10 então a gente teria 10 pastas O quê que significa isso a gente pega esse conjunto de dados dividida em dez partes e usa uma parte de cada vez no treinamento de forma interativa então a gente treinar primeiro com uma das partes e com as outras

partes seguinte e a gente usa noventa porcento por exemplo nesse caso dos dados para treinamento e 10 por cento para teste vai alternando isso até usar a última parte para teste também então dessa forma você roda várias vezes o algoritmo para tentar achar um equilíbrio do modelo ali com o uso de todos os dados Ah tá é além de você poder dividir em pastas você pode resetar esse algoritmo n vezes na quanto quantas vezes necessárias eu comum é se utilizar por exemplo 10 e interações do capaz tá rodar ele 10 vezes Então na verdade você

se você rodar uma vez você vai ter dez interações você rodar 10 vezes você vai ter sem interações para um k = 10 um outro critério Que costuma ser usado quando a base de dados tem poucos objetos é o chamado leave-one-out tá o deixaram de fora nesse caso apenas um dos objetos é deixado para teste o restante é usado para treinamento tá então aí o número de interações que vai acontecer é o número de objetos que existe na base Oi tá uma vez feito então esse processo de divisão dos dados é que a gente vai

de fato fazer o treinamento e teste tá E no treinamento e teste é etapa de execução na a gente vai rodar diversos algoritmos até achar um algoritmo adequado pode acontecer de primeira ou não a e a gente vai fazer muitas vezes ajustes nos parâmetros desse algoritmo que a gente escolheu para tentar achar um diminuir o erro e consecutivamente aumentar a taxa de acerto de classificação Ah tá e depois que a gente ajustou achou esse modelo né chegou no modelo ali que a gente executou a gente vai verificar se esse modelo de fato tem um bom

resultado não avaliando a saída da classificação dos Testes estado os dados de teste bom então na avaliação de saída é a gente vai fazer a verificação de acertos e erros é com base nos rótulos que existem já para os dados de teste tá então a gente usa esse resultado conhecido para verificar qual é o desempenho do classificador tá então a gente tem algumas medidas de desempenho diferente mas todas elas usam essa informação de Quais foram os objetos classificados corretamente ou incorretamente é usa acertos e erros eles podem ter pesos distintos O que que significa dependendo

é de classificação é classificada uma forma pode ser mais importante do que a outra é imagina um caso em que você vai dar crédito para uma pessoa com base no histórico dela o banco pode considerar que dar crédito para uma pessoa inadimplente pode ser perigoso Então nesse caso essa classe teria uma importância maior do que a outra tá Além disso o número de classes pode variar a gente pode ter dados que tem duas classes dados binários ou dados com multiclasses também Ah tá uma forma de a gente visualizar e sintetizar os valores de erro e

acerto são a matriz de confusão tá então a matriz de confusão ela tem aqui nas linhas a classe original e para esse caso binário né dois valores e classe aqui positivo ou negativo e aqui nas colunas a gente tem as classes preditas tá então também é divididas nas mesmas classes da E aí o valor dos verdadeiros positivos na os valores positivos classificados corretamente ficam aqui a esquerda em cima os valores falsos negativos na classificados como falso-negativos ficam ao lado aqui então são casos que que deveriam ser classificados como negativos mais foram considerados positivos tá aí

o mesmo aqui para os valores falso-positivos a cadeira os negativos tá um exemplo aqui para ilustrar seria classificação de e-mails tá Então imagina que a ideia é classificar emails Como spam ou e-mail os normais tá então um verdadeiro positivo seria um spam classificado Como spam nesse caso a classe mais importante é o spam a positiva o verdadeiro negativo seria que uma mensagem normal classificada como normal tá então esse é o negativo verdadeiro ou falso positivo seria classificar uma mensagem normal Como spam e o falso negativo neste caso seria classificar um spam Como um e-mail normal

Ah tá temos Então as medidas de desempenho não é uma das mais básicas usadas é a taxa de verdadeiros positivos daí que a gente pega aqueles valores da Matriz de confusão e obtém aqui o percentual de objetos positivos que foram classificados corretamente Ah tá tem a taxa de falsos positivos também tá então aqui a gente vai pegar os objetos o percentual dos objetos que foram negativos foram classificados de forma errada Ah tá além disso a gente tem também a medida de acurácia acurácia ela já vai olhar de uma forma global para todos os objetos e

aí o objetivo é saber quais objetos Independente de positivo ou negativo foram classificados de forma correta Oi e o erro vai ser o inverso então da acurácia na curar você tem valores ali entre 0 e 1 então um menos esse valor vai dar Qual é a taxa de erro do nosso classificador o e temos também algumas medidas que são baseadas na relevância da classificação da relevância ela tem a ver com o quanto dos valores positivos na de uma forma geral foram classificados corretamente então um desses valores é uma dessas medidas é a precisão tá então

a precisão ela vai dizer qual é o percentual de objetos relevantes que foram recuperados com a revogação por sua vez ela vai é da taxa de recuperação ali dos objetos relevantes tá então a recuperação é equivalente a mesma fórmula da taxa de verdadeiros positivos Oi tá aí a medida é fiel wescor ela vai ser ela vai dar uma medida ali de Equilíbrio entre precisão e revocação tá então essas medidas são muito usadas para avaliar avaliar né ali o qual o desempenho do classificador e ver se ele está satisfatório ou se ele vai precisar ser executado

Tá bom então esse é o conteúdo da aula de hoje é obrigado e até a próxima a [Música] [Música] E aí

Mineração de Dados - Classificação de dados