olá pessoal então esse é o segundo vídeo ensinando a mexer em algumas coisas do r e nesse vídeo eu vou ensinar para você como codificar variáveis no r como eu expliquei pra vocês um vídeo anterior werre entende quando a gente exporta variáveis categóricas como palavras e isso é muito bom que poupam certo tempo mas se você exportar essas variáveis categóricas como números você vai precisar fazer toda uma codificação dentro do então o que a gente vai aprender nessa aula eu vou te explicar como configurar variáveis categóricas nominais como configurar variáveis categóricas ordinais então como explicar
para r que existe uma ordem entre as categorias como rotular as categorias para você não ficar trabalhando com números e cinco palavras e como codificar os miis impérios como codificar os valorizam o simples vamos lá pra te explicar isso eu vou usar esse banco de dados que é exatamente o mesmo que foi usado na anterior só que as coisas estão codificadas e até deixei aqui uma aba com a legenda para a gente não esquecer mas basicamente o que o gênero o masculino está codificado como 10 feminino comum e o grau de instrução também está codificado
sendo que 0 representa ensino fundamental e no ensino médio e do ensino superior então meu primeiro passo aqui vai ser salvar esse arquivo como o csv com um arquivo separado por vírgula que é a mesma coisa que a gente fez na anterior então se fica alguma dúvida lata mais detalhado mas então o que eu vou fazer vai ser salvar aqui como eu saiba tudo na área de trabalho é importante saber qual é o local a pasta na qual você está salvando vou salvar aqui como banco de dados da scot ficado para a csn ele vai
dar esse esse aviso nesse caso porque tem mais de uma toninha ele dizer que só uma planilha exportada process veio de fato não foi só essa primeira que é o que vou ficar aqui em ok e pronto bom então o que eu fiz agora foi abrir um script que eu já deixei pronto esse script vai estar disponível para download aqui na descrição do vídeo é e lembrando que tudo está em verde aqui nesse código é comentário quer dizer é um código que não vai ser rodado eu defino que é comentário colocando um sus perído hashtag
na frente e isso vai não é estúdio fica verdinho pra ficar claro para a gente o que é comentário que não é se não tivesse suspendido a um código que vai ser rodado a primeira parte da do processo é carregar os pacotes nesse caso a gente vai precisar carregar um único pacote que vai ser usado que é o pacote de coelheiros então aqui eu coloquei o código que eu expliquei melhor na anterior mas que é para tentar carregar esse pacote e caso ele não esteja disponível instalar esse pacote a instalação de pacotes gente faz uma
única vez na vida no meu caso ele já está instalado no computador no entanto ele precisa ser carregado toda vez que o estúdio aberto então eu vou aqui rodar esse código o meu cão no meu caso ele não vai instalar porque o pacote já está instalado e o que ele vai fazer é carregar o pacote no teu caso se ele não tivesse instalado esse código é a fazer a instalação e aí você precisaria carregar o pacote por isso que eu já deixei esse outro código aqui que é o de carregar o pacote pode ver que
no meu caso nada mudou aqui embaixo ele não fez nada porque o pacote já estava carregado com código anterior já carregou depois disso eu vou abrir um banco de dados o primeiro passo aqui vai ser selecionar o diretório de trabalho e só expliquei melhor também na anterior mas basicamente eu preciso dizer o erre qual é a pasta na qual eu estou trabalhando porque toda vez que eu pedi para ele carregar um banco de dados onde salvar alguma coisa ele vai usar essa basta que está estabelecido como passo de trabalho é aqui eu gosto mais usar
a opção manual então eu venho aqui em sasha 7 working da elektro e e coloco aqui o tios da eléctrica então aqui eu estabeleci que eu quero que o diretório de trabalho seja a minha área de trabalho que jael está selecionar aplicar com roupa e pronto se você preferir fazer isso usando um código você tem que usar essa função aqui chama 7w de que vem de estabelecer nessas sete working daer e você vai ter que colocar qual é o caminho então no meu caso como a área de trabalho desktop isso aqui é o c2 pontos
barril zeu estava fenam é como meu computador me chama barra desktop bom desenho um pouco mais a gente vai para o segundo passo que é carregar de fato banco de dados e estabelecer qual é o seu diretório de trabalho é importante antes de carregar o banco de dados está eu vou explicar um pouco melhor agora então o que eu vou fazer é carregar agora aquele banco de dados que a gente salvou como csb que estava foi de ficar lembra que o chamei de banco de dados do ilas codificado então eu vou carregar esse pacote e
outro r dar pra esse pacote nome de dados essa certinha e que nada mais é que um sinal de menor com um traço ela está dizendo que o que quer que aconteça aqui vai ser armazenada no rn sob o nome de dados então e depois dá certo que eu estou pedindo pra acontecer é pra ler o arquivo csv então o que eu tenho aqui é estou pedindo pra ler se aquilo e pedindo pra ler o aquilo que chama banco de dados dois co disse ficado com o csv esse é o nome completo do meu arquivo
se eu for uma vida diferente uma letra diferente pt está diferente aqui é outra coisa é que como já estabelece qual é o diretório de trabalho e esse banco de dados está a salvo nessa basta que eu estabeleci como diretório de trabalho que no meu caso é a área de trabalho eu não preciso escrever o caminho completo eu posso só escrever o nome do arquivo caso contrário eu precisaria colocar essa informação aqui na frente então teria que ser o ide csv e aí eu ficaria mais ou menos assim ó barra deste top se eu fizer
assim vai funcionar mas como já estabelecia o diretório de trabalho não preciso disso eu vou apagar esse pedaço aqui que o código ficar mais sucinto outra coisa muito importante é dizer para r qual é o separador e qual é o desse mal então como a gente está no brasil a gente usa o separador desse mal como vírgula então estou dizendo aqui que desce o de sinal é regular também eu tenho aqui uma vírgula entre as casas e eu estou dizendo que o separador de colunas que o cs de usê ponto vírgula deixam recurso dissesse vez
salvos no brasil ele não separa as colunas por vírgula por vírgula já é uma coisa que a gente usa nos números né então ele separa essas colunas por ponto-evírgula é isso que estou dizendo então se rodar essa linha eo roda linhas apertando contra o enter se eu vou dar essa linha ele vai rodar esse banco de dados veja que ele é daqui no console parece que nada aconteceu mas aqui já parece que eu tenho um banco de dados dados que tem 30 observações 30 sujeito e sete variáveis outra coisa que eu gosto muito de olhar
pra cara do banco de dados eu acho que isso é uma coisa que vem do da minha e do meu hábito de usar é essenciais e excel então uma função que eu gosto muito essa viu com letra maiúscula e aí eu coloco entre parênteses dados porque eu quero ver aquele banco de dados que eu acabei de carregar eu vou dar aqui um contra o enter e eliabe que uma nova aba com o banco de dados então vejo que ele já identificou o nome das variáveis que era a primeira linha do meu banco de dados e
ele já identificou os valores inclusive aqui no salário ele já trocou a vírgula por ponto porque o r1 programa com zero ponto como separador desse mal a outra função que eu gosto muito e que nesse caso ela vai ser muito importante para nos ajudar essa função grint se dados essa função tão veja aqui no console que apareceu essa função então ela me diz quantas observações existem 30 quantas variáveis 7 e ela me diz quais são as variáveis do banco de dados mostra que os primeiros números os primeiros valores não necessariamente números e o que vai
ser muito importante pra gente aqui é essa informação que ela dá que é qual é o tipo de variável então veja que aqui ela identificou que todas as seis primeiras variáveis são do mesmo tipo o tipo int e sinti vende íntegra que seria o inteiro e de fato quando a gente olha são números inteiros então é está entendendo como números inteiros o problema é que tanto o gênero quanto grau de instrução não são variáveis numéricas eles são variáveis categóricas certo o gênero é uma variável categórica nominal mais especificamente de econômica porque eu só tenho nesse
caso duas categorias eo grau de instrução é uma variável categórica ordinal porque tenho categorias existe uma ordem entre elas então o que eu preciso fazer contato r que essas variáveis na verdade não são números inteiros elas são fatores é que quando eu coloquei no banco de dados eu coloquei como o número certo então é isso que a nossa missão dessa aula com taís web veja que o salário não foi identificado como inti e sim como de br esse br é uma sigla para a globo então quer dizer que o rn ficou isso como um número
com casas decimais na verdade com duas casas de precisão daí que vem o dom então o que a gente vai fazer é contar para o rn gênero e grau de instrução na verdade não são variáveis numéricas e sim variáveis categóricas fatores então vamos lá ajustar as variáveis a primeira coisa que a gente vai fazer é ajustar a variável gênero transformar em fator pra fazer isso então como que a gente faz eu vou rescrever aqui pra explica mas quando eu quero pegar a variável gênero como ela é uma variável que está dentro do banco de dados
que eu chamei de dados eu vou dizer dados e aí eu uso cifrão para pegar as variáveis que estão dentro dele então veja que ele até já abre as opções e no caso que era engenheiro e aí eu quero que essa variável gênero seja modificada então eu vou colocar essa setinha para dizer que eu vou modificar essa variável vou fazer uma modificação que vai refletir nela mesmo e o que pra dizer pro r que essa variável na verdade é um fator a gente usa essa essa função factor certo e aí eu vou dizer o que
o que afinal é um fator o gênero que está dentro do banco de dados dados então dados gênero outra coisa que a gente precisa fornecer a ele se a gente quiser mas eu recomendo que a gente sempre faça é qual é o rótulo das categorias então eu vou falar pra ele que a categoria 0 chama m ea categoria 1 chamará f10 e poderia deixar chamando ainda série 1 mas fica muito mais confuso então assim como a gente faz não a spss contando que o cérebro em um f a gente consegue contar aqui esse rótulo então
a gente programa como lei bom então leigo ou de leigos desculpa de rótulo aliás ótico era sem o s label e aí aqui a gente coloca uns e esses é quando a gente quer adicionar mais uma informação é de concatenar se não me engano e aí é que eu vou dizer que um dos rótulos é o n e o outro rótulo é o f tudo em entre aspas ea outra coisa que a gente pode colocar aqui é quais são os níveis o levo sons e aí eu vou dizer que os níveis aqui são 10 e
11 isso vai ser importante também porque agora quando eu vou dar essa linha ele vai entender que esse primeiro ataque corresponde a 0 e que e segundo corresponde a algo então se você tiver trocar a ordem essa parte do código vai te ajudar a pagar essa linha que debaixo quero a minha cola e vamos rodar então se eu vou dar aqui nada vai acontecer parece que nada mudou certo ele só rodou mas quando a gente olha aqui o banco de dados na aba dados veja que agora o gênero já foi trocado por r efe esse
agente rodar de novo essa função glimpse veja aqui em baixo que agora o gênero ele já identifica como fct que vende factor então ele já entende que o gênero é um fator para concluir a gente precisa dizer que leve também que o grau de instrução é um fator então pode novo fazer o que eu fiz ali está não sei se ao mais didático mas eu acho que ficou legal que eu vou ficar digitando explicando isso aqui fica só como minha o meu código minha cola então eu vou falar pra ele pegue dentro do banco de
dados dados a variável que chama de aula de instrução inclusive aqui eu coloquei esse dia mas não ela o mais recomendado tal ideal seria não ter esses caracteres especiais e aí o que eu sei o que estou dizendo é que eu quero que ele modifique essa variável e mexa em cima da própria variável então eu vou dizer transforme isso em fator transformar quem fator a que era dados grau de instrução que mais eu quero voltar aqui eu ficando em terceiro pra ficar tudo na mesma tela eu quero colocar rótulos nessas variáveis quais são os rótulos
que eu vou usar vou dizer que uma delas ensino fundamental a outra o ensino médio até escrever aqui sem acento que é melhor ea outra ensino superior além disso poder para ele quais são os níveis então no meu caso eu tinha começado do zero terminado 2 então vou dizer pra ele olha os níveis vão do zero até o 2 eu poderia aqui fazer assim c zero com 12 da mesma mas se a gente fizer assim 012 pontos 2 fica mais rápido principalmente quanto mais uma vez que você tiver então se você tiver 10 é muito
mais fácil fazer assim aí por fim e agora vem a parte mais importante explicar pro r que essa é uma variável que é original então como que a gente fala para ele isso a gente fala tá vendo esses níveis que eu ordenei 10 até o 2 essa é a ordem então eu vou colocar aqui order igual a ter que seria a ordenação igual a 4 é verdadeiro ou seja existe ordem entre essas categorias como que o pr vai saber qual é a ordem então você que vai estabelecer quando você coloca aquino levers se você tivesse
colocado é é uma ordem diferente aqui então sei lá 120 ele é considerar essa ordem que você colocou então ordem e crouch entrou tão dizendo que é uma variável ordinal vai pagar aqui minha cola e vou rodar o código que a gente acabou de escrever tão contra o inter também de novo parece que nada aconteceu mas a gente vê aqui na dados agora ele já rotulou então eu tenho aqui superior fundamental e médio e ainda se eu rodar aquele código green se vai ter que ter mudado e mudou veja que não só ele chama de
factor como ele colocou aqui ele não chamou nem de factor ele já colocou que é uma variável ordinal ele chamou aqui de o rdd d não então pronto está codificado e por fim é é uma qualificação que nem é importante para esse exemplo de bancos de dados mas eu sei que muitas pessoas usam isso tem esse problema que é pra dados ausentes uma coisa importante a gente tem a mania de deixar dados ausentes como vazio no geral r vai entender que esse dado ausente é ausente e se ele entender isso ele vai chamar dna que
é o dado ausente pra ele por outro lado muita gente recomenda que por segurança você não deixa espaços vazios você coloque um valor que não faz sentido que não existe nenhuma outra célula no seu banco de dados para substituir os valores ausentes um exemplo é as pessoas configurarem dados ausentes como - 999 então é um jeito padrão desse codificar alguns valores ausentes os miis em velhos o que a gente faz aqui é dizer pro pr que no nardela dentro da planilha de dados todos os dados que forem igual também que tem dois iguais aqui isso
é importante está então caso os dados sejam igual a menos 9 99 considere isso como sendo n ha ou seja como sendo um valor ausente vou dar aqui nós bancos de dados não vai fazer muita diferença então você vai ver aqui que nada mudou porque a gente não tinha nenhum valor - 99 nome a gente também não tem nenhum valor ausente mas caso você tivesse que resolver o seu problema era isso que eu tinha para dizer pra você nessa aula espero que ela tenha sido útil espero que apesar dos muitos códigos você esteja conseguindo acompanhar
de contas está tranqüilo não é igual aproveitar a pedir se você curte o conteúdo por favor curtos vídeos se inscreva no canal isso é super importante para valorizar o trabalho e além disso eu também tô postou o conteúdo no instagram então me segue por lá rob estatística aplicada vou ficar bem feliz até a próxima