o olá essa é uma aula para eu te explicar como fazer análises descritivas do erre já vou adiantar que essa não é uma aula para gente falar sobre gráficos eu vou falar sobre gráficos em vídeos separados mas nessa aula eu vou te explicar como fazer tabelas de frequências frequências absolutas e frequências relativas ou seja em porcentagem e eu vou te ensinar a fazer essas tabelas de frequência tanto para variáveis categóricas quanto para variáveis numéricas então criando no caso das américas faixas de valores além disso vou te explicar como obter as medidas de tendência central então média mediana moda e também os cortes e as medidas de dispersão como desvio padrão e ea amplitude interquartil trabalháveis numéricas vamos lá tá bom então para te explicar tudo isso eu vou usar esse script que tá disponível para download na descrição do vídeo juntamente com o banco de dados que vai ser utilizado a primeira parte vai ser a gente carregar os pacotes que vão ser utilizados aqui é um código para caso o pacote não esteja instalado no seu computador eles terem instalado e caso ele já esteja instalado o r só vai carregar eu expliquei isso com detalhes em aulas anteriores então aqui a gente vai mais rapidinho então o primeiro passo vai ser rodar esses códigos que vão carregar e ou instalar os pacotes de player spike que serão utilizados e pronto aí terminou de rodar sei disso porque ficou aqui há sinal de maior e agora vamos pra parte de carregar o banco de dados que vai ser utilizada o primeiro passo vai ser selecionar o diretório de trabalho intervirá teens fashion set working directory to this directory e vou estabelecer que eu quero aqui a área de trabalho que já estava selecionado ou per pronto então eu vou carregar o banco de dados aqui eu quero te explicar porque eu achei legal te dar uma alternativa é diferente da que eu tenho usado até esse momento então se você assistiu os vídeos anteriores e aliar-se não assistiu o recomendo que você assista eu estava carregando os bancos de dados sempre no formato csv usando a função reagir ponto csv e aí a gente coloca o nome do banco de dados nesse caso aí chama banco de dados dois e e são a gente estava colocando sempre também quente separador era o separador de colunas era o ponto vírgula e o separador de decimais avícola e eu te expliquei que isso é muito importante porque se a gente não colocar essas informações o padrão o de fou da leitura do csb considerar vírgula como separador de coluna e ponto como separador decimal o quê pra gente que tá trabalhando aqui no brasil com arquivos salvos considerando o português isso não ia funcionar e eu e tá certo esse é um jeito de carregar o banco de dados fazendo como a gente fez nas vezes anteriores vai dar que um contra eu entro veja que ele carregou o banco de dados é que já apareceu que eu tenho 30 observações de sete variáveis e no entanto existe uma outra opção que eu achei legal colocar aqui também para você que é usar não a função rede ponto csv mas a função redes sv2 é nessa função read csv dois ela já tem como padrão que o separador é o ponto vírgula e o separador decimal é a vírgula então eu não preciso dar todas aquelas informações que eu dava usando a função read. csv eu vou até rodar ela aqui para você ver que então a gente vai ficar com o banco de dados rodado por ela e você vai ver que ele vai funcionar normalmente porque ela já considera que separador de colunas é o ponto vírgula eu de decimal é a vírgula então esse pouco aí uns centímetros de código tô descendo um pouco que a gente vai fazer aqui é usar duas funções para visualização do banco de dados então um pouco das duas tanto a função viu que abre o banco de dados numa água separada conta a função glimpse que me dá o nome de todas as variáveis e qual é o tipo de variável então vou dar aqui contra o inter eu vejo aquele abre uma nova aba que é o aba dados eu tenho aqui uma planilha bem parecida com uma planilha de excel tô com o nome das variáveis e a e todas as variáveis para cada sujeito o valor de variável para cada sujeito e a função glimpse abriu aqui no console a lista de variáveis além de colocar aqui quais são os primeiros valores todos em linhas e identificar qual é o tipo de variável se é uma integrar que ela inteiro fct que é factor fatores e o ddl quer double para números com vírgula olá tudo está explicado com muito mais detalhes nas aulas anteriores então eu vou continuar aqui para fazer análise descritiva o primeiro passo vai ser fazer tabelas de frequências para variáveis categóricas veja que nesse banco de dados a gente tem duas variáveis categóricas o gênero que aí eu só tenho duas categorias m ou s e o grau de instrução que nesse caso só tenho três categorias que estão ensino fundamental ensino médio e ensino superior é para fazer uma tabela simples de frequência absoluta a gente usa uma função nativa do erre que é função table né de tabela em inglês então a gente usa aqui table e a gente coloca aqui dentro do parênteses qual é a variável que a gente tem que ser incluída na tabela nesse caso aqui eu vou colocar que eu quero o gene e lembrando que como gênero é uma variável que tá dentro do banco de dados que eu nomeei como dados eu vou chamar de dados cifrão gênero porque ele vai buscar a variável gênero dentro de dados para pagar que me a cola e por rodar esse código bom então veja que ele liberou aqui uma micro tabela né com os dois gêneros fm e ele me deu aqui que eu tenho 15 sujeitos em cada uma das categorias já é vou fazer a mesma coisa só que a invejo gênero eu vou usar aqui o grau de instrução então veja que eu escrevi o código idêntico a diferença foi que no lugar de gênero escrevi grau de instrução aliás é importantíssimo escrever o nome da variável exatamente como tá no banco de dados e inclusive não recomendo que você faça o que eu fiz porque aqui eu estou usando com c cedilha o ideal seria não usar nenhum caractere especial porque isso pode dar conflito dependendo de qual o computador você abre como vocês aula bom então vou rodar esse código aqui veja que agora ele deu uma tabela de frequências me dizendo que eu tenho seis indivíduos no ensino fundamental 10 no ensino médio e 14 no ensino superior para ficar mais interessante a gente consegue também fazer uma tabela cruzada uma tabela de referências cruzadas que que seria uma tabela cruzada seria uma tabela que eu considero e simultaneamente duas variáveis como é que vai definir as colunas e outra que vai definir as linhas se a gente rodar esse código então como que a gente faria na tabela de referências cruzadas a gente faria table e aí eu colocaria aqui as duas variáveis separadas por vírgula então dados cifrão o gênero e dados cifrão grau de instrução set ou vou apagar aqui mas fica igualzinho né e aí a gente roda esse código então veja aqui agora ele criou uma tabela que é 3 x 2 né então aqui eu tenho o gênero e eu tenho os graus de instrução então por exemplo eu sei que 7 pessoas o que são do gênero feminino tenha até ensino médio seis pessoas que são do gênero feminino tem até ensino superior quatro pessoas que são do gênero masculino tem até ensino fundamental então eu crio essa tabela que chama referência cruzada tô colocando mais de uma variável para montar a tabela de sendo um pouco a gente tem também como fazer tabelas para frequências relativas então agora não tô mais falando de frequência absoluta não é a parte dos casos a gente não re porta só frequência absoluta porque ela não quer dizer muita coisa mais importante é mesmo a gente é usar a frequência relativa porcentagem e para fazer uma tabela de frequência relativa o que que a gente tem que fazer a gente tem que usar a função próprio ponto table e aí dentro dessa função a gente vai colocar não a variável mas sim a tabela da variável então lembra que é que a gente fez na tabela do gênero como table dados cifrão gênero eu vou copiar isso e vou colocar isso dentro da função para obter bow e aí se a gente rodar isso se eu der aqui encontrou enter ele vai me fornecer uma tabela de frequências que não tá aqui mais com os valores absolutos ele nunca mais me dizendo que eu tenho 15 fc-15 em ele tá me dando aqui um valor ponto 5 portanto cinquenta por cento das pessoas estão na categoria f e cinquenta por cento na categoria m ok e é fiz a mesma coisa para o grau de instrução veja que o código está idêntico só trocou gênero por grau de instrução então veja que se eu rodar essa linha aqui eu tenho agora e sim porcentagem então de todos os indivíduos incluídos na amostra vinte por cento estão tem até ensino fundamental 33,3 por cento tem até ensino médio e 46,6 por cento da minha mostra tem ensino superior além disso a gente pode pedir essa tabela de frequência relativa para aquela tabela cruzada que a gente tinha feito anteriormente então a gente perde da mesma forma aqui ó ficou muito taylor e aqui entre parêntesis a gente insere essa tabela aqui que era a incluindo dados é desculpa incluindo tanto gênero quanto o grau de instrução então vou colar aqui que a gente dá um contra o inter ver e pronto agora uma tabela cruzada entre gênero e grau de instrução só que ele não tá mais me dando a frequência absoluta ele tá dando uma frequência relativa vale dizer que ele tá dando aqui uma frequência relativa considerando os cem porcento a amostra toda e dependendo do software que meus eu uso ele te dá uma tabela muito mais elaborada né daí na porcentagem por exemplo por linha ou por coluna aquele está considerando os cem porcento como sendo toda a mostra sua mente todas as células mas há uma tabela que já quebra o galho é desse um pouco mais aqui no script a gente tem como fazer tabelas de frequências para variáveis quantitativas quando a variável quantitativa discreta como a gente tem no caso desse banco de dados o número de filhos a gente faz o mesmo jeito que a gente fez para variáveis categóricas por quê que é uma variável com quantidades fica uma com poucas quantidades diferentes de filhos então tudo bem cara quantidade pode ser uma coluna eu vou dar que um contra o inter para a gente ver como fica então eu fiz aqui uma table dados para nd filhos bom então veja aqui 15 pessoas têm zero filhos 716 pessoas têm dois filhos ou uma pessoa tem três filhos de uma pessoa tem quatro filhos e se eu quiser pedir a tabela de frequência relativa é só usar que ele próprio table e colocar é esse código dentro da função proteína é isso que eu fiz então vou colocar aqui se eu der control en síria pediu aqui agora ele me dá aí sim porcentagem então cinquenta por cento das pessoas não têm filhos 23,3 por cento tem um filho só vinte por cento tem dois três por cento tem três filhos e três por cento tem quatro filhos é mas quando a gente trabalha como a variável continuar não uma variável discreta aí fica um pouco mais difícil a gente montar tabelas de frequências o que a gente tem que fazer antes de fazer uma tabela de frequência que uma variável continuar é pensar em faixas então nesse caso aí nesse banco de dados vou até voltar aqui a gente tem uma variável que é o salário o salário ele tem até valores quebrados então seria a quantidade de salários mínimos que uma pessoa recebe então veja que uma pessoa pode receber qualquer valor ele pode ser valores quebrados tanto é que eu tenho aqui 2e 22e 35 2,72 de 90 como eu tenho várias opções eu tenho várias opções dentro de um intervalo não dá para a gente simplesmente criar uma tabela de frequências de um jeito que o a série é considere cada valores diferentes como uma categoria o que a gente tem que fazer nesse caso é criar faixas de valores para que essas faixas de valores uma das coisas importantes para gente fazer é analisar a amplitude do da variável que a gente está trabalhando então nesse caso como a gente está trabalhando com salário a gente vai primeiro analisar a amplitude qual é o menor valor do salário do banco qual é o maior valor do salário do banco para pegar amplitude de um valor e a gente usa essa função que a range range vende amplitude mesmo oi e aí eu quero uma atitude do salário então eu quero é um que pude da variável salário que tá dentro do banco de dados dados então fica assim dados cifrão salário o rodar esse corte deixa aquele me disse aqui que o menor valor do salário é um e o maior valor do salário é 5. 8 salários nessa minha mostra e é uma outra coisa que a gente pode fazer é pensar então você começa em um e vai até 5.
8 posso dizer para começar em um ou passa ainda dizer para começarem zero tudo bem poderia querer até mais sentido para a tabela começarem zero e aí o que eu preciso saber onde começar e onde acabar nesse caso vamos supor que eu vou começar a 0 e se vai atrás 5. 8 eu posso colocar que limite máximo de salários que vão ser representados na tabela vai ser seis faz sentido né pensando que o máximo as 5. 8 e aí o que eu preciso saber em quantas faixas eu vou dividir esse intervalo de 0 até 6 salários e é você pode fazer a quantidade de faixas que você quiser mas existe existem formas de se calcular a quantidade adequada de categorias de faixas uma dessas formas é esse método studies eu não sei muito bem como fala mas que para isso para saber quantas categorias a gente usa essa função que é a n class ponto starts e aí a gente coloca qual é a variável nesse caso é o dados sitram salário de bordar esse código para você ver o que acontece e veja que ele disse que a quantidade adequada de categorias nesse caso é seis categorias então agora a gente vai para a criação da tabela é porque é uma tabela então com faixas de valores a gente vai usar o table só que dentro da função table antes de só colocar a variável a gente tem que usar a função cut e se cante é o que vai dividir o a variável em faixas de valores eu vou fazer um cante vou dividir qual variável a variável dados salário certo e aí fora isso a gente precisa fornecer aqui alguns valores e a gente vai usar para fornecer esses valores dentro dessa desse parâmetro que é o séc e o que que a gente precisa fornecer primeiro qual é o valor mínimo nesse caso eu quero que começa em 10 então vou botar o zero segundo informação qual é o valor máximo lembra que meu valor máximo do salário era 5.
8 eu decidi que meu máximo na tabela e acidez então vou botar 6 e por fim a gente vai usar um parâmetro que é o l para dizer quantas faixas vão existir e aí nesse caso de acordo com o método do studies eu preferia ter seis categorias diferentes então a gente vai colocar aqui uma mais o sete eu vou vai dar esse código para você entender o que aconteceu talvez faça mais sentido vendo a tabela então se eu der aqui um contra o inter veja que ele fez aqui e a faixas de valores então ele ele começou aqui no zero e ele foi até uma faixa que vai os seis outra coisa veja aqui eu coloquei ali u l = 7 e isso fez com que ele criasse seis categorias certo por isso que eu coloquei um a mais porque ele cria uma categoria - ah é então o que que ele tá dizendo aqui que entra categoria de 0 até um eu tenho uma pessoa é outra coisa que é importante da gente entender é que quando ele coloca o colchetes desse jeito quer dizer que esse último valor aqui tá incluído então a pessoa que ganha exatamente um salário mínimo ela cai nessa categoria aqui como tá o parênteses quer dizer que esse primeiro valor não tá incluído se a pessoa ganhasse 1,01 salários mínimos ela já estaria aqui mas se ela ganhar 1,00 salários mínimos ela tá nessa primeira então eu tenho por isso também ainda bem que começamos 10 e não no mundo é por isso eu tentam aqui nessa primeira faixa de zero a um salário eu tenho uma pessoa de um a dois eu tenho seis de 2 a 3 tenho 10 de três a quatro tem oito pessoas de 14 pessoas e já cinco a seis salários com uma pessoa certo é muito bom e aí para terminar vamos falar de formas de obter os valores de medidas de tendência central e medida de dispersão uma função muito fácil de usar é a função série que ela é nativa já do r então se a gente pedir eu vou pedir aqui tá código para o salário eu vou pedir também entre o número de filhos então você digitar aqui summer i e eu colocar aqui dados em filhos se eu vou dar esse código ele vai aparecer aqui o valor mínimo o valor máximo de filhos é isso mesmo né um número a 0 mas primeira quatro ele também fornece a média mim a mediana o primeiro quartil e o terceiro quartil ah mas o segundo quartil segundo parte aqui também né não se esqueça que a mediana é a mesma coisa que segundo quartil e se eu pedisse para o salário então veja que ele me disse aqui o valor mínimo é um ou valor máximo é 5. 8 a média 2. 9 a mediana 2.
8 primeiro quartil é dois e o terceiro quartil é 3.