[Música] Vamos então resolver o problema de valores ausentes preenchendo o valor ausente pela mediana da variável eu vou adotar a mesma solução para variável idade para variável peso Ok então Já criei aqui a tabelinha com o resumo estatístico valor mínimo média desvio padrão máximo e mediana mesmo a questão envolvendo a variabilidade Ou seja eu poderia usar a média só que eu deveria fazer aplicar o teste estatístico não tem o teste estatístico disponível aqui pelo menos não facilmente onde de maneira Nativa como eu não tenho aqui a minha disposição Então vou usar a mediana embora que
eu já tenha preparado os dados de modo que dá para usar médio mediana Ok eu já preparei os dados seguindo distribuição normal etc mas tô apenas explicando para você que o ideal seria a primeira aplicar o teste para poder decidir se eu uso ou não a média a mediana é o valor do Meio Esse é o valor que eu vou utilizar portanto vou adotar a mesma estratégia paridade e peso tem que ser sempre a mesma estratégia Claro que não você tem que analisar cada variável dependendo do percentual de valores ausentes eu vou adotar estratégias técnicas
diferentes mas eu tô dá muito trabalho se eu tiver 15 variáveis sim parabéns é isso mesmo bem-vindo ao universo da ciência de dados é por isso que analista de dados cientistas de dados tem que ser muito bem remunerado porque é muito trabalho envolvido por mais que tenhamos automação ferramentas de apoio etc no final das contas decisões humanas terão que ser tomadas né E para tomar decisão é preciso ter o conhecimento portanto você vai ter que analisar cada variável verificar o percentual de valorizar ausentes e para cada uma adotar a estratégia apropriada detalhe você não sabe
previamente pelo menos essa estratégia que você escolher é ideal você vai escolher uma estratégia Com base no seu conhecimento sua experiência vai aplicar vai seguir em frente mas lá na frente do projeto Opa parece que a estratégia que eu escolhi não foi ideal volta e muda a estratégia ciência de dados ciência passa por experimentação tem que experimentar algumas alternativas até encontrar ideal para o seu conjunto de dados para sua análise para o seu projeto então nessas duas variáveis vou substituir o valor ausente pela mediana como fazemos isso clica aqui no power na parte de cima
seleciona variável idade vem aqui onde está um dois três que é o tipo do dado fica com o botão direito e aí tem substituir valores ou então vem aqui em cima e transformar e aqui está substituir valores veja que eu tenho valores e erros eu quero substituir valores quais valores que eu quero substituir para variabilidade valores não é assim que tá inclusive Olha lá falou aonde encontrar no caso da idade de substitua pela mediana que é 40 anos clique em Ok pronto Problema resolvido Vamos para o próximo que é o peso botão direito substituir valores
aonde encontrar no por gentileza substitua pela mediana que é 70 no caso aqui do Peso em quilos clique em Ok e pronto valores nulos sumiram se você clicar aqui agora ele não aparece mais o nulo e aqui em peso também não aparece mais e eu não perdi dados né ou seja não tive que deletar linhas então eu mantenho as observações e apenas acrescento a inflamação seguindo uma régua estatística nesse caso eu adotei a mediana volta aqui para a página inicial tem que fechar e aplicar aguarde alguns instantes veja que os números mudam um pouquinho não
é porque ele fez a substituição dos valores ausentes e pronto mais um problema resolvido com sucesso Vale ressaltar que resolver esse tipo de problema com outras ferramentas é muito muito mais fácil com linguagem R com linguagem pai então por exemplo são ferramentas apropriadas para isso oferecem várias funções pacotes com uma linha de código você resolve problemas como esse aqui por exemplo importante saber usar a ferramenta adequada para cada situação no próximo vídeo continuamos Muito obrigado e até