E aí [Música] bom então vamos lá seja muito bem vindo a mais um dicas e truques de ciência de dados que legal que fera Que honra que maravilha ter você por aqui comigo para gente compartilhar Sacadas dicas truques para compartilhar o caminho a jornada que vai te levar até a ciência de dados até que você se torne um cientista de dados na prática e eu não tô falando no cientista de dados que vai que ali e uma teoria e vai ter um título que vai ter uma certificação cara o meu objetivo aqui é treinar você

para que você seja capaz de resolver problemas da vida real nas empresas por isso que é cientista de dados na prática é isso que a gente faz aqui a gente pega os problemas do dia a dia resolve por aqui para que você tenha Insight Conseguiu resolver aí no dia a dia das empresas como muitos dos meus alunos têm conseguido fazer e isso é sensacional Beleza você e não é diferente tá aqui comigo porque você realmente está olhando vislumbrando o futuro aí dentro da ciência de data e eu fico muito feliz de poder tá aqui navegando

contigo Beleza meu nome é dado Rocha se você está chegando por aqui agora né nem me apresentei Já cheguei metralhando né falando que só mas eu falo muito mesmo galera essa meu jeito de falar vai o jeito de ir atrair de conversar de gerar empatia beleza e o meu objetivo cara é exatamente isso é trazer ciência de dados numa linguagem mais simples numa linguagem mais leve sem ter que Mickey esse informatiquês sem aquela coisa toda de ficar aí dando muito valor na teoria o negócio é na prática mesmo sabe resolver a parada então simbora é

isso que importa para mim beleza então aqui no canal ciência dos dados Eu geralmente trago crio algumas séries aqui de aulas com Patinhas para você aí evoluir e treinar na jornada de cientista de dados então eu trago os cientistas de dados na prática então eu faço um caso o circuito eu trago é um projeto de uma área da nossa sociedade seja um projeto da área da saúde um projeto Educacional da área de bancos Finanças varejo eu tô sempre trazendo aqui o conhecimento agregado de manipulação de dados construção de máquinas produtivas com Mach lane para que

você possa implementar o sistema sair utilizando o próprio pai então aqui né nosso a nossa programação que a gente utiliza aqui o pai beleza hoje nesse dicas e truques de ciência de dados que a gente vai fazer eu vou trazer para vocês um pouco desse algoritmo aqui galera é um algoritmo aqui que ele tem o seu valor apesar de já ser um algoritmo muito mas muito utilizada aí dentro da própria estatística né na verdade isso aqui é um algoritmo o algoritmo probabilístico Neves no algoritmo probabilístico nele vez ele nada nada vem da própria teoria de

beijo e você já vai conhecer do que eu estou falando tudo bem vamos lá Bora conhecer então Oi Deni base para que que ele serve beleza vamos lá olha só parece são bem como é que você tinha seus dhatus passa é só considere o cenário beleza presta são e pressa nesse cenário você é um gerente de produto e deseja categorizar o feedback de um cliente em duas categorias ou o feedback do cliente é bom ou feedback do cliente e é ruim Beleza então preste atenção é isso que você tá querendo você é gerente e que

é categorizar e o feedback que os clientes estão falando né do produto se é bom será favorável é desfavorável tranquilo memorizou esse problema de negócio beleza Ou então preste atenção aí na seguinte situação Você agora é um gerente de empréstimos E aí você deseja saber quais aplicativos de empréstimo são mais seguros para você emprestar e quais são os mais arriscados quais são seguros quais são arriscados Beleza passa cana aí a parada e vai ficar Claro agora você é um analista de saúde você deseja prever quais os pacientes têm palavra mágica a probabilidade de desenvolver complicações

diabéticas Olha que interessante todas as instâncias que a gente acabou de falar agora ela tem o mesmo desafio quando a gente quer categorizar avaliações quando a gente quer solicitações de empréstimos quando a gente quer avaliar paciente todos eles têm em comum algo que é a probabilidade galera e daí que veio o mês porque mês o niv mês galera ele é um método de classificação que ele é fácil ele é rápido e ele é muito bom quando você tem uma quantidade enorme de informações Então é isso aí quando você vai fazer um trabalho com processamento de

linguagem natural muitas das vezes as suas variáveis serão as palavras não imagina a quantidade de palavras que podem existir aí sei lá no texto num chat então às vezes você tem milhares de palavras e você coloca ali numa certa ordem e o neife mês ele é ótimo para fazer trabalhos quando você quer fazer esse tipo de previsão se Realce é besta é ruim se é bom quando você tem muitas informações no quantidade imensa de informações em várias aplicações como filtragem de spam você e agora entendi porque porque ele nem que ele as palavras e conseguem

rank a las classificação de texto né análise de sentimento então tão falando bem do Donald trump eu tô falando mal tá tão falando bem ou não do trump Tão falando bem ou não de um político qualquer Então isso é análise de sentimentos sistema de recomendação esse produto pode ou não pode ser oferecido para o cliente a não esse cliente não merece receber esse produto aqui que ele não vai ter interesse bom então galera para todos esses tipos de problema um gravidez Ele se mostra muito eficaz ele faz previsões sobre classes desconhecidas utilizando a teoria da

probabilidade de bens e o que que essa teoria da probabilidade de vez galera é uma teoria que utiliza a probabilidade condicional de ocorrer um evento ou decorrer outro evento Beleza então olha só a gente vai fazer um pequeno curso aqui de Neve vez vai eu falo para você não ficar muito aficcionado com formas porque na real na real Na real você não precisa decorar fórmulas mesmo não mas eu quero que você entenda pelo menos o porquê que esse Neide mês ele é muito bom para fazer previsões entendeu por ele é um modelo de classificação probabilística

que é influenciado pelo teorema de mês que é a fórmula da probabilidade condicional de um evento a acontecer dado que o evento B aconteceu anteriormente e como é que funciona essa parada é por meio dessa forma galera Isso aqui é uma fórmula da probabilidade condicional e o algoritmo nesse mês se utiliza dela para prever se uma classe ela está mais propensa a ser utilizada O Escolhido do que outra beleza Esse é o cerne aqui do algoritmo níveis É lógico que eu não quero que você compreenda que você decore fórmula nenhuma não aqui ele só tá

dizendo o seguinte Olha a probabilidade de y dado x é igual a probabilidade de x w y vez a probabilidade de x dividido pela probabilidade Y Tudo bem então a probabilidade de algo acontecer Depende de algo que já aconteceu antes não eles utilizam dessa forma porque essa forma ela consegue aproximar os caras tá bom Beleza nada de diferente de nenhum dos outros algoritmos aqui eu só tô te mostrando a fórmula por dentro porque você tem uma dicas e truques de cidades eu quero entrar um pouquinho aqui na teoria só para que você compreenda que os

algoritmos de Mach Lane e tem as funções de aproximação e essa é a função de aproximação aqui de grama do algoritmo de vez tudo bem então beleza Eduardo Fala um pouquinho mais sobre esse de vez que eu tô começando a gostar dessa parada eu tô até gostando da teoria olha do lado que interessante é isso mesmo galera vamos embora que vocês vão entender o método nesse mês assumir que os preditores ou seja as variáveis explicativas contribui igual e independente mente para selecionar a classe de saída muitas vezes pode ser um problema né isso aqui é

um pressuposto Mas mesmo com esse pressuposto né que muitas vezes você infringir o algoritmo para os resultados bons Beleza então embora sua posição do modelo nele desde que todos os preditores sejam Independentes uns dos outros isso na verdade no dia a dia é enviado da circunstância do mundo atual essa suposição produz o resultado satisfatório na maioria dos casos Beleza tem esse pequeno probleminha mais cara O resultado é o que importa pra gente um de vez ele é muito usado com a gente já viu para categorização de texto uma vez que a dimensionalidade dos dados é

alta Porque mesmo Eduardo que a dimensionalidade alta Acabei de dar o exemplo aqui se a gente tiver trabalhando com texto imagine Quantas palavras não existe no texto e aí galera a gente vai daqui dá uma até sei lá mil Então imagina aí com mil variáveis para você fazer aí o cálculo então Teu a o algoritmo nesse mês ele realmente trabalha muito bem exatamente quando a situação essa tá bom Eduardo Beleza então eu tenho uma algoritmo nele vez eu vou chamar simplesmente de vez Então dentro do algoritmo níveis a gente tem três categorias de trabalho que

a gente pode utilizar beleza três algúria como se fosse três tipos de algoritmos 3 classes diferentes tá bom tenho a minivan tem o SUV e tem ali o carro no popular Beleza então a gente vai aqui para o carro popular carro popular é o Gláucio níveis Então tá bom quanto que o gaúcho nem me beija o tempo e por que que o gaúcho níveis é utilizado porque ele parte galera do pressuposto aqui a variável os dados dessa variável vai estar numa distribuição normal e a distribuição normal galera ela tem a média igual a zero e

o desvio padrão ali galera bem dividido igual a um galera Essa é a distribuição normal a média igual a zero e o desvio padrão igual a um Então esse é o gaussian de vez quando as variáveis estiverem dispostas dessa forma você pode utilizar o grau são de vez Mas você pode utilizar o Bernoulli também que é uma outra distribuição ali que se utiliza é a teoria de probabilidade de vez galera então Uber muriçoca Bernoulli você vai utilizar Quando você tiver ali uma distribuição e nem a de Bernoulli Tudo bem então a distribuição de Bernoulli parece

aqui né galera com a sigmoid não é a distribuição sigmoide Beleza então é a nesse caso que você vai quando as vá é bem dispostas aqui no formato da distribuição de Bernoulli beleza e ainda tenho um multinomial nesse mês faz o uso de uma distribuição multinomial e é frequentemente utilizada para resolver problemas que envolvem classificação de documentos ou de textos com o exemplo citado agora a pouco beleza então cara Eduardo já entendi então nem vi de sair é da teoria de probabilidade de mês e essa teoria de probabilidade fala da probabilidade condicional né de um

evento ocorrer dado que outro já ocorreu entendido ar do Beleza você falou que o ônibus tem três categorias eu posso usar o gaussian a Bernoulli a binomial né e a multinomial beleza entendi tudo agora é do ar me falei quando e como que eu utilizo essa parada Eduardo então aqui galera eu quero trazer um exemplo para vocês de um classificador Gláucio nave base em paixão aqui com os aqui tiver tudo bem então eu vou fazer uma demonstração completa desse classificador utilizando aqui um conjunto de dados e o link para você aqui do Câncer beleza de

wisconsin eu vou deixar o link aqui embaixo já mostro pra você pra que a gente utilize um algoritmo específico ali nós vamos utilizar ele o carro popular o garçom deve bem Está bom o Nelson deve de ser representado aqui Como o grau se NB Tranquilo então bora para frente vamos lá deixa eu só mostrar para você onde que está aqui embaixo a gente tem um link o link do Quebra onde a gente vai ser direcionado exatamente para o o nosso Data Set de wisconsin que que é o brest cancer um data serve também bem famoso

bem fácil de entender quando você desce aqui embaixo você vê todas as variáveis nós estamos aqui não quero né O que é Google ele é um site onde a gente pode falar sobre Ciência de dados e inteligência artificial e machine learning tem competições desse de dado um site bem interessante competições valendo grana inclusive nós temos aí várias pessoas que são realmente muito fãs e que falam bastante do que ego aí no YouTube e nós temos aqui as várias variáveis aqui a gente tem detalhe do Data Set eu fiz to download aqui nesse botãozinho já trouxe

aqui para você para gente fazer o nosso trabalho mas fique tranquilo que eu vou deixar Anexo aqui no nosso grupo no telegram para você fazer essa atividade Beleza então nós temos aqui ó Wide Neck Wide do pai ser do paciente como se fosse o CPF em algum diagnóstico né se o câncer ele é benigno ou se é maligno tá aqui a lei boné eu já até fiz a transformação para gente colocando um maligno e zero o Benigno tá bom E aqui estão as outras variáveis que são as variáveis preditoras para você conhecer todas as variáveis

a gente vai conhecer eu vou fechar aqui e vamos voltar aqui para o nosso para nossa por nosso script Beleza então bora para frente aqui agora nós vamos importar as bibliotecas para gente fazer o nosso trabalho não pai de fou bandas de folk e matplotlib também bibliotecas para gente manipular os dados beleza executa a célula agora eu vou o dedo Data Set câncer eu já fiz o download para você vou deixar disponível junto com esses escritos no galera raiz muito legal tudo bem Olha agora eu vou criar o nosso Data Frame né Vou importar esse

Data Set para a gente colocar aquele no formato de Data Frame e visualizar ele aqui dentro do pai tá bom então aqui para você conhecer um pouco do data certa a gente já viu ele ele não quer gol mas nós temos aqui o CPF do cliente aqui eu disse para você que já transformei né então ué quando o cara tem outro mo maligno e 0 poder Benigno nós temos as várias variáveis explorar as várias variáveis explicativas né Então tá aqui a média do rádio a média da textura a média do perímetro perímetro mede né a

área média beleza A Cuca A concavidade média e assim por 33 variáveis tá bom nós temos 33 variados inclusive uma variável que é lula né galera já nem sabe o que que é essa o MP3 Então se a gente não tem no dicionário de dados a gente não tem como utilizar essa variável beleza vamos dar uma um info aqui para você visualizar aqui quais são as colunas e o que a gente tem né olha só nós temos aqui realmente 569 registros e 33 colunas mas nós temos Wide nós temos aqui o parede que essa diagnose

aqui e nós temos o f33 que a Varela que a gente não vai utilizar Beleza então vamos dar uma olhada aqui nas medidas estatísticas e se trata sete vamos lá dar uma olhada show voltar aqui olha só que interessante geralmente a gente faz subscribe assim e quando a gente faz um descreve puro ele mostra para gente aqui as dimensões aqui na linha né então ali só eu tenho média desvio padrão mínimo e o máximo aqui em linha para que a gente veja aqui as variáveis mas muitas vezes a gente já quer ver todas as variáveis

não tinha ter que ficar rolando a barra de rolagem aqui não fica eu fiz eu coloquei simplesmente um te para transpor galera. Ter maiúsculo para tanto Oi e aí a partir de agora as variáveis elas estão dispostas aqui em linha e antes ficar rolando a barra de rolagem beleza mais uma coisa que se aprende aí mais uma dica de hoje aí para você manipular os seus dados Tá bom então agora a gente tem aqui ó a nossa diagnose olha só que a gente tem aqui na diagnose a gente sabe que é um ou zero né

galera é 10 Então apesar de estar como numérica que ele vai mostrar as estatísticas mas aqui não vale para as variáveis categóricas né galera mas a gente consegue ver todas as estatísticas de todas as outras variáveis Vimos que todas as variáveis são numéricas né tá tudo aqui o ano inteiro e Flores inteiro e flores que estão vai precisar fazer transformações não vai precisar colocar variáveis categóricas em numéricas não vamos precisar fazer em Cold né ligou João Hot Cold não vamos fazer nada disso Beleza tô trazendo aqui agora o nosso dataprep né galera eu dataprep um

pacote de relatórios automatizados a gente tira ali uma Pan as estatísticas com o dataprep simplesmente instalando o pacote jeito que está aqui assim Pax nessa célula e colocando aqui o cliente que porte gerando relatório automatizada Essa é assim táxi aqui do Deita Pepe tá bom Como é que você faz importa o cliente report do da praia então tá bom a função cliente e porte ela que você vai usar onde que ela tá tá dentro da função e daqui EcoSport Thor deita análise dataprep eu do lado como é que você descobriu isso cara cara joga aqui

no Google ela era data Pepe e aí você vai ver aqui ó vários pacotes aqui explicando como é que trabalha com data aperta aqui ó o site oficial oficial deles Dataprev. Aí você clica aqui na documentação e ele vai mostrar a todas as funções como é que você faz para importar como é que você faz para integrar em uma pancada de coisa que você pode utilizar desse pacote Beleza eu vou simplesmente focar no nosso relatório vou subir aqui para que a gente consiga ver todas as variáveis aqui do Ah beleza então vamos lá vou mostrar

para você aqui tudo todas as variáveis do início aqui Opa tá subindo aqui a parada Beleza bora ver o nosso relatório automatizado aqui um HTML né bem vem elegante bem bonitinho bem interessante uma função muito simples né então se você não conhecia da praia tá aí mas Skill para você aprender a fazer análise exploratória de dados Tá bom então nós temos aqui a gente abre o 33 variáves 569 caso de pacientes temos me se aqui em três por cento das células beleza temos aqui também uma explicação sobre as medidas aqui né uma alguns insights sobre

como que as variadas estão dispostas tá bom tem aqui a variável f33 que ela fala que é sem por cento me se é Ó pra gente nem utilizar essa variável tá bom é como se fosse uma variável estranho aí que subiu no meio das variáveis a gente vai eliminar lá simplesmente Tá bom então nós temos aqui explicação sobre o Eyed das variáveis nós temos aqui ó uma relação explicando nosso Target o diagnóstico nós temos aqui a maioria das pessoas com câncer Benigno é com tumor benigno e aqui uma um percentual é de câncer maligno Tá

bom você vê aqui isso aqui é o tablet ele tá desbalanceado a gente talvez deveria fazer ali uma atividade de balanceamento mas nesse dicas e truques de seus lados a gente não vai fazer táticas técnicas de balanceamento só para você aprender Beleza então bora para frente aqui você vai avaliar o comportamento a distribuição das variáveis né ele fala que me empresta o posto é que as variáveis estejam ali é numa distribuição gaussiana então a interessante que as variáveis esteja todos aqui no formato de sino a gente também vai ver que a grande maioria das variáveis

estão e a gente vai fazer um trabalho ali de escala né galera para transformar essas variáveis ali numa Normal beleza uma padronização que nós vamos fazer tudo bem Então esse é o dataprep a gente consegue fazer uma análise bem o atleta de todas as variáveis tá bom Beleza bora começar aqui então né vou fazer que o pré-processamento para gente começar a trabalhar e você vê o Neide veio funcionando né porque afinal de contas o dicas e truques e particionar aqui como que se utiliza esse algoritmo não é mesmo Então bora para frente eu vou eliminar

aqui o Haiti Tá bom eu tô dando um drop tanto mais de contas af33 que são variados que a gente não vai utilizar tudo bem o CPF não é variável editora e essa fmp3 vezes nem sabe o que que é tá bom muitas vezes acontece bem disso mesmo tá bom agora olha que interessante Olha que interessante nós vamos criar um gráfico e esse gráfico nós vamos acompanhar ali aqueles que têm o tumor maligno e aqueles que têm o tumor benigno tudo bem para que a gente consiga ali comparar duas variáveis para ver se essas variáveis

Realmente são boas e consegue mostrar para gente quando é maligno e quando é benigno esse é o nosso problema de negócio que tiver querer a máquina preditiva aqui para prever se dadas essas medidas né se essa esse rádio os médios essa textura média que são os vai as expectativas para ver se dá dessas variáveis explicativas eu consigo fazer um diagnóstico se é muito bom maligno ou benigno Tudo bem então vou criar essas duas essas duas marcações aqui nesses objetos para que para a gente criar um gráfico de um tumor maligno versus o Benigno eu vou

colocar aqui na escala duas variáveis eu vou colocar no eixo X a média do rádio Rádio Mini NY a textura média para gente olhar e ver um gráfico de inspeção em escape pote entre essas duas variáveis quando for maligno a gente vai colocar a cor vermelha quando for Benigno a gente vai colocar um verde quase azure Tudo bem eu vou dar um pele deixou e aí ele vai criar um gráfico pra gente e olha que interessante a sacada que a gente pode ter desse gráfico e a sacada é que acredito que você deve ter quando

você tiver fazendo análise exploratória comparando aliás variáveis preditoras Olha que interessante nós estamos fazendo isso até pote aqui de duas variáveis que a em média io a média do rádio que a gente tá vendo aqui ó o tumor maligno verso benig a gente vê que está claramente separado aqui né tem um pouco de confusão aqui no meio mas a gente consegue separar muito bem Aquele que é maligno o vermelhinho e aquele que é benigno né galera o o verdinho não tá bem interessante aqui então isso aqui já é um Insight mostrando pra gente que essas

duas variáveis realmente elas conseguem mostrar para gente que há uma discriminação ali que elas podem ser útil na predição se o tumor é maligno ou benigno Tudo bem então essa cada que eu gostaria de trazer para você aproveite aí faça esse scatterplot com as outras variáveis explicativas para você e pegando jeito aí do matplotlib tá bom Ah então beleza nado que a gente fez aqui o nosso trabalho que que a gente vai fazer eu vou colocar as variáveis explicativas no x Então vou tirar diagnose né que é o nosso target e vou colocar ela aqui

exatamente no Y Tá bom então coloca aqui x e coloca um Y deixe tudo separadinho aqui ó vou até printar aqui para você ver o y e o yr 10 e 11 né é o Benigno e é uma liga então ele vai falando cada um dos registros e falando ali o que que é cada um tá bom Lembrando que nesse caso aqui seria interessante fazer um trabalho de balanceamento com o esmalte por exemplo com oversample que é o fato da gente Criar e amostra sintéticas para balancear o target tranquilo a gente vai deixar isso para

outra aula vamos continuar aqui para conhecer nesse mês eu vou fazer somente mais um trabalho de pré-processamento que é o seguinte nós vimos que um dos pressupostos ali por utilizar o bálsamo ele vez é que as variadas estejam ali na disposição de curva gaussiana né galera da no formato de sino e para a gente fazer isso eu a Constância de escala porque Eduardo porque eu quero deixar os dados ali na mesma escala no formato de sino então para fazer essa parada eu quero que ele utilize a padronização Ea padronização ele vai deixar a média igual

a zero e o desvio padrão igual a um beleza assim como diz o pré-suposto aqui da distribuição da Oceana tudo bem é isso que a gente vai fazer eu vou simplesmente criar aqui passar os dados de X né que a gente acabou de criar eu vou pegar os dados de x e vou colocar o seja as variáveis explicativas e vou colocar aqui dentro para que ele possa fazer o Fit e depois eu consiga transformá-lo aqui os dados já não formato da distribuição gaussiana Tudo bem então eu vou executar Lembrando que eu não tô transformando as

variáveis eu simplesmente peguei as variáveis e joguei uma função para ele criar uma escala mais amigável para o algoritmo aqui nesse caso aqui é a escala com e as variáveis numa distribuição gaussiana Beleza então tudo bem vou só criar um Data Frame aqui porque ele vai fazer ali uma rir um pai vou fazer som da tua frente para te mostrar como a distribuição gaussiana trabalhou nesses da como que a padronização trabalhou aqui nesses dados Então vou pegar aqui por exemplo um registro vou pegar aqui o zero olha que ele fez a média igual a zero

não é uma elevada - 16 aqui então é aproximadamente zero e o desvio padrão igual ao 1208 então quê que ele fez ele colocou agora todas as cada um dos dados de todas as essas variáveis e agora é tudo média = 0 e desvio padrão igual tá bom para isso que serve essa parada às vezes estava estudando estatística vai ficar uma pessoa po disse que era para que que se tudo lá esse negócio aqui com onde que tá a aplicação dessa curva normal dessas dessas distribuição gaussiana de distribuição de probabilidade é aqui a gente vê

o mão na massa essa parada aconteceram nessa é muito interessante eu acho que isso os benefícios de se estudar com casos práticos beleza e agora galera para finalizar que a gente faz a gente já padronizou agora a gente precisa fazer a amostragem né galera Então vou até colocar aqui ó agora a gente vai fazer a amostragem hashtag amostragem que é separar os dados nessa separar os dados em treino em treino e teste Para quê Para a gente Criar e avaliar Nossa Máquina preditiva tanto aqui ó vamos usar o trem test split Vamos colocar aqui dentro

agora a variável x que nesse caso aqui agora a gente vai pegar a variável que foi né Norma padronizada o y separar aqui sei lá Vinte por cento Vai vinte por cento para testar para testar e oitenta por cento para treinar e beleza agora a gente executa e beleza agora finalmente vamos utilizar um grave mais Eduardo olha como é simples galera como a gente faz com todos os outros e o que você que Johnny tem um pacote conhecido como neyde Reis e dentro do mês que a gente tem o carro popular tem o carro é

a minivan e tenha é silver não é assim então a gente vai importar exatamente o cálcio nem vez a gente poderia estar importando aqui ó e Import Import vou dar uma em ti aí ó aqui a multinomial a multinomial nesse mês ou a com a outra Bernoulli Neve mês tanto aqui ó obermuhle NB mas a gente vai utilizar a calça leggin bem Tudo bem então importamos a calça nele vez agora como que a gente cria essa máquina preditiva a gente chama ela de NB tá bom que chama ela de niver joga aqui dentro o algoritmo

E aí a máquina preditiva treina com os dados aqui que a gente acabou de separar dado de treino joga aqui dentro para depois avaliar a quantidade de teste beleza executa que a máquina tá lá treinada máquina preditiva Bora verificar a assertividade dessa parada que agora fazendo esse coragem né Passa é de teste toma explicando aqui por 100 para te dar o valor percentual do nosso score beleza E tá lá galera 96. Quarenta e nove porcento de escoragem de assertividade né galera uau Eduardo que legal aqui fera então nós utilizamos um Neve bebês fizemos uma padronização

ali mas a gente nem fez ali o esmalte nem fez outros trabalhos ali de pré-processamento nem fizemos ali engenharia de atributo para ver quais atributos a gente usaria ou não e mesmo assim a gente conseguiu uma atividade de Noventa e Seis por cento é cientistas de dados Esse é o poder do meio de mês quando a gente está trabalhando com alguns lados principalmente como a gente viu dados ali que tem que são bastante complexos ele que tem bastantes Fitness a gente vê que o Neide beijo mostra o seu poder beleza cientistas de dados que fera

que você chegou até aqui eu fico muito feliz eu espero que realmente você tenha aprendido um pouco mais sobre o sobre Mach Lane por Oi mãe é o coração aqui da ciência de dados é onde a gente aprende a fazer trabalhos de petições Olha que interessante a partir de agora cientistas de dados com essa máquina preditiva que você criou a Mb Você poderia muito bem criar uma aplicação no qual as variáveis de entrada que você utilizou aqui ó serem as variáveis que ia te ajudar auxiliar o médico em prever aqui se o tumor é maligno

ou se é benigno e eu não tô falando isso a tua não galera isso já existe já existe inúmeras empresas espalhadas pelo mundo todo da Índia o Japão aos Estados Unidos a Argentina que existem empresas que prestam Exatamente esse tipo de solução para a sociedade então os hospitais vão lá fazem né o seu trabalho de avaliação né da década de sistemas verificam-se eles Realmente são poderosos mesmo e utilizam gente junto com o médico né então muita gente pensa assim aí a vai substituir os humanos mas existem muitos casos Nos quais A Iá vai ser muito

benéfica porque exatamente vai auxiliar os humanos na tomada de decisão olha só que interessante né então chega aqui uma máquina preditiva consiga com yacon a Shirlene junto com o médico o médico vai lá tomar decisão Com base no seu relatório com base na sua avaliação Mas também ele vai ter ali uma informação ajudada pela Inteligência Artificial né no qual ele vai tomar uma decisão ainda vai ter um auxílio de contar com a máquina preditiva então isso ajuda Inclusive a diminuir os erros humanos né Pensa em uma máquina preditiva de detecção se o tumor é benigno

ou maligno Olha a importância de se ter assertividade nesse caso não é mesmo então É exatamente esse o poder da ciência de dados e o impacto dela na nossa sociedade beleza sei que você tá feliz como essa moça aqui por quê Porque isso é incrível e poderoso é só nossa Conclusão o seguinte dele vez ele é um algoritmo simples e Poderoso com a gente viu e apesar dos grandes avanços que a gente vê aqui em Mach Lane quando a gente abriu vários algoritmos lá TBM as redes neurais Profundas Olha só o mesmo beijo me mostrando

a sua utilidade simplesmente trazendo o teorema de bens aqui dentro para aqui com a probabilidade condicional para fazer previsões né galera então ele tem sido muito usado para aplicações analíticas de texto até mesmo a sistemas de recomendação e sistemas de recomendação beleza galera Então é isso depois de explicar aqui como que o nervo bebês funciona eu só tenho agradecer e eu espero que você realmente tenha gostado dessa aula desse dicas e truques de ciência de dados beleza Deixe os meus links aqui não esqueça de comentar a sala o que que você achou desse conteúdo se

foi muito fácil eu tô trazendo um conteúdo fácil em conteúdo mais difícil e tô tentando aqui acertar Qual é o melhor conteúdo para você então você e o que que você mais gosta seu conteúdo mais fácil como esse de hoje ou se é um conteúdo mais pesado que nem o que a gente fez aqui de Health que era analíticos enfim eu quero compartilhar com você eu quero engajamento fala para mim que que você tá achando tudo bem Tá demais se você gostou Curta essa parada aí e não perca os próximos vídeos tá bom deixa aqui

mais uma aula como essa e as fontes que utiliza aqui galera para trazer essas informações aqui para você esse conteúdo que eu acho grande o sismo Tá bom eu ter certeza que pode te ajudar na sua jornada para você se transformar em um cientista de dados um beijo gigante a gente encontra até o próximo dicas e truques que sem esses dados tchau tchau E aí [Música]

COMO O CIENTISTA DE DADOS PODE USAR O ALGORITMO NAIVE BAYES