O que vocês acham de saber diante mostra o resultado do jogo de futebol do time do seu coração é possível quer saber como chega mais Fala galera aqui no canal E hoje nós vamos falar sobre a paixão nacional o futebol esse esporte bretão criado na Inglaterra mais aperfeiçoado por nós brasileiros e Posso saber por que raios Fabrício você está falando de futebol no canal de tecnologia porque nós vamos utilizar Mach lane para escrever o resultado dos jogos de futebol do Campeonato Brasileiro começa a Oi tudo bom pessoal então a gente tá aqui dentro do Júpiter notebook e vamos começar fazendo o quê primeiro eu vou me importar as bibliotecas e o Reporter às bibliotecas a primeira biblioteca que eu tô importância do panda chamei ela de pedir a gente tá fazendo igual o que a gente fez nesse curso aqui vocês podem ver aqui em cima do carro de que o curso de analisado com pandas e agora eu vou importar no pai e todas as outras que eu vou precisar aqui logística regressam que elas são os modelos que a gente vai utilizar o desejo entre o galo sendo o SBC aqui é a parte das métricas para verificar se nosso modelo tá prendendo bem ou não que a curasse escola que o Scorpion selectkbest é para gente selecionar as melhores videos para os nossos modelos o glitter tive ele vai procurar os melhores parâmetros para os nossos modelos Minimax queira que a gente vai normalizar as nossas features e aqui são as partes do México Chile e botar algumas liberado para saque para gente beleza agora isso aí agora eu vou pegar aqui vamos ler nosso arquivo Nossa arquivos chama BR a ponta você vai se ver esse arquivo eu baixei o futebol. Futebol data pode ser op outro carro que é um site de apostas inglês ela tem diversos é de graça e Data Set diversos Esporte os acontecimentos e os resultados eu peguei do campeonato brasileiro 2012 até a 2017 Tô dando um display LED só pra gente ver aqui ó e esse aqui é o nosso Data Set essa aqui só informações que contém dentro dele o Country Brasil a Série A do Campeonato Brasileiro o ardido no jogo aqui qual foi a temporada 2012 os jogos o time visitante o time da casa o resultado E algumas métricas essas métricas aqui são propriedades de empate de Vitória de derrota E essas propriedades são feitas por duas casas como a painel com a outra é a ordens Portal uma das coisas que eu tive que fazer aqui dentro desse arquivo dá uma mexida nele porque essa coluna de resultado ela não tava numérica ela tava com estilingue então eu tirei e coloquei zero para empate um se eu não me engano é o a vitória do time visitante deixa eu ver ser do time visitante não é o time da casa de dois a vitória do time visitante que eu queria que os dados fossem no médico beleza e agora fazer uma exploração rápida os nossos estados aqui ó e não de um data. Cheio pra gente ver como é que é o nosso Data Set quantas colunas tem aquele quantas Fitness também e só tô retirando a comune resultado para ver a quantidade de colunas aqui eu tô dando um filtro Tô fazendo uma filtragem nele como a gente viu também lá no curso de pano né pelo datacert e pegando a quantidade dando o tamanho dele o lembro tanto parar home Win always Win vidro ou seja os vencedores do time da casa os vencedores do visitante e o empate mas que eu tô criando uma listinha só pra gente depois botar isso aqui embaixo eu tô fazendo algumas métricas aqui e como vocês podem ver a gente teve 2.
279 jogos e tem 21 colunas esse Data Set os jogos que foram ganhos em casas 1133 os jogos ganhos pelos visitantes 553 593 empatados e a gente vê que eu vou a tua casa é muito importante porque quase cinquenta por cento dos jogos São ganhos pelo time da casa a gente pode ver isso também de uma outra maneira pode fazer uma visualização gráfica e aqui eu tô colocando trollando pele te do mascote libar x e eu tô plano as informações da quantidade de vitória do time da casa do time visitante edos empate a beleza vou começar agora fazer o que preparar os nossos dados a que que eu tô fazendo aqui eu tô te retirando os campos não numéricos quando eu cheguei aqui todos os campos numéricos para a gente poder trabalhar agora vou separar sítios e as legal aqui ó aspectos são todos esses copos aqui que eu quero né menos o campo de resultado por isso que eu tô dando um toque no Xbox a um que era a coluna e as leis que eu tô pegando somente a coluna de resultado orando um print para mim sentir nossas Fitness E aqui as nossas lei legal agora o que que eu vou fazer eu vou utilizar preparando os Alex sitrivest para verificar qual são os melhores as melhores colunas das nossas fitas para entrar no nosso modelo e ele faz isso para gente como eu passei para ele todas as colunas EA todas as nossas filhos e aí eu tô dizendo pegar analisa tudo então vai dar um filho transforme baseado nas Fitness nas Le Monde e vai mandar para gente o score e esse escolhe vai ser baseado em correlação e mais algumas outras métricas e a gente vai poder ver aqui ó quais são as melhores frutas para poder entrar no nosso modelo e a uma Max H outra Max the AVG AVG acho que não tem formaram também foram a g. p. d.
e PH veja que ela tá com 10 Então essa daqui a gente pode retirar o nosso modelo novo retirada do nosso modelo aqui ó fiz no data drop to retirando todas as colunas aqui ó e a g a BB BH e as outras que pra gente não faz sentido ter que o ardido o jogo ardilante e o número novamente do resultado falei para continuar sendo o resultado E tá aqui ó e aí não esse dos Campos aqui que a gente vai colocar no nosso modelo que legal o que tu vai fazer agora uma parte importante também aqui na hora que ele está trabalhando o modelo de idade eu tô fazendo a normalização dos dados por quê que o jogo pode terminar 10 a 0 para onde terminar o time e depois si mesmo time pode perder de 1 a 0 ou ganhar de 1 a 0 E aí se 10 e esse um pode ser que ideia pesos Diferentes né a rede podem te ver esses resultados o 10 é melhor do que um quando a verdade não é porque a gente só quer é prever na hora de classificar a saída se é 11 empates e uma vitória o seu marido derrota e não o valor exatamente placar então a gente não Marisa esses valores todos né esses percentuais aí também de porta o pessoal bem mais alto então esse normaliza tudo vai ficar do analisado fizeram um mas é todos com o mesmo peso e aí o nosso modelo fica melhor a curar o executar aqui ó o chamado omnimax caiu Tô dando um Fit mais features e depois eu chamei ele de fitdance que eu com transforme na própria vítima ele faz o sol e fica assim os valores vão ser inseridos no nosso modelo legal agora vou separar treinamento e teste Ah beleza eu separei aqui em ordem cronológica né manualmente eu poderia utilizar uma um método do site lance chamado tram train test split ele faz isso automaticamente para a gente a gente só passo Data Set e a ilha fazer separação entre setenta por cento de treino e trinta por cento de teste mas eu preferia fazer isso manualmente porque eu queria manter essa ordem cronológica porque um time pode começar bem e depois de mal ou então começar mal depois e bem e a gente vai deixar esse aqui para poder fazer o treinamento e o teste e repare o seguinte eu parei na linha 2155 só que ele só vai até a vítima 54 porque o pai não é exclusivo né ele não entra essa última linha aí só que não Data Set se eu não me engano vai mais informação e porque eu não botei tudo aqui porque eu quero que na tenha mais um pedacinho que a gente chama de validação ou seja um pedaço do nosso Data Set que o modelo nunca viu que eu vou fazer ele né prever e vamos ver como é que ele vai bom então vamos lá separei aqui e agora a gente vai utilizar né vou começar a treinar os nossos modelos o primeiro modelo que eu vou colocar aqui é o modelo de logística por baixo na regressão logística que eu tô fazendo aqui eu chamo a logística West o nosso modelo digo que a classe é multinomial por quê Porque a gente tá tentando é classificar três tipos de saída diferente né Se ela empate se ela é a rota Ou se era uma vitória você poderia também ter outro tipo a gente combinaria 01 céu por uma saída sim ou não e aí ele não seria muito na minha ó aqui no caso como são três multinomial Max ter são interações que ele vai fazer depois disso eu chamo o método Fiat passando Alex trem e o trem para fazer o tratamento e depois eu dou um predict no teste e depois a gente vai fazer a parte de acurácia o accuracy is cor e do F1 scor o a cor as escolas de acurácia do nosso modelo né vai pegar exatamente quantas ele Olá tudo que ele tem ele vai dizer pra gente Qual é o percentual o F1 score é a união de outras duas métricas que são a Precision EA Record obviamente eu não vou conseguir explicar um tanta profundidade assim eu preciso de uma Record para a gente pode entender o seguinte o que que é preciso a gente pode dizer que daqueles que eu classifiquei como certos né como corretos quantos efetivamente eram corretos e que é uma fórmula da presidium que vai ser os verdadeiros positivos dividido pelos verdadeiros positivos mais um falso positivo e ele vai dar o percentual para a gente e o Recall o Recall é quando eu realmente não é quando eu tenho um determinado valor de uma classe ou seja se eu for eu digo que ele é empate o quão frequente a gente consegue classificar os que são empate isso que a gente chama de Recall e a gente também tem uma fórmula para isso O que é os verdadeiros positivos dividido pelo verdadeiro positivo mais por falso negativo legal eu vou mexer cortar aqui ó e ele deu o valor de 57 pontos 34 por cento de acerto aqui para gente tá resultado de futebol até que não tá tão ruim assim então vamos agora fazer o seguinte vamos fazer o vamos dar uma tunada e metrologic reveste o que eu quero dizer com isso a gente vai mudar e alguns parâmetros né para ver se a gente consegue melhorar esse percentual e um disparamos que a gente muda quando eu tá mexendo em Logic reaction esse parâmetros e aqui o que que esse parâmetros e ele vai controlar o inverso da força de regularização a regularização ela é é um cálculo matemático que ele vai dar um peso para suas Fitness né se ela fosse essa vídeo foi muito grande Ele vai tentar dar diminuída tanto nos valores são muito grande quantos nos valores são muito pequenos ou a ideia por trás disso a ideia por trás desse ser é o que a gente evitar tanto o grafite quanto under Fit o que você tiver o valor dos e muito grande a gente vai ter overfeat e o que que é o grafite é quando o nosso nosso modelo ele tá muito bem treinado ele sabe muito bem classificavam o nosso treinamento Porém quando você coloca um novo dado para ele que ele nunca chegou ele não sabe o que fazer não consegue classificar isso a gente chama de uberfit e o e ao contrário quando você tem pouco dado de Treinamento você modelo não tá treinado o suficiente e você coloca um dado número também não consegue saber o que fazer com ele e não vai ter formar muito bem e esse ser ele tenta Balancear isso aí não bota nenhum valor muito grande né valor muito pequeno igreja que eu converso com o valor muito pequenininho e vai ter um valor muito grande e como é que a gente vai saber qual o melhor deles aqui a gente está utilizando o Grid search se vi o que que é isso aqui é o método que ele vai testar cada um desses paramos fazer mil internações e verificar qual é o melhor para gente e depois ele por ele bota para gente aqui no print com esse bege enchimento falar e executando agora Executor 57. 84 ele ficou igual e aqui você pode ver que os melhores paramos for por você for igual a 1 ou classe leite não é número de jovens não é o melhor sogro LB FGTS então a gente sabe a gente pode utilizar esse parâmetro aqui sente quiser utilizar o logistic regression Vamos tentar agora um outro modelo que é o modelo é chamado de suporte Vector Machine e esse cara aqui ó repare que quando a gente usa o site Elaine a gente segue sempre o mesmo padrão né a gente se chama o modelo joga ali numa variável Depois dessa variável a gente fazer chamada do Fiat que efetivamente o dia que você vai treinar lá passa o treinamento e o x são as nossas leis Y que é o nosso resultado e depois você faz a previsão no teste ele vai testar acurácia e vai deixar o F1 score para a gente executou a 57 pontos 84 também dando o mesmo valor por enquanto de dois modelos são perfumando a mesma maneira vamos tentar fazer agora a mesma coisa que a gente fez aqui ó vamos tentar dar uma melhorada no zíper parâmetros aqui no caso o SBC né que é o suporte tiver o suporte Vector Machine ele também utiliza o parâmetros E então vamos ver como é que ele vai cortar aqui vai ser igual E aí executando e o pai já deu uma melhorada boa aqui ó 59 pontos 19 tanto para o F1 quanto Plus para curar essa dentro de valores Às vezes pode ser iguais às vezes ele pode ser diferente geralmente o F1 ele pode ser seja um pouco menor do que a curar essas Quando os dois forem iguais quer dizer que tanta curasse quanto é que os corpos estão batendo isso é legal então a gente já deu uma melhorada Quem tá ganhando por enquanto aqui dos modelos é o modelo de SBC suporte Vector Machine vamo testar mais um modelo agora e esse modelo aqui eu decidi entre que o árvore de decisão mesmo mesmo casa mesmo estrutura a gente tem um desse junto ele chamou Vamo dar o Fit no treinamento e depois vamos lá um preditivo teste e verificar acurácia e o F1 score aí vamos lá o 5. 73 veja Quais são os corta um pouquinho menor nível de 42 então não tá tão bem assim esse modelo desse gente não vamos tentar fazer a mesma coisa vamos tentar dar uma melhorada aqui nos parâmetros dele passando esse para Ingrid aqui com todos esses parâmetros aqui estão que o a profundidade as fitas que ele vai usar as folhas né como é que ele vai abrir a árvore de decisão quantas encontro jogos ele vai poder é separar isso aí ele vai testar todos esses paramos aqui vai retornar o melhor para gente espero que consiga deu uma melhorada nesse valor aqui ó e executei Opa 47.
5 34599 nada mais não tá igual o nosso suporte Vector México enquanto o modelo que está ganhando vocês podem ver aqui ó esse aqui foram os parâmetros que ele escolheu o terror os melhores o modelo aqui ó ontem tá aqui que eu modelo de Naide beijo e executei 52 é realmente quem tá ganhando aqui o suporte da tua Machine com quase sessenta por cento de acerto para os resultados aqui então vamos fazer o que nós vamos executar utilizando o suporte Vector Machine agora a gente vai Executar a nossa previsão exemplo lutando a a previsão é que o modelo o esporte Vector machine que perfumou melhor então a primeira coisa que eu vou fazer aqui vou criar é uma lista chamada previsão é um que uma Pires caiu mas a partir do da linha 2155 diante que é a quantidade de registros que ele nunca viu não é esse modelo nunca viu isso por gente parou treinamento e 2155 então ele só treinou até o 2154 uma beleza agora vou pegar alguém meio-dia a Mary Kay made full data é de meio-dia eu cheguei meio-dia tu vai vir de quem E aí Dinho e o a 55 também o resultado né full me pareceu data e eu vou pegar o que o Harry resultado e agora vou chamar esse aqui direto já era vendi as full eu vou pegar 2155 preciso agora vou fazer a minha previsão é um Cred ó e vou chamar é o que eu quero que ganhou aqui que é o as cara que olha aqui CNS SBC O que é porque aqui tá contido hoje melhores best metal são esses parâmetros que ele achou para gente são os melhores paramos fico armazenada nessa variável então eu vou chamar essa variável aqui embaixo né E aí é de quem está a previsão Depois disso vou criar aqui um Data Frame tele data o prêmio E aí para fazer o quê mas aqui de real o que vai acontecer o resto é o resultado é eu vou chamar de previsão e você vai ter um prédio que acabou de criar aqui e vai ter o game Bom dia o que alguém E aí porque eu quero saber exatamente qual é o jogo né Qual foi a dia do jogo que a gente perdeu pra gente poder verificar mandar um print André e executei daqui ó dizer que ele tá fazendo direitinho ó primeiro acertou o segundo ela acertou acertou acertou acertou todos Akira certo não esse último aqui na rua mas consegue ver se aqui melhor Como vamos fazer uma matriz de confusão beleza vamos chamar ela queria a Fusion E aí o DF o padrão Data Frame aqui passando o quê efe, G1 e eu quero que dentro real a previsão É sério mesmo dia e para estar vou criar a tabela cruzada aqui que eu posso fazer uma tabela cruzada utilizando o panda veja só como fazer eu vou chamar o DF e aqui eu só quero Campo real o DF e a previsão o Wall name is o Real Assim que passar esse aqui sempre com chat ficar na linha e col nem vai ser minha previsão o SMS que o cyborg na João utilizar o ciborgue aqui para fazer Nossa Matriz de confusão.