Bonjour et bienvenue dans cette vidéo 27 sur 30 aujourd'hui nous allons faire l'exploration du dette à 7 du coronavirus vous avez été très nombreux à partager vos analyses et vos graphiques sur discorde et franchement je dois vous dire que j'ai vu des choses très intéressante donc bravo bien joué maintenant si vous qui regardez cette vidéo avait rencontré deux trois petits soucis que vous vous êtes un petit peu Perdues durant cette analyse surtout ne vous en faites pas ça arrive très souvent de rencontrer des difficultés quand on débute c'est pourquoi dans cette vidéo je vais vous

montrer comment vous auriez pu effectuer cette analyse de façon simple en gardant les idées très claires et une fois que j'aurais fait ça je vous montrerai également comment faire une analyse un petit peu plus détaillé allez vous êtes prêts c'est parti [Musique] alors comme je vous l'avais dit dans la dernière vidéo l'exploration de données est une étape qui peut sembler très simple en apparence mais qui nous donne parfois du fil à retordre dans la vraie vie pourquoi parce qu'il est assez facile de se perdre dans tous les graphiques que l'on peut créer c'est pourquoi moi

je dis toujours il vaut mieux faire un petit pas en avant en analysant juste Deux trois variables intéressante pas plus plutôt que de faire un grand pas en arrière en créant des tonnes de graphiques et en se perdant complètement dans notre analyse rappelez vous notre objectif c'est de comprendre ne donnez donc il vaut mieux les comprendre un tout petit peu que de s'embrouiller complètement l'esprit on est d'accord Super pour ça je vous avais conseillé de faire deux choses la première c'était de prendre des notes chose très importante - en général je prends des notes dans

un fichier word mais on peut très bien faire ça dans jupiter et c'est ce qu'on va faire dans cette vidéo ensuite la deuxième chose que je vous avais conseillé de faire c'était de suivre cette check-list de base si on arrive à faire ça honnêtement C'est un bon début croyez moi donc c'est parti on va prendre notre data 7 et on va commencer par faire l'analyse deux formes mais avant toute chose on va faire une copie de notre data 7 donc c'est parti on va créer un data frame df qui est égal à data - copies

et maintenant c'est parti la première chose à faire c'est identifier notre target variable bon alors c'est assez simple ici c'est Clairement la variable sarr skov de examen résulte donc une fois qu'on l'a identifié qu'est ce qu'on fait on prend des notes on dit que c'est ça notre target variable c'est très important de faire ça croyez moi deuxième chose à faire identifier le nombre de lignes et le nombre de colonnes pour ça c'est assez simple on écrit df point shade et voilà on connaît le nombre de lits on connaît le nombre de colonnes voilà on progresse

Doucement mais sûrement next on a les teams de variables et ouais parce que ça c'est super utile quand vous avez un grand dataset vous avez envie de savoir où sont les variables qualitative où sont les variables tite hâtives et tout ce genre de choses donc pour ça on peut utiliser la fonction dit à ips deux pandas ça nous indique quels types de valeurs on retrouve dans chaque variable de notre data 7 et petites Astuces de pros si vous voulez afficher les résultats en entier alors je vous conseille d'utiliser la fonction cette option de panda comme

ceux ci et ce qui serait intéressant ça serait de compter le nombre de types de varennes qu'on a à chaque fois et pour ça on avait vu dans la vidéo panda qu'il faut utiliser value cowes fonction très importante donc c'est parti on écrit point value car ns et voilà on voit qu'on a 70 type flotte 37 Variable de type objets et 4 variable de type intel joueurs et puis si on a vraiment envie on peut transformer ça en graphiques en utilisant point pelote point paille et voilà ça nous donne un petit graphique s'entamer donc c'est

pas c'est pas utile franchement franchement non donc ensuite sur notre check list il faut analyser les valeurs manquantes de notre data 7 c'est la dernière chose à faire pour l'analyse de forme donc en effet lorsqu On analyse notre data 7 on voit qu'ils manquent quand même pas mal de valeur et ça ça peut être embêtant d'ailleurs pour y voir plus clair on pourrait afficher toutes les colonnes de ce data 7 tout comme avant on avait pu afficher 111 ligne pour ça on va copier coller 7 cette option et au lieu de faire display y mc

soit on va faire dix plaies max colom et on voit là ses 111 puisqu'on à 111 colonnes ici donc si on exécute sa bim on a toutes nos colonnes qui sont affichées et ça c'est très cool et comme on peut le voir ouais ya beaucoup de valeurs manquantes donc moi ce que j'aime beaucoup faire pour visualiser mes valeurs manquantes c'est tout simplement de visualiser monde à tacen en entier alors vous allez me dire bravo mais comment tu peux faire ça à venir le data 7 il est gérant veut Pas afficher 5000 lignes et 111 colonnes

et oui en effet on va pas faire ce genre de choses à la place on va afficher notre data 7 dans une image avec soin la fonction im show de maths porte libre soit la fonction heat map 2 six bornes pour ça la première chose qu'on va faire c'est de prendre notre data 7 et d'utiliser la fonction is neiges de panda cette fonction elle nous fait quoi elle vérifie si une valeur est n 1 c'est à dire note a- nombreux si on Exécute sa caisse qu'on voit on a un tableau booléens dans lequel on a

des foils on a des choux voilà donc si on voulait afficher tout ça avec six bornes c'est très simple on va écrire sns point quitte map de ceux ci regardez ce qui se passe quand on exécute la cellule bim on voit tout notre data 7 avec toutes ses lignes et toutes ses colonnes en blanc on voit là où il ya des valeurs manquantes et en noir on voit les Positions dans lesquels on n'a pas tout simplement des valeurs alors bon pour afficher cette vie dure un peu plus grands on va créer une figure de dimension

disons 20 10 ensuite dans heat map on va éliminer cette colère barre en écrivant ces bars et gulf oil puisque nous sera rien ce qui nous donne donc le graphique suivant qui est tout de suite beaucoup plus lisible donc il est temps d'analyser ce Graphique et tout de suite on voit qu'on a beaucoup de blanc c'est à dire beaucoup de valeurs manquantes toutes les colonnes qui sont sur la droite toute cette zone là à l'évident ultra vide donc c'est sûrement une zone qu'on va éliminer par la suite lors du prix processing ensuite ce qu'on peut

voir c'est qu'on a là quelque chose de très intéressant c'est qu'on peut voir des lignes ça ça Veut dire deux choses la première c'est que c'est une bonne nouvelle parce que ça veut dire qu'on va pouvoir faire un petit peu d'élimination des variables des valeurs manquantes avec drop n est par la suite potentiellement ça c'est une première chose une deuxième chose que ça veut dire c'est que ces variables qui forment une ligne on s'en doute un rapport les unes avec les autres quand vous voyez ça ça sent ça sent le Rapport ça sent la relation

donc il faut garder ça à l'esprit donc à présent si on veut mesurer le pourcentage de leur manquante qui nous manque dans nos différentes colonnes que va-t-on faire on va faire des f point is neiges ça nous donne le tableau qu'on avait tout à l'heure puis on va faire la somme donc on a ici la somme des valeurs manquantes qu'on retrouve dans toutes nos colonnes ok ça va maintenant qu'est-ce qu'on va faire on va faire un pourcentage donc ce Qu'on va faire c'est qu'on va diviser sa part le nom de ligne de notre tableau donc

on fait des f shape 0 classe ça nous donne un pourcentage ok on voit en effet que par exemple 98% des valeurs de cette variable sont des valeurs manquantes c'est quand même dingue et pour finir ce qu'on peut faire en général c'est de trier tout ça dans l'ordre croissant ou l'ordre décroissant pour ça on utilise la fonction sorte Value ou valve use j'ai un petit doute dans ces value zoui et voilà donc on peut on peut écrire à l'intérieur si on veut avoir un ordre ascendant ou nombre qu'on écrit s'indigne égal tout pour falls on

peut faire comme ça ou bien falls est donc ce qu'on peut voir ces voilà que patient aydie patient ait trahi et c'est tout ça ce sont des variables dans lesquelles il n'y a aucunes valeurs manquantes donc il s'agit de nos premières variable tout à Gauche de notre data 7 ensuite on peut voir qu'on a un deuxième groupe de variables qui sont toutes à 76% de valeurs manquantes très intéressant donc ça correspond ici à une ligne qu'on avait pu identifier et c'est probablement cette ligne là parce qu'elles semblent ce groupe de ligne on va dire parce

qu'elle semble assez chargé voilà où on a beaucoup de valeur et ensuite on voit qu'on a des variables qui sont à 89 jusqu'à 90 là encore il S'agit d'une ligne c'est que c'est clair toutes ces variables sont à 89 donc il s'agit peut-être de ce groupe de colonne et ensuite le reste de notre tableau on dirait que voilà c'est ça la bon ok il ya deux trois variables qui sont toutes à 97 de trois marins qui sont toutes à 80,18 mais vous savez quoi bien sûr en théorie il serait très intéressant d'analyser ces variables mais

qu'est ce que vous voulez faire Avec 98% de valeurs manquantes rien à faire vraiment y'a rien n'à faire donc on va pas se compliquer la tâche ce qu'on va faire pour la suite de cette analyse c'est tout simplement d'éliminer toutes ces variables peut-être même qu'on va illuminer en fait toutes les variables qui sont supérieurs à 90% de valeurs manquantes en plus ça va nous permettre de nous focaliser sur ces deux groupes de données qu'on peut identifier le groupe Des variables à 89% et le groupe des variables à 76% parce que notre intuition nous dit que

et quelque chose à regarder avec ces variables donc conclusion sur cette analyse des valeurs manquantes on a pu voir qu'on a beaucoup de lan ensuite qu'est ce qu'on a pu voir on a pu aussi voir que eh bien il y a deux groupes de données très clairement dans notre data set et ça on a pu L'identifier grâce à l'analyse des valeurs manquantes encore une fois c'est assez fou est en fait en faisant quelques recherches sur internet on se rend compte que le groupe où il ya 76 % et bien ça c'est un groupe de tests

bactéries les rues soient là d'autres virus et ensuite les variables qui ont 89 % de valeurs manquantes sont en fait des variables liés à des taux de globules blancs de globules rouges ce genre de choses ok avec ça on a terminé Notre première analyse deux forment maintenant on va passer à l'analyse de fond donc c'est parti on va commencer cette analyse de fond mais avant toute chose nous allons un petit peu nettoyer notre data 7 on va commencer par éliminer les colonnes qui sont inutiles les colonnes qui sont complètement rempli de vide comme ces colonnes

dans lesquelles il ya 100% de valeurs manquantes mais peut-être qu'on va aussi éliminer toutes Les colonnes jusqu'à 90% donc comment faire pour éliminer avec une seule ligne de code toutes les données toutes les variables dans lesquelles il ya plus de 90% de donner demain quand on va réécrire df point is nigh point sommes divisés par des f point shape 0 ce qui nous donne notre pourcentage comme on avait tout à l'heure puis on va faire du boulet à nine daxing en sélectionnant toutes les valeurs qui sont inférieures à 0,9 Auxerre ne donne le tableau suivant

et ce tableau booléens on va le réinjecter dans notre data fine donc pour cent ce qu'on va faire c'est qu'on va utiliser df points coles pour identifier toutes les colonnes dans lesquelles en effet on a moins de 90% de valeurs manquantes donc là on a juste pris les choses et maintenant qu'on a ces colonnes on va tout simplement les faire passer dans notre nouveau daft punk on va faire des F2 ça et voilà ça nous donne le résultat sur donc on est passé de 111 colonnes à 39 colonnes et bien sûr il faut pas oublié

d'enregistrer ça dans notre staff line donc on réécrit notre data fame en disant qu'il est égal à ce résultat à présent si on réaffiche ce tableau avec notre fonction heat map de tout à l'heure eh bien on obtient le tableau de valeurs manquantes suivant on a bien éliminer les colonnes qu'on avait estimé inutile donc là on a quelque chose de Bien propres sur lequel faire notre analyse de fond mais il ya peut-être encore une colonne qu'il faut éliminer c'est passionnant a dit oui parce que en effet avoir ce numéro pour chaque patient ça va nous

servir à rien du tout donc rappelez-vous pour éliminer une colonne dans un tableau data frame il suffit d'utiliser un fonction drop passion heidi et on précise bien sûr lax axe 1 c'était relaxe des colonnes voilà il ya Plus patient est parfait ok donc maintenant qu'on a nettoyé préparer notre dette et 7 on va pouvoir commencer par la visualisation de target donc notre target on l'avait identifié ici c'est sarko 2 exane résulte vous voyez aussi l'intérêt de noter les choses c'est qu'on peut faire des copier-coller être plus rapide plus productifs et qu'est ce qu'on veut faire

Qu'est ce qu'on veut faire avec ça eh bien on veut commencer par compter le nombre de tests le nombre de cas positifs et le nombre de cas négatifs donc encore une fois on utilise value 15 fonction très utile de panda qu'est ce qu'on voit on voit donc qu'on a 5000 cas négatifs et 500 cas positifs à vue d'oeil donc on peut affirmer que nos classes ne sont pas équilibrés pour ce problème et Que donc il faudra sûrement utiliser une métrique comme le score f1 la sensibilité ou la précision qu'on a vu dans la dernière vidéo

donc on va écrire ça dans notre rapport comme quoi il y à 10% de deux cas positifs et le reste c'est simplement des cas négatifs d'ailleurs petite astuce si vous voulez afficher tous ces résultats en pourcentage écrivait normes live égale choo à l'intérieur de valve you can't à Présent sur notre check list il faut comprendre la signification de nos variable nos différentes variables donc ça c'est une autre chose très importante à faire lorsqu'on fait l'exploration de nous donner c'est de tracer les histogrammes de nos valeurs continue donc pour sa petite astuce on va créer une

boucle fort en sélectionnant toutes les colonnes qui sont des colonnes de type par exemple flotte dans notre data c'est donc on va Faire fort cole in df point select dit rights super astuces de pandas dans laquelle on va pouvoir choisir un type donc à quoi ça nous a servi au début de faire l'analyse de forme et bien de pouvoir identifier les différents types que l'on a donc on a des flottes 64 on peut tout simplement écrire flotte comme à écrire flotte qu'est ce qu'on fait avec ça déjà on va vérifier nos différentes colonnes qu'on va

imprimer ses colonnes oui en effet Tout s'est bien produit qu'est ce qu'on va faire avec ça on va créer des histogrammes on va observer la répartition la distribution des données pour chacune de ces colonnes pour ça on peut utiliser matelote libre mais on peut aussi utiliser six bornes que j'aime beaucoup donc on va écrire sm est ce point d'istres pelote pourquoi dix pilotes pour distribution pelote une courbe de distribution et donc à chaque Fois on va y faire passer la colonne de notre dada frame et donc on obtient la distribution de nos différentes variables déjà

première chose qu'on voit c'est que toutes nos courbes sont centrés en 0 et elles ont l'air d'avoir un écart-type égal à 1 ce qui nous laisse immédiatement comprendre que ces données ont été standardisés c'est important à savoir maintenant on Peut aussi voir que pas mal de ces variables suivent une distribution normale mais pas toutes là on a des distributions asymétrique ça c'est quelque chose d'intéressant donc maintenant qu'on a un peu mieux compris le sens des variables de type flotte on va travailler sur une autre variable qu'on n'a pas encore examiné jusqu'à présent c'est large einstein

ça va être intéressant donc comme tout à L'heure on peut commencer tout simplement pas refaire un disque flotte de cette variable et là on obtient quelque chose d'assez intéressant ok alors ça peut sembler curieux au premier abord quelles sont ces valeurs pourquoi ça va de zéro jusqu'à 1,19 seul h 20 pourquoi la répartition ressemble à ceci est bien malheureusement la personne qui a posté ce datacenter kegel n'a laissé aucune information au sujet de cette variable Donc tout ce qu'on peut faire c'est émettre des hypothèses et on n'aura jamais la réponse absolue qu on pourrait se

dire étant donné que l'âge d'un individu ça va de zéro jusqu'à 100 ans en général on pourrait a priori pensé qu' il s'agit là de tranches d'âge donc zéro ça correspond aux personnes qui ont entre 0 5 en 1 ça correspond personne qui entre 5 et 10 ans 2 ces 10-15 ans etc etc maintenant c'est ça n'est qu'une Hypothèse on peut pas exactement savoir si c'est ça s'il s'agit bien des personnes qui ont entre 0 5 entre 10 5 et 10 10 et 15 etc ou bien si cette variable en fait été transformé de façon

mathématique avec 1 exemple quant à elle transformer c'est tout à fait possible on n'en sait rien on ne peut pas le savoir donc voilà pour einstein on peut écrire qu'il est difficile d'interpréter ce graphique les clairement les données ont Été traitées la personne qui a mille dataset ne l'a précisé nulle part mais c'est pas très important donc à ce stade on a visualisé novembre continue on a également visualiser l'âge comptable puisqu'ils n'étaient pas intégrés dans les flottes il nous reste maintenant à visualiser les variables catégorie donc de type object donc la question que vous vous

posez peut-être c'est comment est-ce qu'on visualise des variables Qualitative ou des variables catégorielles et bien ce que je vous conseille de faire c'est de commencer par simplement vérifier les différentes catégories qui résident dans chaque variable par exemple pour notre variable target là on a deux catégories c'est la catégorie positif et la catégorie négatif alors comment visualiser tout ça vous pouvez vous dire ok on va utiliser value car ns on peut utiliser value car Ns mais moi je préfère utiliser une fonction qui nous vient de nulle part et qu'on avait vu dans la vidéo je pense

douze sur trente c'est la fonction np eunic et cette fonction elle est aussi disponible dans panda donc juste à titre d'exemple si on utilise cette fonction sur notre target qu'est ce que ça nous retourne ma voix là on a un tableau dans lequel on nous précise les deux catégories qui sont présentes dans cette variable donc ce qu'on peut faire c'est De copier coller la boucle fort qu'on avait tout à l'heure pour nos variable continu et l'utiliser cette fois-ci non pas sur les variables de type flotte mais sur les variables de type object et à l'intérieur

qu'est ce qu'on va faire eh bien on va imprimer le nom de la colonne puis on va imprimer des f - colonnes points bionic et ceci nous retourne le résultat suivant qui est relativement illisible donc là j'ai une petite astuce d'affichage à vous confier Il suffit de créer des f string dans lesquels on va donc mettre tout ça entre accolades et à l'intérieur de l'accolade situé tout à gauche ce qu'on va faire ce qu'on a à écrire double point tir est inférieure il ya beaucoup de choses puis un grand chiffre du type 50 et qu'est

ce que ça nous donne le résultat sur super cool alors petite explication rapide parce qu'on n'est pas là pour ça mais là qu'est ce qu'on fait en fait ceci nous permet de créer un Système de marges très rapide si vous enlevez le tir elle ben voilà il ya plus étirés si vous changez la valeur que vous mettez vingt bomba qui s'est simplement espacées de 20 mais du coup avoir des trucs qui se rejoignent pas tout à fait donc voilà vous pouvez rapidement jouer avec ça c'est très utile petite astuce donc maintenant passons à l'analyse des

deux variables on voit que ce sont à chaque fois des Variables binaire voilà on a soit négatif positif ou bien detected note detected on remarque juste une variable tout en bas qui ne possède qu'une seule variable qu'une seule valeur pendant note dite acted donc cette variable en l'occurrence elle nous servira absolument à rien donc voici la première chose à faire lorsqu'on analyse lorsqu'on analyse des variables qualitative commencer par voir les différentes catégories qu'il y a dans Chaque variable très important ensuite on peut venir compter le nombre de valeurs qu'il ya dans chaque catégorie donc pour

ça on va reprendre notre boucle fort on va la copier en dessous et au lieu d'imprimer tout ça on va créer une nouvelle figure on va prendre des f-22 notre colonne point value 15 pour compter les valeurs qu'il ya dans chaque variable et ensuite on va afficher tout ça pourquoi pas avec un graphique comme on appelle en français Camembert et ça nous donne le résultat suivant donc on peut voir que la majorité des tests viraux sont négatifs mise à part qui semble vraiment un thème intéressant c'est le rhinovirus et entérovirus donc conclusion variable qualitative elles

sont toutes binaire ce sont les variables viral et il y a le rhinovirus qui semble très élevé voilà ça c'est juste une petite note donc c'est fini pour cette petite catégorie signification des Variables on a pu comprendre nos variable continu qualitative ainsi que large alors j'ai juste pas encore fait l'analyse de ces trois variables si le patient est admis en soins réguliers semi intensif ou bien en soin intensif parce que je le réserve pour la partie d' analyse un petit peu plus détails qui viendra après en attendant il nous reste à faire La dernière chose

de notre check list de base qui est de visualiser la relation entre nos variable et notre target étant donné qu ici on a deux groupes de d'individus les individus positif et les individus négative ce que je vais faire ce que je vais commencer par créer des sous-ensembles positifs et négatifs pour faciliter l'analyse après coup donc pour faire ça avec panda en général on va faire du bowling big thing si on sélectionne notre colonne sarr score Résulte et qu'on veut tous les cas qui sont positives on va écrire ça on va faire du bowling et xing

et qu'est ce qu'on va faire on va réintégrer ça dans notre data frame c'est toujours la même technique de qu'on fait des f lorsque ceux ci est vérifiée on ferme et voilà là on se retrouve avec le data 20 m dans lequel d'ailleurs on peut voir tout de suite il n'y a que 558 ligne donc ce data frimas on va le nommer Positive df et on va faire la même chose pour un data frame négative df maintenant après avoir fait ça on pourrait se dire pourquoi ne pas créer des sous-ensembles blood et virales puisqu'on avait

clairement identifiés dès le début ces deux catégories de variables et bien allons-y en plus on peut faire ça en utilisant simplement des petits calculs sur les varlet nombre de valeurs manquantes qu'on a dans chaque variable puisqu'on Avait identifié que blood savez en général 89% variable de valeurs manquantes et virales c'était aux alentours des 76 vous vous rappelez tout à l'heure on avait calculé le taux des valeurs manquantes qu'on avait partout avec avec cette expression eh ben ça on va l'enregistrer dans une variable kiffe ce qui s'appelle missing rights et donc on peut filtrer notre data

7 en écrivant par exemple qu'on Veut tous les cas mythings wright qui sont inférieures à 0,9 mais également tous les cas de missiles wright qui sont supérieures à 10 0 88 et donc avec des f point colonnes on se retrouve avec la liste de colonne suivante et il s'agit bien de toutes nos colonnes de type tests sanguins donc on va créer une variable blood colonnes ce qui est égal à ceux ci et on va pouvoir faire la même chose pour une variable virale columns dans laquelle on Aura simplement des taux différents c'est à dire inférieure

à 0 88 est supérieur à 0,75 maintenant qu'on a créé ces sous-ensembles on va pouvoir donc visualiser les relations target variable de façon ultra efficace ultra rapide vous allez voir on va commencer par visualiser disons la relation target et blade pour ça on va créer une boucle fort comme tout à l'heure on va utiliser sns points d'istres flotte un diagramme De distribution mais on va séparer les cas qui sont positifs et les cas qui sont négatifs donc on va faire 10 pelote de positive df dans lequel on sélectionne notre colonne et on rajoute un label

en disant que ça c'est le cas positive et on copie colle cette ligne pour remplacer tous à part le cas négatifs tout simplement négative en rajoute une figure est une légende et on se retrouve avec les graphiques suivants et là ça commence à devenir intéressant On peut donc voir variable après variable s'il y a une différence entre les cas positifs et négatifs allez je vous propose de visualiser ça tout de suite donc là clairement on voit rien de spécial ici pareil à là on commence à voir quelque chose platt laisse sur les plates l'est on

va prendre ça dans nos notes ont valeur ajoutée on peut voir que ok il semblerait que les gens atteints du Connors rend d'un virus les gens positifs ont des taux de plats très différent de ce qu'ils soient négatifs maintenant c'est une idée si on veut être robuste cette idée il va falloir la transformer en hypothèses et tester cette hypothèse et ça on le fera tout à l'heure dans la partie un peu plus détaillée mais on va noter ça dans notre prise de notes on va écrire hockey play tlet tester cette hypothèse il semblerait que ya

une Différence ensuite min athlètes volume ok bon bah c'est à peu près la même chose red blood cells peu près la même chose lymphocytes ok ok à sur les leucocytes encore une fois on a une différence et sur les monocytes également on a une différence donc conclusion de cette partie on dirait que les taux de monoxyde potelets et leucocytes semble lié aux qu'ovide 19 et on va tester cette hypothèse plus tard première chose intéressante qu'on a Pu visualiser ici donc premières conclusions intéressantes de cette analyse de fond maintenant on va essayer de visualiser la relation

entre la target et l'âge quand ils ont donc pour ça on pourrait reprendre le code qu'on a fait jusqu'ici mais je vais vous montrer une autre fonction de six bornes qui est très utile une fonction que vous devez rajouter dans votre boîte à outils de data in this tu sais la fonction 40 clottes sns carne pelote dans laquelle Si on a un petit doute eh bien on est content ap shift tab dans jupiter et boum on peut voir comment s'en servir donc ok il faut préciser x y ou et data c'est ce qu'on va faire

donc on va dire que x c'est donc la comptable le yoo c'est le sar skov de examen résulte est notre data frame cdf là on peut prendre le data film en entier si on exécute ça on obtient le graphique suivant donc un graphique dans Lequel on compte le nombre d'apparitions de chaque patient h quant à elle pour les résultats positifs et les résultats négatifs de cette variable c'est ça le graphique 40 pelote très utile très pratique retenez-le donc que nous dit ce graphique et bien il nous dit quelque chose d'assez perturbant j'ai envie de dire

c'est que il semblerait que l'âge soit lié au fait que l'on soit positif ou négatif au coronavirus Malheureusement premièrement on ne connaît pas vraiment cette variable personnes einstein on sait pas trop ce que c'est on a seulement émis des hypothèses mais toute décision basé tout construite là dessus sont des décisions à fort risque ne pas dire ah bah 0 1 2 3 4 ce sont les gens qui ont moins de 20 ans non c'est super compliqué en plus ça serait vraiment une très mauvaise conclusion de dire que abba qui semblerait que les Enfants ou les

mineurs ne soient pas touchés par le crown amis russes pourquoi parce qu'on sait depuis longtemps maintenant que oui les mineurs sont également touchés par ce virus tout le monde est touché l'âge n'a aucune importance donc on pourrait essayer de comprendre pourquoi est ce que dans ce graphique voilà on a on a moins de patients qui sont dans l'âge cantal 0123 que les autres patients qui sont dans les camps Taille supérieure on peut pas le savoir la moindre idée qu'on pourrait avoir ce serait une idée très risqué cependant ça veut pas dire que c'est une variable

qu'on va jeter à la poubelle elle peut être utile et on va le voir dans la partie de l'analyse un peu plus détaillé donc encore une fois on a complété nos notes avec ce qu'on vient de dire sur la relation target âge et maintenant on va terminer cette analyse basique en examinant la relation qu'il Ya entre notre target et les variables qualitative donc autrement dit les variables qui sont les tests viraux voilà est-ce que l individu à telle ou telle maladie alors pour ça quand on veut comparer deux catégories ensemble une puisque notre target est

une catégorie et nos tests viraux sont également des catégories on utilise en statistiques ce qu'on appelle une cross tab en tout cas c'est comme ça que ça s'appelle dans Panda et ça aussi c'est un outil très important a ajouté dans votre boîte à outils de data scientist vous écrivez points cross tab et l'intérieur vous définissez les deux variables qualitative que vous vous les comparez donc par exemple on peut vouloir comparer notre target avec le virus influenza à et ça nous donne la table suivante donc on peut voir ici les croisements pour les cas positifs et

négatifs de nos deux Virus en l'occurrence on voit que 18 personnes qui sont contaminées par le iphone saha sont en fait négatifs au courant d'un virus personne d'un à la fois le corona virus et le influencia a en tout cas dans cet hôpital dont ont fait l'étude et voilà des gens qui ont le corona virus mais qui ne sont pas détectés au fun ça il y en a 112 etc etc donc pour automatiser tout ça on va faire comme tout à l'heure une boucle fort dans Laquelle on vient piocher une après l'autre les différentes variables

que l'on a dans virale coles on va créer une crosse table dans laquelle on veut comparer exactement ce qu'on a fait tout à l'heure mais pour la colonne en question on met tout ça dans une itt map de six bornes le même boutique ont utilisé au tout début de la vidéo et moi j'ai rajouté deux trois petits gadgets je veux mettre les annotations Dans might map c'est à dire qu'on va avoir ses nombreux là qui vont apparaître dans la heat maps et j'ai aussi voulu afficher les nombres en entier voilà avec cette petite commande vous

n'avez pas besoin de retenir ça donc si on exécute tout ça il n'y a pas de drogue c'est super cool et là on va pouvoir faire l'analyse de toutes nos cross tab surtout nos virus donc ce qu'on peut observer sans grande surprise c'est Qu'en général cette case en bas à gauche va être 0 voilà il ya très très peu de personnes qui vont avoir deux virus en même temps c'est quand même assez rare mais c'est pas un possible biologiquement ensuite des gens qui sont détectés dans l'ain ou deux voilà quelques-uns et les gens qui sont

négatifs sont assez nombreux bien évidemment donc voilà ça c'est très intéressant il ya juste quelque chose de très curieux c'est ça concerne encore ce Rhinovirus voilà on peut observer qu'un beaucoup de gens qui sont venus à l'hôpital gavelle rhinovirus mais qui n'ont pas le coronavirus alors quand on voit ça on peut commencer à avoir plein d'idées genre oh mon dieu quand on a le rhinovirus on n'a pas le coronavirus mai et se lancer dans des tests de qui deux pour essayer de valider ces hypothèses mais non il ne faut surtout pas faire ça parce que

s'il s'agit simplement d'un Hôpital ca se trouve si on fait deux trois recherches sur internet on va se rendre compte que ce virus il est hyper courant dans la région concernée non on peut pas faire ça c'est pas parce que tout d'un coup il ya plein de gens à l'hôpital qui on est une maladie à est aussi une maladie b que les deux sont liés pas du tout donc moi je vois ça je vous le dis tout de suite j'ai pas forcément envie d'un abidal d'analyser plus en détail ce Genre de choses à ce stade

de développement je me dis simplement ok il ya des choses intéressantes à noter mais on voit pas forcément de lien entre ces différentes choses rentrent là on a quelque chose d'intéressant et on en avait parlé tout à l'heure on a une variable dans laquelle il ya il n'y a qu'une seule valeur notre détective donc cette variable elle partira d'office donc on termine tout ça avec notre prise de Notes on voit que les double maladie sont très rares que ce virus rhinovirus bla bla bla positif il y en a beaucoup dans cet hôpital mais est-ce que

ça a un lien avec le corona virus je ne pense pas parce qu'il est tout à fait possible d'avoir plusieurs épidémies en même temps ça veut pas dire qu'elles sont liées il faut pas faire de conclusion fallacieuses et s'il ya eu ni pause et s'il ya une hypothèse à tester test on La met ici moi j'ai pas envie de faire ça à ce stade comme je le dis ici il est possible que tout ça n'est aucun lien avec le corps d'amy ans il faut juste rester un petit peu pragmatique au bout d'un moment donc conclusion

de cette analyse initiale on a pu voir qui manque beaucoup donné que dans le meilleur des cas on va pouvoir gagner garder seulement 10 ont 20% de notre data 7 on a pu identifier notre target on a pu Faire l'analyse de forme on a pu identifier deux groupes de données très utiles on a pu voir qu'il ya environ seulement 10 % de cas positifs dans notre data 7 et on a fait une série d' analyse très intéressante sur nos différentes variables cette analyse nous a permis de montrer qu il y a peu de variables qui

nous permettront de réellement faire une différence entre les gens qui ont le coc vite 19 et les gens qui ne l'ont pas Cependant c'est pas une raison pour abandonner le projet on a un objectif et on va aller jusqu'au bout si on pense que c'est trop compliqué de pouvoir prédire le coc vite 19 avec les données cliniques on dispose eh bien on va jusqu'au bout on démonte pourquoi c'est trop compliqué on va essayer de comprendre qu est-ce qui va pas qu'est ce qu'il faudrait en plus qui est ce qu'il faut plus donné est-ce qu'il faut

plus de variables à ce Que notre modèle sera en over feat englander footing c'est ça le machine learning donc voilà honnêtement c'est l'une des choses les plus importantes que vous devez retenir dans cette vidéo à présent je vous propose de procéder à une analyse un peu plus détaillée mais on va essayer d'accélérer un peu parce que la vidéo est déjà assez longue le pense [Musique] Ok dans cette analyse un peu plus détaillé on va s'intéresser à la relation variable variable ce qu'on avait fait jusqu'à présent c'était d'analyser les variables elle même voir leur distribution ce

genre de choses ensuite l'étape suivante c'est est d'analyser les relations target variable et ensuite ce qu'on fait en général l'étape supérieure c'est d'analyser les relations entre nos différentes variables mais on fait pas ça n'importe Comment on va faire ça en catégorie et donc on va commencer par visualiser les relations qui lient à entre nos différentes variables de taux sanguin ensuite on visualisera les relations entre ces variables et l'âge des individus on essayera par exemple de voir si au fur et à mesure que qu'un individu vieilli est bien certain taux par exemple de globules blancs ou

jean sérien diminue ou augmente ça pourrait Être intéressant on essaiera de voir s'il ya des choses intéressantes au sein des variables virale et ainsi de suite on testera deux trois idées on va essayer justement d'explorer notre dataset trouver des idées des idées visualiser certaines choses ensuite on fera une analyse un petit peu plus approfondie des valeurs en compte de notre data 7 et pour finir on testera quelques hypothèses des hypothèses comme quoi par Exemple les individus atteints du coc vides ont des taux de leucocytes monocytes et platelet significativement différents de ceux qui n'ont pas le

coc vie de 19 donc ça c'est quelque chose qu'on avait pu observer tout à l'heure sur ces graphiques l'as olemps disais wow c'est fou les leucocytes sont très différents mais est-ce qu'ils le sont significativement mais ça on va le tester avec un test de stunt donc c'est parti je vous propose de commencer par Les relations blog data bloodgate a donc est ce que vous vous rappelez de la fonction magique de six bornes père pelote un salaire ont l'art cela on s'en souvient cette fonction est super magnifique le problème c'est que beaucoup trop de gens essayent

de l'utiliser dès le début d'un projet data sont là ok j'ai monté cette paire pelote direct mais non non ça peut pas marcher comme ça si vous voulez utiliser père pelote il faut un Petit peu filtré votre tasse est exactement comme ce qu'on a fait ici là on a vraiment des données test de taux sanguin et ça ça va être génial avec père pilote justement que si on fait sns point père belote ok on va faire des f2 blood colom sa vie mais on se retrouve avec le graphique suivant et il est très très intéressant

ce graphique on pourrait analyser pendant des heures mais je vous rassure on va pas le faire ce qu'on peut voir C'est tout les relations assez linéaire qu'on va trouver entre certaines variables comme par exemple les variables d'hémoglobine qui sont tout en haut mais je vais vous montrer une façon beaucoup plus rapide de voir ce graphique est donc cette façon encore plus rapide c'est d'utiliser une élite maps dans laquelle on va prendre la corrélation la matrice de corrélation de tout ça donc on fait des f points blood colom enfin des f2 blood clown ce Point corse

et la fonction corps de pontacq et est extrêmement utile retenez là vraiment c'est la très très importante et ça ça nous montre quoi ça nous montre exactement le tableau qu'on a fait ici mais avec les corrélations donc plus une corrélation est proche de 1 plus les deux variables évolué positivement les unes avec les autres quand l'une augmente l'autre augmente aussi On peut voir par exemple donc l'hémoglobine et l'ema théocrite je ne sais pas ce que c'est sont fortement corrélés tout comme on pouvait le voir ici voir quand l'une évolue l'autre évolue avec elle monte en

même temps donc à ce stade on n'est pas en train de prendre des décisions on est simplement en train de collecter des informations pour prendre des décisions par la suite donc rythme a peut être sympa il y en a une autre fonction de si bonnes à très Très très super c'est kloster map celle ci elle vous rassemble directement vos variable les organise de manière à créer des clusters comme ceci donc voilà on peut voir que ces trois variables sont très corrélées là aussi on a des variables qui sont très corrélées et voilà à ce stade

on peut pas dire exactement à quoi ça va nous servir mais c'est une information très utile pour prendre des décisions par la suite notamment lorsqu on va faire de la Modélisation très très important d'avoir ce graphique donc dans notre prise de notes on peut écrire que certaines variables sont très corrélées on a plus de 0.92 coefficient de corrélation donc à surveiller pour plus tard informations très utiles à présent on va visualiser les relations qu'il ya entre le sens et l'âge de l'individu donc pour ça on va comme tout à leur créer une boucle fort columns

in blood Columns et qu'est ce qu'on va faire on va utiliser une nouvelle fonction de six bornes qu'on n'a pas encore vu dans cette formation mais c'est le moment de la découvrir c'est la fonction elle aime pelote qui nous permet de visualiser des courbes de régression dans nuages de points donc cette fonction on va s'en servir pour afficher en abscisse l'âge d'un patient en ordonner la variable de sang qui est concerné en discrimination on va Utiliser les cas positifs et les cas négatifs au coronavirus et bien sûr tout ça sur notre data 7 ce qui

nous donne donc si on exécute tout ce code les graphiques suivants donc première chose qu'on constate c'est que nos deux droite de régression ne sont pas superposées les unes aux autres c'est une première bonne chose on remarque quelques haltes liars au passage qu'on va pas illuminé dans cette vidéo parce que la vidéo est déjà très Longue et ce qui nous intéressait devoir c'était s'il y avait une sorte de relation linéaire entre l'âge et certaines valeurs certes un taux sanguin eh bien je pense que la réponse est non à travers nos différents graphiques on dirait qu'il

y a des tendances linéaire par exemple entre la mcv je sais toujours pas ce que c'est le mincom plus le bras volumes of et l'âge du patient dirais qu'il ya une relation linéaire mais elle semble très très Faible et la façon de vérifier tout ça c'est encore une fois de tracer une matrice de covariance mais on va pas s'embêter avec une matrice entière on a simplement tracé la covariance la corrélation de la covariance pourrait aussi aller mais la corrélation entre l'âge et les différentes blood vibes donc pour ça on prend notre dette à 7 df

on utilise la fonction corrélation donc là ça nous donne tout notre patrice De corrélation pour toutes les variables quantitative mais on va filtrer ça en ne sélectionnant que la variable de l'âge du patient et si on utilise la même technique qu'aux débuts de cette vidéo à savoir sorte value zh alors on peut voir les coefficients de corrélation qui sont les plus proches de 1 et 2 - 1 on voit que voilà les coefficients de corrélation les plus élevés atteignent à peine 0,28 c'est vraiment très faible comme corrélation donc il n'y est même Pas utile de

générer une hypothèse on se disant ok il semblerait que l'âge est une influence sur le taux de globules blancs ou ce genre de choses non ça sert à rien on a tout de suite la réponse on voit que la corrélation est ultra faible néanmoins ces variables seront quand même utile dans notre modélisation mais encore une fois la notre but c'est de collecter des informations pour comprendre les relations les forces entre les Différentes variables donc il est temps de prendre des notes on observe une très faible corrélation entre âge et taux sanguin cessons deux variables qui

aurait très bien pu travailler main dans la main dans une étape de modélisation malheureusement c'est pas aussi fort que ce qu'on espérait donc à présent on va s'intéresser à la relation qu'il ya entre les variables virale donc là cette fois ci à tout à l'heure on avait une Grosse table cette fois ci on pourrait utiliser ce qui s'appelle un graphique mosaïque on en trouve dans le package stats modèle mais on va pas s'embêter à aller aussi loin ce qu'on va tout simplement faire c'est s'intéresser à cette variable rapide test pour l'influenza a et b qui

est un petit peu étrange pourquoi est-ce qu'on aurait un rapide test en plus d'avoir un influenza à une ça paie c'est un petit peu ça qu'on va Essayer de visualiser maintenant dans cette analyse donc pour sa très simple on va simplement effectuer une cross tab pour une flandre saha et les rapides tests ainsi que pour b et donc et on remarque tout de suite quelque chose c'est que là on a quand même le seul au rapide test 15 cas qui ont été détectés positifs alors que sur le insulza a c'était en fait des canes négatif

et ça c'est intéressant et c'est d'autant plus Intéressant que lorsqu'on fait une recherche sur la sensibilité de ces tests sur internet on se rend compte que ces tests ont une très mauvaise sensibilité donc ce sont des tests très peu fiable donc voilà c'est une nouvelle chose à écrire dans notre prise de notes c'est une nouvelle information une nouvelle pièce de notre puzzle pour l'instant on ne prend pas de décision mais on pourra se référer à ce document plus tard Lorsqu'on fera du prix processing et de la modélisation en disant tiens le rapide test il nous

donne pas de bons résultats et il est même reconnue comme étant peu fiables donc bon on va peut-être pas s'en servir à présent on pourrait s'intéresser entre la relation être malade de n'importe quelle maladie includes a rhinovirus ce genre de choses et les taux de globules blancs rouges et c'est que l'on a dans Le sang donc pour ça on va commencer par créer une nouvelle variable est malade qui va donc nous indiquer si un patient à n'importe laquelle des maladies qui sont listées à l'exception du coc vide donc pour ça on prend notre dataset virale

colom on élimine les deux dernières colonnes qui sont les colonnes rapide test a et b et on écrit égale égale dit acted donc ça nous donne voilà un tableau de boules et ensuite ce qu'on fait ses gonds à Faire la somme de ce tableau donc on prend la somme d'une paille et disons qu'on va la faire sur la kz1 ce qui nous donne le résultat sion 5643 ligne qui va qui vont à chaque fois nous indiquer si une personne a un ou plusieurs maladies c'est possible d'avoir plusieurs maladies d'ailleurs ça sera intéressant pourrait faire pelote

et voilà on voit que oui il ya des gens qui ont qui ont été détectés jusqu'à Trois tests à la fois donc ça veut pas forcément dire qu'ils sont qu'ils ont trois maladies mais ils ont été testés positifs à trois maladies intéressant donc ce qu'on va faire nous c nous intéressant simplement au cas où c'est supérieur ou égal à 1 ce qui nous indique que oui la personne est testée positive et donc on se retrouve avec un tableau comme ça et ce tableau on va simplement l'insérer dans une nouvelle variable donc est malade et donc

notre Data 7 se retrouve avec une colonne est variable qui contient le fait que le patient soit atteint d'une maladie ou non ou en tout cas testés positifs c'est plutôt ça qu'il faut dire maintenant pour visualiser la relation entre la variable est malade ainsi que les différents tests sanguins on va faire la même chose que tout à l'heure à savoir créer des sous-ensembles positifs et négatifs pour nos différentes valeurs de est malade et Visualiser tout ça avec le même code que tout à l'heure donc voilà on crée un des tasses est malade df dans lequel

est malade et et kannad chou dataset non malades en qu'elle s'était gala falls on reprend la même boucle fort que tout à l'heure en changeant simplement malade des f&a et non malades df on exécute ça ça nous donne le même graphique que tout à l'heure mais pas pour le coronavirus mais pour d'autres maladies Respiratoires et maintenant on va essayer de voir si contrairement au courant d'un virus dans lequel on avait les monocytes les leucocytes qui était très différent est-ce que là on a les mêmes différences ou est ce qu'on aura d'autres différences et ça ça

pourrait être intéressant donc analysons ces graphiques ça c'est à peu près la même chose à hémoglobine légèrement légère différence mais honnêtement sur un petit Test ça va rien donner aps l'athlète ah ça c'est intéressant parce que sur les plates l'êtes vous souvenez on avait un super beau décalage entre nos deux courbes et bien là à rien du tout les deux courbes sont parfaitement bien aligner le un test de students nous dirait forcément oui c'est la même chose c'est la même moyenne il n'y a rien à dire maintenant les mines aps l'athlète volume auquel m ok

les lymphocytes les Lymphocytes sont différents ça c'est intéressant ça c'est intéressant parce qu'on ne l'avait pas ça on n'avait pas une différence sur les lymphocytes par rapport au co vide si on se rappelle bien on avait simplement monocytes leucocytes et platelet donc on n'oublie pas de prendre nos notes on peut observer que les taux sanguins entre malades et qu'ovide 19 sont différents mais ça n'est qu'une idée il faudrait tester cette idée avec Une hypothèse et c'est ce qu'on va faire tout à l'heure avec les tests de stunt tout ça c'est ok maintenant on va essayer

de visualiser la dernière chose intéressante c'est la relation entre hospitalisation et les tests sanguins ou bien le fait qu'une personne soit malade ou non donc comme vous le savez dans notre data 7 on a trois variables patients admis au service de surveillance soit un semi intensif et soins intensifs jusqu'à Présent on n'y a pas touché donc ce qu'on va faire c'est qu'on va créer une nouvelle variable par exemple statut dans notre data 7 qui va être égal au résultat de la fonction hot like est une fonction essentielle deux pandas dont on avait parlé avec les

fonctions maps et tout ça dans la vidéo 18 sur 30 dans laquelle donc on va utiliser une fonction qu'on a créé et qui va simplement mettre dans statut soit l'état surveillance soit semi Intensif soin intensif en fonction des résultats qu'on a dans nos colonnes patients admis et c'est donc quand cette colonne est égal à 1 alors c'est surveillance sinon ses soins intensifs sinon c'est intensif et s'il n'ya rien alors on met état inconnu quoi c'est aussi simple que ça donc ce qu'on fait c'est qu'on va utiliser cette fonction hospitalisation dans la technique ap lie deux

pandas et on va voir appliquer ça sur la kz1 lax des Colonnes puisqu'on veut rajouter une colonne donc on exécute ça il y à une erreur parce que j'ai pas encore défini cette fonction maintenant il ya toujours une erreur et c'est parce que j'aurais pas dû mettre dfc simplement on applique à plat et on applique la fonction hospitalisation sur cet objet donc il n'est pas nécessaire de mettre ça c'était une petite erreur de copie coller c'est bien que je laisse les erreurs je vais la laisser au montage Comme ça vous pouvez voir un petit peu

ce genre de choses et donc si on analyse notre data csd est fed qu'est ce qu'on obtient on obtient hockey une colonne statut tout au bout de notre data 7 c'est très bien et maintenant pour afficher la relation qui pourrait y avoir entre les taux sanguins des individus qui sont situés dans les différents services des hôpitaux donc dans les différents statuts on va Réécrire une boucle fort comme ce qu'on a fait depuis le début de cette vidéo mais attention cette fois ci dans cette boucle fort on va créer une figure et sur la figure on

va à chaque fois rajouté différents disques pelote je zoome un peu pour que vous voyez mieux sur lesquelles on va itérer à travers les différentes catégories de statut et pour ça on utilise la fonction qu'on a déjà vu plusieurs fois la fonction unique Donc on va avoir le statut inconnu soins intensifs soit en semi intensif et surveillance donc qu'est ce qui se passe j'ai pas tout réécrit pour que la vidéo dure pas milan que vous voyez quand même les choses rapidement mais ce qu'on a c'est qu'on a filtré statut égal 4 on a injecté ce

tableau booléens dans notre df c'est toujours la même chose un toujours le même protocole ensuite on a sélectionné uniquement la Colonne concernés de belote colonnes dans ce tableau df qui a été ces qui a été filtrée pour ne contenir que la catégorie concernée on rajoute une légende en écrivant quelle catégorie on désire avoir et maintenant si on exécute ce code alors on obtient des graphiques vraiment très sympa et oui c'est assez intéressant de voir que ok les personnes qui ont qui sont admises en soins intensifs ont des taux De leucocytes vraiment différent ça c'est intéressant

c'est intéressant de voir ça et ça serait même intéressant si on voulait poursuivre un autre objectif que de traiter que de vouloir prédire si une personne alcôves id ou non mais à la place de vouloir insérer les gens dont le bon service en fonction de leurs résultats sens bien ça aussi ça pourrait être bon un bon exercice un bon objectif de prédiction de modèle de machine Learning et on pourra peut-être le faire dans la vidéo 29 sur 30 très rapidement donc prise de notes voilà on est content et maintenant on va s'attaquer à l'avant-dernière sujet

de cette vidéo qui va être l'analyse un petit peu plus détaillée des valeurs manquantes de notre dette à 7 alors ça va vraiment être rapide mais c'est très utile de faire ça ce qu'on va faire c'est qu'on a essayé de comprendre juste à titre informatif Qu'est-ce qui se passerait dans notre data 7 si on éliminait certaines valeurs manquantes vous allez tout de suite comprendre actuellement nous avons deux types de variables nous avons les blogs que l'oms et les virale kohl's donc idéalement on aimerait avoir les deux mais le problème et on le voit très bien

ici c'est que nos lignes ne sont pas à les nier entre ces deux catégories de variable donc la réunion entre ces deux catégories de Abl va éliminer énormément de valeur dans notre dette à sète on va se retrouver avec un nombre tout petits de données et ça on peut le voir très facilement en écrivant df points drop un oeil et en comptant le nombre de variables qui nous reste et voilà le nom de valeurs de valeurs qui nous reste et voilà il nous reste 99 valeur dans notre dette à 7 par colonne sur les 5600

et c'est qu'on avait c'est quand même c'est quand même pas cool C'est quand même pas cool donc si on veut travailler avec ces deux éléments eh bien il faudra sûrement qu'on concerne aux valeurs manquantes qu'on les remplissent avec un fils est né dans la prochaine vidéo la vidéo de propos de prix processing en attendant il serait intéressant de savoir combien de valeur on aurait si on ne travaille qu'avec les valeurs df blood donc on aurait six en valeur c'est un peu plus de 10% de notre data 7 et de la Même manière s'ils ont travaillé

avec les virale que l'oms il nous en resterait 1354 donc évidemment là c'est clair et net il vaut mieux travailler avec virale cologne mais ça suffira sûrement pas les on a pu identifier grâce à notre analyse que ces variables las on est extrêmement utile pour finir cette analyse des valeurs manquantes il faut bien sûr essayer de comprendre quel est l'état de notre target Si on élimine toutes les valeurs manquantes de certains groupes par exemple si on sélectionne le groupe des données virale qu on y rajoute la variable target qu'on élimine toutes les valeurs manquantes c'est

à dire qu'on passe de 5000 valeur à 1354 alors est ce qu on garde toujours un bon rapport de positif et de négatif dans notre target et bien on vérifie ça tout de suite En écrivant drop n est qu vide et on utilise value cowes et optionnellement comme on l'a vu au début de la vidéo on peut utiliser normes live et un chouchou et là on voit qu'ils nous restent à peu près les mêmes proportions et pour compléter notre analyse il faut faire la même chose pour les variables de type sont hélas on voit qu'on

a des meilleurs proportion nos classes sont plus balancer on retrouve 86 % et 14 % grosso modo donc pour terminer on prend Nos petites notes en écrivant tout ça sur papier comme ça en garde ces informations à portée de main ce qui est très utile et on va terminer cette vidéo en faisant rapidement quelques tests d'hypothèses parce que c'est vrai qu'on a pu durant notre exploration trouver quelques idées on se dit ah tiens il semblerait par exemple que les individus atteints du comique 19 ont des taux de leucocytes monocytes hep l'athlète Significativement différent des individus

qui sont négatifs on va tester cette idée on va émettre une hypothèse une hypothèse nul qui va donc être la suivante h0 égale les taux moyens sont égaux chez les individus positifs et négatifs et cette hypothèse on va la tester avec un test de stunt alors qu'on avait on en a pas parlé encore sur cette chaîne youtube des tests statistiques ou à peine avec le test de q2 mais le test de stun c'est un test qui permet de Vérifier si la moyenne entre deux distributions est différente et significativement différente et pour ça on est on

est on émet une hypothèse nul dans lequel on dit les taux moyens donc les moyennes sont égaux elles sont égales les moyennes entre nos deux distributions dont deux groupes de données le principe du test de stunt va être d'essayer de rejeter cette hypothèse pour ça ont défini un seuil alpha qui en général aux alentours de 2 % ou 5 % on calcule une valeur paix avec notre test de stunt où notre test de chi 2 etc et si la valeur p est inférieure à notre seuil de probabilités alpha alors on peut rejeter cette hypothèse sinon

on ne peut pas rejeter cette hypothèse c'est comme ça que fonctionnent les tests statistiques mais vous en faites pas si vous êtes un peu rouillé avec ça on en parlera à l'avenir sur cette chaîne donc pour effectuer notre test Stade on va utiliser l'outil qui teste d'indépendance qui nous vient du module taipei point stats maintenant une chose importante à savoir c'est que lorsqu'on effectue un test de stunt il est préférable d'avoir des classes balancé entre nos différents groupes nom de jean positif doit à peu près être égal au nombre de gens négatifs le problème c'est

qu'on n'a pas du tout ça donc ce qu'on va faire c'est qu'on va utiliser une technique d'échantillonnage En écrivant ce hempel dans laquelle on va préciser le nombre d'échantillons qu'on veut tirer au hasard dans négatif des f donc si on veut avoir quelque chose de parfaitement équilibré on va écrire 558 et là on se retrouve avec 558 échantillons extrait aux hasards de notre data phryne négative des f mais ça nous donne ça on à 558 ligne et ça ça va être très utile donc pour être bien sûr un petit peu plus malins on va Faire

positive idf points chez hype 0 au cas où cela change à l'avenir donc voilà on a notre 558 qui est écrit ici et bien c'est deux choses on va les intégrer dans une fonction qui va faire appel at it est indépendant qui va calculer la valeur paix entre ceci et cela pour chaque colonne de belote test et on va comparer cette valeur paix à notre seuil alpha donc voila en gros on a ça une fonction dite est une valeur alpha Égal à 0 2 on calcule une valeur p à partir de tite est indépendante ce

que je vous disais dans lequel on compare le go la grosse expression qu'on a écrit l'ars que derrière on pourrait remplacer par balanced neg dans lequel on va éliminer les valeurs manquantes c'est mieux pour faire un petit test et on va faire la même chose pour positif des f dans lequel on prend la colonne concernés qui va être ici et on fait de Romanet on vérifie si notre pays va lui est un faire un alpha et si tel est le cas alors on rejette notre hypothèse sinon on retourne 0 voilà donc on compile cette fonction

et maintenant on va créer une boucle fort comme depuis le début fort colonnes in blood colom ce qu'est ce qu'on fait ben on imprime la colonne on réutilise la petite astuce que je vous ai montré au début pour faire des jolies alignement et on va faire appel à notre fonction tite est de Colonne mais alors ce qui est intéressant de constater c'est que en effet les plates let les leucocytes semblent être des variables significativement différente pour les gens atteints du coran d'un virus et les gens qui ne sont pas atteints du coronavirus donc ce titre

nous permet de revenir à notre prise de notes et de dire que cette hypothèse est rejetée les taux moyens ne sont pas égaux chez les individus positifs et négatifs Et ça c'est très intéressant pour la suite du programme croyez moi donc bon pour compléter cette analyse on pourrait faire la même chose sur d'autres hypothèses qu'on aurait testé je vous laisse faire tout ça de votre côté si ça vous intéresse je vais mettre ce code sur github dans les prochains jours comme ça vous aurez tout ce code qui est assez long la vidéo était d'ailleurs très

très longue dites moi dans les commentaires si ça Vous a embêté c'est important pour moi de le savoir ou si vous préférez que je fasse de simple copier coller ce que moi je trouve pas terrible on plutôt que je tape le code comme ce que j'ai pu faire dans cette vidéo pense que c'est plus pédagogique vous voyez mais dites le moi dans les commentaires je fais ces vidéos pour vous pas pour moi donc voilà pour cette exploration de notre data 7 et vous voyez on a quand même pris pas mal de notes et des notes

Qui vont nous servir tout au long du projet donc à partir de là maintenant il reste à faire le pré processing dans lequel il s'agit d'être cohérent avec les choses qu'on a identifié ici donc il faudra repartir de notre data 7 originel data en refaisant une copie de notre dette à 7 et puis à partir de là on va mettre en place différentes opérations qu'on a pu identifié comme étant utile dans cette vidéo Par exemple on va drop patients a dit on va peut-être créer recréer ou réutiliser la fonction qui nous permet de créer ça

on va évidemment filtré les variables qui ont plus de 90% de valeurs manquantes tout ce genre de choses on va très rapidement leur faire au début de la vidéo de prix processing ensuite pour cette vidéo vous n'avez qu'à suivre la check list que je vous avais donné dans la vidéo 26 voilà je vous souhaite bon Courage si vous voulez pas louper cette vidéo pensez à vous abonner si vous avez la moindre question laissez-la mois dans les commentaires de cette vidéo bien sûr n'hésitez pas à rejoindre notre discorde et continuer à partager vos analyses vos graphiques

ya des gens vraiment très très sympa dessus et je trouve que vous avez publié de très bonne analyse pour ce pour cette première partie et bien sûr j'aimerais terminer cette vidéo en remerciant les Gens qui me soutiennent sur tipi merci à vous je vous dis à très vite et portez vous bien

EXPLORATORY DATA ANALYSIS - CORRIGÉ (27/30)