Unlearning descriptive statistics, by Stijn Debrouwere
▻http://debrouwere.org/2017/02/01/unlearning-descriptive-statistics
conseils pour faire des #statistiques parlantes :
– d’abord, regarder la distribution, s’il y a plusieurs modes, les traiter séparément (plutôt que dire qu’un participant-moyen est à 50% un homme et à 50% une femme, dire qu’il y a environ autant d’hommes que de femmes)
– plutôt que la moyenne, préférer la médiane, plus représentative de quelque chose qui existe vraiment (le fameux taux de naissance à 2,1 enfant par femme)
– plutôt que l’écart-type, préférer la médiane de l’écart à la médiane (la moitié des gens font plus de 1m70, et la moitié des gens sont à plus de 5cm de cette valeur), l’exemple est plus compliqué car c’est justement un cas où on devrait distinguer deux modes (H et F) assez distincts
– plutôt que « plus loin que 3 écarts-types, » on définira les outliers comme les éléments dont la disparition provoquent un changement majeur dans les éléments ci-dessus
– plutôt que chercher des coefficients de corrélation, montrer graphiquement des distributions : histogrammes et nuages de points
l’argument, si j’ai bien compris, est que les outils habituels sont plus utiles pour faire de l’inférence (des modèles prédictifs) que de la description
je pense que ça intéressera entre autres @simplicissimus @reka @freakonometrics
[EDIT : ma « traduction » à la va-vite introduit certainement des erreurs, je vous laisse vérifier sur l’original et me corriger le cas échéant]
en lien avec le #machine_learning