L'objectif de cette série de cours est d'enseigner les bases de la statistique informatique afin de permettre aux Data Scientists en herbe ou débutants d'effectuer des inférences. Il ne s'agit pas d'un cours complet qui enseigne les bases de la statistique et de la probabilité, ni de techniques statistiques fréquentistes basées sur le test de signification de l'hypothèse nulle (NHST). Ce qu'il couvre, c'est
Les bases de la statistique et de la probabilité bayésiennes
Comprendre l'inférence bayésienne et son fonctionnement
L'ensemble minimal d'outils et de connaissances nécessaires pour effectuer une inférence bayésienne en Python, c'est-à-dire la pile PyData de NumPy, Pandas, Scipy, Matplotlib, Seaborn et Plot.ly
Un cadre évolutif basé sur Python pour effectuer l'inférence bayésienne, c'est-à-dire PyMC3
Avec cet objectif à l'esprit, le contenu est divisé en trois sections principales (cours).
Introduction aux statistiques bayésiennes - Les participants commenceront par apprendre les bases de la probabilité, de la modélisation bayésienne et de l'inférence dans le cours 1.
Introduction aux méthodes de Monte Carlo - Ce cours sera suivi d'une série de conférences sur la manière d'effectuer une inférence approximative lorsque les calculs exacts ne sont pas viables (cours 2).
PyMC3 pour la modélisation et l'inférence bayésienne - PyMC3 sera présenté ainsi que son application à certains scénarios du monde réel.
Les cours seront donnés par le biais de notebooks Jupyter et les participants devront interagir avec les notebooks.
Projet d'apprentissage appliqué
Implémenter des distributions en Python et les visualiser de manière statique en utilisant Matplotlib ou Seaborn et de manière interactive en utilisant Plot.ly.
Implémenter des algorithmes d'échantillonnage Monte Carlo en Python.
Apprenez les bases de PyMC3 pour diverses modélisations bayésiennes, y compris la régression linéaire, la régression hiérarchique, la classification, les modèles robustes et l'évaluation de la qualité des modèles.
Utilisez PyMC3 pour modéliser la dynamique de la maladie et déduire les paramètres d'un modèle SIR de COVID-19 à partir de données réelles.