Ziel dieser Kursreihe ist es, angehenden oder neuen Data Scientists die Grundlagen der Computergestützten Statistik zu vermitteln, damit sie Inferenzen durchführen können. Es handelt sich nicht um einen umfassenden Kurs, der die Grundlagen der Statistik und der Wahrscheinlichkeitsrechnung lehrt, und er behandelt auch nicht die statistischen Techniken des Frequentismus auf der Grundlage der Nullhypothesen-Signifikanztests (NHST). Was er abdeckt, ist:
Die Grundlagen der Bayes'schen Statistik und Wahrscheinlichkeitsrechnung
Das Verständnis der Bayes'schen Inferenz und wie sie funktioniert
Das Minimum an Werkzeugen und Kenntnissen, die erforderlich sind, um Bayes'sche Schlussfolgerungen in Python durchzuführen, d.h. der PyData-Stack aus NumPy, Pandas, Scipy, Matplotlib, Seaborn und Plot.ly
Ein skalierbares Python-basiertes Framework für die Durchführung von Bayes'scher Inferenz, d.h. PyMC3
Mit diesem Ziel vor Augen ist der Inhalt in die folgenden drei Hauptabschnitte (Kurse) unterteilt.
Einführung in die Bayes'sche Statistik - In Kurs 1 lernen die Teilnehmer zunächst die Grundlagen der Wahrscheinlichkeitsrechnung, der Bayes'schen Modellierung und der Inferenz kennen.
Einführung in Monte-Carlo-Methoden - Darauf folgt in Kurs 2 eine Reihe von Vorträgen darüber, wie man Inferenzen näherungsweise durchführt, wenn exakte Berechnungen nicht möglich sind.
PyMC3 für Bayes'sche Modellierung und Inferenz - PyMC3 wird zusammen mit seiner Anwendung auf einige reale Szenarien vorgestellt.
Die Vorlesungen werden mit Hilfe von Jupyter-Notebooks gehalten und es wird erwartet, dass die Teilnehmer mit den Notebooks interagieren.
Praktisches Lernprojekt
Implementieren Sie Verteilungen in Python und visualisieren Sie sie statisch mit Matplotlib oder Seaborn und interaktiv mit Plot.ly.
Implementieren Sie Monte Carlo Sampling Algorithmen in Python.
Lernen Sie die Grundlagen von PyMC3 für verschiedene Bayes'sche Modellierungen, einschließlich linearer Regression, hierarchischer Regression, Klassifizierung, robuster Modelle und der Bewertung der Qualität von Modellen.
Verwenden Sie PyMC3, um die Krankheitsdynamik zu modellieren und die Parameter eines SIR-Modells von COVID-19 aus realen Daten abzuleiten.