Modellierung von Daten im Tidyverse

Modellierung von Daten im Tidyverse

Dieser Kurs ist Teil von Spezialisierung für Tidyverse-Fähigkeiten für Datenwissenschaft in R

Dozenten: Shannon Ellis, PhD

1.600 bereits angemeldet

Bei enthalten

Mehr erfahren

11 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

10 Bewertungen

2 Wochen zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

11 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

10 Bewertungen

2 Wochen zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Beschreiben Sie verschiedene Arten von Fragen zur Datenanalyse
Führen Sie Hypothesentests für Ihre Daten durch
Anwendung linearer Modellierungstechniken zur Beantwortung multivariabler Fragen
Wenden Sie Workflows für maschinelles Lernen an, um komplexe Muster in Ihren Daten zu erkennen

Kompetenzen, die Sie erwerben

Kategorie: Datenmodellierung
Kategorie: Stichproben (Statistik)
Kategorie: Tidyverse (R-Paket)
Kategorie: Explorative Datenanalyse
Kategorie: Vorverarbeitung der Daten
Kategorie: Klassifizierungs- und Regressionsbaum (CART)
Kategorie: Rmarkdown
Kategorie: Wahrscheinlichkeit & Statistik
Kategorie: Statistische Modellierung
Kategorie: Datenanalyse
Kategorie: Statistische Methoden
Kategorie: Prädiktive Modellierung
Kategorie: Maschinelles Lernen
Kategorie: Statistische Hypothesentests
Kategorie: Regressionsanalyse
Kategorie: R-Programmierung
Kategorie: Statistische Analyse
Kategorie: Modell Bewertung
Kategorie: Statistische Inferenz
Der Fähigkeiten-Abschnitt ist eingeklappt. 7 von 19 Fähigkeiten werden angezeigt.

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

8 Zuweisungen¹

KI-bewertet siehe Haftungsausschluss

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung für Tidyverse-Fähigkeiten für Datenwissenschaft in R

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 11 Module

Die Entwicklung von Erkenntnissen über Ihre Organisation, Ihr Unternehmen oder Ihr Forschungsprojekt hängt von einer effektiven Modellierung und Analyse der von Ihnen gesammelten Daten ab. Um effektive Modelle zu erstellen, müssen Sie die verschiedenen Arten von Fragen verstehen, die Sie stellen können, und wissen, wie Sie diese Fragen auf Ihre Daten übertragen können. Verschiedene Modellierungsansätze können gewählt werden, um interessante Muster in den Daten zu erkennen und verborgene Beziehungen zu identifizieren. Dieser Kurs behandelt die Arten von Fragen, die Sie an Daten stellen können, und die verschiedenen Modellierungsansätze, die Sie anwenden können. Zu den behandelten Themen gehören Hypothesentests, lineare Regression, nichtlineare Modellierung und maschinelles Lernen. Mit dieser Sammlung von Werkzeugen, die Ihnen zur Verfügung stehen, sowie mit den Techniken, die Sie in den anderen Kursen dieser Specialization gelernt haben, werden Sie in der Lage sein, wichtige Erkenntnisse aus Ihren Daten zu gewinnen, um die Entscheidungsfindung in Ihrem Unternehmen zu verbessern. In dieser Specialization setzen wir voraus, dass Sie mit der Programmiersprache R vertraut sind. Wenn Sie noch nicht mit R vertraut sind, empfehlen wir Ihnen, zunächst die R-Programmierung zu absolvieren, bevor Sie zu diesem Kurs zurückkehren.

Das ist alles enthalten

16 Lektüren1 Aufgabe

16 Lektüren Insgesamt 195 Minuten

Kurs Lehrbuch 10 Minuten
Der Zweck von Data Science 5 Minuten
Arten von Data Science Fragen 10 Minuten
Daten-Bedarf 5 Minuten
Die Anzahl der Beobachtungen ist zu gering 5 Minuten
Der Datensatz enthält nicht genau die Variablen, nach denen Sie suchen 10 Minuten
Die Variablen im Datensatz werden nicht im selben Jahr erhoben 5 Minuten
Der Datensatz ist nicht repräsentativ für die Bevölkerung, an der Sie interessiert sind 10 Minuten
Einige Variablen im Datensatz werden mit Fehler gemessen 5 Minuten
Variablen sind miteinander verwechselt 10 Minuten
Deskriptive und explorative Datenanalyse 15 Minuten
Fehlende Werte 10 Minuten
Gestalten Sie 25 Minuten
Identifizierung von Ausreißern 20 Minuten
Variablen auswerten 20 Minuten
Beziehungen auswerten 30 Minuten

1 Aufgabe Insgesamt 30 Minuten

Quiz zu den Grundlagen der Datenmodellierung 30 Minuten

Die inferenzielle Analyse ist das, was Analysten durchführen, nachdem sie ihren Datensatz beschrieben und erforscht haben. Nachdem Sie Ihren Datensatz besser verstanden haben, versuchen Analysten oft, etwas aus den Daten abzuleiten. Dies geschieht mit Hilfe statistischer Tests. Wir haben ein wenig darüber gesprochen, wie wir Modelle verwenden können, um Inferenz- und Vorhersageanalysen durchzuführen. Was ist damit gemeint?

Das ist alles enthalten

3 Lektüren1 Aufgabe

Lineare Modelle sind die am häufigsten verwendeten Modelle in der Datenanalyse, da sie rechnerisch effizient und einfach zu interpretieren sind. Ein solides Verständnis der linearen Modelle und ihrer Funktionsweise ist für jede Arbeit in der Datenwissenschaft von entscheidender Bedeutung. Tidyverse bietet eine Reihe von Tools, mit denen die lineare Modellierung effizienter und schlanker wird.

Das ist alles enthalten

12 Lektüren1 Aufgabe

12 Lektüren Insgesamt 119 Minuten

Lineare Regression 15 Minuten
Annahmen 20 Minuten
Verein 15 Minuten
Assoziationstests in R 10 Minuten
Anpassen des Modells 2 Minuten
Modell-Diagnose 10 Minuten
Beispiel für Baumumfang und Höhe 10 Minuten
Interpretation des Modells 10 Minuten
Erklärte Varianz 5 Minuten
Besen benutzen 5 Minuten
Korrelation ist keine Kausalität 7 Minuten
Verwirrend 10 Minuten

1 Aufgabe Insgesamt 30 Minuten

Quiz zur linearen Regression 30 Minuten

Eine multiple lineare Regression wird benötigt, wenn Sie Störfaktoren oder andere Prädiktoren in Ihr Modell für die Antwort einbeziehen möchten. R bietet eine unkomplizierte Möglichkeit, dies über die Formelschnittstelle der Funktion lm() zu tun.

Das ist alles enthalten

1 Lektüre1 Aufgabe

Obwohl wir uns in dieser Lektion über Schlussfolgerungen auf die lineare Regression konzentriert haben, ist die lineare Regression nicht der einzige analytische Ansatz, den es gibt. Aber sie ist wohl die am häufigsten verwendete. Darüber hinaus gibt es viele statistische Tests und Ansätze, die leichte Variationen der linearen Regression sind. Wenn Sie also eine solide Grundlage und ein gutes Verständnis der linearen Regression haben, wird das Verständnis dieser anderen Tests und Ansätze viel einfacher. Was wäre zum Beispiel, wenn Sie nicht die lineare Beziehung zwischen zwei Variablen messen wollten, sondern stattdessen wissen wollten, ob der beobachtete Durchschnitt von der Erwartung abweicht oder nicht?

Das ist alles enthalten

3 Lektüren

Hypothesentests beschreiben eine Familie von statistischen Techniken, mit denen Sie feststellen können, ob die von Ihnen gesammelten Daten einen Hinweis auf den Wert eines unbekannten Parameters von Interesse liefern. Das Ziel von Hypothesentests ist es, Schlussfolgerungen zu ziehen und dabei die Variabilität der Daten zu berücksichtigen, die zu falschen Ergebnissen führen kann.

Das ist alles enthalten

3 Lektüren1 Aufgabe1 Plug-in

Die Modellierung von Vorhersagen ist eine wesentliche Aktivität in der Datenwissenschaft und beinhaltet den Aufbau von Systemen zur Erstellung von Vorhersagen auf der Grundlage von zuvor beobachteten Daten. Diese Modelle sind in der Regel sehr flexibel und können eine Reihe von unterschiedlichen Beziehungen erfassen.

Das ist alles enthalten

12 Lektüren1 Aufgabe

12 Lektüren Insgesamt 133 Minuten

Modellierung von Vorhersagen 10 Minuten
Was ist maschinelles Lernen? 10 Minuten
Schritte des maschinellen Lernens 10 Minuten
Daten aufteilen 10 Minuten
Trainieren, testen, validieren 10 Minuten
Zug 3 Minuten
Test 5 Minuten
Validieren Sie 10 Minuten
Variable Auswahl 15 Minuten
Modellauswahl 5 Minuten
Regression vs. Klassifizierung 30 Minuten
Modell-Genauigkeit 15 Minuten

1 Aufgabe Insgesamt 30 Minuten

Quiz über Vorhersage und maschinelles Lernen 30 Minuten

Dank der Arbeit von RStudio gibt es unglaublich hilfreiche Pakete in R. Wie bereits erwähnt, gibt es Hunderte von verschiedenen Algorithmen für maschinelles Lernen. Die R-Pakete von tidymodels haben viele davon in einem einzigen Framework zusammengefasst, so dass Sie viele verschiedene Modelle des maschinellen Lernens problemlos verwenden können.

Das ist alles enthalten

5 Lektüren1 Aufgabe

In dieser Fallstudie wird ein Ansatz zur Erstellung eines Prognosemodells für die Vorhersage der Luftverschmutzung in den Vereinigten Staaten vorgestellt.

Das ist alles enthalten

17 Lektüren1 Unbewertetes Labor

17 Lektüren Insgesamt 305 Minuten

Fallstudie 1: Vorhersage der jährlichen Luftverschmutzung 5 Minuten
Die Daten 5 Minuten
Datenimport 5 Minuten
Datenexploration und -verarschung 20 Minuten
Korrelation auswerten 15 Minuten
Aufteilung der Daten 10 Minuten
Zubereitung eines Rezepts 30 Minuten
Vorverarbeitung ausführen 30 Minuten
Festlegen des Modells 20 Minuten
Bewertung der Modellanpassung 15 Minuten
Modellleistung: Vorausgesagte Werte erhalten 15 Minuten
Visualisierung der Modellleistung 5 Minuten
Quantifizierung der Modellleistung 10 Minuten
Bewertung der Modellleistung bei v -folds mit tune 30 Minuten
Zufälliger Wald 30 Minuten
Model Tuning 30 Minuten
Endgültige Bewertung der Modellleistung 30 Minuten

1 Unbewertetes Labor Insgesamt 5 Minuten

Fallstudie 1: Vorhersage der jährlichen Luftverschmutzung 5 Minuten

Die tidymodels Sammlung von Paketen kann auf den ersten Blick überwältigend sein. Hier finden Sie eine kurze Übersichtstabelle, die Ihnen hilft, alle Pakete zu finden und herauszufinden, wann sie verwendet werden sollten.

Das ist alles enthalten

1 Lektüre

In diesem Projekt üben Sie die Erstellung von Modellen mit tidyverse zur Klassifizierung von Verbraucherbeschwerdedaten des Consumer Financial Protection Bureau (CFPB). Dieses Projekt umfasst sowohl einen Peer-Review-Schritt, bei dem Sie R Markdown- und gestrickte HTML-Dateien hochladen, als auch einen Quiz-Schritt, bei dem Sie Fragen zu den Vorhersagen Ihres Klassifizierungsalgorithmus beantworten müssen.

Das ist alles enthalten

1 Lektüre1 Aufgabe1 peer review

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Shannon Ellis, PhD

Johns Hopkins University

5 Kurse 6.939 Lernende

Stephanie Hicks, PhD

Johns Hopkins University

5 Kurse 6.939 Lernende

Roger D. Peng, PhD

Johns Hopkins University

37 Kurse 1.677.749 Lernende

von

Johns Hopkins University

Mehr von Datenanalyse entdecken

Status: Kostenloser Testzeitraum
Duke University
Data Modeling and Prediction with R
Kurs
Status: Kostenloser Testzeitraum
Johns Hopkins University
Introduction to the Tidyverse
Kurs
Status: Kostenloser Testzeitraum
Johns Hopkins University
Tidyverse Skills for Data Science in R
Spezialisierung
Status: Kostenloser Testzeitraum
Johns Hopkins University
Importing Data in the Tidyverse
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.

Ja. Für bestimmte Kurse können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Gebühr nicht aufbringen können. Wenn für den von Ihnen gewählten Kurs diese Möglichkeit besteht, finden Sie auf der Beschreibungsseite des Kurses einen Link, unter dem Sie einen Antrag stellen können.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Finanzielle Unterstützung verfügbar,

¹ Einige Aufgaben in diesem Kurs werden mit AI bewertet. Für diese Aufgaben werden Ihre Daten in Übereinstimmung mit Datenschutzhinweis von Courseraverwendet.