Introduction à l'apprentissage automatique : Apprentissage supervisé

Introduction à l'apprentissage automatique : Apprentissage supervisé

Ce cours fait partie de Spécialisation Apprentissage automatique : Théorie et pratique avec Python

Instructeur : Geena Kim

14 911 déjà inscrits

Inclus avec Coursera Plus

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

3.4

(59 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 39 heures

Apprenez à votre propre rythme

Préparer un diplôme

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

3.4

(59 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 39 heures

Apprenez à votre propre rythme

Préparer un diplôme

Ce que vous apprendrez

Utilisez des outils modernes d'apprentissage automatique et des bibliothèques python.
Comparez les forces et les faiblesses de la régression logistique.
Expliquez comment traiter des données linéairement inséparables.
Expliquez ce qu'est un arbre de décision et comment il divise les nœuds.

Compétences que vous acquerrez

Catégorie : Hyperparamètre
Catégorie : sklearn
Catégorie : assemblage
Catégorie : Arbre de décision

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

8 quizzes, 1 devoir

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage automatique : Théorie et pratique avec Python

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 6 modules dans ce cours

Dans ce cours, vous apprendrez divers algorithmes de ML supervisés et des tâches de prédiction appliquées à différentes données. Vous apprendrez quand utiliser quel modèle et pourquoi, et comment améliorer les performances du modèle. Nous couvrirons des modèles tels que la régression linéaire et logistique, KNN, les arbres de décision et les méthodes d'assemblage telles que Random Forest et Boosting, les méthodes à noyau telles que SVM. Une connaissance préalable du codage ou des scripts est requise. Nous utiliserons largement Python tout au long du cours. Dans ce cours, vous devrez avoir une base solide en Python ou une expérience suffisante du codage avec d'autres langages de programmation pour apprendre rapidement Python.

Nous apprendrons à utiliser des bibliothèques de science des données comme NumPy, pandas, matplotlib, statsmodels et sklearn. Le cours est conçu pour les programmeurs qui commencent à travailler avec ces bibliothèques. Une expérience préalable avec ces bibliothèques serait utile mais n'est pas nécessaire. Des compétences en mathématiques de niveau universitaire, y compris en calcul et en algèbre linéaire, sont requises. Notre espoir pour ce cours est que les mathématiques soient compréhensibles mais pas intimidantes. Ce cours peut être suivi pour des crédits académiques dans le cadre des diplômes MS in Data Science ou MS in Computer Science de CU Boulder offerts sur la plate-forme Coursera. Ces diplômes d'études supérieures entièrement accrédités offrent des cours ciblés, des sessions courtes de 8 semaines et des frais de scolarité à la carte. L'admission est basée sur la performance dans trois cours préliminaires, et non sur les antécédents scolaires. Les diplômes CU sur Coursera sont idéaux pour les jeunes diplômés ou les professionnels en activité. Pour en savoir plus : MS en science des données : https://www.coursera.org/degrees/master-of-science-data-science-boulder MS en informatique : https://coursera.org/degrees/ms-computer-science-boulder

Cette semaine, nous allons construire notre base d'apprentissage automatique supervisé. Le nettoyage des données et l'AED peuvent ne pas sembler glamour, mais le processus est vital pour guider vos projets de données du monde réel. Il y a de fortes chances que vous ayez déjà entendu parler de la régression linéaire. Avec l'engouement pour l'apprentissage automatique, il peut sembler surprenant que nous commencions par une technique statistique aussi standard. Dans "How Not to Be Wrong : The Power of Mathematical Thinking", Jordan Ellenberg qualifie la régression linéaire de "technique statistique qui est aux sciences sociales ce que le tournevis est aux réparations domestiques. C'est le seul outil que vous utiliserez, quelle que soit la tâche à accomplir" (51). La régression linéaire est un excellent point de départ pour résoudre les problèmes dont le résultat est continu. Nous espérons que cette semaine vous aidera à apprécier tout ce que vous pouvez accomplir avec un modèle aussi simple que celui-ci.

Inclus

5 vidéos12 lectures3 quizzes1 devoir1 devoir de programmation1 évaluation par les pairs2 sujets de discussion

5 vidéosTotal 67 minutes

Introduction16 minutesPrévisualiser le module
Régression linéaire simple11 minutes
Méthode des moindres carrés11 minutes
Aptitude du modèle et R-carré8 minutes
Coefficient de signification et erreur de test18 minutes

12 lecturesTotal 80 minutes

Obtenez des crédits académiques pour votre travail !10 minutes
Soutien aux cours10 minutes
Manuels de cours10 minutes
Éléments à noter pour les missions de programmation5 minutes
Lignes directrices et attentes en matière d'évaluation par les pairs10 minutes
Note sur les nouvelles soumissions à l'examen par les pairs0 minutes
Attentes en matière de code d'honneur5 minutes
ISLR 3.1 : Régression linéaire simple5 minutes
ISLR 3.1.1 : Estimation des coefficients5 minutes
ISLR 3.1.2 : Évaluation de l'exactitude des estimations des coefficients5 minutes
ISLR 3.1.3 : évaluation de l'exactitude du modèle5 minutes
Diapositives du module 110 minutes

3 quizzesTotal 45 minutes

Quiz sur les devoirs de programmation5 minutes
Attentes en matière de code d'honneur10 minutes
Quiz de la semaine 130 minutes

1 devoirTotal 15 minutes

Attentes en matière d'évaluation par les pairs15 minutes

1 devoir de programmationTotal 180 minutes

Semaine 1 : Nettoyage des données et EDA180 minutes

1 évaluation par les pairsTotal 30 minutes

Semaine 1 : Nettoyage des données et EDA30 minutes

2 sujets de discussionTotal 20 minutes

Présentez-vous10 minutes
Attentes en matière d'évaluation par les pairs10 minutes

Cette semaine, nous nous appuyons sur les bases de la semaine dernière pour travailler avec des modèles de régression linéaire plus complexes. Après cette semaine, vous serez en mesure de créer des modèles linéaires avec plusieurs variables explicatives et catégorielles. D'un point de vue mathématique et syntaxique, les modèles de régression linéaire multiple sont une extension naturelle des modèles de régression linéaire plus simples que nous avons appris la semaine dernière. L'une des différences que nous devons garder à l'esprit cette semaine est que notre espace de données est désormais en 3D et non plus en 2D. La différence entre 3D et 2D a des implications sur la façon de créer des visualisations significatives. Il est essentiel de comprendre comment interpréter les coefficients. L'apprentissage automatique implique une itération stratégique et l'amélioration d'un modèle. Dans le laboratoire et l'évaluation par les pairs de cette semaine, vous identifierez les faiblesses des modèles de régression linéaire et les améliorerez de manière stratégique. Nous espérons qu'au fur et à mesure que vous progresserez dans ce cours de spécialisation, vous deviendrez de plus en plus performant dans ce processus itératif.

Inclus

4 vidéos5 lectures1 quiz1 devoir de programmation1 évaluation par les pairs

4 vidéosTotal 44 minutes

Régression linéaire avec termes d'ordre supérieur : Régression polynomiale12 minutesPrévisualiser le module
Compromis biais-variance6 minutes
Régression linéaire avec caractéristiques multiples10 minutes
Sélection, corrélation et interaction des caractéristiques13 minutes

5 lecturesTotal 52 minutes

ISLR 3.2 : Régression linéaire multiple2 minutes
ISLR 3.3.2 : Extensions du modèle linéaire10 minutes
ISLR 2.2.2 : Le compromis biais-variance10 minutes
ISLR 3.3.3 : Problèmes potentiels20 minutes
Diapositives du module 210 minutes

1 quizTotal 30 minutes

Quiz de la semaine 230 minutes

1 devoir de programmationTotal 180 minutes

Semaine 2 : Régression linéaire multiple180 minutes

1 évaluation par les pairsTotal 60 minutes

Semaine 2 : Régression linéaire multiple60 minutes

Bien que le nom de régression logistique puisse suggérer le contraire, nous allons cette semaine passer des tâches de régression aux tâches de classification. La régression logistique est un cas particulier de modèle linéaire généralisé. Comme la régression linéaire, la régression logistique est un outil statistique largement utilisé et l'un des outils fondamentaux de votre boîte à outils de science des données. Il existe de nombreuses applications réelles pour les tâches de classification, notamment dans les domaines financier et biomédical. Dans le laboratoire de cette semaine, vous verrez comment cet algorithme classique vous aidera à prédire si une lame de biopsie provenant du célèbre ensemble de données sur le cancer du sein du Wisconsin présente une masse bénigne ou maligne. Nous vous conseillons également de commencer cette semaine le projet final que vous rendrez à la semaine 7 du cours. Cette semaine, trouvez un ensemble de données pour votre projet, commencez à effectuer l'EDA et définissez votre problème. Utilisez la rubrique du projet comme guide, et n'ayez pas peur d'examiner plusieurs jeux de données jusqu'à ce que vous en trouviez un qui convienne au projet.

Inclus

4 vidéos6 lectures1 quiz1 devoir de programmation1 évaluation par les pairs

4 vidéosTotal 63 minutes

Régression logistique Introduction14 minutesPrévisualiser le module
Optimisation de la régression logistique19 minutes
Mesures de performance en matière de classification13 minutes
Utilisation de la bibliothèque Sklearn et exemples15 minutes

6 lecturesTotal 75 minutes

ISLR 4.1 - 4.3.1 : Aperçu de la classification - Régression logistique10 minutes
ISLR 4.3.2 : Estimation des coefficients de régression5 minutes
Matrice de confusion10 minutes
ISLR 6.2.1- 6.2.3 et 5.1 : Régression Ridge et validation croisée30 minutes
Régression logistique10 minutes
Diapositives du module 310 minutes

1 quizTotal 30 minutes

Quiz de la semaine 330 minutes

1 devoir de programmationTotal 180 minutes

Semaine 3 : Régression logistique180 minutes

1 évaluation par les pairsTotal 60 minutes

Semaine 3 : Régression logistique60 minutes

Cette semaine, nous allons nous familiariser avec les modèles non paramétriques. Le modèle des plus proches voisins (k-Nearest Neighbors) est intuitivement logique. Les arbres de décision sont un modèle d'apprentissage supervisé qui peut être utilisé pour des tâches de régression ou de classification. Dans le module 2, nous avons découvert le compromis biais-variance, que nous avons gardé à l'esprit tout au long du cours. Les modèles arborescents très flexibles présentent l'avantage de pouvoir capturer des relations complexes et non linéaires. Cependant, ils sont enclins à l'ajustement excessif. Cette semaine et la semaine prochaine, nous explorerons des stratégies telles que l'élagage pour éviter l'overfitting avec les modèles arborescents. Dans le laboratoire de cette semaine, vous créerez un classificateur KNN pour le célèbre ensemble de données MNIST et construirez ensuite un classificateur de spam à l'aide d'un modèle d'arbre de décision. Cette semaine, nous apprécierons une fois de plus la puissance des modèles simples et compréhensibles. Poursuivez votre projet final. Une fois que vous avez finalisé votre ensemble de données et votre AED, commencez à travailler sur l'approche initiale de votre tâche principale d'apprentissage supervisé. Révisez le matériel de cours, lisez des articles de recherche, regardez les dépôts GitHub et les articles Medium pour comprendre votre sujet et planifier votre approche.

Inclus

5 vidéos6 lectures1 quiz1 devoir de programmation1 évaluation par les pairs

5 vidéosTotal 65 minutes

Introduction aux méthodes non paramétriques et aux K-voisins les plus proches16 minutesPrévisualiser le module
Intro de l'arbre de décision, régresseur de l'arbre de décision11 minutes
Arbre de décision, métriques (Gini et entropie)19 minutes
Utilisation de Sklearn, hyperparamètres DT et arrêt anticipé9 minutes
Élagage à coût minimal et complexité8 minutes

6 lecturesTotal 60 minutes

ISLR : K-Voisins les plus proches10 minutes
ISLR 8.1.1 : Les bases des arbres de décision - Arbres de régression10 minutes
ISLR 8.1.2 : Arbres de classification10 minutes
Arbre de décision10 minutes
ISLR : Élagage des arbres10 minutes
Diapositives du module 410 minutes

1 quizTotal 30 minutes

Quiz de la semaine 430 minutes

1 devoir de programmationTotal 180 minutes

Semaine 4 : Modèles non paramétriques180 minutes

1 évaluation par les pairsTotal 60 minutes

Semaine 4 : Modèles non paramétriques60 minutes

La semaine dernière, nous avons découvert les modèles d'arbres. Malgré tous les avantages qu'ils présentent, ces modèles ont quelques faiblesses difficiles à surmonter. Cette semaine, nous allons découvrir les méthodes d'assemblage qui permettent de surmonter la tendance des modèles d'arbre à se surajuster. Le gagnant utilise une approche d'ensemble dans de nombreux concours d'apprentissage automatique, en agrégeant les prédictions de plusieurs modèles d'arbres. Cette semaine, vous commencerez par découvrir les forêts aléatoires et le bagging, une technique qui consiste à entraîner le même algorithme avec différents sous-ensembles de données d'entraînement. Vous découvrirez ensuite le boosting, une méthode d'ensemble dans laquelle les modèles s'entraînent de manière séquentielle. Vous découvrirez deux algorithmes de boosting essentiels : AdaBoost et Gradient Boosting. Cette semaine, travaillez sur l'analyse principale de votre projet final. Répétez et améliorez vos modèles. Comparez différents modèles. Optimisez les hyperparamètres. Parfois, cette partie d'un projet d'apprentissage automatique peut sembler fastidieuse, mais, avec un peu de chance, il sera gratifiant de voir vos performances s'améliorer.

Inclus

4 vidéos5 lectures1 quiz1 devoir de programmation1 évaluation par les pairs

4 vidéosTotal 42 minutes

Méthode d'ensemble Intro : Forêt aléatoire8 minutesPrévisualiser le module
Introduction à la dynamisation9 minutes
Algorithme AdaBoost8 minutes
Renforcement du gradient15 minutes

5 lecturesTotal 50 minutes

ISLR 8.2.1, 8.2.2 : Forêts à sac et Forêts aléatoires10 minutes
ISLR 8.2.3 : Renforcement10 minutes
ESLII 10.1 - 10.4 : Méthodes de renforcement - Perte exponentielle et AdaBoost10 minutes
ESLII 10.10, 10.11 : Renforcement du gradient10 minutes
Diapositives du module 510 minutes

1 quizTotal 30 minutes

Quiz de la semaine 530 minutes

1 devoir de programmationTotal 180 minutes

Semaine 5 : Ensembles180 minutes

1 évaluation par les pairsTotal 60 minutes

Semaine 5 : Ensembles60 minutes

Cette semaine, nous allons explorer un autre sujet avancé, les machines à vecteurs de support. Ne vous laissez pas intimider par ce nom. Cette semaine, nous allons travailler sur la compréhension de ce puissant modèle d'apprentissage supervisé. Nous espérons que vous parviendrez à une compréhension intuitive de concepts essentiels tels que la différence entre les marges dures et douces, l'astuce du noyau et le réglage des hyperparamètres. La semaine prochaine, vous soumettrez les trois livrables de votre projet final : le rapport, la présentation vidéo et un lien vers votre dépôt GitHub. Supposons que vous souhaitiez terminer cette semaine l'itération sur vos modèles, l'optimisation des hyperparamètres, etc. Dans ce cas, la semaine prochaine, vous pourrez peaufiner votre rapport, vous assurer que votre dépôt GitHub est prêt pour l'évaluation par les pairs et faire une excellente présentation de votre travail.

Inclus

4 vidéos4 lectures1 quiz1 devoir de programmation1 évaluation par les pairs

4 vidéosTotal 59 minutes

Introduction à la machine à vecteurs de support16 minutesPrévisualiser le module
Machine à vecteur de support : Classificateur à marge douce15 minutes
Machine à vecteurs de support : L'astuce du noyau9 minutes
Machine à vecteur de support : Performance17 minutes

4 lecturesTotal 40 minutes

ISLR 9.1 : Classificateur à marge maximale10 minutes
ISLR 9.2 : Classificateurs à vecteur de support10 minutes
ISLR 9.3 : Machines à vecteurs de support10 minutes
Module 6 Diapositives10 minutes

1 quizTotal 30 minutes

Quiz de la semaine 630 minutes

1 devoir de programmationTotal 180 minutes

Semaine 6 : Laboratoire SVM180 minutes

1 évaluation par les pairsTotal 120 minutes

Semaine 6 : Laboratoire SVM120 minutes

Instructeur

Évaluations de l’enseignant

3.1 (29 évaluations)

Geena Kim

University of Colorado Boulder

3 Cours23 183 apprenants

Offert par

University of Colorado Boulder

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

Alberta Machine Intelligence Institute
Données pour l'apprentissage automatique
Cours
University of Colorado Boulder
Pipeline d'exploration de données
Cours
Alberta Machine Intelligence Institute
Algorithmes d'apprentissage automatique : Apprentissage supervisé de bout en bout
Cours

Préparer un diplôme

Ce site cours fait partie du (des) programme(s) diplômant(s) suivant(s) proposé(s) par University of Colorado Boulder. Si vous êtes admis et que vous vous inscrivez, les cours que vous avez suivis peuvent compter pour l'apprentissage de votre diplôme et vos progrès peuvent être transférés avec vous.¹

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

3.4

59 avis

5 stars
37,28 %
4 stars
20,33 %
3 stars
8,47 %
2 stars
8,47 %
1 star
25,42 %

Affichage de 3 sur 59

Révisé le 4 avr. 2024

Peer review requirements are too specific and contain some minor errors that can be confusing.

Révisé le 12 nov. 2024

Best free MOOC on Coursera for supervised learning.

Révisé le 1 août 2023

I was happy not much with the shoddiness in the assignments but by the fact that this course was centered more about practicing and reading by the student themselves.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Un cours cross-listed est proposé dans le cadre de deux ou plusieurs programmes diplômants de CU Boulder sur Coursera. Par exemple, Dynamic Programming, Greedy Algorithms est proposé en tant que CSCA 5414 pour le MS-CS et DTSA 5503 pour le MS-DS.

- Vous ne pouvez pas obtenir de crédits pour plus d'une version d'un cours figurant sur une liste croisée.

- Vous pouvez identifier les cours à liste croisée en consultant le manuel de l'étudiant de votre programme.

- Votre relevé de notes en sera affecté. Les cours figurant sur des listes croisées sont considérés comme équivalents lors de l'évaluation des conditions d'obtention du diplôme. Toutefois, nous vous encourageons à suivre les versions de votre programme de ces cours (lorsqu'ils sont disponibles) afin de vous assurer que votre relevé de notes reflète le nombre important de cours que vous suivez directement dans votre département d'origine. Tous les cours que vous suivez dans le cadre d'un autre programme apparaîtront sur votre relevé de notes avec le préfixe de ce programme (par exemple, DTSA ou CSCA).

- Les programmes peuvent avoir des exigences différentes en matière de notes minimales pour l'admission et l'obtention du diplôme. Par exemple, le MS-DS exige un C ou mieux dans tous les cours pour l'obtention du diplôme (et une MPC de 3,0 pour l'admission), tandis que le MS-CS exige un B ou mieux dans tous les cours d'approfondissement et un C ou mieux dans tous les cours à option pour l'obtention du diplôme (et un B ou mieux dans chaque cours de la voie d'accès pour l'admission). Tous les programmes exigent que les étudiants maintiennent une moyenne pondérée cumulative de 3,0 pour l'admission et l'obtention du diplôme.

Oui. Les cours figurant sur des listes croisées sont considérés comme équivalents lors de l'évaluation des conditions d'obtention du diplôme. Vous pouvez identifier les cours croisés en consultant le manuel de l'étudiant de votre programme.

Vous pouvez mettre à niveau et payer des frais de scolarité pendant toute période d'inscription ouverte pour obtenir des crédits de CU Boulder de niveau supérieur pour << ce cours / ces cours dans cette spécialisation>>. Étant donné que << ce cours est / ces cours sont >> répertoriés à la fois dans les programmes MS in Computer Science et MS in Data Science, vous devrez déterminer quel programme vous souhaitez obtenir le crédit avant de vous mettre à niveau.

Crédit MS in Data Science (MS-DS) : Pour passer à la version de << ce cours / ces cours >> donnant droit à des crédits en science des données (DTSA), utilisez le formulaire d'inscription au MS-DS. Voir comment cela fonctionne.

MS in Computer Science (MS-CS) Credit : Pour passer à la version à crédits en informatique (CSCA) de << ce cours / ces cours >>, utilisez le formulaire d'inscription MS-CS. Voir comment cela fonctionne.

Si vous n'êtes pas sûr du programme qui vous convient le mieux, consultez les sites web des programmes MS-CS et MS-DS, puis contactez datascience@colorado.edu ou mscscoursera-info@colorado.edu si vous avez encore des questions.

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.