Découvrez ce qu'est un histogramme, quand le choisir pour représenter visuellement vos données et comment construire vous-même un histogramme.
Read in English (Lire en Anglais).
Les histogrammes sont des représentations graphiques puissantes utilisées pour montrer la distribution de fréquence des données. Les histogrammes permettent d'afficher facilement de grandes quantités de données dans un modèle simple, ce qui en fait un excellent choix lorsque vous souhaitez communiquer la distribution et les schémas de vos données à un large public. Nous allons explorer cet outil de visualisation des données plus en détail, notamment pour savoir quand l'utiliser, comment analyser les histogrammes et comment en créer un avec vos propres données.
Fondamentalement, un histogramme représente un ensemble de données en divisant les données en plages, puis en représentant le nombre de données à l'intérieur de chacune de ces plages ou « cases ». Ces cases agissent essentiellement comme des conteneurs et l'histogramme qui en résulte indique le nombre d’éléments de données qui se trouvent dans chaque case en fonction de la hauteur de la case.
Il est tout aussi important de savoir quand choisir un histogramme que de savoir comment en créer un. La représentation visuelle de vos données peut être un outil puissant pour transmettre vos informations à un large public, valider vos hypothèses et formuler des observations basées sur votre analyse. En sachant choisir le bon type de visualisation, vous êtes assuré de réussir et de faire les bons choix au cours de votre processus d'analyse. Vous pourriez décider d'utiliser un histogramme dans les cas suivants.
Les histogrammes permettent de visualiser facilement la structure de vos données et les éventuelles anomalies. Ils vous aident à comprendre comment vous devez répartir les valeurs des données dans les cases. Utilisez les histogrammes pour mieux comprendre la structure de vos données, identifier les valeurs aberrantes et explorer leur distribution.
Lorsque vous avez plusieurs ensembles ou groupes de données à comparer, les histogrammes offrent un moyen visuel d'observer leurs distributions côte à côte. Ils permettent des comparaisons rapides et aident à identifier les variations ou les similitudes entre les groupes.
Si vous devez présenter des données et des informations à un public profane ou à des partenaires, les histogrammes offrent un moyen convivial de transmettre des informations sur les distributions et les modèles de données. Par exemple, si vous représentez le moment où un lieu particulier est le plus fréquenté, un histogramme peut montrer le moment où le plus grand nombre de personnes a fréquenté un lieu spécifique d'une manière facile à comprendre.
Lors de l'analyse d'un histogramme, il convient d'examiner quelques caractéristiques clés. Les mesures suivantes vous aideront à mieux comprendre votre ensemble de données.
Stucture de la distribution : La forme de l'histogramme permet de mieux comprendre les données. Les formes les plus courantes sont les distributions symétriques (en forme de cloche ou normale), asymétriques (gauche ou droite), multimodales (plusieurs pics) et uniformes.
Tendance générale : Vous pouvez comprendre la tendance générale des données en observant le pic central et la concentration des barres dans l'histogramme. Ces deux éléments correspondent souvent à la moyenne, à la médiane et au mode.
Étendue : Vous pouvez déduire la dispersion ou la variabilité des données à partir de la largeur de la distribution. Lorsque votre histogramme est plus large, cela indique une plus grande variabilité de vos données. Inversement, un histogramme plus étroit représente une variabilité moindre.
Valeurs aberrantes : Vous pouvez identifier des éléments de données inhabituels, connus sous le nom de valeurs aberrantes, comme toutes les valeurs qui se situent en dehors de la plage typique représentée par l'histogramme.
Comme tout outil, les histogrammes présentent des avantages et des inconvénients qui peuvent vous aider à décider s'il s'agit de l'outil de visualisation approprié à telle ou telle circonstance.
Vous pouvez trouver plusieurs avantages à choisir les histogrammes pour traiter vos données. Voici quelques-uns des avantages les plus courants :
Facilité de représentation de grands volumes de données : Les histogrammes regroupent les données dans des « cases » , ce qui permet de convertir de grands volumes de données en une représentation visuelle facile à comprendre.
Simplicité de construction : Les histogrammes sont conviviaux et permettent à des personnes ayant différents niveaux d'expertise statistique de comprendre les informations.
Facilité d'exploration des données : Les histogrammes sont un outil précieux pour explorer et comprendre les données, ce qui peut aider à tester des hypothèses et à prendre des décisions.
Si leur nature simpliste peut être un avantage pour certains, elle peut être un inconvénient pour d'autres. Lorsque vous décidez si les histogrammes sont adaptés à vos besoins, tenez compte de ces inconvénients :
Leur possible subjectivité : L'apparence d'un histogramme peut varier en fonction de la largeur choisie pour les cellules, ce qui peut introduire de la subjectivité dans l'interprétation des données.
Leur caractère simpliste : si les histogrammes fournissent une vue d'ensemble précieuse de la distribution des données, ils peuvent ne pas rendre compte de relations plus complexes entre les variables ou de distributions qui ne sont pas faciles à catégoriser.
La représentation des données en groupes : Les données des histogrammes sont regroupées en plages et ne fournissent donc généralement pas de données au niveau individuel.
La création d'un histogramme pour vos données est simple si vous savez comment le configurer. Pour vous entraîner, commencez par des données simples afin de voir comment fonctionne la visualisation. Observez les étapes suivantes.
Votre ensemble de données peut représenter un large éventail de variables, telles que des notes d'examen, des relevés de température ou le prix d'un produit. Pour vous entraîner, vous pouvez créer votre propre ensemble de données ou utiliser des mesures disponibles en ligne. Une fois que vous disposez de vos données, classez-les par ordre décroissant ou croissant.
Cet espace sert de base pour définir les limites des cases de votre histogramme. Inscrivez sur les axes de votre histogramme la variable qui vous intéresse (par exemple, les notes d'examen ou la température) sur un axe et les nombres qui représentent le comptage sur l'autre axe.
Choisissez ensuite une largeur de case ou une taille d'intervalle appropriée. Le choix de la largeur des cases doit être mûrement réfléchi car il influence l'interprétation des données. Les intervalles plus petits fournissent des détails plus fins, tandis que les intervalles plus grands donnent une vue d'ensemble plus large de la distribution des données.
Une fois que vous avez déterminé la largeur des cases, vous devez compter le nombre d’éléments de données à inclure dans chaque case. Cela vous permet de regrouper les valeurs de données dans leurs cases respectives et de calculer leur fréquence pour chaque case.
Dessinez une barre pour chaque catégorie sur un axe horizontal ou vertical. La largeur de chaque barre représente la largeur de l'intervalle, tandis que la hauteur de la barre indique le nombre de personnes comprises dans l’espace de la case.
Découvrez comment analyser un histogramme et créer votre propre histogramme avec matplotlib :
Vous pouvez continuer à vous familiariser avec les visualisations de données grâce à des cours passionnants sur Coursera. Pour les débutants, la Spécialisation Visualisation de données et tableaux de bord avec R ou des cours comme Visualisation de données avec Excel avancé peuvent vous aider à explorer des façons plus complexes de visualiser vos données tout en apprenant à votre propre rythme.
Équipe éditoriale
L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...
Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.