Qu'est-ce que BigQuery ?

Écrit par Coursera Staff • Mise à jour à

Si vous vous intéressez à l'entreposage de données pour une entreprise, vous voudrez connaître BigQuery de Google. Apprenez-en plus grâce à cette présentation de base de cet outil utile pour stocker et interroger des données.

[Image en vedette] Quatre collègues, assis à une table de conférence, regardent un grand écran et discutent de données élaborées à l'aide de BigQuery.

Read in English (Lire en Anglais).

Le terme « big data » désigne la grande quantité de données disponibles pour les entreprises. Son volume croissant nécessite également des outils pour stocker, organiser et accéder aux informations contenues dans ces données. 

BigQuery est l'un des nombreux outils d'analyse de données utilisés pour analyser rapidement de grands ensembles de données. Il est utilisé par plus de 9 000 entreprises dans le monde, notamment dans les domaines de l'apprentissage automatique, du big data et de l'intelligence artificielle [1]. Il offre des fonctionnalités intégrées, une architecture sans serveur et une flexibilité inhérente pour aider les data scientists, les analystes, les ingénieurs et d'autres professionnels à gérer et à utiliser les données plus efficacement.

Cet article fournit une vue d'ensemble de BigQuery pour vous aider à comprendre comment il est utilisé et pourquoi, ainsi que ce que vous pouvez faire pour améliorer votre ensemble de compétences BigQuery.

Qu'est-ce que BigQuery ?

BigQuery est un entrepôt de données entièrement géré et basé sur le cloud. Conçu en 2011 pour traiter et analyser des quantités massives de données de manière rapide et évolutive, BigQuery permet aux utilisateurs d'exécuter des requêtes SQL complexes sur de grands ensembles de données. 

Qu'est-ce qui distingue BigQuery ? Les utilisateurs peuvent éviter les besoins administratifs des entrepôts de données traditionnels. Google vous permet de stocker et de traiter ces grands ensembles de données sur son infrastructure. BigQuery peut traiter des données provenant de sources multiples à un rythme beaucoup plus rapide que les autres systèmes.

À quoi sert BigQuery ?

Vous pouvez utiliser BigQuery pour un large éventail de tâches d'analyse et de traitement des données. Voici quelques cas d'utilisation courants de BigQuery :

  • Entrepôt de données : BigQuery peut stocker et analyser des données structurées et semi-structurées. Il centralise un grand volume de données pour des requêtes et un reporting efficaces.

  • Veille stratégique (BI) : BigQuery permet aux organisations d'obtenir un aperçu plus complet de leurs données tout en facilitant l'analyse avancée et la génération de meilleurs aperçus basés sur les données. 

  • Requêtes ad hoc : BigQuery vous permet d'exécuter rapidement des requêtes SQL ad hoc sur de vastes ensembles de données sans qu'il soit nécessaire de les préagréger ou de les indexer. 

  • Analyse en temps réel : BigQuery s'intègre aux plateformes de données en continu telles que Google Cloud Pub/Sub ou Apache Kafka, permettant l'ingestion et l'analyse de données en temps réel. 

  • Apprentissage automatique : BigQuery s'intègre à Google Cloud Machine Learning Engine et BigQuery ML, ce qui vous permet de construire et de déployer des modèles d'apprentissage automatique en utilisant vos données dans BigQuery. 

  • Analyse des journaux : BigQuery peut prendre en charge et analyser les journaux générés par divers systèmes, tels que les serveurs web, les applications mobiles ou les appareils IoT. Cela permet d'identifier des modèles, de résoudre des problèmes et d'obtenir des aperçus sur le comportement des utilisateurs.

  • Exploration des données : Les analystes et les scientifiques des données peuvent facilement interroger et manipuler de grands ensembles de données pour comprendre les modèles, les relations et les anomalies.

  • Sauvegarde et archivage des données : BigQuery peut stocker des données historiques ou rarement consultées dans le stockage à long terme de BigQuery et les interroger en cas de besoin.

Cet outil est idéal pour les organisations qui traitent des ensembles de données volumineux et complexes nécessitant des capacités d'analyse rapides et flexibles. BigQuery fonctionne sur une architecture sans serveur, ce qui vous évite de devoir disposer d'une infrastructure sur site pour traiter facilement des téraoctets, voire des pétaoctets de données.

Exemple d'utilisation de BigQuery

Le Joint Transportation Research Program (JTRP) de l'université de Purdue travaille avec des données provenant de 11 États pour aider les gouvernements et les organismes publics à prendre des décisions fondées sur des données concernant les horaires des feux de circulation, les systèmes de routes et de rues, et les investissements dans les infrastructures. Confronté à des milliards d'enregistrements de données, le JTRP ne pouvait plus compter sur ses serveurs sur site pour obtenir l'échelle et la vitesse d'analyse dont il avait besoin.

La migration vers BigQuery a donné à l'équipe la « capacité d'ingérer de grands volumes de données et d'effectuer des analyses rapidement ». Après la migration, une requête ne prenait plus que sept minutes, contre 90 auparavant [2].

Emplacement réservé

Caractéristiques de BigQuery

BigQuery offre aux utilisateurs de grands ensembles de données l'accès à plusieurs fonctionnalités clés :

  • Évolutivité : BigQuery traite des pétaoctets de données et peut adapter la puissance de traitement pour atteindre vos objectifs.

  • Rapidité : BigQuery peut exécuter des requêtes sur de grands ensembles de données avec une faible latence, car il distribue ses ressources informatiques de manière dynamique pour permettre aux utilisateurs de disposer d'une plus grande puissance de traitement là où ils en ont le plus besoin. Il stocke également les données en colonnes, ce qui permet de compresser et d'accélérer l'analyse des données.

  • Sans serveur : En tirant parti de la plateforme cloud de BigQuery, Google prend en charge le matériel, les logiciels et la maintenance sous-jacents. 

  • Analytique avancée : BigQuery prend en charge un large éventail de fonctions analytiques, notamment les fonctions de fenêtre, l'agrégation approximative et les capacités d'apprentissage automatique. 

  • Sécurité et gouvernance : BigQuery vous permet de contrôler l'accès, d'auditer et de chiffrer vos données à la fois au repos et en transit. Cet outil de Google est également conforme aux réglementations en matière de cybersécurité. 

  • Rentabilité : BigQuery fonctionne selon un modèle de paiement à l'utilisation, en facturant la quantité de données traitées par vos requêtes et l'utilisation du stockage. 

Avantages et inconvénients de BigQuery

Lorsque vous choisissez votre outil d'analyse de données, vous devez en évaluer les forces et les faiblesses. BigQuery présente des avantages et des inconvénients, notamment les suivants. 

Avantages

  • Compatibilité : BigQuery fonctionne avec d'autres ensembles de données et outils de visualisation, notamment Google Analytics.

  • Stockage : Vous pouvez stocker des téraoctets de données sur BigQuery. 

  • Vitesse : BigQuery peut traiter de gros volumes de données en quelques secondes.

  • Accès prêt à l'emploi : Les utilisateurs n'ont pas besoin d'installer ou de configurer quoi que ce soit, ni d'exploiter ou de maintenir une quelconque infrastructure. 

Inconvénients

  • Requiert SQL : Vous devez connaître le langage SQL avant de pouvoir utiliser BigQuery, ce qui nécessite une formation supplémentaire pour les personnes qui ne le connaissent pas. 

  • Dépendance vis-à-vis de Google : Vous devez utiliser la plateforme Google Cloud. En outre, Google stocke les données localement, ce qui peut entraîner des problèmes de latence si vous interrogez des données des États-Unis depuis l'Asie.

  • Limites de traitement : Vous ne pouvez effectuer qu'un nombre limité de mises à jour de tables par jour, et la taille de vos données par requête peut être limitée. Si vos ensembles de données changent fréquemment, BigQuery n'est peut-être pas le meilleur choix. 

Prochaines étapes avec BigQuery

Apprenez les pratiques et les processus utilisés par les analystes de données qui commencent leur carrière au niveau junior ou associé dans leur travail quotidien, y compris BigQuery, et obtenez une certification pour aider votre carrière en poursuivant le Certificat Professionnel Google Data Analytics sur Coursera. Vous apprendrez les compétences et les outils analytiques clés, y compris les meilleures pratiques, l'utilisation de SQL et les méthodes de nettoyage, d'organisation et de visualisation des données, ainsi que la manière de présenter vos résultats.

Sources de l’article

1

6Sense. « Market Share of Google BigQuery, https://6sense.com/tech/data-warehousing/google-bigquery-market-share. » Consulté le 18 octobre 2024.

Continuer de lire

Mise à jour à
Écrit par :

Équipe éditoriale

L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...

Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.