Introduction a Azure Databricks pour la Data Science

azure databricks microsoft

Cet article a pour objectif d'introduire les principales fonctionnalités de Azure Databricks.
En tant qu'ingénieur en Machine Learning, comprendre les différentes fonctionnalités de Azure Databricks vous permettra d'améliorer l'efficacité de la gestion de vos données.

Azure Databricks est une solution entièrement gérée par Microsoft Azure. Il s'agit d'un effort conjoint de l'équipe qui a lancé Apache Spark et de Microsoft. Ce service est une plateforme unique pour le traitement des Big Data et l'apprentissage automatique.
Azure Databricks permet, en tant qu'ingénieur de données, d'exécuter des workloads Spark à grande échelle grâce à la puissance de calcul sous-jacente d'Azure, ce qui permet d'obtenir des performances et une rentabilité inégalées dans le cloud grâce à la mise à l'échelle automatique, la mise en cache, l'indexation et l'optimisation des requêtes.

Azure Databricks

Databricks a été fondé par Apache Spark, Delta Lake et MLflow & Spark, un moteur de traitement unifié qui permet d'analyser les big data à l'aide de SQL, du Machine Learning, du graph processing ou de l'analyse des flux en temps réel.

architecture azure databricks

Le cœur de l'architecture Azure Databricks est un moteur d'exécution Databricks, qui permet d'optimiser l'utilisation de Spark, de Delta Lake et du moteur Databricks I/O.
Ce moteur central offre une puissance de traitement massive pour les workloads en Data Science.
Il offre également des capacités d'intégration natives avec différents services de données Azure, comme Azure Data Factory et Synapse Analytics. Pour finir, il offre également divers environnements d'exécution ML, tels que Tensorflow et PyTorch.

Sous le capot : Spark

Le service Azure Databricks est un environnement de travail Apache Spark-as-a-service.

Il fournit le moteur analytique pour un traitement des données à grande échelle et le Machine Learning.
Au sens propre, il peut traiter un volume élevé, une grande vélocité et une grande variété de Big Data.
Les clusters Apache Spark sont des groupes d'ordinateurs qui sont traités comme un seul ordinateur et qui gèrent l'exécution des commandes émises par les notebooks.
Ce cluster dispose d'un driver pour distribuer les tâches à ses exécuteurs et les traiter via les slots disponibles.
En outre, le driver alloue les tâches à l'exécuteur afin de partitioner ses données.
Ce travail est divisé en étapes et exécuté dans un flux de séquence.
Le résultat de chaque étape du job est envoyé au driver afin de consolider. C'est l'essentiel de l'architecture de traitement Spark.

azure databricks

En savoir plus

Contactez nos équipes pour en savoir plus sur notre expertise Data

NOUS CONTACTER

Adopter Iziday

Trouver une solution à vos enjeux Data n'a jamais été aussi simple

TROUVER UN CONSULTANT