Big Data: les 17 prédictions, épisode 2: Spark vs SQL

big data 17 predictions e2 sql contre spark

#Prédiction n°2

« Les façons d’analyser la Data s’améliorent. Alors que le SQL est toujours le standard, Spark est en train d’émerger comme outil complémentaire d’analyse et va continuer de s’améliorer, selon Ovum. »

big data 17 predictions e2 sql contre spark
Soyons honnêtes, la 1ère prédiction était tellement banale qu’il nous était difficile d’y apporter un commentaire à valeur ajoutée. Vous avez été nombreux à nous le signaler, on assume.
Passons maintenant aux choses sérieuses.

Un point de vocabulaire s’impose avant de continuer :

  • Le SQL (Structured Query Language ou, en français, langage de requête structuré) a été mis au point par IBM dans les années 70 pour exploiter et gérer les bases de données relationnelles. Aujourd’hui, il est toujours utilisé pour définir, manipuler et contrôler les données.
  • Spark : Techno conçue dès 2009 par des chercheurs de l’université de Berkeley dans le cadre du programme Apache Software. Spark va plus loin que SQL en permettant de traiter des données issues de différents référentiels et en s’inscrivant dans le framework Hadoop.
  • Ovum : entreprise britannique spécialisée dans l’analyse stratégique des entreprises du secteur des réseaux et des télécoms. Ovum publie régulièrement des études et baromètres reconnus dans le secteur.

Si on veut résumer en termes journalistiques un peu vulgarisateurs, c’est la confrontation de l’ancien et du nouveau monde de la Data. Le langage SQL est surtout utilisé pour les bases de données en tant que telles. Spark aussi mais il va plus vite (il a été conçu pour accélérer les tâches de traitement sur Hadoop et effectue des tâches 100 fois plus vite que MapReduce), il permet de traiter des volumes plus importants de données et, en prime, peut fonctionner en partie comme une API.
Néanmoins, SQL et Spark ne sont pas incompatibles et peuvent être utilisés à différents stades du traitement des données.

Reste le sujet des infrastructures mises en place au sein des entreprises : les grandes entreprises « traditionnelles » de même que les acteurs historiques de la base de données et de la data (comme Altares) utilisent SQL en partie parce que, logiquement, Spark n’existait pas à l’époque mais surtout parce que ce langage est internationalement normé, très structuré et d’une grande stabilité. Au fond, on pourrait dire qu’il est presque plus facile d’accès que son jeune concurrent, ce dernier étant logiquement utilisé plus largement par des startups « pure players » et spécialistes de la Big Data.
Néanmoins si passer de SQL à Spark au sein des entreprises n’est pas neutre en termes de délais de transfert, d’infrastructures IT mais également de culture, les spécialistes s’accordent à dire que Spark, par sa vitesse de fonctionnement, sa capacité à fédérer plusieurs types de bases de données et à exécuter des applications analytiques variées, porte le potentiel d’une technologie unificatrice pour les applications de Big Data.

La rédaction
La rédaction
La rédaction est composée de plusieurs collaborateurs du Groupe Altares qui sont spécialisés dans leurs domaines respectifs (data science, data marketing, data intelligence, etc.) et qui partagent l'envie de faire part de leur passion de la Data à nos lecteurs.

Vous aimerez aussi...

X