//
vous lisez...
Uncategorized

Un livre de référence sur Hadoop

Hadoop_Devenez_Opérationnel

« Hadoop:  Devenez  opérationnel dans le monde du big data »

Juvénal Chokogoue   – ENI  –  Présentation par l’éditeur

Hadoop est un framework, à savoir un ensemble  cohérent de logiciels qui servent à créer des applications distribuées (au niveau du stockage des données et de leur traitement) et échelonnables pour traiter, parfois en temps réel, les énormes quantités de données du Big Data. Ces données sont issues des capteurs, smartphones, applications mobiles, etc  et doivent être traitées selon un paradigme informatique radicalement différent des anciennes architectures client-serveur mono-canal. Ce livre est sans doute le premier en langue française à rassembler de manière claire et synthétique les fondements et principes de cette technologie. Il permet d’acquérir de solides bases  pour mettre en pratique Hadoop. L’ouvrage se destine aux consultants en BI, développeurs d’applications, étudiants en SI, responsables SI, etc. Dans le domaine du big ou smart Data, exit les SGBR, autrement dit l’ancien modèle de bases de données. Dans les grandes lignes, Hadoop permet de répartir le stockage des données sur plusieurs clusters et de paralléliser le traitement de ces données sur une grappe d’ordinateurs (MPP), bénéficiant ainsi de rendements d’échelle  inédits. Pour gérer la croissance exponentielle des données, il est possible d’ajouter à la demande des noeuds  de clusters.  La brique essentielle d’Hadoop est le modèle d’architecture de développement informatique MapReduce, inventé par Google, pour faire face au traitement de millions de données de son moteur de recherche pour calculer des index de pages en quasi temps réel. MapReduce effectue des calculs parallèles et souvent distribués, de données très volumineuses, typiquement supérieures en taille à 1 Téraoctet. Les solutions alternatives au MapReduce comme Spark ou Tez sont également évoquées.

L’intérêt du livre est de livrer des explications très claires sur les principes essentiels d’Hadoop, tels que HDFS, le système de fichiers distribués, Yarn, une application de planification des tâches, Storm, un environnement de développement et un moteur de déploiement de calcul distribué, etc. L’auteur ne se contente pas de faire entrer son lecteur au coeur d’Hadoop, il vulgarise les aspects technologiques associés à un déploiement, comme le streaming et le temps réel ou plus globalement les avantages et limites de l’Open Source. Des conseils et tableaux récapitulatifs d’outils permettent de choisir les solutions adaptées à chaque cas particulier. Il s’agit, notamment, des 3 distributions Hadoop, Cloudera, HortonWorks et MapR avec les notions de disponibilité des briques logicielles, de sécurité, un challenge encore plus important que les performances et enfin le support technique. Les profils métiers du Big Data sont présentés en détail pour orienter les étudiants ou les informaticiens qui veulent évoluer vers Hadoop. L’ingénieur de données (data engineer), spécialisé dans la gestion des données, le data scientist, un ingénieur capable de développer des algorithmes pour anticiper le comportement d’une variable, recommander des actions, catégoriser les données, le développeur d’applications métiers et l’architecte capable de choisir les briques pour résoudre un problème particulier ou les intégrer au SI existant.

Des cas concrets d’application d’Hadoop dans le livre

Air France utilise Hadoop dans le cadre du projet Karma, le système de gestion de revenus de la compagnie. Le rôle est double. D’une part, optimiser les revenus et permettre aux analystes des vols de faire des recommandations en fonction des marchés, des périodes,des évènements et agir sur la disponibilité des sièges à vendre pour un tarif donné, à une date donnée. Hadoop s’impose ici eut égard au grand volume de données et au nombre d’évènements à prendre en compte.

EDF utilise Hadoop pour gérer son projet de Smart Grid afin de faire face aux nouveaux usages comme la voiture électrique, les smart cities, etc.. Un Smart Grid optimise l’utilisation, la production, la distribution et la consommation de l’énergie. Pour cela , EDF s’appuie, notamment, sur les données issues des compteurs Linky.

Au fil des chapitres, l’auteur explique précisément pourquoi et comment les briques d’Hadoop répondent aux impératifs de disponibilité quasi totale des SI et la nécessité de traiter une seule fois des données cruciales s’appuyant sur les exemples de Viadeo ou des centrales de réservation hôtelières. Dans ce dernier cas, il s’agit ainsi de ne plus mettre en vente un séjour ou une chambre d’hôtel dès lors qu’il a été réservé.

Dans un chapitre sur la transformation numérique des services, il est rappelé à juste titre que le changement contient une opportunité. A l’âge de l’information , de la communication et de la globalisation, il n’est plus possible d’ignorer la transition radicale qui est en train de s’effectuer, reconnaissable à des multiples signes, faute d’échouer définitivement comme Nokia et d’autres.

Un bémol toutefois la vision optimiste de la transformation numérique, positive à tous égards selon l’auteur quand il cite les réussites d’Uber et d’autres acteurs de la dernière vague numérique. La rupture numérique qui se déroule sous nos yeux impacte de manière brutale les organisations de travail et bouleverse les relations contractuelles de manière définitive. En bref, il faut d’évidence que les fruits de la nouvelle économie soient partagés de manière plus équitable entre les travailleurs sur le terrain. Les modèles économiques, sociaux et fiscaux de l’écosytème numérique ne sont pas encore matures et demanderont de nombreux et profonds ajustements sous peine de cliver nos sociétés.

A notre avis, ce livre est une excellente trousse à outils, indispensable pour aborder les SI sous Hadoop avec des qualités pédagogiques indéniables pour hausser sa valeur professionnelle et couvrir la majorité des problématiques de traitement des données.

Publicités

À propos de Serge Escalé

Rédacteur. En veille sur l'économie, le social, l'usage et implications des technologies, le numérique.

Discussion

Pas encore de commentaire.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Entrez votre adresse mail pour suivre ce blog et être notifié par email des nouvelles publications.

%d blogueurs aiment cette page :