Hadoop, l’avenir du Big data ? [IT Press Tour #7]

Big Data. Cette expression sera revenue telle un mantra dans la bouche des analystes, des évangélistes et des grands noms de l’industrie qui en ont fait leur cheval de bataille pour 2011. Un trend qui ne risque pas de changer en 2012, bien au contraire. Et pour cause, le phénomène Big Data ne fait que souligner la croissance exponentielle de notre production – et donc consommation – d’information. Finances, Social media, webanalytics, ecommerce, analyse prédictives, données personnelles non structurées sont autant de d’éléments que les entreprises doivent désormais stocker, gérer et exploiter… Dans ce contexte, une technologie apparait souvent comme une réponse possible : Hadoop.

Cette dernière est un framework Java opensource faisant partie de la fondation Apache et composé d’un ensemble de briques permettant de bâtir des architectures de traitement sur des très gros volumes de données. Parmi les principaux composants, Hadoop regroupe un système de gestion de fichier (HDFS), un gestionnaire de calcul parallèle (MapReduce), un système de gestion de base de données non-relationnelle distribuée (HBase) et un ensemble de logiciels dédiés à la récupération et l’analyse des données stockées (Pig, Hive, HCatalog).

Pour une poignée de startups, l’avenir sera marqué par Hadoop. C’est en tout cas la résonance que nous avons pu mesurer lors de notre récent voyage dans la Silicon Valley (IT Press Tour #7) avec la visite de 3 startups exclusivement dédiées à Hadoop, chacune avec une approche particulière.

Eric Baldeschwieler, CEO Hortonworks

Hortonworks, sortie du giron de !Yahoo

Première rencontre avec le staff de Hortonworks. Crée en 2011, cette société est dans les faits une spin off de !Yahoo, qui est un peu à l’origine du framework avec quelques autres géants ayant à faire face à des volumes de données colossaux (Google notamment). Pour Eric Baldeschwieler, CEO d’Hortonworks, Hadoop est sans conteste la technologie de demain puisqu’il mise sur « 50% de traitements des données via Hadoop dans les cinq années à venir ». Le modèle économique de l’entreprise est simple, et ressemble finalement à ce que le monde open source à déjà connu. A savoir investir dans le développement du framework avec quelques dizaines d’ingénieurs, développer sa promotion, assurer la formation et la certification des partenaires et proposer une team d’expert pour le déploiement du framework en entreprise. Avec un seul objectif : rester dans la guideline du plus strict opensource (Hortonworks is not forking Hadoop est-il écrit dans leur documentation). Kirk Dunn, COO Cloudera

Cloudera, l’ancienne

Si cette startup est également «100% open source native», en collaborant à l’amélioration d’Hadoop auprès de la communauté, elle développe également des couches spécifiques sur ce framework, notamment avec son application de gestion, Cloudera Manager, qui simplifie le déploiement et les différents paramétrage d’Hadoop. Celui-ci permet ainsi de piloter les différentes couche applicatives de la distribution Cloudera via une interface web, et en quelques clics de souris (en théorie et en fonction du niveau de connaissance de l’admin bien sûr). Chez Cloudera, le modèle économique reste classique, avec une distribution à deux étages, un gratuit et un payant, ce dernier intégrant bien entendu Cloud Manager et le support. Kirk Dunn, COO chez Cloudera, estime, lui aussi, qu’Hadoop s’imposera dans les cinq prochaines années. Selon lui, « les entreprises vont découvrir des volumes de données insoupçonnés, de provenances très variées et de types totalement hétérogènes. Un parallèle sera fait entre le monde relationnel des BDD et celui d’Hadoop. Lorsque l’on pense relationnel on pense de façon structurée. A l’inverse, lorsque l’on commence à penser «non structuré», on peut imaginer de faire les choses de façon beaucoup plus large ». Un mode de pensée qui, en somme, résume bien l’approche d’Hadoop. Jack Norris, VP Marketing

MapR, la privatisation de l’opensource

Chez MapR, Hadoop est modifié dans une optique résolument commerciale. Du coup, les développements apportés au coeur Hadoop ne trouvent pas de voie de retour vers la communauté. C’est notamment le cas pour le système de gestion de fichier HDFS qui a été revu et renommé LSS (Lockless Storage Services) et dont la spécificité est de pouvoir apporter l’écriture/lecture simultanée de fichier (ce que le HDFS de Hadoop ne permet pas, d’où un traitement en mode batch).