N’est-ce pas exaspérant cette association entre les deux buzzwords du moment ? Vous vous dites peut être que c’est un de ces articles complaisants, écrit par un journaliste en mal d’audience. Malgré tout, il y des points de convergence intéressants entre le Cloud et BigData, je vais essayer de vous en convaincre.
Le acteurs du Cloud ont inventé certains principes BigData
BigData est un concept difficile à définir dans un monde où les Data Warehouse et l’analyse décisionnelle existent depuis longtemps. La nouveauté tient aux volumétries de données, qui permettent de créer de nouvelles corrélations impossible jusqu’alors. Voici la définition proposée par OCTO Technology : “BigData est l’ambition de tirer un avantage économique de l’analyse quantitative des données internes et externes de l’entreprise”.
L’idée de corrélation sur de grandes quantités de données a commencé chez les acteurs du Cloud que sont Amazon et Google. En effet, Amazon a été un des premiers acteurs à faire du profiling en suggérant à l’acheteur des produits qui pourraient l’intéresser ; et Google utilise des statistiques à grande échelle, par exemple pour estimer la propagation des épidémies de grippe.
Le acteurs du Cloud ont contribué aux outils BigData
La plupart des technologies qui font le buzz aujourd’hui dans le monde des architectures hautes performances, et qui sous-tendent BigData, sont le résultat de développements réalisés par les acteurs du Web, mis en Open Source.On peut citer:
- Les publications scientifiques de Google sur le principe Map/Reduce distribué
- Hadoop et HBase, une implémentation de ce principe par Yahoo
- le modèle de stockage Web d’Amazon S3
- la base Cassandra, développée par Facebook, …
Ces acteurs sont donc d’importants fournisseurs de technologies utiles aux BigData. Ils sont à l’origine de nombreuses bases NoSQL, qui qui permettent de dépasser les limites des bases de données classiques. En particulier, certaines de ces bases permettent de traiter de gros volumes de données, en quasi temps réel.
Les acteurs du Cloud mettent à disposition des services BigData
Dans le cadre du calcul distribué de type Map/Reduce, on peut recourir aux services suivants :
Pour l’exécution d’autre type de calculs gourmands en ressources :
- Amazon propose une offre High Performance Computing basée sur EC2
- Google propose un service d’analyse de données : BigQuery
Dans le cadre de gros jeux de données, les acteurs du Cloud mettent à disposition leur gigantesques capacité de stockage :
Et, bien entendu, tous ces services sont proposés en paiement à la consommation, ce qui est le modèle idéal pour limiter le coût de gros calculs ponctuels.