Oscaro.com, BigData et cloud

Oscaro.com est le leader de la vente de pièces automobiles neuves et d’origine sur Internet. L’entreprise connaît une croissance à deux chiffres de son activité depuis ses débuts en 2001 et a réalisé en 2014 un chiffre d’affaires de 300 millions d’euros. Oscaro.com est présent en France, en Espagne, en Belgique et aux États-Unis. Son site Internet propose plus de 450 000 pièces, couvrant plus de 70 000 modèles de véhicules.

Une approche « Big Data » s’est imposée pour répondre au mieux aux attentes des clients : depuis l’installation d’un tracker Internet pour obtenir toujours plus de données de navigation des sites e-commerce jusqu’au recoupement avec la structure du catalogue produits, Oscaro génère quelque 5To de données/an.

Problématique

Du coté infrastructure, une telle volumétrie de données en croissance de 150 à 200 % par an, n’était plus compatible avec les architectures de base de données standard. Il devenait de plus en plus difficile d’accéder aux données multi-sources et les analyses comparatives temporelles étaient très chronophages et complexes à réaliser sur d’aussi gros volumes. Le système d’information devenait de plus en plus asymétrique, avec d’un côté des utilisateurs technophiles qui réussissaient à croiser des données de trafic Web et des données de ventes du cube OLAP et de l’autre des utilisateurs métiers moins techniques qui, ne sachant pas coder, ne pouvaient pas obtenir de réponses à leurs questions.

Solution

Ce sont Romain Nio, responsable de l’équipe Data – Devops/BigData/R&D, et François Dumarest, chef de projet pricing chez Oscaro qui, pour maîtriser l’accroissement des données et leur exploration, ont fait le choix d’utiliser une architecture à capacité variable et des technologies cloud modernes, orientées « BigData ».

Leur choix s’est porté sur Google BigQuery pour permettre aux équipes métier de requêter en quelques secondes de très gros volumes de données sans avoir à se soucier de l’architecture technique sous-jacente. BigQuery permet aussi de réduire considérablement les phases de développement grâce à une syntaxe  de type SQL très simple et à une injection de données facile et rapide, via des fichiers plats. Ces injections proviennent de traitements batch pour agréger et dénormaliser les données, à partir de 80 sources hétérogènes, distribuées en partie sur Hadoop Google Cloud. Les données sont nettoyées et les jointures réalisées dans Hadoop pour lier les données de trafic Web aux commandes. Le tout alimente ensuite BigQuery.

Oscaro a ainsi pu améliorer considérablement ses performances grâce à un déploiement rapide et massif de puissance de calcul supplémentaire, tout en optimisant ses coûts d’infrastructure avec ce choix de nouvelle architecture.

BigQuery n’étant pas destiné à être utilisé directement par des opérationnels, Romain Nio et François Dumarest ont décidé d’utiliser, en complément, la solution de Business Intelligence BIME, qui requête en direct dans la base BigQuery.

Le combo de technologies BigQuery et BIME permet d’associer performances et intuitivité dans la construction des analyses et l’édition des tableaux de bord, sur une très grande volumétrie de données hétérogènes, pour une exploration et une consultation en temps réel et en ligne via un navigateur Internet.

« Nous nous sommes d’abord concentrés sur la mise en place de Google BigQuery. Dans un second temps, BIME a naturellement fait sens pour notre besoin d’une application analytique puissante : l’association de technologies 100 % cloud s’est imposée car elles ont été rapides à mettre en place et sont plus simples à manipuler que notre ancien cube OLAP, utilisé depuis les débuts de l’aventure Oscaro par l’utilisateur final », précise Romain Nio.

Ce qui a changé

« Les analyses sont aujourd’hui plus exploratoires qu’avant : nos utilisateurs métiers, des services marketing et ventes, analysent plus rapidement nos performances liées au trafic, nos coûts d’acquisition client par canal, nos marges produits, nos données logistiques transporteurs mais aussi les données du call center pour la satisfaction client. En résumé, toutes les informations assurant le bon fonctionnement de la chaîne de valeur », ajoute François Dumarest.

Les tableaux de bord ont été rapidement mis en place : les utilisateurs se connectent depuis un seul et même endroit à plusieurs sources de données, dont BigQuery, et partagent les nouvelles analyses avec les équipes internes. Les analyses réalisées depuis le cube OLAP cohabitent toujours mais de nouvelles sources d’informations sont accessibles au travers de BIME uniquement, pour une adoption progressive par les métiers.

La mise en place de la combinaison BigQuery + BIME a duré moins de 6 mois. Les 3 premiers mois ont été consacrés aux tests d’alimentation de Hadoop vers BigQuery. Pendant cette période, les capacités analytiques de BIME ont été utilisées pour le contrôle qualité des données. Puis la phase « analyses métier » et mise à disposition des tableaux de bord auprès des utilisateurs s’est faite en l’espace de 2 mois.

« BIME, avant même d’être utilisé comme solution de BI opérationnelle à destination de nos départements, s’est avéré être très important dans le démarrage du projet BigQuery. BIME a permis de remarquer immédiatement les incohérences dans les remontées de données, les trous temporels, bref la « propreté » des données. En quelques clics et en quelques croisements de données, l’on pouvait voir si les chiffres alimentés dans BigQuery étaient fidèles à ce qu’il y avait dans les anciens systèmes. Là où nous devions utiliser le couple BigQuery + BIME en bout de chaîne pour nos analyses métiers, nous l’avons même utilisé beaucoup plus en amont », précise Romain Nio.

La société a aussi préalablement testé les couples technologiques BigQuery + Tableau Software et BigQuery + Qlikview, mais ces solutions n’étaient pas aussi rapides car pas 100 % cloud. « Comparativement aux autres solutions, avec BIME, nous n’avons pas eu à installer une infrastructure BI supplémentaire. Nous n’avons pas eu à mobiliser nos équipes IT. La solution évolue dans le temps et nous avons accès à de nouvelles fonctionnalités toutes les semaines, ce qui n’est pas possible avec une BI en mode on-premise », poursuit François Dumarest.

Les utilisateurs ont désormais accès à des données désagrégées, très détaillées, ce qui permet d’aller toujours plus loin dans la personnalisation des analyses, malgré la volumétrie croissante des données produites par l’activité. Tous les services se sentent concernés car il leur est possible d’avoir accès à ces données. Un nouveau monde s’offre à eux. Ils se créent des besoins au fur et à mesure qu’ils commencent à chercher des informations, ce qui conduit à une culture de l’analyse plus prégnante à tous les niveaux.

L’échange entre les services est aussi plus pertinent car les données ne sont plus asymétriques et ne peuvent plus être interprétées différemment (une même définition pour les commandes en erreur, les abandons panier, etc.) : tout le monde parle d’une seule voix.

L’utilisation de ces systèmes masquant la complexité a permis de passer plus de temps en amont sur l’organisation du nettoyage des données. La documentation qui explique les caractéristiques de la donnée et ce qu’elle représente génère beaucoup moins d’erreurs qu’auparavant.

La prochaine étape concerne toutes les données achat ainsi que les données purement financières : « quand elles seront disponibles dans BIME, avec toutes les analyses croisées possibles, ce sera encore plus intéressant. Aujourd’hui, de manière incompressible, il y a le temps du projet alloué à l’alimentation d’un nouveau type de données, de l’ancien système vers BigQuery. Une fois ceci réalisé, le plug’n’play analytique de BIME est possible pour les utilisateurs quasi immédiatement », se satisfait Romain Nio.

Le challenge actuel est lié à l’habitude des utilisateurs métier, bien connu dans le cadre d’une modernisation du système d’information. « Les utilisateurs aiment leurs extractions dans Excel pour faire leurs ‘RechercheV’. Nous leur montrons que BIME est une nouvelle approche pour visionner leurs données, que le périmètre est plus large, pour plus d’analyses possibles en toute simplicité avec le moteur de calcul et que les mises en forme automatisées permettent un partage de tableaux de bord qui s’actualisent en temps réel, même en situation de mobilité », concluent nos interlocuteurs.

Top