Journal du développeur

Comprendre le Big Data

3 novembre 2020

Le Big Data kezako ? Vous en avez forcément déjà entendu parler au détour d’une conversation, en comprenant plus ou moins le sens, sans jamais pousser la réflexion. Et pourtant le big data fait partie intégrante de notre société et de notre vie au quotidien. Quel parcours avez-vous pris pour aller au travail ce matin ? A quel endroit avez-vous mangé ce midi ? Votre dernier like sur les réseaux sociaux, à quel arrêt de bus êtes-vous montés… Toutes ces données une fois enregistrées et stockées constituent le big data, et nous en sommes les principaux fournisseurs, sans nécessairement être au courant de ce qu’elles vont devenir. Pour vous aider à décrypter tout ça nous allons, au travers de cet article, voir l’utilisation que l’on peut faire du big data.

Qu’est-ce que le Big Data ?

Au premier abord, le Big Data (littéralement « grosses données » ou « mégadonnées ») est tout simplement un amas colossal d’information devenus si volumineux au cours du temps qu’il dépasse notre capacité humaine d’analyse – bien qu’elle soit exceptionnelle elle a ses limites – et celle des outils de gestion de base de données. C’est une définition simple, qu’on ne peut pas préciser tant son usage va dépendre des acteurs du marché qui l’utilisent.  D’où cette nécessité de repenser notre façon de procéder à l’étude de ces données, qui ne cessent de croitre à chaque instant. Le big data est défini par les 3V – en plus des 2 nouveaux V arrivés récemment – :

Le volume : c’est la gigantesque quantité de données que les entreprises vont devoir analyser et stocker, que ce soit la base de données clients, les fiches produits, les CV reçus…etc.

La vitesse : c’est la fréquence à laquelle ces données sont reçues. Aussitôt les données sont reçues, aussitôt de nouvelles arrivent ! Imaginez-vous, commander un plat au restaurant, et au moment de l’attaquer, le suivant arrive et ainsi de suite !

La variété : elle va du simple partage du dernier titre à la mode, aux données de logs, en passant par les tweets et les vidéos !

La véracité : l’information récoltée se doit d’être fiable et de qualité pour être exploitable.

La valeur : ses données se doivent d’être transformées en valeur et rentabilisées.

Comment ça marche ?

Les principales technologies du Big Data sont des bases de données NoSQL comme Cassandra ou MongoDB. Le NoSQL (Not Only SQL – pas seulement SQL-) c’est en quelque sorte une famille de systèmes de gestion de base de données (SGBD) qui s’éloigne des bases relationnelles classiques qui comportent des limites de performance. Elles ne remplacent pas ces bases de données, elles viennent en fait les compléter. Elles sont séparées en 4 familles :

Les bases NoSQL clé/valeur : permet de stocker uniquement des couples [clé, valeur].

Les bases NoSQL orientées documents : repose aussi sur le paradigme [clé, valeur], mais cette fois la valeur est un document.

Les bases NoSQL orientées colonnes : l’historisation de cette donnée se fait à la valeur – et non à la ligne – et les colonnes sont dynamiques.

Les bases NoSQL graphes : stockage de données selon la théorie des graphes.

Et le Machine Learning dans tout ça ? Eh bien il intervient pour extraire la valeur de ces données, sans avoir besoin d’une quelconque intervention humaine, en dépit de leur complexité intrinsèque. Le plus fort, c’est que plus il va travailler sur des données, plus il va en ressortir des données de qualité : c’est un apprentissage automatique. Vous pouvez en apprendre davantage grâce à notre article sur le Machine Learning.

Il ne faut pas non plus oublier Hadoop et Spark : les compagnons/concurrents qui sont des solutions phares pour le traitement de données non structurées. Le cloud computing apparait comme une façon plus intuitive de stocker, traiter et analyser l’information en passant par internet plutôt que par un serveur privé.

Son usage dans les entreprises

L’information c’est le pouvoir. Maitriser l’information, c’est prendre les meilleures décisions pour son entreprise. Le Big Data représente un enjeu énorme pour toutes les entreprises aussi bien pour le marketing que pour le recrutement, en passant par le service client. Grâce à cette analyse des données, il devient alors possible de comprendre le comportement des utilisateurs, optimiser son site internet, anticiper les besoins et la demande des clients, proposer des biens et services ultra-personnalisés. Tout ce qui manque au Big Data, c’est de faire le café quoi. En 3 mots le Big Data c’est : Intégrer – Gérer – Analyser.

Durant votre énième visite sur Youtube vous constatez – sans réellement y prêter attention – que selon vos vidéos vues, le contenu mis en avant va fortement vous plaire. Ou sur Deliveroo, qui va recommander ses restaurants d’après vos goûts et expériences passées. Chaque profil utilisateur est un assemblage de données qui se rapproche le plus de vos propres goûts.

Dans le domaine du recrutement, le Big Data est particulièrement efficient ! Les recruteurs peuvent recueillir beaucoup de données à travers les CV et profils sur les réseaux type LinkedIn – les diplômes obtenus, le temps passé dans chaque entreprise, les intérêts – il devient alors possible de savoir si tel ou tel candidat va s’épanouir sur son poste, et ainsi réduire le turn-over. On peut alors pousser la démarche, et aller chercher des intérêts qui pourrait prioriser la candidature, sur un candidat auquel on n’aurait pas forcément pensé ! La totale compréhension de l’individu est ce qui va permettre de lui trouver son poste idéal, et c’est un énorme point aussi bien pour le candidat que pour le recruteur ! La prise en compte de ces données, alliée à la dimension conseil et la connaissance technique des équipes Easy Partner permet de proposer le meilleur « match » entreprise/candidat !

Ses quelques risques

Néanmoins le développement de cette intelligence artificielle qui a accès à nos données ne génère pas que de l’enthousiasme, mais aussi de vives appréhensions. L’astrophysicien Stephen Hawking redoutait que les machines puissent devenir plus intelligentes que l’humain, pour finalement se substituer à lui et le rendre obsolète. Le film Terminator ne serait alors plus une dystopie mais pourrait devenir réalité. Autre risque : la provenance de ces données est-elle toujours fiable ? La moindre erreur peut mener à un enchainement d’analyses erronées basées sur de fausses données. Le risque éthique intervient également. Jusqu’où les entreprises seront prêtes à aller pour collecter nos données, et où sera la limite de la violation de notre liberté ? C’est là qu’intervient la RGPD pour protéger nos libertés individuelles.

Le Big Data représente un réel atout pour les entreprises, qu’il faut cependant apprendre à maitriser pour en exploiter le plein potentiel.

 

Recruteurs vous cherchez les meilleurs talents de la data qui pourront vous accompagner dans vos missions ? C’est par ici !

L'auteur Laura Peignard

Growth Hacker

Laura Peignard
Postuler à l'annonce Postuler à toutes les annonces Ingénieur système linux orienté web
Remplissez le formulaire
C'est tout bon

On vous recontact au plus vite !
En attendant, vous pouvez toujours consulter nos autres jobs !

rotate screen

Retourner votre tablette pour une meilleure navigation