A mesure que le Big Data prend de l’importance, les outils conçus évoluent et s’améliorent constamment. Les organisations utilisent des outils tels que Hadoop, Hive, Cassandra, Spark ou encore Kafka en fonction de leurs besoins.
Il existe énormément de solutions, et beaucoup d’entre elles sont open source. Il y a aussi une fondation, l’Apache Software Foundation (ASF), qui soutient bon nombre de ces projets. Étant donné l’importance de ces outils pour le Big Data, nous allons discuter brièvement de certains d’entre eux. L’un des outils les plus connus pour l’analyse du Big Data est Apache Hadoop, un framework open source pour le stockage et le traitement de grands ensembles de données.
Apache Spark est un autre outil qui fait de nombreux adeptes. L’un des grands avantages de Spark est qu’il est capable de stocker une grande partie des données de traitement dans la mémoire (Memoire RAM) et sur le disque, ce qui peut être beaucoup plus rapide environ 10Go par seconde contre en moyenne 600Mo pour Hadoop.
Spark est compatible avec Hadoop (Hadoop Distributed File System), Apache Cassandra, OpenStack Swift et de nombreuses autres solutions de stockage de données. Mais l’une de ses fonctionnalités les plus intéressantes est sa capacité à fonctionner sur une seule machine locale, ce qui facilite considérablement son utilisation.
Il y a aussi Apache Kafka, qui permet aux utilisateurs de publier des flux de données en temps réel et de s’abonner à ce type de flux. Kafka a pour principal objectif d’apporter la fiabilité des autres systèmes de messagerie aux données diffusées en continu.
Autres outils de Big Data :
- Apache Lucene peut être utilisé pour tous les moteurs de recommandation, car il utilise des bibliothèques de logiciels d’indexation et de recherche en texte intégral.
- Apache Zeppelin est un projet en incubation qui permet l’analyse interactive de données avec SQL et d’autres langages de programmation.
- Elasticsearch est plutôt un moteur de recherche d’entreprise. Le plus grand avantage de cette solution est qu’elle peut générer des aperçus à partir de données structurées et non structurées.
- TensorFlow est une bibliothèque de logiciels qui attire de plus en plus l’attention, car elle est utilisée pour le machine learning.
Le Big Data continue à se développer et à évoluer, et c’est également le cas des outils. Comme nous l’avons mentionné, certains des outils fonctionnent avec des données structurées ou non structurées.
Nous verons dans le prochain article ces differentes notions de données structurées ou non structurées.
En attendant, si vous venez d’arriver, vous pouvez lire mon precedent article sur le sujet en cliquant ici.