Sommaire

Autres outils

1. HueHue

images/08EP09.png

Hue est un projet open source.

Hue comprend principalement :

  • Un navigateur de fichiers permettant d’accéder à HDFS.

  • Un navigateur de jobs MapReduce/YARN.

  • Un navigateur HBase.

  • Un éditeur de requêtes pour Cloudera Impala, Hive, Pig et Sqoop.

Images/08EP11_new.png

Un écran Hue (source : gethue.com)

Un SDK (Software Development Kit) Hue est également disponible pour développer des applications web s’appuyant sur Hadoop.

2. MahoutMahout

images/08EP10.png

Mahout est une librairie de fonctions d’apprentissage optimisée pour fonctionner avec Hadoop. Les fonctions dans Mahout couvrent trois types d’algorithmes :

  • Des algorithmes de filtrage collaboratif.

  • Des algorithmes de partitionnement des données.

  • Des algorithmes de classification des données.

Le filtrage collaboratif et le partitionnement des données sont des apprentissages non supervisés. La classification des données relève d’un apprentissage supervisé. Pour en savoir plus à ce sujet, voir par exemple http://fr.wikipedia.org/wiki/Apprentissage_automatique.

Filtrage collaboratif

Partitionnement

Classification

  • Pearson correlation

  • Log likelihood

  • Spearman correlation

  • Tanimoto coefficient

  • Singular value decomposition (SVD)

  • Linear interpolation

  • Cluster-based recommenders

  • K-means clustering

  • Canopy clustering

  • Fuzzy k-means

  • Latent Dirichlet analysis (LDA)

  • Stochastic gradient descent (SGD)

  • Support vector machine (SVM)

  • Naive Bayes

  • Complementary Naive Bayes

  • Random forests

Algorithmes inclus dans ...