Sommaire

Quand Google et Hadoop se fourvoient

Finissons cet ouvrage par là où nous l’avons commencé : l’étude " Detecting influenza epidemics using search engine query dataDetecting influenza epidemics using search engine query data" de Google, et le service associé " Google Flu TrendsGoogle Flue Trends" qui produit des estimations sur le nombre d’Américains touchés par la grippe.

Durant l’hiver 2013, Google Flu Trends s’est lourdement trompé dans ses estimations, donnant un nombre de personnes contaminées par la grippe deux fois supérieur à celui du US Centers for Disease Control and Prevention (CDC). Au final, il s’est avéré que le CDC avait raison (6% de personnes contaminées) et Google tort (plus de 10% de personnes contaminées).

Il se trouve que le modèle de Google a été induit en erreur par une couverture médiatique particulièrement forte de la grippe par la presse américaine. Cette couverture médiatique a affolé les Américains qui se sont rués sur le moteur de recherche de Google et ont généré un nombre très élevé de requêtes, induisant ainsi "Google Flu Trends" en erreur.

 Conclusion du CDC : "The CDC model can control more factors than the Google model. For example, if the CDC sees an increase in people going to their doctors for flu-like illness without an increase ...