Sommaire

Alerter en continu

Imaginez que vous mettiez à jour votre système et que la mise à jour s’effectue correctement. Pourtant, vous ne le savez pas, mais votre site est tombé depuis des heures parce que votre provider Internet connaît une panne sur ses serveurs. Votre application n’est plus accessible et vous n’étiez pas au courant.

Ce petit cas d’école montre l’importance des outils de surveillance. L’équipe DevOps doit également se charger de mettre en place une série de capteurs sur les machines ou sur les applicatifs. Ces capteurs se chargent de produire des alertes (ou logs) en continu. Ces systèmes peuvent réagir en cas de surchauffe de l’application (par exemple, un nombre anormal de connexions utilisateurs, ce qui pourrait signifier une possible attaque ou un CPU au maximum de sa charge pendant une période anormalement longue). Ces informations peuvent ensuite être consommées par le système de logs et envoyer une alerte à la personne ou à l’équipe en charge de la surveillance du système qui peut ainsi prendre les mesures qui s’imposent.

Nous pouvons citer comme exemple Zabbix qui est une application open source également disponible sur GitHub et dont le rôle est de surveiller les machines et d’alerter en continu.