Disponibilité et évènements

Les données de disponibilité et d’évènements correspondent aux données liées au changement d’état des hôtes et des services supervisés par Centreon. Elles sont exploitées dans les modèles de rapports et widgets de disponibilité et d’évènements proposés par Centreon MBI.

Aucun pré-requis n’est exigé pour que les rapports exploitant ces notions soient fonctionnels. Il suffit de disposer de plugin renvoyant un statut. Pour que vous puissiez exploiter et analyser ce que ces rapports remontent, il est important que vous compreniez certaines notions et règles de calculs.

Disponibilité

Hôtes

Un hôte est dit disponible s’il est dans un état « Up »

Le calcul du taux de disponibilité présent dans les rapports est le suivant : Durée « Up » / ( Durée « UP » + Durée « Down »).

Règles supplémentaires :

  • Le temps passé dans l’état « Unreacheable» n’est pas pris en compte dans le calcul de la disponibilité,
  • Le temps passé « maintenance programmée (Downtime) » n’est pas pris en compte dans le calcul de la disponibilité.

Exemple : Pour un rapport sur 1 journée, si un hôte est disponible 23h et indisponible 1h sur les 24h théorique, sa disponibilité sera donc 23h / (23+1) ~ 95,8%.

Services

Un service est dit disponible s’il est dans un état « OK » ou « Warning ».

Le calcul du taux de disponibilité d’un service est le suivant : (durée « OK » + « Warning ») / ( durée « OK » + « Warning » + « Critical »).

Règles supplémentaires :

  • Le temps passé dans l’état « Unknown» n’est pas pris en compte dans le calcul de la disponibilité,
  • Le temps passé « maintenance programmée (Downtime) » n’est pas pris en compte dans le calcul de la disponibilité.

Evènements

Seuls les évènements confirmés sont pris en compte dans le calcul des évènements. Cela correspond à l’état “Hard” dans Centreon.

Dans les rapports, différentes notions sont affichées lorsqu’on parle d’évènements, ils peuvent être de type :

  • Exception : cela correspond à un état « Down» pour un hôte et un état « Critical » pour un service,
  • Avertissement : cela correspond à un état « Warning » pour les services, il n’y a pas d’équivalent pour les hôtes,
  • Information : tout autre état.

Un évènement sur un hôte ou un service est caractérisé par 3 éléments :

  • Une date de début,
  • Une date de fin,
  • Un état.

Indicateurs supplémentaires

  • MTRS (Mean Time To Restore Service) correspond à la Maintenabilité : c’est le temps moyen de durée des pannes. Cet indicateur doit être le plus faible possible.
  • MTBF (Mean Time Between Failure) correspond à la Fiabilité : c’est le temps moyen entre la fin d’un incident et le début du suivant. Cet indicateur doit être le plus élevé possible.
  • MTBSI (Mean Time Between Service Incident) : c’est le temps moyen entre le début de deux incidents. Cet indicateur doit être le plus élevé possible

Le schéma ci-dessous permet de se rendre compte de la portée de ces indicateurs :

../_images/mtbf_mtbsi_mtrs_explanation.png