Date de début
10 mai 2022
à 09:58
Évènement
Panne de service
Message
9h58 : Update routinier de LOKI (kubernetes). La mise-à-jour ne s’effectue pas correctement.
<br><br>
10h : Constat de panne SAAQ et début de diagnostic <br><br>
Hypothèse #1 : l’update de loki empèche le bon fonctionnement du site. Hypothèse mise de côté, aucun log ne porte à croire que ce serait la nature de la problématique, malgré le ‘timing’.<br><br>
10h04 : Réception d’appel Yvon Parent.
Hypothèse #2 : Problématiques de Firewalls.<br><br>
10h10-10h25 : tests de communications de la machine virtuelle et des différents composants du site web. Tests non concluent, tout semble fonctionner correctement.<br><br>
Hypothèse #3 : Le deamon docker ne fonctionne plus correctement.<br><br>
10h25-10h45 : update de docker-ce et de différents deamon et validation de logs. Non concluent, la mise à jour ne semble pas avoir changé le statut de la panne et le système ne semblait pas s’être mis à jour automatiquement avant l’intervention.
<br><br>
Hypothèse #4 : Le compilateur docker-compose cause un bug inconnu pour l’instant.<br><br>
10h45-11h05 : Mise-à-jour de docker compose vers la version 2, et apporte La Société à la dernière version disponible, mais malheureusement ceci ne semble pas résoudre la problématique.<br><br>
Hypothèse #5 : Durant la mise à jours de docker compose, une erreur 503 de loki est décelée bien que l’assomption courante est d’ignorer. Ceci dit le manque d’hypothèse à ce moment et le timing du début de la panne nous poussent à poursuivre cette piste.
<br><br>
11h05-11h15 : Retrait de la dépendance loki des services du site.<br><br>
11h15 : Le service est de retour sans la dépendance loki.<br><br>
11h19 : Fin de l’appel téléphonique client.<br><br>
<strong>Solution long terme : Retrait de la dépendance loki du deamon docker et mise en place d’un lien système indépendant. REF : https://github.com/grafana/loki/issues/2361</strong>
Date de début
10 mai 2022
à 09:58
Évènement
Panne de service
Message
Vers 09h58, une mise à jour routinière du service Loki a eu lieu. Suite à celle-ci, une panne est remarquée pour certains clients.
<br><br>
Entre 10h00 et 11h30 : Hypothèses et solutions tentées par les administrateurs systèmes. La solution retenue et fonctionnelle est de réparer complètement le service Loki.
Date de début
02 mai 2022
à 13:55
Évènement
Problème réseau interne affectant les services
Message
Une panne de réseau interne sur un Hypervisor a occasionné une panne en production sur certains clients.
Notre équipe d'administration système s'est affairé à redémarrer les services rapidement et nous avons remplacé l'équipement en défaut
Date de début
12 décembre 2021
à 06:00
Message
Bonjour,
Comme stipulé dans l'avis de maintenance envoyé le 25 novembre, nous effectuons présentement une maintenance de notre infrastructure.
Les travaux seront terminés à midi le 12 décembre 2021
Date de début
31 août 2021
à 05:45
Évènement
Ralentissement de service
Message
Un ralentissement de service et quelques pannes sporadiques ont été observées entre 05h45 et 08h15. Pendant ces périodes, nos administrateurs systèmes ont monitoré les événements, en ciblant le système externe de cache en place (Akamai) comme étant potentiellement problématique.
Sans intervention, les ralentissements ont passés par eux même. La situation continuera d'être observée si des ralentissements surviennent encore.