État des infrastructures

En cours Archives

Date de début

Évènement

Message

Actions

Date de début

10 mai 2022
à 09:58

Évènement

Panne de service

Message

9h58 : Update routinier de LOKI (kubernetes). La mise-à-jour ne s’effectue pas correctement. <br><br> 10h : Constat de panne SAAQ et début de diagnostic <br><br> Hypothèse #1 : l’update de loki empèche le bon fonctionnement du site. Hypothèse mise de côté, aucun log ne porte à croire que ce serait la nature de la problématique, malgré le ‘timing’.<br><br> 10h04 : Réception d’appel Yvon Parent. Hypothèse #2 : Problématiques de Firewalls.<br><br> 10h10-10h25 : tests de communications de la machine virtuelle et des différents composants du site web. Tests non concluent, tout semble fonctionner correctement.<br><br> Hypothèse #3 : Le deamon docker ne fonctionne plus correctement.<br><br> 10h25-10h45 : update de docker-ce et de différents deamon et validation de logs. Non concluent, la mise à jour ne semble pas avoir changé le statut de la panne et le système ne semblait pas s’être mis à jour automatiquement avant l’intervention. <br><br> Hypothèse #4 : Le compilateur docker-compose cause un bug inconnu pour l’instant.<br><br> 10h45-11h05 : Mise-à-jour de docker compose vers la version 2, et apporte La Société à la dernière version disponible, mais malheureusement ceci ne semble pas résoudre la problématique.<br><br> Hypothèse #5 : Durant la mise à jours de docker compose, une erreur 503 de loki est décelée bien que l’assomption courante est d’ignorer. Ceci dit le manque d’hypothèse à ce moment et le timing du début de la panne nous poussent à poursuivre cette piste. <br><br> 11h05-11h15 : Retrait de la dépendance loki des services du site.<br><br> 11h15 : Le service est de retour sans la dépendance loki.<br><br> 11h19 : Fin de l’appel téléphonique client.<br><br> <strong>Solution long terme : Retrait de la dépendance loki du deamon docker et mise en place d’un lien système indépendant. REF : https://github.com/grafana/loki/issues/2361</strong>

Date de début

10 mai 2022
à 09:58

Évènement

Panne de service

Message

Vers 09h58, une mise à jour routinière du service Loki a eu lieu. Suite à celle-ci, une panne est remarquée pour certains clients. <br><br> Entre 10h00 et 11h30 : Hypothèses et solutions tentées par les administrateurs systèmes. La solution retenue et fonctionnelle est de réparer complètement le service Loki.

Date de début

02 mai 2022
à 13:55

Évènement

Problème réseau interne affectant les services

Message

Une panne de réseau interne sur un Hypervisor a occasionné une panne en production sur certains clients. Notre équipe d'administration système s'est affairé à redémarrer les services rapidement et nous avons remplacé l'équipement en défaut

Date de début

12 décembre 2021
à 06:00

Évènement

Maintenance

Message

Bonjour, Comme stipulé dans l'avis de maintenance envoyé le 25 novembre, nous effectuons présentement une maintenance de notre infrastructure. Les travaux seront terminés à midi le 12 décembre 2021

Date de début

31 août 2021
à 05:45

Évènement

Ralentissement de service

Message

Un ralentissement de service et quelques pannes sporadiques ont été observées entre 05h45 et 08h15. Pendant ces périodes, nos administrateurs systèmes ont monitoré les événements, en ciblant le système externe de cache en place (Akamai) comme étant potentiellement problématique. Sans intervention, les ralentissements ont passés par eux même. La situation continuera d'être observée si des ralentissements surviennent encore.