Module 110 - Analyser et représenter des données avec des outils
partie 2
De quoi avons-nous parlé la semaine dernière ?
Temps à disposition : 5 minutes
Connectez-vous à : https://app.wooclap.com/EBFBDA
De quoi avons-nous parlé la semaine dernière ?
L'ingénierie de la fiabilité des sites, ou SRE (Site Reliability Engineering), est une approche d'ingénierie logicielle pour l'exploitation informatique. Les équipes de SRE utilisent des logiciels, comme les logiciel de monitoring pour gérer des systèmes, résoudre des problèmes et automatiser des tâches liées à l'exploitation
Le Site Reliability Engineering (SRE) vise à garantir la fiabilité des systèmes en mesurant leur performance à travers des indicateurs (SLI), en fixant des objectifs internes de qualité de service (SLO), et en s’assurant du respect des engagements contractuels envers les clients (SLA). Rôle de l’ingénieur SRE :
Un SLI (Service Level Indicator) est une mesure quantitative précise du comportement d’un système. Il est conçu pour refléter l’expérience réelle des utilisateurs.
| SLI | Description |
|---|---|
| Taux d’erreur | % des requêtes retournant un code ≠ 200 |
| Latence | Temps de réponse pour 95e percentile |
| Disponibilité | % du temps où le service répond correctement |
| Frais de saturation | Nombre de requêtes refusées ou limitées |
Le SLA (Service Level Agreement) est un contrat formel (souvent légal) entre un fournisseur de service et un client, fondé sur un ou plusieurs SLOs.
Exemple : Le service sera disponible à 99.9% sur un mois, sinon le client recevra un crédit de 20%.
Le SLO (Service Level Objective) fixe la cible de performance ou fiabilité attendue pour un SLI.
C’est une base de contrat interne qui permet aux équipes de mesurer objectivement la santé d’un service. Exemple :
Autres exemples :
Le budget d’erreur est une approche pragmatique pour équilibrer fiabilité et innovation.
SLO = 99.9% → Erreur tolérée = 0.1%
Sur un mois (30 jours = 43 200 minutes) → 43 minutes d’indisponibilité permises.
| Intégration | En pratique |
|---|---|
| Choix des SLI pertinents | Utiliser des métriques comme le taux d’erreur HTTP, la latence 95e percentile, ou le succès des transactions. |
| Définition des SLO | Fixer des objectifs clairs, mesurables et réalistes. |
| Alerting intelligent | Déclencher une alerte seulement si le SLO est menacé (ex : taux d’erreurs > 0.1% pendant 10 minutes). |
| Dashboards centrés sur les utilisateurs | Visualiser la santé du service à travers les SLO. |
Les outils de monitoring collectent, stockent et visualisent des données sensibles :
Si mal configurés, ces outils peuvent devenir une source majeure de fuite de données.
Bonnes pratiques :
Exemple : Un développeur front n’a pas besoin de voir les logs de requêtes contenant des données personnelles, il devrait voir uniquement les erreurs applicatives.
Bonnes pratiques:
Les pipelines de monitoring évoluent : ajout de métriques, nouveaux microservices, migration cloud, les données collectées changent, il faut s’assurer qu’elles ne violent pas les principes de sécurité ou de conformité.
Bonnes pratiques:
Exemple concret : L’équipe remarque qu’un volume inhabituel de logs contenant des données géographiques précises (coordonnées GPS) est collecté et stocké sans anonymisation.
Effectuez le Cas pratique 7 - Rapport des visites
Temps: 45 minutes
Répondez aux différentes questions liées à la matière enseignée
Connectez-vous à : https://app.wooflash.com/join/1G69UJX7