Module 110 - Analyser et représenter des données avec des outils
Introduction
Modalités d'examen
- Examen en deux parties :
- partie 1 : Définitions théoriques et compréhension sur un examen papier
- partie 2 : Exercice pratique sur votre machine
- L'examen se fait au stylo et sur ordinateur
- L'examen dure 2h15, à vous de gérer votre temps
- Matériel à disposition : 1 feuille A4 recto-verso manuscrite pour la partie 1. Pour la partie 2 vous n'avez pas le droit aux outils de communication

A quoi sert l'analyse et la représentation des données avec des outils ?

- Un post-it qui définit l'analyse des données
- Un post it qui définit la représentation des données
- Un post-it qui énumère des outils
Objectifs du cours
- Connaitre la différence entre Big Data et Open Data
- Connaitre la différence entre Monitoring et Business Intelligence
- Citez les étapes de l'analyse
Big Data vs Open Data

Big data: technologies et méthodes permettant de gérer un volumes massifs de données en utilisant des algorithmes pour l' analyser en temps réel. Exemple: Base de données, IoT
Open data: données accessibles librement publiées par des institutions publiques ou privées. CSV, JSON, XML
Big Data vs Open Data

Les données jouent un rôle crucial dans la gestion et l’amélioration des systèmes informatiques. Elles permettent de :
- Suivre les performances des applications et des infrastructures.
- Identifier les problèmes potentiels avant qu’ils n’impactent les utilisateurs.
- Soutenir la prise de décisions basées sur des faits.
- Respecter les exigences de conformité et de protection des données.
Monitoring vs Business Intelligence

Le monitoring de données sert à contrôler et détecter les anomalies en temps réel.
La business intelligence (BI) vise à analyser les données historiques pour aider à la prise de décision.
Le monitoring prévient des problèmes avant qu’ils ne deviennent critiques.
La BI exploite les données pour améliorer la stratégie et la rentabilité de l’entreprise
Fiche de travail

Effectuez l'exercice 1 de la Fiche de travail - Monitoring vs BI
Temps: 10 minutes
Monitoring de données

Monitoring

Objectifs du monitoring :
- Surveillance des performances : Évaluer des indicateurs clés comme le temps de réponse, la disponibilité ou les taux d’erreur.
- Alertes automatisées : Prévenir les administrateurs en temps réel lorsqu’un seuil critique est dépassé.
- Tendances historiques : Suivre les performances au fil du temps pour anticiper les problèmes et planifier les besoins futurs.
Monitoring

Le monitoring aide les équipes chargées des données à identifier l'origine d'un problème, mais ce n'est qu'avec l'observabilité que l'on peut comprendre la cause profonde de ce problème.
Observabilité

L’observabilité cherche à comprendre pourquoi un problème se produit en s’appuyant sur des informations contextuelles.
Principes clés de l’observabilité :
- Logs enrichis : Journaux contenant des informations détaillées sur les événements afin d’identifier les causes profondes des problèmes.
- Métriques : Indicateurs quantitatifs comme les taux d’erreur, le temps de réponse, ou la consommation de ressources.
- Traces distribuées : Suivi des interactions entre les différents composants d’un système
Observabilité

L'observabilité peut être définie comme la capacité à examiner l'état général des données à travers les outils, les serveurs et les applications tout au long de leur cycle de vie.
Logging

Le logging ou le journal des données fait référence au processus d'enregistrement des informations et des événements pertinents, ainsi qu'aux changements dans l'activité des données qui se produisent lors de l'exécution des processus d'intégration des données.
L'objectif principal de l'enregistrement de ces événements et de ces changements est de créer un dossier constamment alimenté.
On trouve dans le fichier les détails des erreurs, des anomalies, les détails des interactions avec les utilisateurs, les changements de configuration, les événements liés à la sécurité et les mesures de performance.
Fiche de travail

Effectuez l'exercice 2 de la Fiche de travail - Monitoring vs BI
Temps: 10 minutes
Objectifs du monitoring de données

Face à la croissance exponentielle des cyberattaques, la sécurité est devenue l'un des objectifs majeurs du monitoring.
Les entreprises s'appuient sur des équipes spécialisées (SOC) et des outils de type SIEM (Security Information Event Management) pour surveiller le système d'information, détecter les intrusions et gérer les incidents de sécurité.
Objectifs du monitoring de données
Il est important de noter que la sécurité n'est pas l'unique finalité du monitoring, le monitoring répond à 5 autres objectifs :
- Assurer la disponibilité : Garantir que les applications et les serveurs sont accessibles aux utilisateurs 24h/24 et 7j/7
- Optimiser la performance : Identifier les lenteurs et les goulots d'étranglement
- Accélérer le dépannage : Fournir des informations précises aux développeurs pour qu'ils puissent identifier la cause et réparer la panne
- Planifier les ressources : Analyser les tendances historiques de consommation pour anticiper les besoins futurs
- Améliorer l'expérience utilisateur : Surveiller le service tel qu'il est perçu par l'utilisateur final pour garantir la satisfaction client.
Les étapes de l'analyse de données
L’analyse des données repose sur un processus structuré permettant d’exploiter des informations brutes pour en extraire des connaissances exploitables.
Ce processus se divise en quatre étapes principales : l’identification, la préparation, le traitement et la représentation des données.

Les étapes de l'analyse de données

La mise en place d'un système de monitoring ne s'arrête pas une fois les agents installés. C'est un processus itératif et continu. Un dashboard qui n'est jamais consulté ou une alerte qui ne sonne pour rien ("faux positif") devient rapidement inutile.
Les étapes de l'analyse de données
Avant de créer des visualisations complexes ou de définir des règles d'alerte, il faut valider la qualité de la donnée collectée. Cette validation passe par 3 étapes clés :
- Vérification du Parsing et de la Structure : Les logs bruts sont-ils correctement découpés ? Les champs importants sont-ils bien reconnus et indexés ?
- Pertinence et Réduction du Bruit : Collectons-nous les bonnes informations ? Il est inutile de stocker des logs inutiles
- Validation avec les "Clients" (Ops, Devs, Sécurité) : Le monitoring doit répondre à des questions concrètes. Discutez avec les utilisateurs du dashboard : De quelle alerte ont-ils besoin pour réagir vite ? Quel graphique leur permet de comprendre l'origine d'une panne en un coup d'œil ?
Les étapes de l'analyse de données
Exemple : Demander au Lead Développeur de confirmer si le pic d'utilisation processeur (CPU) à 90% détecté chaque nuit est une anomalie critique ou simplement le script de sauvegarde habituel. Cela permet d'éviter de configurer une alerte inutile (faux positif) qui réveillerait les équipes pour rien.

Exemple de réussite
Parmi les organisations qui ont adopté de tels outils et pratiques d'intégration de données figurent Netflix, LinkedIn, Uber et AirBnb. Netflix utilise une combinaison d'observabilité, de surveillance et de journalisation pour obtenir des informations sur les performances des services de diffusion en continu et assurer un fonctionnement sans heurts.
De même, LinkedIn met en œuvre la surveillance et le logging pour observer le flux de données de l'organisation et offrir une expérience utilisateur transparente. AirBnb utilise une combinaison de mesures, de journaux et de traçage distribué pour comprendre comment les données circulent dans ses systèmes, optimiser les performances et résoudre les problèmes
Installation des logiciels
- WSL (Ubuntu)
- Sysmon (Windws)
- Amnesia
- ELK (Elasticsearch, logstash, Kibana)

1. Téléchargez le dossier Installation.zip qui se trouve sur Padlet
2. Dézippez le dossier
3. Suivez les instructions présentes dans le document Installation.docx



110-1 Introduction
By Myriam Fallet
110-1 Introduction
- 273
