Module 110 - Analyser et représenter des données avec des outils

Collecter des données

De quoi avons-nous parlé la semaine dernière ?

Temps à disposition : 5 minutes

Connectez-vous à : https://app.wooclap.com/EBFBDA

De quoi avons-nous parlé la semaine dernière ?

Objectifs du cours

  • Connaitre les différentes sources de données
  • Citez les deux modes de collecte de données
  • Parser un fichier de log
  • Collectez des logs sous Linux et Windows

 

Les étapes de l'analyse de données

Nous allons voir dans les prochains slides l'identification des données, donc l'étape 1 du processus de monitoring

Les sources de données

Connectez-vous à : https://www.wooclap.com/EBFBDA
et répondez à la question

Les sources de données

Fichier plats

Les métriques

Fichier de logs

APIs et Web Scraping

Les sources de données

Fichier plats

  • CSV (Comma-Separated Values) Format texte simple où chaque ligne représente un enregistrement et les valeurs sont séparées par des virgules ou des points-virgules.

 

  • JSON (JavaScript Object Notation) Format texte utilisé pour stocker et échanger des données. C'est un format "clé-valeur". Il ne nécessite pas de "parsing" complexe (découpage du texte).
  • XML (Extensible Markup Language) Formats plus anciens utilisé pour structurer des données sous forme de balises hiérarchiques.

Les sources de données

APIs et Web Scraping

Certaines sources n'écrivent pas de fichiers mais exposent leurs données via une interface HTTP.

Les sources de données

Les métriques

Une métrique est une mesure quantitative collectée périodiquement (ex: toutes les 10 secondes) pour évaluer la santé d'un composant. Ces métriques servent à :

  • surveiller la santé des systèmes (serveurs, bases, services)
  • détecter les anomalies ou incidents
  • évaluer la performance et disponibilité,
  • anticiper les problèmes et prendre des mesures proactives.

Les métriques

Type de métrique Exemples Utilité
Performance Temps de réponse, latence Mesure la rapidité
Disponibilité Uptime, temps d’arrêt Contrôle de la disponibilité
Utilisation CPU, RAM, I/O, bande passante Consommation de ressources
Fiabilité Nombre d’erreurs, crashs, exceptions Stabilité de l’environnement
Sécurité Tentatives de connexion, failles Protection contre les attaques
Capacité Stockage utilisé, croissance des logs Prévoir les besoins futurs

Les logs peuvent provenir de différentes sources :


•    Systèmes d’exploitation (Windows, Linux, macOS)
•    Applications métiers (ERP, CRM, logiciels SaaS)
•    Serveurs Web (Apache, Nginx)
•    Bases de données (MySQL, PostgreSQL, MongoDB)
•    Systèmes de sécurité (pare-feu, antivirus, IDS/IPS)
•    Capteurs IoT et objets connectés

Fichier de logs

Les sources de données

Fiche de travail

Effectuez la fiche de travail exercise 1 - La collecte des données

 

Temps: 5 minutes

 

 

 

 

 

 

 

 

 

 

La collecte des données

La collecte des données

C'est l'approche privilégiée dans les systèmes de monitoring. Un petit logiciel léger (l'agent) est installé directement sur le serveur source.

 

Fonctionnement : L'agent surveille les fichiers de logs ou les métriques locales et les "pousse" vers le serveur de centralisation dès qu'une nouvelle donnée apparaît.    

 

 

Avantages : Temps réel quasi-immédiat, gestion native de la pression (Backpressure protocol) pour ne pas surcharger le réseau.

Inconvénients : Nécessite d'installer un agent sur chaque machine surveillée.

La collecte des données

Le système de monitoring central se connecte périodiquement aux serveurs cibles pour récupérer les données.

 

Fonctionnement : Le serveur central interroge une API ou une URL toutes les X secondes (Polling).

 Avantages : Pas d'agent complexe à installer, idéal pour surveiller des équipements fermés (routeurs, switchs via SNMP) ou des APIs externes.

Inconvénients : Risque de rater des événements brefs entre deux interrogations (non adapté aux logs critiques), latence induite par l'intervalle de collecte.

Fiche de travail

Effectuez la fiche de travail exercise 2 - La collecte des données

 

Temps: 5 minutes

 

 

 

 

 

 

 

 

 

 

Les fichier de logs

Le logging enregistre également les détails des interactions avec les utilisateurs, les changements de configuration, les événements liés à la sécurité et les mesures de performance pour une meilleure visibilité et un meilleur contrôle.

En cas d'incident de sécurité ou simplement dans le cadre de la surveillance journalière, il peut être intéressant d'explorer les logs manuellement, ce qu’on appelle également le parsing de logs.

Parsing de log

Bien que des outils de monitoring centralisés puissants soient disponibles, une intervention directe sur le serveur est souvent requise (panne de l'interface, investigation rapide). Pour analyser des logs bruts sans interface graphique, la maîtrise de ces trois commandes est indispensable :

  • grep (Filtrer) : Permet de rechercher une chaîne de caractères ou un motif (Regex) dans un fichier. Il n'affiche que les lignes correspondantes.
  • awk (Extraire) : Permet de manipuler le texte colonne par colonne. Idéal pour découper une ligne et ne récupérer qu'une information précise (ex : juste l'IP).
  • tail (Surveiller) : Affiche la fin d'un fichier. Avec l'option -f, il permet de lire les logs qui arrivent en temps réel ("le direct").

Cas pratique

Effectuez le cas pratique - Cas pratique 1 - Le parsing de logs

 

Temps: 15 minutes

 

 

 

 

 

 

 

 

 

 

La collecte de log sous Linux

Quand les logs sont remontés, ils contiennent beaucoup d’informations sur ce qui se passe sur un système.

Le protocole syslog est utilisé pour l'envoi et la réception de logs dans un format particulier, à partir de divers systèmes. Les messages incluent les horodatages, les messages d'événements, la criticité, les adresses IP, les diagnostics, etc., mais de façon digeste

La collecte de log sous Linux

Le protocole syslog a été conçu pour surveiller les périphériques réseaux et systèmes afin d'envoyer des messages de notification en cas de dysfonctionnement.

 

 

 

 

 

 

 

Il peut vous envoyer aussi des alertes pour les événements prénotifiés, et surveiller les activités suspectes via les différents journaux de monitoring.

La collecte de log sous Linux

Il existe différentes versions de syslog :

  • Syslog : la version initiale dont nous venons de discuter. Les autres versions sont des versions améliorées.
  • Rsyslog : la dernière version, mais aussi la plus utilisée.  

Nous nous concentrerons sur Rsyslog. Il fonctionne sur le modèle client/serveur.

 

 

Par défaut, les logs sont gérés localement. Le serveur Rsyslog sera un point unique de centralisation, auquel les clients pourront envoyer leurs logs.

La collecte de log sous Linux

Thématique Définition
auth utilisé pour la sécurité ou l'authentification à travers des applications d'accès (type SSH)
authpriv utilisé pour les messages relatifs au contrôle d'accès
daemon utilisé par les processus systèmes et d'application
kern utilisé pour les messages concernant le kernel
mail utilisé pour les évènements des services mail
user par défaut quand aucun n'est spécifié
local7 utilisé pour les messages du boot
* désigne tous les éléments
none ne désigne aucun élément

Les logs sont classés selon plusieurs thématiques :

La collecte de log sous Linux

Les logs sont également classés par niveau de gravité (log level) :

Log level Signification
Emerg urgence, système inutilisable
Alert intervention immédiate nécessaire
Crit erreur système critique
Err erreur de fonctionnement
Warning avertissement
Notice évènement normaux devant être signalés
Info pour information
Debug message de déboguage

Cas pratique

Effectuez le cas pratique - Cas pratique 2 - Collecter des logs sous Linux

 

Temps: 10 minutes

 

 

 

 

 

 

 

 

 

 

La collecte de log sous
Windows

Sysmon est un outil de monitoring des journaux d'événements sous Windows. Avec Sysmon, vous pouvez monitorer les actions sur votre système telles que la création de processus ou de comptes utilisateurs, les connexions réseaux ou encore la création de fichiers

La collecte de log sous
Windows

Sysmon permet de monitorer les éléments suivants :

  • Création de processus de journaux (parents/enfants)
  • Enregistrement du hash des processus
  • Inclusion d’un Globally Unique Identifier (GUID)
  • Inclusion d’un GUID de session dans chaque événement
  • Enregistrement du chargement des pilotes ou des DLL avec leurs signatures et leurs hashs.
  • Enregistrement éventuellement des connexions réseau
  • Filtrage de règles pour inclure ou exclure certains événements
  • Génération des événements dès le début du processus de démarrage pour capturer l'activité créée par des malwares.
  • Détection des changements au moment de la création de fichier, pour comprendre quand un fichier a vraiment été créé.

Cas pratique

Effectuez le cas pratique - Cas pratique 3 - Collecter des logs sous Windows

 

Temps: 10 minutes

 

 

 

 

 

 

 

 

 

 

Surveiller les logs du réseau

Le monitoring du système d’information passe également par le monitoring des logs réseaux et la mise en place d’outils de détection, tels que des Intrusion Detection Systems (IDS) ou Intrusion Prevention System (IPS).

 

Ces outils détectent des anomalies, mais aussi des attaques. Une bonne gestion des logs couplée à un système de gestion d’alerte global permettra une surveillance constante et une rapide gestion des évènements de sécurité.

 

En entreprise, tous les équipements émettent du trafic réseau, il est donc primordial de monitorer ces flux afin d’identifier, par exemple, des connexions non autorisées.

Surveiller les logs du réseau

Les systèmes de surveillance de réseau comprennent des outils logiciels et matériels. Ils peuvent suivre divers aspects d'un réseau et de son fonctionnement, tels que le trafic, l'utilisation de la bande passante et la disponibilité.

Ces systèmes peuvent :

  • détecter les périphériques et autres éléments qui composent ou touchent le réseau
  • fournir des mises à jour d'état.

Surveiller les logs du réseau

Le monitoring du réseau a plusieurs objectifs :

  • Avoir une visibilité globale du SI
  • Optimiser les ressources réseaux du SI
  • Détecter des menaces de manière proactive.

Pour renforcer le monitoring du réseau, il est possible d’utiliser 

  • les IDS (Intrusion Detection System) sont des outils de détection d’intrusion sur le réseau
  • les IPS (Intrusion Prevention System) permettent de bloquer une intrusion sur le réseau au moyen de règles.

Wooflash

Répondez aux différentes questions liées à la matière enseignée

 

 

 

 

 

 

 

 

 

 

 

Connectez-vous à : https://app.wooflash.com/join/1G69UJX7

110-2 Collecter des données - partie 1

By Myriam Fallet

110-2 Collecter des données - partie 1

  • 325