Module 110 - Analyser et représenter des données avec des outils

Collecter des données

De quoi avons-nous parlé la semaine dernière ?

Temps à disposition : 5 minutes

Connectez-vous à : https://app.wooclap.com/EBFBDA

De quoi avons-nous parlé la semaine dernière ?

Objectifs du cours

Connaitre les différentes sources de données
Citez les deux modes de collecte de données
Parser un fichier de log
Collectez des logs sous Linux et Windows

Les étapes de l'analyse de données

Nous allons voir dans les prochains slides l'identification des données, donc l'étape 1 du processus de monitoring

Les sources de données

Connectez-vous à : https://www.wooclap.com/EBFBDA
et répondez à la question

Les sources de données

Fichier plats

Les métriques

Fichier de logs

APIs et Web Scraping

Les sources de données

Fichier plats

CSV (Comma-Separated Values) Format texte simple où chaque ligne représente un enregistrement et les valeurs sont séparées par des virgules ou des points-virgules.

JSON (JavaScript Object Notation) Format texte utilisé pour stocker et échanger des données. C'est un format "clé-valeur". Il ne nécessite pas de "parsing" complexe (découpage du texte).

XML (Extensible Markup Language) Formats plus anciens utilisé pour structurer des données sous forme de balises hiérarchiques.

Les sources de données

APIs et Web Scraping

Certaines sources n'écrivent pas de fichiers mais exposent leurs données via une interface HTTP.

Les sources de données

Les métriques

Une métrique est une mesure quantitative collectée périodiquement (ex: toutes les 10 secondes) pour évaluer la santé d'un composant. Ces métriques servent à :

surveiller la santé des systèmes (serveurs, bases, services)
détecter les anomalies ou incidents
évaluer la performance et disponibilité,
anticiper les problèmes et prendre des mesures proactives.

Les métriques

Type de métrique	Exemples	Utilité
Performance	Temps de réponse, latence	Mesure la rapidité
Disponibilité	Uptime, temps d’arrêt	Contrôle de la disponibilité
Utilisation	CPU, RAM, I/O, bande passante	Consommation de ressources
Fiabilité	Nombre d’erreurs, crashs, exceptions	Stabilité de l’environnement
Sécurité	Tentatives de connexion, failles	Protection contre les attaques
Capacité	Stockage utilisé, croissance des logs	Prévoir les besoins futurs

Les logs peuvent provenir de différentes sources :

• Systèmes d’exploitation (Windows, Linux, macOS)
• Applications métiers (ERP, CRM, logiciels SaaS)
• Serveurs Web (Apache, Nginx)
• Bases de données (MySQL, PostgreSQL, MongoDB)
• Systèmes de sécurité (pare-feu, antivirus, IDS/IPS)
• Capteurs IoT et objets connectés

Fichier de logs

Les sources de données

Fiche de travail

Effectuez la fiche de travail exercise 1 - La collecte des données

Temps: 5 minutes

La collecte des données

La collecte des données

C'est l'approche privilégiée dans les systèmes de monitoring. Un petit logiciel léger (l'agent) est installé directement sur le serveur source.

Fonctionnement : L'agent surveille les fichiers de logs ou les métriques locales et les "pousse" vers le serveur de centralisation dès qu'une nouvelle donnée apparaît.

Avantages : Temps réel quasi-immédiat, gestion native de la pression (Backpressure protocol) pour ne pas surcharger le réseau.

Inconvénients : Nécessite d'installer un agent sur chaque machine surveillée.

La collecte des données

Le système de monitoring central se connecte périodiquement aux serveurs cibles pour récupérer les données.

Fonctionnement : Le serveur central interroge une API ou une URL toutes les X secondes (Polling).

Avantages : Pas d'agent complexe à installer, idéal pour surveiller des équipements fermés (routeurs, switchs via SNMP) ou des APIs externes.

Inconvénients : Risque de rater des événements brefs entre deux interrogations (non adapté aux logs critiques), latence induite par l'intervalle de collecte.

Fiche de travail

Effectuez la fiche de travail exercise 2 - La collecte des données

Temps: 5 minutes

Les fichier de logs

Le logging enregistre également les détails des interactions avec les utilisateurs, les changements de configuration, les événements liés à la sécurité et les mesures de performance pour une meilleure visibilité et un meilleur contrôle.

En cas d'incident de sécurité ou simplement dans le cadre de la surveillance journalière, il peut être intéressant d'explorer les logs manuellement, ce qu’on appelle également le parsing de logs.

Parsing de log

Bien que des outils de monitoring centralisés puissants soient disponibles, une intervention directe sur le serveur est souvent requise (panne de l'interface, investigation rapide). Pour analyser des logs bruts sans interface graphique, la maîtrise de ces trois commandes est indispensable :

grep (Filtrer) : Permet de rechercher une chaîne de caractères ou un motif (Regex) dans un fichier. Il n'affiche que les lignes correspondantes.
awk (Extraire) : Permet de manipuler le texte colonne par colonne. Idéal pour découper une ligne et ne récupérer qu'une information précise (ex : juste l'IP).
tail (Surveiller) : Affiche la fin d'un fichier. Avec l'option -f, il permet de lire les logs qui arrivent en temps réel ("le direct").

Cas pratique

Effectuez le cas pratique - Cas pratique 1 - Le parsing de logs

Temps: 15 minutes

La collecte de log sous Linux

Quand les logs sont remontés, ils contiennent beaucoup d’informations sur ce qui se passe sur un système.

Le protocole syslog est utilisé pour l'envoi et la réception de logs dans un format particulier, à partir de divers systèmes. Les messages incluent les horodatages, les messages d'événements, la criticité, les adresses IP, les diagnostics, etc., mais de façon digeste

La collecte de log sous Linux

Le protocole syslog a été conçu pour surveiller les périphériques réseaux et systèmes afin d'envoyer des messages de notification en cas de dysfonctionnement.

Il peut vous envoyer aussi des alertes pour les événements prénotifiés, et surveiller les activités suspectes via les différents journaux de monitoring.

La collecte de log sous Linux

Il existe différentes versions de syslog :

Syslog : la version initiale dont nous venons de discuter. Les autres versions sont des versions améliorées.
Rsyslog : la dernière version, mais aussi la plus utilisée.

Nous nous concentrerons sur Rsyslog. Il fonctionne sur le modèle client/serveur.

Par défaut, les logs sont gérés localement. Le serveur Rsyslog sera un point unique de centralisation, auquel les clients pourront envoyer leurs logs.

La collecte de log sous Linux

Thématique	Définition
auth	utilisé pour la sécurité ou l'authentification à travers des applications d'accès (type SSH)
authpriv	utilisé pour les messages relatifs au contrôle d'accès
daemon	utilisé par les processus systèmes et d'application
kern	utilisé pour les messages concernant le kernel
mail	utilisé pour les évènements des services mail
user	par défaut quand aucun n'est spécifié
local7	utilisé pour les messages du boot
*	désigne tous les éléments
none	ne désigne aucun élément

Les logs sont classés selon plusieurs thématiques :

La collecte de log sous Linux

Les logs sont également classés par niveau de gravité (log level) :

Log level	Signification
Emerg	urgence, système inutilisable
Alert	intervention immédiate nécessaire
Crit	erreur système critique
Err	erreur de fonctionnement
Warning	avertissement
Notice	évènement normaux devant être signalés
Info	pour information
Debug	message de déboguage

Cas pratique

Effectuez le cas pratique - Cas pratique 2 - Collecter des logs sous Linux

Temps: 10 minutes

La collecte de log sous
Windows

Sysmon est un outil de monitoring des journaux d'événements sous Windows. Avec Sysmon, vous pouvez monitorer les actions sur votre système telles que la création de processus ou de comptes utilisateurs, les connexions réseaux ou encore la création de fichiers

La collecte de log sous
Windows

Sysmon permet de monitorer les éléments suivants :

Création de processus de journaux (parents/enfants)
Enregistrement du hash des processus
Inclusion d’un Globally Unique Identifier (GUID)
Inclusion d’un GUID de session dans chaque événement
Enregistrement du chargement des pilotes ou des DLL avec leurs signatures et leurs hashs.
Enregistrement éventuellement des connexions réseau
Filtrage de règles pour inclure ou exclure certains événements
Génération des événements dès le début du processus de démarrage pour capturer l'activité créée par des malwares.
Détection des changements au moment de la création de fichier, pour comprendre quand un fichier a vraiment été créé.

Cas pratique

Effectuez le cas pratique - Cas pratique 3 - Collecter des logs sous Windows

Temps: 10 minutes

Surveiller les logs du réseau

Le monitoring du système d’information passe également par le monitoring des logs réseaux et la mise en place d’outils de détection, tels que des Intrusion Detection Systems (IDS) ou Intrusion Prevention System (IPS).

Ces outils détectent des anomalies, mais aussi des attaques. Une bonne gestion des logs couplée à un système de gestion d’alerte global permettra une surveillance constante et une rapide gestion des évènements de sécurité.

En entreprise, tous les équipements émettent du trafic réseau, il est donc primordial de monitorer ces flux afin d’identifier, par exemple, des connexions non autorisées.

Surveiller les logs du réseau

Les systèmes de surveillance de réseau comprennent des outils logiciels et matériels. Ils peuvent suivre divers aspects d'un réseau et de son fonctionnement, tels que le trafic, l'utilisation de la bande passante et la disponibilité.

Ces systèmes peuvent :

détecter les périphériques et autres éléments qui composent ou touchent le réseau
fournir des mises à jour d'état.

Surveiller les logs du réseau

Le monitoring du réseau a plusieurs objectifs :

Avoir une visibilité globale du SI
Optimiser les ressources réseaux du SI
Détecter des menaces de manière proactive.

Pour renforcer le monitoring du réseau, il est possible d’utiliser

les IDS (Intrusion Detection System) sont des outils de détection d’intrusion sur le réseau
les IPS (Intrusion Prevention System) permettent de bloquer une intrusion sur le réseau au moyen de règles.

Wooflash

Répondez aux différentes questions liées à la matière enseignée

Connectez-vous à : https://app.wooflash.com/join/1G69UJX7

110-2 Collecter des données - partie 1

By Myriam Fallet

110-2 Collecter des données - partie 1

Collecter des données

Objectifs du cours

Les étapes de l'analyse de données

Les sources de données

Les sources de données

Les sources de données

Les sources de données

Les sources de données

Les métriques

Les sources de données

Fiche de travail

La collecte des données

La collecte des données

La collecte des données

Fiche de travail

Les fichier de logs

Parsing de log

Cas pratique

La collecte de log sous Linux

La collecte de log sous Linux

La collecte de log sous Linux

La collecte de log sous Linux

La collecte de log sous Linux

Cas pratique

La collecte de log sous Windows

La collecte de log sous Windows

Cas pratique

Surveiller les logs du réseau

Surveiller les logs du réseau

Surveiller les logs du réseau

Wooflash

110-2 Collecter des données - partie 1

More from Myriam Fallet

La collecte de log sous
Windows

La collecte de log sous
Windows