Fondamentaux du Machine Learning
Aucune carteCe cours couvre les définitions, les types d'algorithmes (supervisé, non supervisé, semi‑supervisé, par renforcement) ainsi que les concepts clés de données, d'attributs et de régression linéaire, incluant l'estimation des coefficients par moindres carrés.
Machine Learning : Fondamentaux et Régression Linéaire
Définition et Principes du Machine Learning
Le machine learning (apprentissage automatique) est un domaine de l'informatique qui confère aux ordinateurs la capacité d'apprendre sans être explicitement programmés. Selon Arthur Samuel (1959), l'objectif est de permettre aux systèmes d'apprendre à partir d'expériences pour généraliser et accomplir des tâches complexes.
Un programme apprend lors d'une expérience E par rapport à une tâche T, si sa performance sur T, mesurée par une métrique P, s'améliore avec l'expérience E.
Quand Utiliser le Machine Learning
Le machine learning est approprié face à :
- Règles inconnues : reconnaissance faciale, reconnaissance de la parole
- Règles changeantes : détection de fraude, évolution constante des patterns
- Données évolutives : prévision de la demande d'énergie, prix du pétrole
Différence : Programmation Classique vs Machine Learning
En programmation classique, on utilise des règles et des données pour obtenir des réponses. En machine learning, on utilise des données et des réponses (labels) pour découvrir les règles sous-jacentes.
Ingrédients Fondamentaux du Machine Learning
Deux piliers essentiels :
- Les données : exemples à partir desquels l'algorithme apprend
- L'algorithme d'apprentissage : procédure exécutée sur les données pour produire un modèle
Garbage in, garbage out : des données de mauvaise qualité produiront des prédictions de mauvaise qualité, quel que soit l'algorithme utilisé.
Types d'Apprentissage en Machine Learning
Apprentissage Supervisé
L'apprentissage supervisé est guidé par les réponses correctes. Les données contiennent des étiquettes (labels) associées aux entrées.
- Classification : prédiction de catégories discrètes
- Détection de spam/non-spam
- Cancer/non-cancer dans les images médicales
- Fake news/news authentiques
- Reconnaissance des chiffres manuscrits
- Classification chien/chat
- Régression : prédiction de valeurs numériques continues (prix, température, etc.)
Apprentissage Non Supervisé
L'apprentissage non supervisé, ou clustering, traite des données sans étiquettes. Le système cherche des propriétés ou caractéristiques internes pour regrouper les données.
Les données sont organisées en clusters (groupes) tels que :
- Les éléments d'un même groupe sont très similaires
- Les éléments de groupes différents sont très différents
Exemple : groupement d'articles de journaux par sujet.
Apprentissage Semi-Supervisé
Combine des données étiquetées (peu nombreuses) et non étiquetées (nombreuses). Les algorithmes combinent des techniques supervisées et non supervisées.
Exemple : Google Photos regroupe d'abord les photos similaires, puis propage les labels identifiés à l'ensemble du groupe.
Apprentissage par Renforcement
L'agent apprenant :
- Observe l'environnement
- Prend des actions
- Reçoit des récompenses (rewards) ou des pénalités
- Apprend la meilleure stratégie pour maximiser les récompenses à long terme
Concepts Fondamentaux des Données
Dans un dataset, les données sont organisées selon :
- Attributs (features) : caractéristiques ou variables descriptives
- Instances (observations) : chaque ligne représente un exemple
Les attributs sont classifiés en deux types :
| Type Quantitatif (Numérique) | Type Qualitatif |
| Continu : valeurs infinies (ex. poids, température) | Ordinal : catégories ordonnées (ex. petit, moyen, grand) |
| Discret : valeurs finies énumérables (ex. nombre de pièces) | Nominal : catégories sans ordre (ex. couleur, marque) |
Accès aux Données
Ressources populaires pour les datasets :
- UC Irvine Machine Learning Repository
- Kaggle datasets
- Amazon's AWS datasets
- Portails : dataportals.org, opendatamonitor.eu, quandl.com
Régression Linéaire
Définition de la Régression
En apprentissage supervisé, la régression est un problème où les étiquettes y prennent des valeurs numériques continues et infinies. L'objectif est de prédire une variable numérique cible basée sur des attributs d'entrée.
Exemple : prédiction du prix d'une maison (output) connaissant sa superficie, nombre de chambres, etc. (inputs).
Régression Linéaire
La régression linéaire est une méthode de prédiction où la cible (sortie) maintient une relation linéaire avec la variable d'entrée. Le modèle produit une droite qui s'approche le plus possible des données d'apprentissage.
Terminologies Clés en Régression Linéaire
| Terme | Notation | Définition |
| Variable d'entrée | x | Attributs ou prédicteurs |
| Variable de sortie | y | Label ou cible observée |
| Valeur estimée | ŷ | Prédiction du modèle |
| Échantillon | ième exemple d'apprentissage | |
| Nombre d'échantillons | m | Taille de la base d'apprentissage |
La Fonction de Prédiction
La fonction de prédiction f pour la régression linéaire à une variable est une droite décrite mathématiquement par :
Où :
- w (weight) : paramètre poids, représente la pente de la droite
- b (bias) : paramètre biais, représente l'ordonnée à l'origine
Estimation des Coefficients w et b
Les paramètres w et b sont obtenus par la méthode des moindres carrés, en minimisant la somme des carrés des résidus du modèle sur la base d'apprentissage.
En notation matricielle, on définit :
- W : vecteur colonne des paramètres
- Y : vecteur colonne des étiquettes
- X : matrice des observations
L'estimation de W au sens des moindres carrés est donnée par les équations normales (forme matricielle) :
à condition que soit une matrice inversible.
Application Pratique : Exemple de Prédiction de Ventes
Considérons des données de ventes sur 4 semaines (en milliers) :
| Semaine (xi) | Ventes yi (en milliers) |
| 1 | 1 |
| 2 | 3 |
| 3 | 4 |
| 4 | 8 |
L'objectif est de prédire les ventes de la 5ème semaine en appliquant la régression linéaire sous forme matricielle. En utilisant l'équation normale , on calcule les paramètres du modèle, puis on évalue pour obtenir la prédiction.
Résumé des Points Clés
- Le machine learning repose sur deux ingrédients : données pertinentes et algorithmes adaptés
- Quatre catégories d'apprentissage : supervisé, non supervisé, semi-supervisé, par renforcement
- La régression linéaire est une technique supervisée pour prédire des valeurs continues
- Les coefficients de la régression linéaire sont estimés par minimisation des résidus au carré
- La méthode des moindres carrés en forme matricielle utilise les équations normales pour obtenir la solution optimale
Lancer un quiz
Teste tes connaissances avec des questions interactives