Fondamentaux du Machine Learning

Aucune carte

Ce cours couvre les définitions, les types d'algorithmes (supervisé, non supervisé, semi‑supervisé, par renforcement) ainsi que les concepts clés de données, d'attributs et de régression linéaire, incluant l'estimation des coefficients par moindres carrés.

Machine Learning : Fondamentaux et Régression Linéaire

Définition et Principes du Machine Learning

Le machine learning (apprentissage automatique) est un domaine de l'informatique qui confère aux ordinateurs la capacité d'apprendre sans être explicitement programmés. Selon Arthur Samuel (1959), l'objectif est de permettre aux systèmes d'apprendre à partir d'expériences pour généraliser et accomplir des tâches complexes.

Un programme apprend lors d'une expérience E par rapport à une tâche T, si sa performance sur T, mesurée par une métrique P, s'améliore avec l'expérience E.

Quand Utiliser le Machine Learning

Le machine learning est approprié face à :

  • Règles inconnues : reconnaissance faciale, reconnaissance de la parole
  • Règles changeantes : détection de fraude, évolution constante des patterns
  • Données évolutives : prévision de la demande d'énergie, prix du pétrole

Différence : Programmation Classique vs Machine Learning

En programmation classique, on utilise des règles et des données pour obtenir des réponses. En machine learning, on utilise des données et des réponses (labels) pour découvrir les règles sous-jacentes.

Comparaison entre programmation classique et machine learning

Ingrédients Fondamentaux du Machine Learning

Deux piliers essentiels :

  • Les données : exemples à partir desquels l'algorithme apprend
  • L'algorithme d'apprentissage : procédure exécutée sur les données pour produire un modèle
Garbage in, garbage out : des données de mauvaise qualité produiront des prédictions de mauvaise qualité, quel que soit l'algorithme utilisé.

Types d'Apprentissage en Machine Learning

Apprentissage Supervisé

L'apprentissage supervisé est guidé par les réponses correctes. Les données contiennent des étiquettes (labels) associées aux entrées.

  • Classification : prédiction de catégories discrètes
    • Détection de spam/non-spam
    • Cancer/non-cancer dans les images médicales
    • Fake news/news authentiques
    • Reconnaissance des chiffres manuscrits
    • Classification chien/chat
  • Régression : prédiction de valeurs numériques continues (prix, température, etc.)

Apprentissage Non Supervisé

L'apprentissage non supervisé, ou clustering, traite des données sans étiquettes. Le système cherche des propriétés ou caractéristiques internes pour regrouper les données.

Les données sont organisées en clusters (groupes) tels que :

  • Les éléments d'un même groupe sont très similaires
  • Les éléments de groupes différents sont très différents

Exemple : groupement d'articles de journaux par sujet.

Apprentissage Semi-Supervisé

Combine des données étiquetées (peu nombreuses) et non étiquetées (nombreuses). Les algorithmes combinent des techniques supervisées et non supervisées.

Exemple : Google Photos regroupe d'abord les photos similaires, puis propage les labels identifiés à l'ensemble du groupe.

Apprentissage par Renforcement

L'agent apprenant :

  • Observe l'environnement
  • Prend des actions
  • Reçoit des récompenses (rewards) ou des pénalités
  • Apprend la meilleure stratégie pour maximiser les récompenses à long terme

Concepts Fondamentaux des Données

Dans un dataset, les données sont organisées selon :

  • Attributs (features) : caractéristiques ou variables descriptives
  • Instances (observations) : chaque ligne représente un exemple

Les attributs sont classifiés en deux types :

Type Quantitatif (Numérique) Type Qualitatif
Continu : valeurs infinies (ex. poids, température) Ordinal : catégories ordonnées (ex. petit, moyen, grand)
Discret : valeurs finies énumérables (ex. nombre de pièces) Nominal : catégories sans ordre (ex. couleur, marque)

Accès aux Données

Ressources populaires pour les datasets :

  • UC Irvine Machine Learning Repository
  • Kaggle datasets
  • Amazon's AWS datasets
  • Portails : dataportals.org, opendatamonitor.eu, quandl.com

Régression Linéaire

Définition de la Régression

En apprentissage supervisé, la régression est un problème où les étiquettes y prennent des valeurs numériques continues et infinies. L'objectif est de prédire une variable numérique cible basée sur des attributs d'entrée.

Exemple : prédiction du prix d'une maison (output) connaissant sa superficie, nombre de chambres, etc. (inputs).

Régression Linéaire

La régression linéaire est une méthode de prédiction où la cible (sortie) maintient une relation linéaire avec la variable d'entrée. Le modèle produit une droite qui s'approche le plus possible des données d'apprentissage.

Terminologies Clés en Régression Linéaire

Terme Notation Définition
Variable d'entrée x Attributs ou prédicteurs
Variable de sortie y Label ou cible observée
Valeur estimée ŷ Prédiction du modèle
Échantillon ième exemple d'apprentissage
Nombre d'échantillons m Taille de la base d'apprentissage

La Fonction de Prédiction

La fonction de prédiction f pour la régression linéaire à une variable est une droite décrite mathématiquement par :

Où :

  • w (weight) : paramètre poids, représente la pente de la droite
  • b (bias) : paramètre biais, représente l'ordonnée à l'origine

Estimation des Coefficients w et b

Les paramètres w et b sont obtenus par la méthode des moindres carrés, en minimisant la somme des carrés des résidus du modèle sur la base d'apprentissage.

En notation matricielle, on définit :

  • W : vecteur colonne des paramètres
  • Y : vecteur colonne des étiquettes
  • X : matrice des observations

L'estimation de W au sens des moindres carrés est donnée par les équations normales (forme matricielle) :

à condition que soit une matrice inversible.

Application Pratique : Exemple de Prédiction de Ventes

Considérons des données de ventes sur 4 semaines (en milliers) :

Semaine (xi) Ventes yi (en milliers)
1 1
2 3
3 4
4 8

L'objectif est de prédire les ventes de la 5ème semaine en appliquant la régression linéaire sous forme matricielle. En utilisant l'équation normale , on calcule les paramètres du modèle, puis on évalue pour obtenir la prédiction.

Résumé des Points Clés

  • Le machine learning repose sur deux ingrédients : données pertinentes et algorithmes adaptés
  • Quatre catégories d'apprentissage : supervisé, non supervisé, semi-supervisé, par renforcement
  • La régression linéaire est une technique supervisée pour prédire des valeurs continues
  • Les coefficients de la régression linéaire sont estimés par minimisation des résidus au carré
  • La méthode des moindres carrés en forme matricielle utilise les équations normales pour obtenir la solution optimale

Lancer un quiz

Teste tes connaissances avec des questions interactives