Fondamentaux du Machine Learning

Aucune carte

Ce cours couvre les définitions, les types d'algorithmes (supervisé, non supervisé, semi‑supervisé, par renforcement) ainsi que les concepts clés de données, d'attributs et de régression linéaire, incluant l'estimation des coefficients par moindres carrés.

Machine Learning : Fondamentaux et Régression Linéaire

Définition et Principes du Machine Learning

Le machine learning (apprentissage automatique) est un domaine de l'informatique qui confère aux ordinateurs la capacité d'apprendre sans être explicitement programmés. Selon Arthur Samuel (1959), l'objectif est de permettre aux systèmes d'apprendre à partir d'expériences pour généraliser et accomplir des tâches complexes.

Un programme apprend lors d'une expérience E par rapport à une tâche T, si sa performance sur T, mesurée par une métrique P, s'améliore avec l'expérience E.

Quand Utiliser le Machine Learning

Le machine learning est approprié face à :

Règles inconnues : reconnaissance faciale, reconnaissance de la parole
Règles changeantes : détection de fraude, évolution constante des patterns
Données évolutives : prévision de la demande d'énergie, prix du pétrole

Différence : Programmation Classique vs Machine Learning

En programmation classique, on utilise des règles et des données pour obtenir des réponses. En machine learning, on utilise des données et des réponses (labels) pour découvrir les règles sous-jacentes.

Comparaison entre programmation classique et machine learning

Ingrédients Fondamentaux du Machine Learning

Deux piliers essentiels :

Les données : exemples à partir desquels l'algorithme apprend
L'algorithme d'apprentissage : procédure exécutée sur les données pour produire un modèle

Garbage in, garbage out : des données de mauvaise qualité produiront des prédictions de mauvaise qualité, quel que soit l'algorithme utilisé.

Types d'Apprentissage en Machine Learning

Apprentissage Supervisé

L'apprentissage supervisé est guidé par les réponses correctes. Les données contiennent des étiquettes (labels) associées aux entrées.

Classification : prédiction de catégories discrètes
- Détection de spam/non-spam
- Cancer/non-cancer dans les images médicales
- Fake news/news authentiques
- Reconnaissance des chiffres manuscrits
- Classification chien/chat
Régression : prédiction de valeurs numériques continues (prix, température, etc.)

Apprentissage Non Supervisé

L'apprentissage non supervisé, ou clustering, traite des données sans étiquettes. Le système cherche des propriétés ou caractéristiques internes pour regrouper les données.

Les données sont organisées en clusters (groupes) tels que :

Les éléments d'un même groupe sont très similaires
Les éléments de groupes différents sont très différents

Exemple : groupement d'articles de journaux par sujet.

Apprentissage Semi-Supervisé

Combine des données étiquetées (peu nombreuses) et non étiquetées (nombreuses). Les algorithmes combinent des techniques supervisées et non supervisées.

Exemple : Google Photos regroupe d'abord les photos similaires, puis propage les labels identifiés à l'ensemble du groupe.

Apprentissage par Renforcement

L'agent apprenant :

Observe l'environnement
Prend des actions
Reçoit des récompenses (rewards) ou des pénalités
Apprend la meilleure stratégie pour maximiser les récompenses à long terme

Concepts Fondamentaux des Données

Dans un dataset, les données sont organisées selon :

Attributs (features) : caractéristiques ou variables descriptives
Instances (observations) : chaque ligne représente un exemple

Les attributs sont classifiés en deux types :

Type Quantitatif (Numérique)	Type Qualitatif
Continu : valeurs infinies (ex. poids, température)	Ordinal : catégories ordonnées (ex. petit, moyen, grand)
Discret : valeurs finies énumérables (ex. nombre de pièces)	Nominal : catégories sans ordre (ex. couleur, marque)

Accès aux Données

Ressources populaires pour les datasets :

UC Irvine Machine Learning Repository
Kaggle datasets
Amazon's AWS datasets
Portails : dataportals.org, opendatamonitor.eu, quandl.com

Régression Linéaire

Définition de la Régression

En apprentissage supervisé, la régression est un problème où les étiquettes y prennent des valeurs numériques continues et infinies. L'objectif est de prédire une variable numérique cible basée sur des attributs d'entrée.

Exemple : prédiction du prix d'une maison (output) connaissant sa superficie, nombre de chambres, etc. (inputs).

Régression Linéaire

La régression linéaire est une méthode de prédiction où la cible (sortie) maintient une relation linéaire avec la variable d'entrée. Le modèle produit une droite qui s'approche le plus possible des données d'apprentissage.

Terminologies Clés en Régression Linéaire

Terme	Notation	Définition
Variable d'entrée	x	Attributs ou prédicteurs
Variable de sortie	y	Label ou cible observée
Valeur estimée	ŷ	Prédiction du modèle
Échantillon		ième exemple d'apprentissage
Nombre d'échantillons	m	Taille de la base d'apprentissage

La Fonction de Prédiction

La fonction de prédiction f pour la régression linéaire à une variable est une droite décrite mathématiquement par :

Où :

w (weight) : paramètre poids, représente la pente de la droite
b (bias) : paramètre biais, représente l'ordonnée à l'origine

Estimation des Coefficients w et b

Les paramètres w et b sont obtenus par la méthode des moindres carrés, en minimisant la somme des carrés des résidus du modèle sur la base d'apprentissage.

En notation matricielle, on définit :

W : vecteur colonne des paramètres
Y : vecteur colonne des étiquettes
X : matrice des observations

L'estimation de W au sens des moindres carrés est donnée par les équations normales (forme matricielle) :

à condition que soit une matrice inversible.

Application Pratique : Exemple de Prédiction de Ventes

Considérons des données de ventes sur 4 semaines (en milliers) :

Semaine (xi)	Ventes yi (en milliers)
1	1
2	3
3	4
4	8

L'objectif est de prédire les ventes de la 5ème semaine en appliquant la régression linéaire sous forme matricielle. En utilisant l'équation normale , on calcule les paramètres du modèle, puis on évalue pour obtenir la prédiction.

Résumé des Points Clés

Le machine learning repose sur deux ingrédients : données pertinentes et algorithmes adaptés
Quatre catégories d'apprentissage : supervisé, non supervisé, semi-supervisé, par renforcement
La régression linéaire est une technique supervisée pour prédire des valeurs continues
Les coefficients de la régression linéaire sont estimés par minimisation des résidus au carré
La méthode des moindres carrés en forme matricielle utilise les équations normales pour obtenir la solution optimale

Lancer un quiz

Teste tes connaissances avec des questions interactives