Introduction à l'économétrie et aux modèles de régression
32 cardsCe document traite des concepts fondamentaux de l'économétrie, en commençant par une introduction à l'économétrie et aux modèles de régression linéaire simple et multiple. Il couvre ensuite l'inférence statistique, l'analyse de la variance, l'hétéroscédasticité, l'autocorrélation, les variables instrumentales, la multicolinéarité, et se termine par une introduction aux modèles de séries temporelles. Les objectifs pédagogiques incluent la compréhension des méthodes économétriques, l'estimation et l'interprétation des modèles, ainsi que leur utilisation pour faire des prévisions.
32 cards
Voici un résumé des cours d'économétrie, présenté sous forme de cheatsheet.
Chapitre 1 : Qu'est-ce que l'économétrie ?
L'économétrie est la discipline qui applique le raisonnement mathématique et l'inférence statistique aux théories économiques pour les valider ou les réfuter, et pour modéliser des phénomènes économiques.
1. Notion du modèle
Définition: Un modèle économétrique est une représentation formalisée d'un phénomène économique sous forme d'équations avec des variables économiques.
Construction du modèle:
Référence à une théorie: Basé sur des postulats théoriques (ex: théorie keynésienne).
Formalisation des relations et choix de la forme fonctionnelle: Traduire les hypothèses en relations mathématiques (ex: ou ).
Sélection et mesure des variables: Choisir des données appropriées (francs constants/courants, données brutes/CVS).
Types de données:
Série temporelle: Observations à intervalles réguliers sur une période (ex: consommation annuelle).
Coupe instantanée: Observations au même moment pour différents individus (ex: consommation des agriculteurs).
Panel: Observations d'un échantillon d'individus à intervalles réguliers (ex: déforestation par région).
Cohorte: Similaire au panel, mais les individus sont les mêmes sur toutes les périodes.
Décalages temporels: Les relations peuvent être synchrones ou décalées (ex: ).
Variable endogène retardée: Variable expliquée de la période précédente.
Variable exogène: Valeurs prédéterminées en dehors du modèle.
Variable endogène: Valeurs déterminées par le modèle.
Validation du modèle: Vérifier la conformité avec les données et la stabilité des coefficients.
2. Rôle de l'économétrie
Validation de la théorie: Tester les relations postulées par les théories économiques.
Outil d'investigation:
Mettre en évidence des relations non évidentes.
Inférence statistique: Inférer les caractéristiques d'une population à partir d'un échantillon (intervalles de confiance, tests de significativité).
Simulation: Mesurer l'impact de la modification d'une variable ().
Prévision: Anticiper l'environnement économique pour la prise de décision.
3. Théorie de la corrélation
Présentation générale:
Corrélation: Lien entre l'évolution de deux phénomènes.
Corrélation linéaire: Points alignés sur une droite.
Types de corrélation: Positive, négative, nulle.
Mesure et limite du coefficient de corrélation:
Coefficient de corrélation linéaire (rxy): Mesure l'intensité de la liaison linéaire.
Formule:
Valeur entre -1 et 1.
Proche de 1: Corrélation positive forte.
Proche de -1: Corrélation négative forte.
Proche de 0: Pas de corrélation linéaire.
Test de significativité de rxy:
(pas de corrélation) vs (corrélation).
Statistique de test: suit une loi de Student à d.d.l.
Limites de la notion de corrélation:
Relation testée est linéaire: Un coefficient nul n'implique pas l'absence de toute relation (ex: relation circulaire). Une transformation des variables peut être nécessaire.
Corrélation n'est pas causalité: Une forte corrélation ne signifie pas de lien causal (ex: corrélation fortuite).
Chapitre 2 : Modèle de régression linéaire simple
Le modèle de régression linéaire simple (MRLS) examine la relation linéaire entre une variable expliquée () et une seule variable explicative ().
1. Présentation du modèle
Formule: pour .
: variable à expliquer (endogène, dépendante).
: variable explicative (exogène, indépendante).
: paramètres du modèle.
: terme d'erreur (erreur de spécification), inobservable, regroupe les effets non expliqués.
Rôle du terme aléatoire (): Synthétise les informations non explicité (erreurs de spécification, de mesure, de fluctuation d'échantillonnage).
2. Estimation des paramètres
Hypothèses du MRLS (pour de meilleurs estimateurs):
H1 (Linéarité): La relation est linéaire: .
H2 (X non aléatoire): Les valeurs de sont observées sans erreur et ne sont pas aléatoires.
H3 (Espérance de l'erreur nulle): . Les erreurs positives et négatives se compensent.
H4 (Homoscédasticité): . La variance de l'erreur est constante et finie. Si elle n'est pas vérifiée, il y a hétéroscédasticité.
H5 (Non-autocorrélation): . Les erreurs sont indépendantes.
H6 (Indépendance X et ): . L'erreur est indépendante de la variable explicative.
H7 (Normalité des erreurs): Les erreurs suivent une loi normale, .
Formulation des estimateurs (MCO - Moindres Carrés Ordinaires):
Minimisation de la somme des carrés des résidus (SCR), .
Estimateurs:
Interprétation de : Représente la pente ou la propension marginale ().
Propriétés des estimateurs: (Sous les hypothèses MRLS, les estimateurs MCO sont BLUE: Best Linear Unbiased Estimator)
Caractère aléatoire: et sont des variables aléatoires car ils dépendent de qui contient un terme d'erreur aléatoire.
Absence de biais:
Estimateurs convergents: La variance des estimateurs tend vers zéro lorsque .
et .
Distribution des estimateurs: Si , alors:
Chapitre 3 : Inférence dans le modèle de régression simple
1. Hypothèse de normalité des erreurs
L'inférence statistique (tests, intervalles de confiance) repose sur l'hypothèse que les termes d'erreur suivent une loi normale: .
Estimateur de la variance des erreurs:
suit une loi du à degrés de liberté.
2. Tests d'hypothèse
Définition: Procédure pour accepter ou rejeter une hypothèse sur un paramètre de la population.
Hypothèse nulle (H0): Hypothèse à tester (ex: pas de différence, paramètre nul).
Hypothèse alternative (H1): Toute autre hypothèse.
Test bilatéral: Rejette H0 si le paramètre est significativement différent (positif ou négatif) d'une valeur donnée.
Ex: (pas d'influence) vs (influence).
Procédure (Test de Student):
Statistique de test: . Sous H0, suit une loi de Student à d.d.l.
Règle de décision:
Si (valeur théorique), on rejette H0.
Si , on ne rejette pas H0.
Test unilatéral: Utilisé quand on a une idée a priori sur le signe du coefficient.
Test unilatéral à gauche: vs .
Test unilatéral à droite: vs .
Probabilité critique (p-value): .
3. Intervalle de confiance (IC) autour de
L'IC à est l'intervalle dans lequel a une forte probabilité de se trouver.
.
L'IC peut être utilisé pour tester H0: si la valeur testée est dans l'IC, on ne rejette pas H0; sinon, on rejette H0.
4. Prédiction
Prédiction ponctuelle: .
Erreur de prédiction: .
.
.
Intervalle de prévision (IP):
où .
Chapitre 4 : Analyse de la variance et choix d'une forme fonctionnelle
1. Décomposition de la variance de Y
Somme Totale des Carrés (STC): . Représente la variation totale de autour de sa moyenne.
STC = SCE + SCR
Somme des Carrés Expliqués (SCE): . Partie expliquée par la régression.
Somme des Carrés des Résidus (SCR): . Partie non expliquée (liée aux erreurs).
Tableau d'analyse de la variance (ANOVA): Permet d'évaluer la qualité du modèle.
2. Coefficient de détermination ()
Mesure la capacité de la variable explicative à déterminer la variable dépendante.
Formule: .
Interprétation: Pourcentage de la variation de Y expliquée par X. Plus est proche de 1, meilleur est l'ajustement.
ajusté (): Corrige pour le nombre de variables explicatives, car tend à augmenter avec ce nombre.
Formule: .
Relation avec le coefficient de corrélation: Pour un MRLS, .
3. Test de la variance (Test de Fisher)
Permet de tester la significativité globale du modèle dans un MRLS, équivalent à tester ou .
Statistique de test: .
Suit une loi de Fisher à d.d.l.
Règle de décision:
Si , H0 est rejetée (X est significatif).
Si , H0 n'est pas rejetée.
Relation entre F et : .
Équivalence tests: Dans un MRLS, tester la significativité de la pente, la significativité globale de la régression, et la significativité de la corrélation sont équivalents ().
4. Choix d'une forme fonctionnelle (Effets marginaux et Élasiticité)
Effet marginal: Variation de Y due à une faible variation de X ().
Élasticité: Mesure la variation relative de Y par rapport à X ().
Modèle Niveau-Niveau: .
Effet marginal: (variation en unité de Y pour une unité de X).
Élasticité: (variation en % de Y pour % de X).
Forme fonctionnelle Log-Log (double-logarithmique): .
est l'élasticité directe (variation en % de Y pour % de X).
.
Forme fonctionnelle Log-Niveau (exponentielle ou géométrique): .
mesure la semi-élasticité (variation en % de Y pour une unité de X).
.
Forme fonctionnelle Niveau-Log: .
est la variation en unité de Y pour 1% de X ().
.
Type de modèle | Variables dépendante | Variables indépendante | Interprétations du coefficient |
|---|---|---|---|
Niveau-niveau | y | x | |
Niveau -log | y | Log(x) | |
Log-niveau | Log(y) | x | |
Log-log | Log(y) | Log(x) |
Chapitre 5 : Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple (MRLM) étend le MRLS en incluant plusieurs variables explicatives pour modéliser une variable endogène.
1. Formulation du modèle
Définition: Explique à l'aide de variables exogènes .
Équation de régression: .
: Coefficient partiel, indique l'impact de en contrôlant les autres variables. ()
Notation matricielle: .
: vecteur des observations de la variable dépendante ().
: matrice des observations des variables explicatives (), inclut une colonne de 1 pour l'intercept .
: vecteur des paramètres à estimer ().
: vecteur des termes d'erreur ().
2. Hypothèses
Hypothèses stochastiques (liées au terme d'erreur):
H1: est non aléatoire (observée sans erreur).
H2: .
H3: (homoscédasticité).
H4: (absence d'autocorrélation).
H5: (indépendance des erreurs et des variables explicatives).
Les hypothèses H3 et H4 impliquent .
Hypothèses structurelles (basées sur la structure du modèle):
H6: Absence de colinéarité entre les variables explicatives. est de plein rang (). est inversible. Nécessite .
H7: tend vers une matrice finie non singulière.
H8: (Normalité des erreurs). Non nécessaire pour l'estimation MCO, utile pour l'inférence.
3. Estimation des coefficients (MCO)
Minimisation de la somme des carrés des résidus: .
Estimateur MCO des paramètres: .
4. Propriétés des estimateurs
Caractère aléatoire: est un estimateur aléatoire et linéaire de . ()
Estimateur sans biais: .
Matrice des variances-covariances des coefficients: .
Estimateur convergent: .
Les estimateurs MCO sous ces hypothèses sont BLUE (Best Linear Unbiased Estimator).
5. Estimation de la variance des erreurs
Estimateur: .
.
Chapitre 6 : Tests, prévisions et comparaison des modèles
1. Tests sur les coefficients de régression
Normalité des erreurs et statistique de Student: Si , alors .
Statistique de test: .
Test sur un coefficient de régression:
(X_i n'influence pas Y) vs (X_i influence Y).
Règle de décision : Si , rejeter H0.
Intervalle de confiance: .
2. Test de Fisher (tests sur plusieurs coefficients)
Généralités: Permet de tester simultanément la significativité de plusieurs variables.
Test de significativité globale de l'ensemble des coefficients:
(aucune variable explicative n'influence Y).
Au moins un .
Statistique de test: .
Règle de décision: Si , rejeter H0.
Test de significativité d'un sous-ensemble des coefficients:
Permet de tester si un groupe de coefficients est conjointement nul.
Statistique de test: .
Test d'égalité de coefficients: Permet de vérifier des contraintes linéaires sur les coefficients (ex: ).
3. Équation d'analyse de la variance et détermination de
Équation d'analyse de la variance: .
Coefficient de détermination : Pour le MRLM, .
.
4. Prévision
Détermination de la valeur prévue et intervalle de prévision:
Prévision: .
Variance de l'erreur de prévision: , où est un vecteur contenant les valeurs des variables explicatives pour la prévision.
Intervalle de prévision: .
5. Test de stabilité des paramètres du modèle
Test de Chow (1960): Vérifie la stabilité des paramètres dans le temps ().
(stabilité des coefficients).
Statistique de Chow: .
Tests de stabilité par la régression récursive:
Estime des modèles successifs en ajoutant des observations.
Permet de détecter des changements structurels.
Résidus récursifs: .
Test de CUSUM (Cumulative SUM): . Rejette H0 si sort des bornes de confiance.
Test de CUSUM carré: . Détecte les modifications aléatoires dans le modèle.
6. Test de spécification du modèle : Test de Ramsey (RESET)
Vérifie la pertinence de la forme fonctionnelle du modèle.
Teste l'hypothèse nulle que le vecteur des termes d'erreur est nul, en ajoutant des puissances des valeurs prédites de la variable expliquée à la régression.
(le modèle est bien linéaire).
7. Critère de comparaison des modèles et sélection du modèle optimal
Pouvoir explicatif versus pouvoir prédictif d'un modèle:
Pouvoir explicatif: Ajustement aux données au sein de l'échantillon ().
Pouvoir prédictif: Capacité à prévoir des valeurs futures (prévision hors échantillon).
Coefficient de détermination et corrigé:
mesure le pouvoir explicatif, mais ne convient pas pour comparer le pouvoir prédictif.
Sélection du modèle optimal: AIC et SIC:
Choisir le modèle qui minimise:
AIC (Akaike Information Criterion): .
SIC (Schwarz Information Criterion): .
Ces critères peuvent évaluer à la fois le pouvoir explicatif et prédictif.
Chapitre 7 : Hétéroscédasticité et autocorrélation des erreurs
Ce chapitre aborde les violations de l'hypothèse de sphéricité des erreurs , c'est-à-dire l'hétéroscédasticité et l'autocorrélation.
1. Estimateur des Moindres Carrés Généralisés (MCG)
En présence d'hétéroscédasticité ou d'autocorrélation, les estimateurs MCO sont sans biais mais ne sont plus à variance minimale (non efficaces).
L'estimateur MCG (Aitken) est optimal dans ces cas: .
La matrice de variance-covariance des MCG est .
2. Hétéroscédasticité des erreurs
Définition: la variance de l'erreur n'est pas constante.
Sources: Hétérogénéité d'échantillon, variables omises, mauvaise transformation/forme fonctionnelle.
Détection de l'hétéroscédasticité:
Méthode graphique: Tracer vs . Un motif en cône suggère l'hétéroscédasticité.
Tests statistiques:
Test de Goldfeld et Quandt (GQ): S'applique lorsque la cause est une variable explicative .
Classe les observations selon , omet les valeurs centrales, estime sur deux sous-échantillons.
Statistique: .
Test de Glejser: Régresse la valeur absolue des résidus sur la variable cause de l'hétéroscédasticité ( ou sa transformation). Si le coefficient est significatif, il y a hétéroscédasticité.
Test de Breusch-Pagan (BP): Test général pour grands échantillons.
Calcule .
Régresse sur les variables explicatives.
Statistique: .
Test de White: Très général, ne repose pas sur la normalité.
Régresse sur les variables explicatives, leurs carrés et leurs produits croisés.
Statistique: .
Test ARCH (AutoRegressive Conditional Heteroscedasticity): Détecte l'hétéroscédasticité conditionnelle (volatilité variable).
Régresse sur ses valeurs passées ().
Statistique: .
Estimation en présence d'hétéroscédasticité:
Si est connue: appliquer MCO au modèle transformé (MCG ou MCP). est la variable transformée.
Si est inconnue:
Matrice de variance-covariance de White (1980): Robuste à l'hétéroscédasticité.
Matrice de variance-covariance de Newey et West (1987): Robuste à l'hétéroscédasticité et l'autocorrélation.
Correction selon le modèle de Glejser: Transformer le modèle en divisant par une fonction de la variable lorsque la forme de l'hétéroscédasticité est connue.
3. Autocorrélation des erreurs
Définition: . Les erreurs sont corrélées entre elles.
Autocovariance d'ordre : .
Coefficient d'autocorrélation d'ordre : .
Matrice de variance-covariance: devient une matrice non diagonale où les covariances sont non nulles.
Sources: Variables omises, mauvaise spécification, erreurs de mesure, transformation des données.
Détection de l'autocorrélation:
Méthode graphique: Examiner les résidus, un motif peut indiquer l'autocorrélation.
Méthodes statistiques:
Test de Durbin-Watson (DW): Détecte l'autocorrélation d'ordre 1 (AR(1)).
Statistique: . Valeur entre 0 et 4.
Conditions: Modèle avec constante, pas de variable endogène retardée, erreurs normales, .
Règle de décision via bornes .
Test de Breusch-Godfrey (BG): Détecte l'autocorrélation d'ordre supérieur et est valide avec variables endogènes retardées.
Régresse les résidus sur leurs valeurs passées et les variables explicatives du modèle original.
Statistique: .
Estimation en présence d'autocorrélation des erreurs:
Si est connue: appliquer MCG (transformation en quasi-différences premières).
Si est inconnue:
Méthode de Cochrane-Orcutt: Procédure itérative pour estimer et les coefficients du modèle transformé.
Chapitre 8 : Variables instrumentales et multicolinéarité des variables explicatives
1. Méthodes des variables instrumentales (VI)
Principe: Utiliser des variables instrumentales () non corrélées avec le terme d'erreur mais corrélées avec les variables explicatives () lorsque (violation de l'hypothèse H5 du MRLM). Les estimateurs MCO ne sont alors plus convergents.
Estimateur des variables instrumentales: .
Variance: , où .
2. Test de spécification de Hausman (1978)
Compare l'efficacité des estimateurs MCO et VI.
(MCO est préférable) vs (VI est préférable).
Statistique de test: .
3. Multicolinéarité des variables explicatives
Principe de base: Violation de l'hypothèse H6 du MRLM (les variables explicatives sont linéairement indépendantes).
Conséquences: Augmentation des variances et covariances des estimateurs, sensibilité des estimateurs à de faibles variations de données.
Détection de la multicolinéarité: Pas de test unique, plusieurs indicateurs.
Corrélation entre les variables explicatives: Coefficients de corrélation linéaire élevés ().
Test de Klein (1962): S'il existe , il y a présomption de multicolinéarité.
Test de Farrar et Glauber (1967): Basé sur le déterminant de la matrice des corrélations des variables explicatives (). Si est proche de 0, il y a multicolinéarité.
Facteur d'inflation de la variance (FIV): , où est le coefficient de détermination de la régression de sur les autres . Si , forte multicolinéarité.
Solution à la multicolinéarité:
Augmentation de la taille de l'échantillon.
Analyse en composante principale (ACP).
Transformation des variables.
Suppression des variables redondantes.
Chapitre 9 : Introduction aux modèles des séries temporelles
Ce chapitre aborde l'analyse des séries temporelles, en se concentrant sur la stationnarité, les fonctions d'autocovariance et d'autocorrélation, et les tests de racine unitaire.
1. Série temporelle
Une suite de nombres réels indexés par le temps, représentant la réalisation d'un processus stochastique .
2. Processus stationnaire
Un processus est stationnaire si sa loi de probabilité (ou ses caractéristiques statistiques) ne varie pas au cours du temps.
Processus strictement stationnaire: La distribution de la série est invariante par rapport à un changement d'origine dans le temps. Tous ses moments sont invariants dans le temps (, , ).
Processus faiblement stationnaire ou du second rang: Seuls les moments d'ordre 1 et 2 sont invariants dans le temps.
.
.
.
3. Caractéristique d'une série temporelle
Moyenne et variance: Pour une série stationnaire, la moyenne et la variance sont constantes.
Fonction d'autocovariance (): Mesure la covariance entre et .
.
Propriétés: , (fonction paire).
Fonction d'autocorrélation (): Mesure la corrélation entre et .
.
Représentation graphique: corrélogramme.
Propriétés: , , .
Analyse de la fonction d'autocorrélation: Identifier les termes significativement différents de zéro.
Tests de Box-Pierce et Ljung-Box: Permettent de tester si une série est un bruit blanc (i.e. toutes les autocorrélations sont nulles).
.
Test de Box-Pierce (1970): . (Formule corrigée dans Ljung-Box)
Test de Ljung-Box (1978): .
4. Processus TS et DS
TS (Trend Stationary): Stationnaire après dé-tendance déterministe.
Ex: .
(dépend du temps), (constante).
Chocs transitoires. Stationnarisation par régression sur une tendance.
DS (Difference Stationary): Stationnaire après différenciation.
Ex: .
Contient une racine unitaire.
et dépendent du temps.
Chocs permanents. Stationnarisation par filtre aux différences premières.
5. Tests de racine unitaire
Détectent la non-stationnarité et sa nature (TS ou DS).
Tests de Dickey-Fuller (DF) simple (1979):
Base sur trois modèles AR(1) (): sans constante ni tendance, avec constante, avec constante et tendance.
(série non stationnaire, racine unitaire) vs (série stationnaire).
Teste indirectement en estimant et en testant si .
Compare la statistique de Student du coefficient de aux valeurs tabulées de Dickey-Fuller.
Tests de Dickey-Fuller Augmenté (ADF) (1981):
Corrige l'hypothèse d'erreur blanche du test DF en incluant des termes pour capter l'autocorrélation.
Base sur des modèles AR(p).
Test similaire au DF, mais avec des tables critiques différentes. Nécessite de choisir l'ordre des retards (AIC/SIC).
Autres tests de racines unitaires: Phillips et Perron (PP), Kwiatkowski, Phillips, Schmidt et Shin (KPSS).
Start a quiz
Test your knowledge with interactive questions