Concepts de base des statistiques descriptives

20 cards

Ce cours couvre les concepts fondamentaux des statistiques descriptives, y compris la typologie des variables, les échelles de mesure, l'organisation des données sous forme de tableaux et de matrices, la visualisation graphique (histogrammes, diagrammes), les mesures de position (moyenne, médiane, quantiles) et de dispersion (variance, écart-type, étendue), ainsi que les notions de forme de distribution (asymétrie, aplatissement). Les transformations de données et les bases de l'analyse bivariée (covariance, corrélation, régression) sont également abordées, menant aux probabilités et aux distributions discrètes et continues.

20 cards

Review

Question

Comment construire une boîte à moustaches et interpréter ses éléments ?

Answer

Une boîte à moustaches représente la série via 5 valeurs : minimum,

Q_1

, médiane,

Q_3

, maximum. La boîte contient 50% des données (

Q_1

Q_3

). Les moustaches s'étendent aux min/max.

Question

Expliquez la décomposition de la variance en variance intra-groupes et inter-groupes.

Answer

La décomposition de la variance sépare la variance totale en une variance inter-groupes (différence entre moyennes des groupes) et une variance intra-groupes (variabilité au sein de chaque groupe).

Question

Définissez une variable statistique et distinguez les variables nominales, ordinales, discrètes et continues.

Answer

Une variable statistique mesure une caractéristique d'une unité. Les variables nominales sont des catégories sans ordre (ex. : sexe). Les ordinales ont un ordre (ex. : satisfaction). Les discrètes prennent des valeurs isolées (ex. : nombre d'enfants), et les continues des valeurs réelles (ex. : taille).

Question

Définissez les effectifs cumulés et les fréquences cumulées, et tracez une courbe cumulative.

Answer

Les effectifs cumulés (

N_j

) totalisent le nombre d'observations inférieures ou égales à

x_j

. Les fréquences cumulées (

F_j

) sont la proportion correspondante. La courbe cumulative relie les points

(x_j, N_j)

(x_j, F_j)

pour visualiser cette accumulation.

Question

Définissez l'étendue (empan) et ses limitations comme mesure de dispersion.

Answer

L'étendue est la différence entre la plus grande et la plus petite valeur observée. Elle est simple à calculer mais ignore la majorité des données et est sensible aux valeurs extrêmes.

Question

Qu'est-ce que le mode d'une distribution et comment l'identifier dans une D.G.1 ?

Answer

Le mode est la valeur la plus fréquente d'une distribution. Dans une D.G.1 (distribution groupée), on identifie la classe modale (effectif maximal pour classes égales, ou densité maximale pour classes inégales).

Question

Définissez les quartiles, les déciles et les percentiles d'une série.

Answer

Les quartiles divisent une série ordonnée en 4 parties égales (

Q_1

Q_2

=médiane,

Q_3

). Les déciles la divisent en 10 parties (

D_1

D_9

). Les percentiles la divisent en 100 parties (

P_1

P_{99}

Question

Définissez un tableau individus × caractères et sa représentation matricielle.

Answer

Un tableau individus × caractères rassemble les observations de

n

individus pour

p

variables. Sa représentation matricielle, la matrice de données

\mathbf{X}

, a

n

lignes et

p

colonnes.

Question

Qu'est-ce que l'intervalle interquartile et comment l'utilise-t-on pour détecter les valeurs aberrantes ?

Answer

L'intervalle interquartile (II) est la différence entre le 3ème quartile (

Q_3

) et le 1er quartile (

Q_1

). Il représente l'étendue des 50% centraux des données. Les valeurs aberrantes sont souvent détectées si elles sont en dehors de

Q_1 - 1.5 imes ext{II}

Q_3 + 1.5 imes ext{II}

Question

Qu'est-ce qu'une distribution groupée (D.G.1) et quand l'utilise-t-on ?

Answer

Une distribution groupée (D.G.1) regroupe des données en classes. Elle est utilisée lorsque le nombre d'observations est grand et la précision fine, rendant un tableau d'effectifs détaillé illisible.

Question

Définissez la variance et l'écart-type d'une série statistique.

Answer

La variance mesure la dispersion des données autour de la moyenne. L'écart-type est la racine carrée de la variance, exprimée dans l'unité d'origine.

Question

Quel est le rôle des quatre échelles de mesure (nominale, ordinale, intervalle, rapports) dans le choix des analyses statistiques ?

Answer

Les quatre échelles (nominale, ordinale, intervalle, rapports) déterminent les statistiques valides, les graphiques adaptés et les modèles/tests utilisables.

Question

Expliquez la différence entre discrétisation et conservation des valeurs brutes dans l'analyse de données.

Answer

La discrétisation transforme des données continues ou de nombreuses valeurs discrètes en un nombre limité de classes (catégories). La conservation des valeurs brutes implique de garder les données d'origine, non modifiées ou agrégées.

Question

Comment construit-on un diagramme en bâtons et un diagramme en secteurs ?

Answer

Pour un diagramme en bâtons, représentez chaque valeur distincte sur l'axe des abscisses et érigez un segment vertical dont la hauteur correspond à l'effectif. Pour un diagramme en secteurs, divisez le disque en secteurs dont l'angle au centre est proportionnel à l'effectif de chaque catégorie.

Question

Expliquez pourquoi la médiane est plus robuste aux valeurs aberrantes que la moyenne.

Answer

La médiane n'est pas affectée par les valeurs extrêmes car elle ne dépend que de la position centrale des données ordonnées, tandis que la moyenne prend en compte la valeur de chaque observation.

Question

Quelle est la formule de la moyenne arithmétique et énoncez ses propriétés fondamentales.

Answer

La formule de la moyenne arithmétique est

\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i

. Ses propriétés fondamentales incluent l'unicité, la somme des observations égale à

n\bar{x}

, et la somme des écarts centrés nulle.

Question

Énoncez le théorème de König-Huygens et son application.

Answer

Le théorème de König-Huygens établit que le moment d'inertie d'un corps par rapport à un axe est égal à son moment d'inertie par rapport à un axe parallèle passant par son centre de masse, plus le produit de la masse par le carré de la distance entre les deux axes. Il est utilisé pour calculer le moment d'inertie d'un objet par rapport à n'importe quel axe, à condition que le moment d'inertie par rapport à un axe parallèle passant par le centre de masse soit connu.

Question

Qu'est-ce qu'une variable latente et comment construit-on un score pour la mesurer ?

Answer

Une variable latente est un concept non observable directement (ex: anxiété). On la mesure à l'aide d'indicateurs (variables manifestes) en convenant d'une définition, puis en construisant un score (somme, moyenne, score factoriel).

Question

Comparez la moyenne arithmétique, géométrique et harmonique : quand utiliser chacune ?

Answer

La moyenne arithmétique (

ar{x}

) est utilisée quand les contributions s'additionnent et gardent la même unité, comme les notes ou estimations d'espérance à poids égal.
La moyenne géométrique (G) convient aux enchaînements multiplicatifs et comparaisons de proportions positives (taux de croissance, indices).
La moyenne harmonique (H) s'impose pour des taux ou vitesses sur des segments de même taille.

Question

Distinguez distribution observée (D.O.1) et série statistique univariée.

Answer

La distribution observée (D.O.1) présente les valeurs distinctes d'une série et leurs effectifs. Une série statistique univariée est l'ensemble des observations d'une seule variable.

Introduction à la Statistique

La statistique est une discipline qui vise à collecter, organiser, analyser, interpréter et présenter des données. Avant toute analyse, il est crucial de comprendre la nature des variables manipulées et la structure des données brutes.

Types de Variables

Une variable est une caractéristique observée pour chaque unité d'une étude (individu, expérience, etc.). Une valeur ou modalité est le résultat pris par cette variable pour une unité donnée.

Typologie Complète des Variables

Variables Qualitatives (Catégorielles) : Leurs modalités ne sont pas numériques.
- Nominales : Étiquettes sans ordre intrinsèque. Exemples : sexe (femme ; homme), couleur des yeux, pays.
- Ordinales : Catégories avec un ordre défini. Exemples : satisfaction (très insatisfait ; ... ; très satisfait), niveau d'études (secondaire ; bac ; licence ; master ; doctorat).
Variables Quantitatives : Leurs valeurs sont numériques.
- Discrètes : Prennent des valeurs isolées, souvent des nombres entiers. Exemples : nombre d'enfants (0, 1, 2, ...), nombre de sinistres.
- Continues : Peuvent prendre n'importe quelle valeur réelle dans un intervalle donné. Exemples : taille, poids, durée, revenu.
Variables Manifestes vs. Latentes :
- Manifestes (observables) : Directement mesurables. Exemples : taille, âge, nombre d'achats.
- Latentes (inobservables) : Concepts abstraits non mesurables directement. Mesurées via des indicateurs et des modèles. Exemples : anxiété, "capital humain", satisfaction.

Le type de variable et l'échelle de mesure choisie ont des conséquences méthodologiques importantes, déterminant les statistiques, les graphiques et les modèles/tests valides.

Échelles de Mesure

Les échelles de mesure définissent les propriétés mathématiques des variables et les opérations autorisées.

Nominale : Permet uniquement de classer les unités en catégories. Opérations valides : égalité/différence, comptages, mode. Exemple : état civil (célibataire, marié, veuf, divorcé).
Ordinale : Permet de classer et d'ordonner les unités. Opérations valides : comparaisons, rangs, médiane/quantiles. Les différences et rapports ne sont pas interprétables sans hypothèses. Exemple : échelle de Likert (1–5).
Intervalles : Les différences entre les valeurs ont un sens, mais le zéro est arbitraire (ne signifie pas l'absence de la propriété). Opérations valides : soustraction (), moyenne, écart-type. Les ratios ne sont pas valides. Exemple : température en °C, dates (calendrier).
Rapports (Métrique) : Possède un zéro absolu, ce qui signifie que les différences et les rapports entre les valeurs sont significatifs. Exemple : revenus, durées, distances, poids (température en Kelvin).

Hiérarchie des Échelles

Il existe une hiérarchie : l'échelle nominale est la plus "pauvre" en information, et l'échelle de rapports la plus "riche". On peut réduire une échelle riche vers une plus pauvre (ex: transformer l'âge continu en tranches d'âge ordinales), mais l'inverse n'est pas justifié sans hypothèses supplémentaires, car cela impliquerait une augmentation d'information. Toute recodification doit être documentée. Diagramme de hiérarchie des échelles de mesure

Variables Latentes et Indicateurs

Un concept latent est inobservable directement (ex. anxiété, capital humain). Un indicateur est une variable manifeste censée refléter (partiellement) cette latente. Le processus de mesure implique de :

Convenir : Définir le construit, créer des items, choisir l'échelle (Likert, différentiel sémantique), planifier l'enquête.
Mesurer : Coder les réponses, construire un score (somme, moyenne, score factoriel/IRT), vérifier fiabilité et validité.
Analyser : Utiliser des méthodes adaptées à l'échelle (rangs, modèles ordonnés, SEM, etc.).

Codage des Variables

Variables Indicatrices (Dummies)

Pour une modalité , on définit une variable dummy qui vaut 1 si l'observation appartient à la modalité , et 0 sinon. Pour catégories, on utilise dummies et une catégorie de référence pour éviter la multicolinéarité.

Ordinales : Stratégies de Codage

Nominaliser (dummies) : Ne suppose aucune distance entre les niveaux.
Score numérique (p. ex. 1-5) : Suppose des intervalles comparables. Cela rend les moyennes/variances et les modèles linéaires défendables si l'hypothèse est plausible.

Il est crucial de ne pas confondre les codes (ex. 1/2 pour homme/femme) avec des valeurs métriques ; calculer des moyennes ou écarts-types sur des identifiants n'a pas de sens sans justification.

Discrétisation, Arrondi et Classes

La discrétisation transforme des variables continues en variables discrètes ou catégorielles. Elle est utilisée pour la lisibilité (tableaux, barres), la robustesse, les contraintes de mesure ou les exigences de confidentialité.

Bonnes pratiques : Utiliser des règles d'arrondi explicites, des classes cohérentes (exhaustives, disjointes, bornes claires), de largeur constante si possible. Il est préférable de conserver les valeurs brutes pour des analyses fines, car la discrétisation peut biaiser les estimations et atténuer les corrélations.

Pièges Fréquents

Traiter une variable ordinale comme métrique sans justification.
Confondre codes (1/2) et valeurs (0/1 dummies).
Changer d'échelle ou de questionnaire sans recalibrage.
Discrétiser massivement puis utiliser des modèles continus.

Organisation et Transformation des Données

L'organisation des données est une étape préliminaire essentielle après la collecte. Elle implique la clarification des objectifs, l'identification des variables et de leurs échelles, et la définition des codages. Le traitement commence par l'organisation, l'examen critique, le regroupement et la construction de supports facilitant la manipulation.

Tableau Individus × Caractères (Tableau I.C.)

Pour individus et variables , toutes les observations sont rassemblées dans un tableau. Chaque ligne correspond à un individu et chaque colonne à une variable . L'entrée est la valeur de pour l'individu . est l'effectif total ou la taille de la série.

Individus
	...	...
1	...	...

	...	...

	...	...

Matrice de Données

La matrice de données est l'équivalent du tableau I.C. lorsque toutes les variables sont quantitatives.

Séries Statistiques

Série statistique -variée : Ensemble des lignes d'un tableau I.C. à colonnes.
Univariée : (ex. ).
Bivariée : (ex. ).
Trivariée : (ex. ).

Les tableaux dérivés et les représentations graphiques permettent de mieux visualiser la structure interne de l'information.

Séries Chronologiques

Une série chronologique est une série statistique où l'ordre des observations est imposé par des dates d'enregistrement successives : avec . La dimension temporelle est essentielle, et la permutation des lignes perd son sens. L'analyse tient compte de la dépendance potentielle entre observations voisines, utilisant des outils spécifiques comme la tendance, la saisonnalité et l'autocorrélation.

Distribution Observée (D.O.1)

Une distribution observée à une dimension est l'ensemble , où est le nombre de valeurs distinctes observées, la valeur distincte, et son effectif. La somme des effectifs est l'effectif total : .

Tableau des Effectifs

Représentation tabulaire de la distribution observée pour une variable statistique discrète :

Diagrammes et Fréquences

Diagramme en Bâtons

Pour une variable quantitative discrète, on associe à chaque valeur distincte un segment vertical de hauteur (effectif). Diagramme en bâtons

Diagramme en Barres

Pour les variables qualitatives, chaque modalité est associée à un rectangle (barre) dont la hauteur est proportionnelle à l'effectif ou à la fréquence. Les barres sont séparées pour souligner la distinction entre catégories. Diagramme en barres

Diagramme en Secteurs (Camembert)

Représentation circulaire où la surface du disque est partagée en secteurs angulaires, dont l'angle au centre est proportionnel à l'effectif ou à la fréquence de chaque catégorie. Diagramme en secteurs

Fréquences

La fréquence d'une valeur est . Elle mesure la proportion d'observations égales à . La somme des fréquences est 1 : .

Effectif et Fréquence Cumulés

Pour une variable ordinale ou quantitative, l'effectif cumulé est la somme des effectifs jusqu'à : . La fréquence cumulée est . Ces valeurs représentent le nombre/proportion d'observations inférieures ou égales à . Courbe cumulative

Distribution Groupée (D.G.1)

Lorsque est grand et la précision fine, on regroupe les données en classes . Pour chaque classe, on définit des limites, une longueur , un centre et un effectif .

Histogrammes

Les histogrammes représentent les distributions groupées. La hauteur d'un rectangle peut être l'effectif (si classes de même largeur) ou la densité (effectif par unité de largeur) pour que la surface du rectangle soit proportionnelle à l'effectif. L'aire totale de l'histogramme est (effectifs) ou 1 (fréquences). Histogramme des effectifs

Choix des Classes

La longueur des classes peut être constante ou variable. Le nombre de classes dépend de l'objectif (description globale vs. analyse fine). Des règles empiriques (Sturges, , Rice) peuvent guider ce choix.

Transformation des Données

Les transformations visent à modifier une série de données en pour faire apparaître des propriétés souhaitables (linéarité, symétrie, variance constante).

Transformations linéaires : Changement d'origine (), d'unité (), ou les deux ().
Transformations fonctionnelles : La famille de Tukey (incluant le logarithme et les racines) est souvent utilisée. La transformation logarithmique () tasse les grandes valeurs, réduit la variabilité et rend souvent la distribution plus symétrique.
Autres transformations : Différences (), rapports (), indices (, souvent multiplié par 100).
Changements d'échelle de mesure : Adapter la nature de l'échelle (ex. quantitatif vers ordinal : classes d'âge).

Position, Dispersion et Forme

Concept de Position

La position vise à localiser "où se trouvent" les observations d'une série. Les indicateurs clés sont les valeurs centrales et les quantiles.

Valeurs Centrales

Moyenne Arithmétique () : Pour une série , . C'est la valeur qui répartit la somme totale uniformément. Elle est unique et sensible aux valeurs extrêmes.
Moyenne d'une Distribution Observée : .
Moyenne d'une Distribution Groupée : , où est le centre de la classe.
Transformation Linéaire : Si , alors .
Médiane () : Valeur qui partage une série ordonnée en deux parties égales. Elle exige une variable ordinale ou quantitative et est robuste aux valeurs extrêmes.
- Si est impair, .
- Si est pair, (convention pour les variables quantitatives).

En moyenne, ça va

Autres Moyennes

Moyenne Tronquée : Écarte les valeurs extrêmes pour réduire leur influence. Ex: écarter la plus petite et la plus grande valeur .
Moyenne Pondérée : Attribue un poids à chaque observation () : .
Moyenne Harmonique (H) : . Utilisée pour des taux ou vitesses (ex: vitesse moyenne sur des distances égales).
Moyenne Géométrique (G) : . Adaptée aux taux de croissance ou rendements cumulatifs.

Quantiles (Fractiles)

Le quantile d'ordre () est toute valeur telle que et . Les quantiles usuels sont les quartiles ( pour ), les déciles et les percentiles.

Mode

Le mode () est la valeur observée la plus fréquente. Une distribution peut être unimodale, plurimodale ou sans mode. Pour une distribution groupée, la classe modale est celle avec l'effectif maximal (ou la densité maximale si classes inégales).

Mode d'une distribution

Concept de Dispersion

La dispersion mesure la concentration des observations autour d'une valeur centrale. Forte dispersion Faible dispersion

Étendue (Empan) : . Très simple à calculer mais ignore la majorité des observations et est très sensible aux valeurs extrêmes.
Écarts Inter-quantiles : . Contient environ des observations (ex: écart inter-quartile contient 50%). Moins sensible aux valeurs extrêmes.
Boîte à Moustaches (Boxplot) : Représentation graphique résumant la série observée par la médiane et les quartiles. La boîte contient 50% des observations, et les moustaches s'étendent aux valeurs min/max (version de base) ou aux valeurs adjacentes (version robuste de Tukey).
Écart Moyen Absolu (EMA) : .
Écart Médian Absolu (EMA*) : . Plus robuste que l'EMA.
Variance () : . Mesure la dispersion quadratique autour de la moyenne.
- Théorème de König-Huygens : .
- Invariance par translation, multipliée par le carré du facteur d'échelle.
- Variance corrigée : . Utilisée pour l'inférence statistique.
Écart-type () : . Est dans les mêmes unités que les observations, donc plus lisible.
Écart Absolu Médian (MAD) : . Extrêmement robuste aux valeurs aberrantes.
Coefficient de Variation (CV) : . Mesure relative de dispersion, indépendante des unités.

Concept de Forme

La forme décrit la répartition des observations. Elle est caractérisée par les moments.

Moments

Le moment d'ordre est . Le moment centré d'ordre est .

(moyenne), (variance).
caractérise l'asymétrie (skewness).
caractérise l'aplatissement (kurtosis).

Asymétrie

Évalue si la distribution est symétrique ou s'étend plus d'un côté (queue).

Dissymétrique à gauche : queue vers les grandes valeurs.
Symétrique : forme en cloche.
Dissymétrique à droite : queue vers les petites valeurs.

Le coefficient d'asymétrie de Fisher () est .

: dissymétrie à gauche.
: symétrique.
: dissymétrie à droite.

Aplatissement

Mesure la concentration autour de la moyenne et l'épaisseur des queues.

Platykurtique : distribution aplatie, queues fines.
Mésokurtique : forme normale (comme la loi normale).
Leptokurtique : distribution très pointue, queues épaisses.

Le coefficient d'aplatissement de Fisher () est .

: leptokurtique.
: mésokurtique.
: platykurtique.

Analyse Bivariée

L'analyse bivariée étudie la relation entre deux variables. La démarche générale inclut la définition des niveaux de mesure, l'organisation de la série, la description des distributions marginales et conditionnelles, la mesure de l'association, et l'interprétation.

Représentation de la Série Bivariée

Nuage de points : Pour deux variables quantitatives. Chaque point représente un individu. Utile pour visualiser la forme et la linéarité.
Tableau de contingence : Pour variables discrètes (nominal ou ordinal). où est l'effectif du couple .

Association et Dépendance

Association : Lien dans le comportement conjoint de deux variables, sans préjuger de la causalité.
Dépendance fonctionnelle : La valeur de est (au moins partiellement) déterminée par via une relation .

Séries et Distributions Marginales

À partir d'une série bivariée, on peut dégager les distributions univariées de chaque variable. Pour une D.O.2, la distribution marginale en est avec .

Distributions Conditionnelles

Décrivent la distribution d'une variable sachant la valeur de l'autre.

Distribution de sachant : .
Fréquences conditionnelles (profil-ligne) : .

Corrélation

Permet de quantifier l'intensité de l'association linéaire.

Covariance () : Pour une série , .
- : association linéaire positive.
- : association linéaire négative.
- : absence d'association linéaire marquée.
Coefficient de corrélation de Bravais-Pearson () : , avec .
- ou : points alignés sur une droite.
- : absence de relation linéaire.
- Invarient par changement d'origine et d'unité.
- Sensible aux valeurs extrêmes.

Droite de Régression

L'objectif est de trouver les coefficients et de la droite qui minimise la somme des carrés des résidus (principe des moindres carrés).

Coefficients : et .
La droite passe par le centre de gravité .
Lien avec : .

Droite de régression Exemple de régression

Décomposition de la Variance

La variance totale de () peut être décomposée en variance expliquée par la régression () et variance résiduelle () : .

Coefficient de détermination () : . Mesure la proportion de la variance de expliquée par la relation linéaire avec .

Éléments de Théorie des Probabilités

La théorie des probabilités permet de mesurer l'incertitude. Elle a trois approches : classique (symétrie), fréquentiste (stabilisation des fréquences), et axiomatique (Kolmogorov).

Concepts Fondamentaux

Expérience Aléatoire : Action dont l'issue ne peut être prédite avec certitude.
Ensemble Fondamental () : Ensemble de toutes les issues possibles.
Événement Élémentaire () : Issue unique de l'expérience ().
Événement Composé () : Sous-ensemble de .
Événement Certain : (toujours vrai).
Événement Impossible : (jamais vrai).
Famille d'Événements () : Ensemble des sous-ensembles de considérés comme des événements.

Opérations sur les Événements

Égalité : si les issues sont identiques.
Inclusion : si la réalisation de entraîne celle de ().
Conjonction/Intersection : (issues communes).
Réunion/Union : (issues dans ou ). .
Différence Ensembliste : (issues dans mais pas dans ).
Complémentaire : ().
Partition de : Événements mutuellement exclusifs et exhaustifs.

Définitions des Probabilités

Classique : Pour cas possibles équiprobables, .
Fréquentiste : où est la fréquence observée (loi des grands nombres).
Axiomatique (Kolmogorov) : $P: \mathcal{F} \to [0,1]$ doit satisfaire : positivité (), normalisation () et additivité ( pour disjoints).

Probabilité Conditionnelle

La probabilité conditionnelle de étant donné () est . Elle réduit l'univers d'observation à .

Paradoxe de Simpson

Une tendance présente dans chaque sous-groupe peut s'inverser après regroupement en raison d'une variable cachée (facteur de confusion). Cela souligne l'importance de comparer les données à niveau de conditions équivalentes.

Indépendance d'Événements

Deux événements et sont indépendants si la connaissance de l'un ne change pas la probabilité de l'autre : , ou de manière équivalente . Deux événements mutuellement exclusifs ne sont pas indépendants si leurs probabilités sont positives.

Théorèmes Clés

Théorème des Probabilités Totales : Pour une partition de , .
Théorème de Bayes : . Permet de mettre à jour la probabilité d'un événement à la lumière de nouvelles informations.

Méthodes de Dénombrement

Pour des opérations en phases indépendantes, avec façons respectives, le nombre total de façons est . Arbre de décision

Permutations : Ordres possibles de objets distincts : .
Arrangements : Choix ordonné de objets parmi : .
Combinaisons : Choix non ordonné de objets parmi : .

Variables Aléatoires et Distribution de Probabilités

Une variable aléatoire (v.a.) est une fonction qui associe à chaque résultat élémentaire d'une expérience aléatoire une valeur réelle (). Elle traduit les résultats bruts en quantités numériques d'intérêt.

Schéma Variable Aléatoire

Types de Variables Aléatoires

Discrètes : Le support est fini ou dénombrable. On utilise des probabilités .
Continues : Le support est un intervalle de . On utilise des probabilités d'intervalle via une fonction de densité et une fonction de répartition .

Loi (Distribution) de Probabilité

Cas Discret

La loi de est l'ensemble des couples où . et .

Loi de probabilité discrète

Fonction de Répartition (CDF)

Pour une v.a. discrète, . C'est une fonction en escalier. Fonction de répartition discrète

Espérance et Variance

Espérance Mathématique ( ou )

Pour une v.a. discrète, . C'est la moyenne pondérée des valeurs possibles par leurs probabilités.

Linéarité : .

Variance ( ou )

Pour une v.a. discrète, . Formule pratique : .

Propriétés : , , .

Lois Discrètes Usuelles

Loi Uniforme Discrète () : Chaque valeur a une probabilité . Ex: jet d'un dé.
Loi de Bernoulli () : Deux issues (succès/échec) avec probabilité pour le succès. , .
Loi Binomiale () : Nombre de succès en essais de Bernoulli indépendants. . , .
Loi de Poisson () : Nombre d'occurrences d'un événement rare sur un intervalle. . , . Approximation de la binomiale si grand et petit ().

Lois Continues Usuelles

Fonction de Densité

Pour une v.a. continue, la fonction de densité satisfait et . La probabilité .

Fonction de Répartition (CDF)

Pour une v.a. continue, . est croissante, .

Paramètres Usuels

Espérance : .
Variance : .

Lois Continues Spécifiques

Loi Uniforme Continue () : La densité est constante sur . , .
Loi Normale (Laplace-Gauss) () : Forme en "cloche", symétrique autour de .
- Normale centrée réduite : . Toute v.a. normale peut être transformée en .
- Quantiles : .
- Intervalles centrés : contient de la masse de probabilité.
Loi (Khi-deux) : Somme de carrés de v.a. normales centrées réduites indépendantes. avec .
Loi de Student () : Ratio d'une et de la racine carrée d'une indépendante.
Loi de Fisher-Snédecor () : Ratio de deux indépendantes divisées par leurs d.d.l. respectifs.

Théorèmes Asymptotiques

Théorème de Moivre-Laplace : La loi binomiale tend vers une loi normale pour grand ().
Théorème Central Limite (TCL) : La somme (ou moyenne) de v.a. i.i.d. (quelle que soit leur loi d'origine) tend vers une loi normale pour grand (). C'est un résultat fondamental en statistique.

Le Problème de l'Estimation

L'estimation vise à déterminer un paramètre inconnu (moyenne, variance, proportion) d'une population à partir d'un échantillon aléatoire simple (EAS).

Estimateur et Estimation

Un estimateur est une fonction des observations d'un échantillon. C'est une v.a. L'estimation est la valeur numérique prise par l'estimateur pour un échantillon donné.

Qualités d'un Estimateur

Biais : . Un estimateur est sans biais si .
- La moyenne d'échantillon est un estimateur sans biais de .
- La variance d'échantillon non corrigée est biaisée pour ().
- La variance corrigée est sans biais pour .
Précision : Mesurée par la variance de l'estimateur . Un estimateur plus précis a une variance plus faible.
Écart Quadratique Moyen (EQM) : . Il combine la précision et le biais : .

Méthodes d'Estimation

Méthode des Moments : Consiste à égaler les moments théoriques (fonctions de ) aux moments empiriques (calculés sur les données).
Méthode du Maximum de Vraisemblance (MV) : Choisit la valeur de qui maximise la probabilité (ou densité) d'observer l'échantillon donné. On maximise la fonction de vraisemblance ou sa log-vraisemblance .
- Pour une population normale, les estimateurs MV de et sont respectivement et (variance non corrigée).

Distribution d'un Estimateur

La loi de l'estimateur est cruciale pour construire des intervalles de confiance et des tests d'hypothèses.

Si la loi de la population est connue et est petit, on peut souvent déduire la loi exacte. Ex: si .
Si est grand, même si la loi de la population est inconnue, le TCL permet d'utiliser une approximation normale. Ex: .

Intervalles de Confiance (IC)

Un IC pour est un intervalle (fonctions des observations) tel que , où est le niveau de confiance.

IC pour (population normale, connu) : .
IC pour (population normale, inconnu) : Utilise la loi de Student et : .
IC pour une proportion (grand ) : .

Les Tests d'Hypothèses

Les tests d'hypothèses permettent de vérifier la validité d'une hypothèse sur un paramètre à partir d'un échantillon.

Notions Clés

Hypothèse Nulle () : L'hypothèse que l'on souhaite tester (souvent, absence d'effet ou d'intérêt).
Contre-Hypothèse () : L'alternative à .
Règle de Décision : Permet de rejeter () ou de ne pas rejeter .
Risque de Première Espèce () : P(rejeter | est vraie). C'est le risque de conclure à un effet alors qu'il n'y en a pas.
Risque de Seconde Espèce () : P(ne pas rejeter | est vraie). C'est le risque de ne pas détecter un effet réel.
Puissance du Test () : P(rejeter | est vraie). Capacité du test à détecter un effet réel.
p-valeur : Probabilité d'observer une statistique de test aussi extrême (ou plus extrême) que celle observée, sous l'hypothèse que est vraie. Si , on rejette .

Principe de Neyman

Ne pouvant minimiser et simultanément, on fixe (souvent 5%) et on cherche la procédure qui minimise .

Tests Relatifs à la Moyenne

Hypothèses : vs. (bilatéral), ou (unilatéral gauche), ou (unilatéral droit).
Statistique de test ( connu, population normale ou grand échantillon) : sous .
Statistique de test ( inconnu, population normale) : sous .
Règle de décision bilatérale ( connu) : Rejeter si .

Tests Relatifs à la Variance

Hypothèses : vs. (bilatéral), etc.
Statistique de test ( inconnu, population normale) : sous .

Tests pour une Proportion

Hypothèses : vs. (bilatéral), etc.
Statistique de test (grand échantillon) : sous .

Comparaison de Deux Populations

Test d'Égalité de Deux Moyennes

Hypothèses : vs. .
Statistique (variances connues ou grands ) : (sous ).
Statistique (variances inconnues mais égales, populations normales) : (sous ).

Test d'Égalité de Deux Variances

Hypothèses : vs. .
Statistique (populations normales) : (sous ).

Test Multinomial et d'Ajustement

Compare une distribution observée sur catégories à une distribution théorique.

Statistique (grand échantillon) : sous .

ANOVA (Analyse de la Variance)

Détecte des différences entre les moyennes de populations.

Hypothèses : vs. : au moins deux moyennes diffèrent.
Principe : Décomposer la dispersion totale en composantes intra-groupes et inter-groupes.
Statistique de test : sous .

Tests d'Indépendance

Teste l'absence d'association entre deux variables.

Deux variables quantitatives : Test basé sur le coefficient de corrélation de Bravais-Pearson.
Deux variables ordinales : Test basé sur les coefficients de rang de Spearman ou Kendall.
Deux variables nominales : Test du d'indépendance à partir d'un tableau de contingence.

Start a quiz

Test your knowledge with interactive questions