Concepts de base des statistiques descriptives
20 cardsCe cours couvre les concepts fondamentaux des statistiques descriptives, y compris la typologie des variables, les échelles de mesure, l'organisation des données sous forme de tableaux et de matrices, la visualisation graphique (histogrammes, diagrammes), les mesures de position (moyenne, médiane, quantiles) et de dispersion (variance, écart-type, étendue), ainsi que les notions de forme de distribution (asymétrie, aplatissement). Les transformations de données et les bases de l'analyse bivariée (covariance, corrélation, régression) sont également abordées, menant aux probabilités et aux distributions discrètes et continues.
20 cards
Introduction à la Statistique
La statistique est une discipline qui vise à collecter, organiser, analyser, interpréter et présenter des données. Avant toute analyse, il est crucial de comprendre la nature des variables manipulées et la structure des données brutes.
Types de Variables
Une variable est une caractéristique observée pour chaque unité d'une étude (individu, expérience, etc.). Une valeur ou modalité est le résultat pris par cette variable pour une unité donnée.
Typologie Complète des Variables
- Variables Qualitatives (Catégorielles) : Leurs modalités ne sont pas numériques.
- Nominales : Étiquettes sans ordre intrinsèque. Exemples : sexe (femme ; homme), couleur des yeux, pays.
- Ordinales : Catégories avec un ordre défini. Exemples : satisfaction (très insatisfait ; ... ; très satisfait), niveau d'études (secondaire ; bac ; licence ; master ; doctorat).
- Variables Quantitatives : Leurs valeurs sont numériques.
- Discrètes : Prennent des valeurs isolées, souvent des nombres entiers. Exemples : nombre d'enfants (0, 1, 2, ...), nombre de sinistres.
- Continues : Peuvent prendre n'importe quelle valeur réelle dans un intervalle donné. Exemples : taille, poids, durée, revenu.
- Variables Manifestes vs. Latentes :
- Manifestes (observables) : Directement mesurables. Exemples : taille, âge, nombre d'achats.
- Latentes (inobservables) : Concepts abstraits non mesurables directement. Mesurées via des indicateurs et des modèles. Exemples : anxiété, "capital humain", satisfaction.
Le type de variable et l'échelle de mesure choisie ont des conséquences méthodologiques importantes, déterminant les statistiques, les graphiques et les modèles/tests valides.
Échelles de Mesure
Les échelles de mesure définissent les propriétés mathématiques des variables et les opérations autorisées.
- Nominale : Permet uniquement de classer les unités en catégories. Opérations valides : égalité/différence, comptages, mode. Exemple : état civil (célibataire, marié, veuf, divorcé).
- Ordinale : Permet de classer et d'ordonner les unités. Opérations valides : comparaisons, rangs, médiane/quantiles. Les différences et rapports ne sont pas interprétables sans hypothèses. Exemple : échelle de Likert (1–5).
- Intervalles : Les différences entre les valeurs ont un sens, mais le zéro est arbitraire (ne signifie pas l'absence de la propriété). Opérations valides : soustraction (), moyenne, écart-type. Les ratios ne sont pas valides. Exemple : température en °C, dates (calendrier).
- Rapports (Métrique) : Possède un zéro absolu, ce qui signifie que les différences et les rapports entre les valeurs sont significatifs. Exemple : revenus, durées, distances, poids (température en Kelvin).
Hiérarchie des Échelles
Il existe une hiérarchie : l'échelle nominale est la plus "pauvre" en information, et l'échelle de rapports la plus "riche". On peut réduire une échelle riche vers une plus pauvre (ex: transformer l'âge continu en tranches d'âge ordinales), mais l'inverse n'est pas justifié sans hypothèses supplémentaires, car cela impliquerait une augmentation d'information. Toute recodification doit être documentée.
Variables Latentes et Indicateurs
Un concept latent est inobservable directement (ex. anxiété, capital humain). Un indicateur est une variable manifeste censée refléter (partiellement) cette latente. Le processus de mesure implique de :
- Convenir : Définir le construit, créer des items, choisir l'échelle (Likert, différentiel sémantique), planifier l'enquête.
- Mesurer : Coder les réponses, construire un score (somme, moyenne, score factoriel/IRT), vérifier fiabilité et validité.
- Analyser : Utiliser des méthodes adaptées à l'échelle (rangs, modèles ordonnés, SEM, etc.).
Codage des Variables
Variables Indicatrices (Dummies)
Pour une modalité , on définit une variable dummy qui vaut 1 si l'observation appartient à la modalité , et 0 sinon. Pour catégories, on utilise dummies et une catégorie de référence pour éviter la multicolinéarité.
Ordinales : Stratégies de Codage
- Nominaliser (dummies) : Ne suppose aucune distance entre les niveaux.
- Score numérique (p. ex. 1-5) : Suppose des intervalles comparables. Cela rend les moyennes/variances et les modèles linéaires défendables si l'hypothèse est plausible.
Il est crucial de ne pas confondre les codes (ex. 1/2 pour homme/femme) avec des valeurs métriques ; calculer des moyennes ou écarts-types sur des identifiants n'a pas de sens sans justification.
Discrétisation, Arrondi et Classes
La discrétisation transforme des variables continues en variables discrètes ou catégorielles. Elle est utilisée pour la lisibilité (tableaux, barres), la robustesse, les contraintes de mesure ou les exigences de confidentialité.
- Bonnes pratiques : Utiliser des règles d'arrondi explicites, des classes cohérentes (exhaustives, disjointes, bornes claires), de largeur constante si possible. Il est préférable de conserver les valeurs brutes pour des analyses fines, car la discrétisation peut biaiser les estimations et atténuer les corrélations.
Pièges Fréquents
- Traiter une variable ordinale comme métrique sans justification.
- Confondre codes (1/2) et valeurs (0/1 dummies).
- Changer d'échelle ou de questionnaire sans recalibrage.
- Discrétiser massivement puis utiliser des modèles continus.
Organisation et Transformation des Données
L'organisation des données est une étape préliminaire essentielle après la collecte. Elle implique la clarification des objectifs, l'identification des variables et de leurs échelles, et la définition des codages. Le traitement commence par l'organisation, l'examen critique, le regroupement et la construction de supports facilitant la manipulation.
Tableau Individus × Caractères (Tableau I.C.)
Pour individus et variables , toutes les observations sont rassemblées dans un tableau. Chaque ligne correspond à un individu et chaque colonne à une variable . L'entrée est la valeur de pour l'individu . est l'effectif total ou la taille de la série.
| Individus | Variables | |||
|---|---|---|---|---|
| ... | ... | |||
| 1 | ... | ... | ||
| ... | ... | |||
| ... | ... |
Matrice de Données
La matrice de données est l'équivalent du tableau I.C. lorsque toutes les variables sont quantitatives.
Séries Statistiques
- Série statistique -variée : Ensemble des lignes d'un tableau I.C. à colonnes.
- Univariée : (ex. ).
- Bivariée : (ex. ).
- Trivariée : (ex. ).
Les tableaux dérivés et les représentations graphiques permettent de mieux visualiser la structure interne de l'information.
Séries Chronologiques
Une série chronologique est une série statistique où l'ordre des observations est imposé par des dates d'enregistrement successives : avec . La dimension temporelle est essentielle, et la permutation des lignes perd son sens. L'analyse tient compte de la dépendance potentielle entre observations voisines, utilisant des outils spécifiques comme la tendance, la saisonnalité et l'autocorrélation.
Distribution Observée (D.O.1)
Une distribution observée à une dimension est l'ensemble , où est le nombre de valeurs distinctes observées, la valeur distincte, et son effectif. La somme des effectifs est l'effectif total : .
Tableau des Effectifs
Représentation tabulaire de la distribution observée pour une variable statistique discrète :
Diagrammes et Fréquences
Diagramme en Bâtons
Pour une variable quantitative discrète, on associe à chaque valeur distincte un segment vertical de hauteur (effectif).
Diagramme en Barres
Pour les variables qualitatives, chaque modalité est associée à un rectangle (barre) dont la hauteur est proportionnelle à l'effectif ou à la fréquence. Les barres sont séparées pour souligner la distinction entre catégories.
Diagramme en Secteurs (Camembert)
Représentation circulaire où la surface du disque est partagée en secteurs angulaires, dont l'angle au centre est proportionnel à l'effectif ou à la fréquence de chaque catégorie.
Fréquences
La fréquence d'une valeur est . Elle mesure la proportion d'observations égales à . La somme des fréquences est 1 : .
Effectif et Fréquence Cumulés
Pour une variable ordinale ou quantitative, l'effectif cumulé est la somme des effectifs jusqu'à : . La fréquence cumulée est . Ces valeurs représentent le nombre/proportion d'observations inférieures ou égales à .
Distribution Groupée (D.G.1)
Lorsque est grand et la précision fine, on regroupe les données en classes . Pour chaque classe, on définit des limites, une longueur , un centre et un effectif .
Histogrammes
Les histogrammes représentent les distributions groupées. La hauteur d'un rectangle peut être l'effectif (si classes de même largeur) ou la densité (effectif par unité de largeur) pour que la surface du rectangle soit proportionnelle à l'effectif. L'aire totale de l'histogramme est (effectifs) ou 1 (fréquences).
Choix des Classes
La longueur des classes peut être constante ou variable. Le nombre de classes dépend de l'objectif (description globale vs. analyse fine). Des règles empiriques (Sturges, , Rice) peuvent guider ce choix.
Transformation des Données
Les transformations visent à modifier une série de données en pour faire apparaître des propriétés souhaitables (linéarité, symétrie, variance constante).
- Transformations linéaires : Changement d'origine (), d'unité (), ou les deux ().
- Transformations fonctionnelles : La famille de Tukey (incluant le logarithme et les racines) est souvent utilisée. La transformation logarithmique () tasse les grandes valeurs, réduit la variabilité et rend souvent la distribution plus symétrique.
- Autres transformations : Différences (), rapports (), indices (, souvent multiplié par 100).
- Changements d'échelle de mesure : Adapter la nature de l'échelle (ex. quantitatif vers ordinal : classes d'âge).
Position, Dispersion et Forme
Concept de Position
La position vise à localiser "où se trouvent" les observations d'une série. Les indicateurs clés sont les valeurs centrales et les quantiles.
Valeurs Centrales
- Moyenne Arithmétique () : Pour une série , . C'est la valeur qui répartit la somme totale uniformément. Elle est unique et sensible aux valeurs extrêmes.
- Moyenne d'une Distribution Observée : .
- Moyenne d'une Distribution Groupée : , où est le centre de la classe.
- Transformation Linéaire : Si , alors .
- Médiane () : Valeur qui partage une série ordonnée en deux parties égales. Elle exige une variable ordinale ou quantitative et est robuste aux valeurs extrêmes.
- Si est impair, .
- Si est pair, (convention pour les variables quantitatives).
Autres Moyennes
- Moyenne Tronquée : Écarte les valeurs extrêmes pour réduire leur influence. Ex: écarter la plus petite et la plus grande valeur .
- Moyenne Pondérée : Attribue un poids à chaque observation () : .
- Moyenne Harmonique (H) : . Utilisée pour des taux ou vitesses (ex: vitesse moyenne sur des distances égales).
- Moyenne Géométrique (G) : . Adaptée aux taux de croissance ou rendements cumulatifs.
Quantiles (Fractiles)
Le quantile d'ordre () est toute valeur telle que et . Les quantiles usuels sont les quartiles ( pour ), les déciles et les percentiles.
Mode
Le mode () est la valeur observée la plus fréquente. Une distribution peut être unimodale, plurimodale ou sans mode. Pour une distribution groupée, la classe modale est celle avec l'effectif maximal (ou la densité maximale si classes inégales).
Concept de Dispersion
La dispersion mesure la concentration des observations autour d'une valeur centrale.
- Étendue (Empan) : . Très simple à calculer mais ignore la majorité des observations et est très sensible aux valeurs extrêmes.
- Écarts Inter-quantiles : . Contient environ des observations (ex: écart inter-quartile contient 50%). Moins sensible aux valeurs extrêmes.
- Boîte à Moustaches (Boxplot) : Représentation graphique résumant la série observée par la médiane et les quartiles. La boîte contient 50% des observations, et les moustaches s'étendent aux valeurs min/max (version de base) ou aux valeurs adjacentes (version robuste de Tukey).
- Écart Moyen Absolu (EMA) : .
- Écart Médian Absolu (EMA*) : . Plus robuste que l'EMA.
- Variance () : . Mesure la dispersion quadratique autour de la moyenne.
- Théorème de König-Huygens : .
- Invariance par translation, multipliée par le carré du facteur d'échelle.
- Variance corrigée : . Utilisée pour l'inférence statistique.
- Écart-type () : . Est dans les mêmes unités que les observations, donc plus lisible.
- Écart Absolu Médian (MAD) : . Extrêmement robuste aux valeurs aberrantes.
- Coefficient de Variation (CV) : . Mesure relative de dispersion, indépendante des unités.
Concept de Forme
La forme décrit la répartition des observations. Elle est caractérisée par les moments.
Moments
Le moment d'ordre est . Le moment centré d'ordre est .
- (moyenne), (variance).
- caractérise l'asymétrie (skewness).
- caractérise l'aplatissement (kurtosis).
Asymétrie
Évalue si la distribution est symétrique ou s'étend plus d'un côté (queue).
- Dissymétrique à gauche : queue vers les grandes valeurs.
- Symétrique : forme en cloche.
- Dissymétrique à droite : queue vers les petites valeurs.
Le coefficient d'asymétrie de Fisher () est .
- : dissymétrie à gauche.
- : symétrique.
- : dissymétrie à droite.
Aplatissement
Mesure la concentration autour de la moyenne et l'épaisseur des queues.
- Platykurtique : distribution aplatie, queues fines.
- Mésokurtique : forme normale (comme la loi normale).
- Leptokurtique : distribution très pointue, queues épaisses.
Le coefficient d'aplatissement de Fisher () est .
- : leptokurtique.
- : mésokurtique.
- : platykurtique.
Analyse Bivariée
L'analyse bivariée étudie la relation entre deux variables. La démarche générale inclut la définition des niveaux de mesure, l'organisation de la série, la description des distributions marginales et conditionnelles, la mesure de l'association, et l'interprétation.
Représentation de la Série Bivariée
- Nuage de points : Pour deux variables quantitatives. Chaque point représente un individu. Utile pour visualiser la forme et la linéarité.
- Tableau de contingence : Pour variables discrètes (nominal ou ordinal). où est l'effectif du couple .
Association et Dépendance
- Association : Lien dans le comportement conjoint de deux variables, sans préjuger de la causalité.
- Dépendance fonctionnelle : La valeur de est (au moins partiellement) déterminée par via une relation .
Séries et Distributions Marginales
À partir d'une série bivariée, on peut dégager les distributions univariées de chaque variable. Pour une D.O.2, la distribution marginale en est avec .
Distributions Conditionnelles
Décrivent la distribution d'une variable sachant la valeur de l'autre.
- Distribution de sachant : .
- Fréquences conditionnelles (profil-ligne) : .
Corrélation
Permet de quantifier l'intensité de l'association linéaire.
- Covariance () : Pour une série , .
- : association linéaire positive.
- : association linéaire négative.
- : absence d'association linéaire marquée.
- Coefficient de corrélation de Bravais-Pearson () : , avec .
- ou : points alignés sur une droite.
- : absence de relation linéaire.
- Invarient par changement d'origine et d'unité.
- Sensible aux valeurs extrêmes.
Droite de Régression
L'objectif est de trouver les coefficients et de la droite qui minimise la somme des carrés des résidus (principe des moindres carrés).
- Coefficients : et .
- La droite passe par le centre de gravité .
- Lien avec : .
Décomposition de la Variance
La variance totale de () peut être décomposée en variance expliquée par la régression () et variance résiduelle () : .
- Coefficient de détermination () : . Mesure la proportion de la variance de expliquée par la relation linéaire avec .
Éléments de Théorie des Probabilités
La théorie des probabilités permet de mesurer l'incertitude. Elle a trois approches : classique (symétrie), fréquentiste (stabilisation des fréquences), et axiomatique (Kolmogorov).
Concepts Fondamentaux
- Expérience Aléatoire : Action dont l'issue ne peut être prédite avec certitude.
- Ensemble Fondamental () : Ensemble de toutes les issues possibles.
- Événement Élémentaire () : Issue unique de l'expérience ().
- Événement Composé () : Sous-ensemble de .
- Événement Certain : (toujours vrai).
- Événement Impossible : (jamais vrai).
- Famille d'Événements () : Ensemble des sous-ensembles de considérés comme des événements.
Opérations sur les Événements
- Égalité : si les issues sont identiques.
- Inclusion : si la réalisation de entraîne celle de ().
- Conjonction/Intersection : (issues communes).
- Réunion/Union : (issues dans ou ). .
- Différence Ensembliste : (issues dans mais pas dans ).
- Complémentaire : ().
- Partition de : Événements mutuellement exclusifs et exhaustifs.
Définitions des Probabilités
- Classique : Pour cas possibles équiprobables, .
- Fréquentiste : où est la fréquence observée (loi des grands nombres).
- Axiomatique (Kolmogorov) : doit satisfaire : positivité (), normalisation () et additivité ( pour disjoints).
Probabilité Conditionnelle
La probabilité conditionnelle de étant donné () est . Elle réduit l'univers d'observation à .
Paradoxe de Simpson
Une tendance présente dans chaque sous-groupe peut s'inverser après regroupement en raison d'une variable cachée (facteur de confusion). Cela souligne l'importance de comparer les données à niveau de conditions équivalentes.
Indépendance d'Événements
Deux événements et sont indépendants si la connaissance de l'un ne change pas la probabilité de l'autre : , ou de manière équivalente . Deux événements mutuellement exclusifs ne sont pas indépendants si leurs probabilités sont positives.
Théorèmes Clés
- Théorème des Probabilités Totales : Pour une partition de , .
- Théorème de Bayes : . Permet de mettre à jour la probabilité d'un événement à la lumière de nouvelles informations.
Méthodes de Dénombrement
Pour des opérations en phases indépendantes, avec façons respectives, le nombre total de façons est .
- Permutations : Ordres possibles de objets distincts : .
- Arrangements : Choix ordonné de objets parmi : .
- Combinaisons : Choix non ordonné de objets parmi : .
Variables Aléatoires et Distribution de Probabilités
Une variable aléatoire (v.a.) est une fonction qui associe à chaque résultat élémentaire d'une expérience aléatoire une valeur réelle (). Elle traduit les résultats bruts en quantités numériques d'intérêt.
Types de Variables Aléatoires
- Discrètes : Le support est fini ou dénombrable. On utilise des probabilités .
- Continues : Le support est un intervalle de . On utilise des probabilités d'intervalle via une fonction de densité et une fonction de répartition .
Loi (Distribution) de Probabilité
Cas Discret
La loi de est l'ensemble des couples où . et .
Fonction de Répartition (CDF)
Pour une v.a. discrète, . C'est une fonction en escalier.
Espérance et Variance
Espérance Mathématique ( ou )
Pour une v.a. discrète, . C'est la moyenne pondérée des valeurs possibles par leurs probabilités.
- Linéarité : .
Variance ( ou )
Pour une v.a. discrète, . Formule pratique : .
- Propriétés : , , .
Lois Discrètes Usuelles
- Loi Uniforme Discrète () : Chaque valeur a une probabilité . Ex: jet d'un dé.
- Loi de Bernoulli () : Deux issues (succès/échec) avec probabilité pour le succès. , .
- Loi Binomiale () : Nombre de succès en essais de Bernoulli indépendants. . , .
- Loi de Poisson () : Nombre d'occurrences d'un événement rare sur un intervalle. . , . Approximation de la binomiale si grand et petit ().
Lois Continues Usuelles
Fonction de Densité
Pour une v.a. continue, la fonction de densité satisfait et . La probabilité .
Fonction de Répartition (CDF)
Pour une v.a. continue, . est croissante, .
Paramètres Usuels
- Espérance : .
- Variance : .
Lois Continues Spécifiques
- Loi Uniforme Continue () : La densité est constante sur .
, .
- Loi Normale (Laplace-Gauss) () : Forme en "cloche", symétrique autour de .
- Normale centrée réduite : . Toute v.a. normale peut être transformée en .
- Quantiles : .
- Intervalles centrés : contient de la masse de probabilité.
- Loi (Khi-deux) : Somme de carrés de v.a. normales centrées réduites indépendantes. avec .
- Loi de Student () : Ratio d'une et de la racine carrée d'une indépendante.
- Loi de Fisher-Snédecor () : Ratio de deux indépendantes divisées par leurs d.d.l. respectifs.
Théorèmes Asymptotiques
- Théorème de Moivre-Laplace : La loi binomiale tend vers une loi normale pour grand ().
- Théorème Central Limite (TCL) : La somme (ou moyenne) de v.a. i.i.d. (quelle que soit leur loi d'origine) tend vers une loi normale pour grand (). C'est un résultat fondamental en statistique.
Le Problème de l'Estimation
L'estimation vise à déterminer un paramètre inconnu (moyenne, variance, proportion) d'une population à partir d'un échantillon aléatoire simple (EAS).
Estimateur et Estimation
Un estimateur est une fonction des observations d'un échantillon. C'est une v.a. L'estimation est la valeur numérique prise par l'estimateur pour un échantillon donné.
Qualités d'un Estimateur
- Biais : . Un estimateur est sans biais si .
- La moyenne d'échantillon est un estimateur sans biais de .
- La variance d'échantillon non corrigée est biaisée pour ().
- La variance corrigée est sans biais pour .
- Précision : Mesurée par la variance de l'estimateur . Un estimateur plus précis a une variance plus faible.
- Écart Quadratique Moyen (EQM) : . Il combine la précision et le biais : .
Méthodes d'Estimation
- Méthode des Moments : Consiste à égaler les moments théoriques (fonctions de ) aux moments empiriques (calculés sur les données).
- Méthode du Maximum de Vraisemblance (MV) : Choisit la valeur de qui maximise la probabilité (ou densité) d'observer l'échantillon donné. On maximise la fonction de vraisemblance ou sa log-vraisemblance .
- Pour une population normale, les estimateurs MV de et sont respectivement et (variance non corrigée).
Distribution d'un Estimateur
La loi de l'estimateur est cruciale pour construire des intervalles de confiance et des tests d'hypothèses.
- Si la loi de la population est connue et est petit, on peut souvent déduire la loi exacte. Ex: si .
- Si est grand, même si la loi de la population est inconnue, le TCL permet d'utiliser une approximation normale. Ex: .
Intervalles de Confiance (IC)
Un IC pour est un intervalle (fonctions des observations) tel que , où est le niveau de confiance.
- IC pour (population normale, connu) : .
- IC pour (population normale, inconnu) : Utilise la loi de Student et : .
- IC pour une proportion (grand ) : .
Les Tests d'Hypothèses
Les tests d'hypothèses permettent de vérifier la validité d'une hypothèse sur un paramètre à partir d'un échantillon.
Notions Clés
- Hypothèse Nulle () : L'hypothèse que l'on souhaite tester (souvent, absence d'effet ou d'intérêt).
- Contre-Hypothèse () : L'alternative à .
- Règle de Décision : Permet de rejeter () ou de ne pas rejeter .
- Risque de Première Espèce () : P(rejeter | est vraie). C'est le risque de conclure à un effet alors qu'il n'y en a pas.
- Risque de Seconde Espèce () : P(ne pas rejeter | est vraie). C'est le risque de ne pas détecter un effet réel.
- Puissance du Test () : P(rejeter | est vraie). Capacité du test à détecter un effet réel.
- p-valeur : Probabilité d'observer une statistique de test aussi extrême (ou plus extrême) que celle observée, sous l'hypothèse que est vraie. Si , on rejette .
Principe de Neyman
Ne pouvant minimiser et simultanément, on fixe (souvent 5%) et on cherche la procédure qui minimise .
Tests Relatifs à la Moyenne
- Hypothèses : vs. (bilatéral), ou (unilatéral gauche), ou (unilatéral droit).
- Statistique de test ( connu, population normale ou grand échantillon) : sous .
- Statistique de test ( inconnu, population normale) : sous .
- Règle de décision bilatérale ( connu) : Rejeter si .
Tests Relatifs à la Variance
- Hypothèses : vs. (bilatéral), etc.
- Statistique de test ( inconnu, population normale) : sous .
Tests pour une Proportion
- Hypothèses : vs. (bilatéral), etc.
- Statistique de test (grand échantillon) : sous .
Comparaison de Deux Populations
Test d'Égalité de Deux Moyennes
- Hypothèses : vs. .
- Statistique (variances connues ou grands ) : (sous ).
- Statistique (variances inconnues mais égales, populations normales) : (sous ).
Test d'Égalité de Deux Variances
- Hypothèses : vs. .
- Statistique (populations normales) : (sous ).
Test Multinomial et d'Ajustement
Compare une distribution observée sur catégories à une distribution théorique.
- Statistique (grand échantillon) : sous .
ANOVA (Analyse de la Variance)
Détecte des différences entre les moyennes de populations.
- Hypothèses : vs. : au moins deux moyennes diffèrent.
- Principe : Décomposer la dispersion totale en composantes intra-groupes et inter-groupes.
- Statistique de test : sous .
Tests d'Indépendance
Teste l'absence d'association entre deux variables.
- Deux variables quantitatives : Test basé sur le coefficient de corrélation de Bravais-Pearson.
- Deux variables ordinales : Test basé sur les coefficients de rang de Spearman ou Kendall.
- Deux variables nominales : Test du d'indépendance à partir d'un tableau de contingence.
Start a quiz
Test your knowledge with interactive questions