Statistique Descriptive : Concepts et Méthodes

Nessuna carta

Ce document présente les concepts fondamentaux de la statistique descriptive, y compris la collecte, l'analyse et l'interprétation des données. Il aborde la définition des individus, des populations, des variables et des modalités, ainsi que la classification des variables en qualitatives et quantitatives (discrètes et continues). Le cours détaille également les distributions statistiques, les effectifs, les fréquences, et les différentes méthodes de représentations graphiques telles que les diagrammes en bâtons, les histogrammes et les diagrammes circulaires. Il couvre aussi les mesures de tendance centrale (mode, médiane, moyenne arithmétique, moyenne géométrique, moyenne harmonique, moyenne quadratique), les mesures de dispersion (étendue, écart inter-quartile, écart absolu moyen, variance, écart-type), les coefficients de variation, les moments, les caractéristiques de forme (asymétrie et aplatissement), et les mesures de concentration (médiale, indice de Gini). Des exercices pratiques sont inclus pour illustrer ces concepts.

Cours de Statistique Descriptive

La statistique permet de comprendre et prévoir des phénomènes en synthétisant numériquement et graphiquement l'information. Elle s'intéresse aux résultats d'ensemble, pas aux individus.

  • La statistique (au singulier) : science regroupant des méthodes de description et d'analyse quantifiée de phénomènes nombreux et classables.

  • Les statistiques (au pluriel) : résultats numériques ou données chiffrées issues de l'application de ces méthodes.

Collecte et Organisation des Données

L'information doit être collectée rigoureusement et transformée en chiffres pour être analysée.

Enquêtes

L'opération technique d'élaboration des statistiques est une enquête.

  • Enquête exhaustive ou recensement : interroge tous les individus d'une population.

  • Sondages ou enquêtes partielles : interrogent un sous-ensemble (échantillon) représentatif de la population.

    • Méthode empirique des quotas : si les caractères principaux de la population sont connus.

    • Méthode du sondage probabiliste : basée sur l'estimation, échantillon choisi aléatoirement.

Concepts Fondamentaux

  • Individu ou unité statistique : tout élément examiné dans une étude.

  • Population : ensemble des individus étudiés (peut être finie ou non).

  • Variable ou caractère : particularité commune observée dans la population.

  • Modalité : valeur ou caractère élémentaire que prend la variable.

Types de Variables

  • Qualitative (caractère) : modalités non numériques (ex: sexe, groupe sanguin).

  • Quantitative (variable) : modalités numériques.

    • Discrète : ensemble de modalités fini ou dénombrable (ex: nombre de frères, nombre de cigarettes).

    • Continue : ensemble de valeurs constitué d'intervalles non vides (ex: âge, taille, temps). Si non précisé, considérer continue.

Effectifs et Fréquences

  • Effectif () : nombre de fois qu'une modalité est observée.

  • Effectif total () : .

  • Distribution ou série statistique : ensemble des couples .

  • Fréquence simple () : Proportion d'individus présentant . . Souvent en pourcentage .

Tableaux Statistiques

Les données et résultats sont présentés sous forme de tableaux pour plus de clarté.

  • Tableau élémentaire : précise la modalité pour chaque individu (document d'enquête).

  • Tableau de dénombrement : deux colonnes (modalités et effectifs associés).

  • Tableau de traitement : tableau de dénombrement complété par les calculs.

Modalités dans les Tableaux

  • Variable qualitative : modalités présentées sous forme de texte, ordre arbitraire.

  • Variable quantitative : modalités rangées par ordre croissant.

  • Variable quantitative continue : données regroupées en classes statistiques (intervalles).

Classes Statistiques (Variables Quantitatives continues)

  • Classe statistique : intervalle utilisé pour regrouper les valeurs. (Généralement fermé à gauche, ouvert à droite).

  • Amplitude () : .

  • Centre de classe () : .

  • Formules pour le nombre de classes :

    • Règle de Sturge : .

    • Règle de Yule : .

Effectifs et Fréquences Cumulées

  • Effectif cumulé croissant () : somme des effectifs des valeurs (discret) ou à la classe courante (continu). .

    • Discret : nombre d'individus ayant au plus .

    • Continu : nombre d'individus ayant moins de .

  • Fréquence cumulée croissante () : .

Représentations Graphiques

Les graphiques synthétisent les observations, proportions de longueurs ou surfaces aux effectifs/fréquences.

Caractère Qualitatif

  • Diagramme en tuyaux d'orgue (ou à bandes) : rectangles de base constante, hauteur proportionnelle à l'effectif/fréquence.

  • Diagramme circulaire (camembert ou à secteurs) : disque divisé en secteurs angulaires proportionnels aux effectifs/fréquences. Angle .

Variable Quantitative

  • Diagramme différentiel : représente les effectifs ou fréquences.

  • Diagramme intégral : représente les effectifs ou fréquences cumulés.

Variable quantitative discrète :

  • Diagramme en bâtons : segment (bâton) pour chaque valeur, hauteur proportionnelle à l'effectif/fréquence (différentiel).

  • Diagramme ou courbe cumulatif : segments dont la hauteur est proportionnelle à l'effectif/fréquence cumulée (intégral). Fonction en escalier.

Variable quantitative continue :

  • Histogramme : ensemble de rectangles contigus. L'aire est proportionnelle aux effectifs/fréquences, bases déterminées par les classes.

    • Classes de même amplitude : hauteur proportionnelle à l'effectif/fréquence.

    • Classes d'amplitudes différentes : hauteur proportionnelle à la densité d'effectif () ou densité de fréquence ().

Caractéristiques de Tendance Centrale

Valeurs autour desquelles se répartissent les observations. Elles fournissent un ordre de grandeur et s'expriment dans la même unité que les observations.

Le Mode ()

  • Définition : valeur de la variable la plus fréquente. Insensible aux valeurs extrêmes.

  • Variable quantitative discrète :

    • Dans le tableau : avec le plus grand effectif/fréquence.

    • Sur le diagramme en bâtons : bâton le plus haut.

  • Variable quantitative continue :

    • Classe modale : classe de densité maximale.

    • Mode () : valeur de la variable associée à l'effectif (ou fréquence) le plus élevé par unité d'amplitude. Se détermine par interpolation graphique (intersection des diagonales des trapèzes formés par les rectangles de l'histogramme).

La Médiane ()

  • Définition : valeur du caractère qui partage la série en deux sous-ensembles égaux (50% inférieurs, 50% supérieurs). La série doit être ordonnée. Condition : .

  • Données non groupées :

    • Nombre impair d'observations : est la valeur centrale.

    • Nombre pair d'observations : est le centre de l'intervalle médian.

  • Données groupées (discrètes) : repérer dans les fréquences cumulées croissantes . Si est entre deux lignes, est la de la ligne la plus basse.

  • Données groupées (continues) :

    • Classe médiane : classe où passe ou atteint .

    • Calcul par interpolation linéaire (répartition uniforme) : .

    • Graphiquement : abscisse du point d'ordonnée sur la courbe des fréquences cumulées.

Les Quantiles

Partagent la série en plusieurs sous-ensembles égaux. S'expriment dans la même unité que les observations. Les calculs sont analogues à ceux de la médiane.

  • Quartiles () : partagent la série en 4 sous-ensembles égaux (25% chacun).

    • (équivalent à la médiane)

  • Déciles () : partagent la série en 10 sous-ensembles égaux (10% chacun).

    • ; ; ... ;

  • Centiles ou Percentiles () : partagent la série en 100 sous-ensembles égaux (1% chacun).

    • ; ... ;

La Moyenne Arithmétique ()

  • Définition : Somme des valeurs observées divisée par le nombre d'observations. Sensible aux valeurs extrêmes.

  • Variable quantitative discrète : .

  • Variable quantitative continue : (utiliser les centres de classe ).

Autres Moyennes

L'on utilise d'autres moyennes pour des situations spécifiques.

  • Moyenne Géométrique () : racine du produit des valeurs positives. Utilisée pour les taux d'accroissement ou coefficients multiplicateurs.

  • Moyenne Harmonique () : l'inverse de est la moyenne arithmétique des inverses des valeurs. . Utilisée pour moyennes de pourcentages, ratios, durées ou vitesses moyennes.

    • Règle :

      • Phénomène varie comme la variable Moyenne Arithmétique.

      • Phénomène varie comme l'inverse de la variable Moyenne Harmonique.

  • Moyenne Quadratique () : racine carrée de la moyenne arithmétique des carrés des observations. .

  • Moyenne d'ordre () : généralisation. .

    • Relation d'ordre : .

Caractéristiques de Dispersion

Mesurent l'étalement des observations autour d'une valeur centrale, complètent les caractéristiques de tendance centrale.

Étendue ()

  • Définition : différence entre la plus grande et la plus petite valeur observée. .

Intervalles Inter-Quantiles

Permettent d'étudier la dispersion en évitant les valeurs extrêmes aberrantes.

  • Intervalle inter-quartile () : . Contient des observations autour de la médiane. Faible signifie faible dispersion.

  • Intervalle inter-décile () : . Contient des observations autour de la médiane.

  • Boîte à moustaches (Box Plot) : Représentation graphique utilisant les quartiles pour visualiser la distribution et la dispersion.

    • Boîte : entre et , médiane tracée à l'intérieur.

    • Moustaches :

      • Supérieure : .

      • Inférieure : .

    • Valeurs aberrantes : représentées par des étoiles au-delà des moustaches.

Écarts Moyens Absolus

Moyenne arithmétique des écarts par rapport à une valeur centrale, en valeur absolue.

  • Formule générale : .

  • Écart absolu moyen par rapport à la moyenne : .

  • Écart absolu moyen par rapport à la médiane : . C'est l'écart absolu moyen minimum.

Variance () et Écart-Type ()

Mesurent la dispersion autour de la moyenne arithmétique. Expriment l'homogénéité d'une série.

  • Variance : moyenne arithmétique des carrés des écarts à la moyenne arithmétique. .
    Formule développée (Kœnig) : .

  • Écart-type : racine carrée de la variance. . S'exprime dans la même unité que les observations.

  • Une série est d'autant plus dispersée que sa variance (et son écart-type) est élevée.

Coefficient de Variation ()

  • Définition : nombre sans dimension, rapport de l'écart-type sur la moyenne arithmétique. .

  • Utilisé pour comparer la dispersion de deux séries :

    • Quand les unités d'observations sont différentes.

    • Quand les moyennes sont différentes mais l'unité est la même.

  • Inférieur à bonne homogénéité.

Moments d'une Série Statistique

Généralisation des caractéristiques comme la moyenne et la variance.

  • Moment général d'ordre par rapport à : .

  • Moment simple d'ordre () : si . . Note : .

  • Moment centré d'ordre () : si . . Note : .

Caractéristiques de Forme

Décrivent l'allure de la courbe des fréquences (asymétrie et aplatissement).

Asymétrie

Indique si les observations sont également dispersées des deux côtés d'une valeur centrale.

  • Série symétrique : .

  • Courbe oblique : non symétrique. L'obliquité est du côté de la décroissance la plus forte.

  • Coefficients d'asymétrie (pour séries uni-modales, grand nombre d'observations) :

    • Coefficient de Yule () : .

      • symétrique.

      • oblique à gauche (étalée à droite).

      • oblique à droite (étalée à gauche).

    • Coefficient de Pearson () : pour séries faiblement asymétriques. .

      • symétrique.

      • oblique à gauche.

      • oblique à droite.

    • Coefficient de Fisher () : .

      • symétrique.

      • oblique à gauche.

      • oblique à droite.

Aplatissement (Kurtosis)

Compare l'aplatissement de la courbe des fréquences à celui d'une courbe normale.

  • Plati-curtique : plus aplatie que la normale. Forte variation de variable faible variation des fréquences.

  • Lepto-curtique : moins aplatie que la normale.

  • Coefficients d'aplatissement :

    • Coefficient de Pearson () : .

      • série normale.

      • plati-curtique.

      • lepto-curtique.

    • Coefficient de Fisher () : .

      • normale.

      • plati-curtique.

      • lepto-curtique.

Mesure de la Concentration

Évalue les inégalités de répartition pour des variables continues et positives (ex: salaires, revenus).

Méthode par le Calcul

Consiste à comparer la médiane et la médiale.

  1. Calculer la médiane ().

  2. Calculer la médiale ().

  3. Mesurer l'écart .

  4. Comparer à l'étendue .

Définition de la médiale () :

  • Valeur de la variable qui partage la série sur les valeurs globales relatives cumulées croissantes () en deux sous-ensembles égaux.

  • Valeur globale relative () : . Souvent en pourcentage .

  • Valeur globale relative cumulée croissante () : .

  • La médiale () est toujours supérieure ou égale à la médiane ().

Interprétation de la concentration :

Rapport :

  • Grand rapport forte concentration.

  • Petit rapport faible concentration.

  • égalité parfaite.

Méthode par les Graphes (Courbe de Lorenz ou Courbe de Concentration)

  • Construite sur un repère orthonormé avec les fréquences cumulées croissantes () en abscisse et les valeurs globales relatives cumulées croissantes () en ordonnée.

  • Le carré est appelé "carré de Gini".

  • Plus la courbe s'écarte de la bissectrice (ligne d'égalité parfaite), plus la concentration est forte.

Indice de Gini ()

  • Définition : ratio de deux surfaces. .

  • Varie de (concentration nulle, égalité parfaite) à (concentration maximale).

  • Méthodes de calcul graphiques : (pour et en pourcentage)

    • Méthode des trapèzes : .

    • Méthode des triangles : .

  • Les deux méthodes donnent le même résultat.

Inizia un quiz

Testa le tue conoscenze con domande interattive