Statistique Descriptive
Kart yokStatistique descriptive : indices de position, dispersion et graphiques
Introduction à la Statistique Descriptive
La statistique descriptive est la **première étape** du travail statistique. Elle vise à résumer et présenter *fidèlement* les données brutes.
Objectifs Clés :
- Classer et Condenser les résultats (tableaux, graphiques).
- Obtenir une vision globale de la série statistique.
- Utiliser des indices pour décrire la position et la dispersion.
- Permettre les comparaisons.
- Dépend de la nature des données (qualitatives ou quantitatives).
Nature des Caractères Étudiés
La manière de traiter l'information dépend fortement de sa nature.
Caractères Qualitatifs :
- Ordinal : Les modalités peuvent être ordonnées (ex: bandelettes U : 0, +, ++, +++).
- Nominal : Les modalités ne peuvent pas être ordonnées (ex: sexe, couleur des yeux, statut marital).
Caractères Quantitatifs :
- Discret : Ne peut prendre qu'un nombre fini ou dénombrable de valeurs isolées (ex: nombre d'enfants, nombre d'ovocytes).
- Continu : Peut prendre toute valeur dans un intervalle donné (ex: poids, taille, IMC, tension artérielle).
- Date : Un type spécifique souvent traité à part.
Transformation des Données :
- Un caractère continu peut être rendu qualificatif (ex: TA mesurée vs. statut hypertendu oui/non).
- Un caractère continu peut être regroupé en classes (ex: temps de gestation : avant 33 SA, entre 33 et 37 SA, 37 SA et plus).
Convention de Notation
- : Taille de la population.
- : Taille de l'échantillon observé.
- et : Caractères définis dans la population.
- et : Caractères définis dans l'échantillon.
- et : Valeurs observées chez le sujet .
Présentation de l'Information
L'information brute (une série de données) est organisée pour la rendre lisible.
Tableaux de Distribution des Fréquences :
- Permettent une mise en forme immédiate pour les données qualitatives et quantitatives.
- : Fréquence absolue (nombre d'occurrences).
- : Fréquence relative (proportion).
Caractère Qualitatif :
Statut marital Célibataire 30 0,25 Pacs 18 0,15 Caractère Quantitatif :
- Nécessite souvent une transformation des données par répartition en classes.
Âge (années) 15 - 24 246 0,31 25 - 34 272 0,34
Indices de Position (Mesures de Valeurs Centrales)
Ces indices décrivent le "centre" ou la "tendance centrale" des données.
Le Mode :
- Définition : La valeur la plus fréquemment rencontrée dans la série.
- Détermination : Par identification et comptage des valeurs distinctes.
- Unité : Identique à celle de la série.
- Une série peut avoir plusieurs modes (multimodale) ou aucun.
La Médiane :
- Définition : La valeur seuil qui partage la série ordonnée en deux groupes de même effectif (50% des données sont en dessous, 50% au-dessus).
- Détermination : La série doit être impérativement ordonnée.
- Si est impair () : la médiane est la valeur centrale.
- Si est pair () : la médiane est la moyenne des deux valeurs centrales. .
- Unité : Identique à celle de la série.
- Peu sensible aux valeurs extrêmes (outliers).
La Moyenne Arithmétique :
- Notation :
- pour la population.
- ou pour l'échantillon.
- Définition : La somme de toutes les valeurs divisée par le nombre de valeurs (effectif).
- Calcul :
- Échantillon : .
- Population : .
- Avec données en classes d'effectif : .
- Unité : Identique à celle de la série.
- Propriétés :
- Si , alors .
- Si , alors .
- Très sensible aux valeurs extrêmes.
- Notation :
Les Quantiles
Les quantiles sont des valeurs seuils qui partagent la série ordonnée en plusieurs parties égales.
- Définition : Sur une série ordonnée, une valeur seuil qui partage la série en deux groupes : une proportion des données en dessous et une proportion au-dessus de cette valeur.
- Détermination : La série doit être ordonnée.
- Unité : Identique à celle de la série.
Types de Quantiles :
- Quartiles () : Divisent la série en 4 parties égales.
- (p=0,25) : 25% des valeurs sont inférieures ou égales à .
- (p=0,50) : C'est la médiane.
- (p=0,75) : 75% des valeurs sont inférieures ou égales à .
- Déciles ( à ) : Divisent la série en 10 parties égales (ex: pour p=0,10).
- Percentiles ( à ) : Divisent la série en 100 parties égales (ex: pour p=0,01).
- Quartiles () : Divisent la série en 4 parties égales.
Indices de Dispersion
Ces indices décrivent la variabilité ou l'étalement des données autour de leur tendance centrale.
L'Étendue :
- Définition : L'écart entre la valeur maximale () et la valeur minimale () de la série.
- Calcul : Étendue = .
- Simple mais très sensible aux valeurs extrêmes.
La Variance :
- Notation :
- pour la population.
- pour l'échantillon.
- Principe : Quantifier l'écart au carré moyen entre chaque valeur et la moyenne. La somme des écarts non carrés est toujours nulle.
- Calcul :
- Échantillon : .
- Population : .
- Avec données en classes : .
- Unité : Le carré de l'unité de la série (ex: années²).
- Propriétés :
- Si , alors . (L'ajout d'une constante ne change pas la dispersion).
- Si , alors .
- La variance est en unités carrées, rendant son interprétation directe parfois difficile.
- Notation :
L'Écart-type :
- Notation :
- pour la population.
- pour l'échantillon.
- Calcul : La racine carrée de la variance. .
- Unité : Même unité que celle de la série (ex: ans).
- C'est l'indice de dispersion le plus couramment utilisé car il est dans la même unité que les données originales, facilitant l'interprétation.
- Notation :
Graphiques
Les graphiques sont des représentations visuelles des données pour faciliter leur compréhension.
Caractère Qualitatif :
- Diagramme en Bâtons (ou en Barres) :
- Hauteur des bâtons représente l'effectif () ou la fréquence relative ().
- Les figurés (bâtons) sont disjoints car il n'y a pas de continuité entre les classes.
- Diagramme en Secteurs (Camembert) :
- L'aire de chaque secteur est proportionnelle à la fréquence relative ().
- L'ensemble du disque représente 360°, et chaque angle de classe = .
- Les figurés sont joints, la totalité du disque correspondant à .
- Diagramme en Bâtons (ou en Barres) :
Caractère Quantitatif Discret :
- Souvent représenté de la même manière qu'un caractère qualitatif, avec des diagrammes en bâtons.
Caractère Quantitatif Continu :
- Histogramme :
- Nécessite de découper la distribution continue en classes (intervalles contigus, sans chevauchement, généralement d'étendues égales).
- Amplitude = étendue / nombre de classes.
- La hauteur du rectangle est proportionnelle à la fréquence relative () ou à l'effectif () si l'amplitude des classes est constante.
- Les rectangles sont joints pour montrer la continuité du caractère.
- Polygone de Fréquences : Souvent tracé en joignant les points centraux de la partie supérieure des rectangles d'un histogramme.
- Courbe de Fréquences Cumulées (Ogive) : Obtient la fréquence relative cumulée () par sommation successive des .
- Histogramme :
Indices de Position & Distribution
- La relation entre la moyenne, la médiane et le mode peut donner des indications sur la forme de la distribution :
- Moyenne Médiane Mode : Distribution dissymétrique à gauche (queue de distribution à gauche).
- Mode Médiane Moyenne : Distribution dissymétrique à droite (queue de distribution à droite).
- Si Moyenne Médiane Mode : Distribution symétrique.
Conclusion
La statistique descriptive est une étape fondamentale de l'analyse statistique, qui permet de :
- Évaluer l'ordre de grandeur et la variabilité des caractères étudiés.
- Contrôler la qualité des informations.
- Synthétiser et présenter les données de manière claire.
- Orienter la démarche de l'analyse statistique ultérieure.
Statistique Descriptive
La statistique descriptive est la première étape du travail statistique. Elle consiste à collecter, organiser, résumer et présenter les données d'une manière significative, afin de donner une vision globale et de faciliter l'interprétation. Les données brutes issues d'observations ou d'expériences sont transformées en informations condensées et fidèles, souvent sous forme de tableaux et de graphiques.
Nature des Caractères Étudiés
Les caractéristiques (variables) que l'on étudie peuvent être de différentes natures, ce qui influence leur traitement statistique et leur représentation.
Caractères Qualitatifs
Ces caractères décrivent une qualité ou une catégorie et ne sont pas mesurables numériquement.
Ordinal : Les modalités peuvent être ordonnées. Ex : bandelettes urinaires (0,+,++,+++), niveau de douleur (faible, moyen, fort).
Nominal : Les modalités ne peuvent pas être ordonnées. Ex : sexe, couleur des yeux, statut marital.
Caractères Quantitatifs
Ces caractères sont mesurables numériquement et expriment une quantité.
Discret : Les valeurs possibles sont dénombrables et souvent entières. Ex : nombre d'enfants, nombre d'ovocytes.
Continu : Les valeurs possibles peuvent prendre n'importe quelle valeur dans un intervalle donné. Ex : poids, taille, indice de masse corporelle (IMC), tension artérielle (TA).
Date : Un type spécial de donnée qui peut être traité comme quantitatif ou catégorique selon le contexte.
Dépendance du Traitement
La nature d'une donnée peut dépendre de la manière dont elle est traitée :
Exemple du temps de gestation humaine (en nombre de semaines d'aménorrhée) :
avant 33 SA
entre 33 et 37 SA
37 SA et +
grand et TG prématuré
prématuré
Non prématuré
Ici, une variable quantitative continue (semaines d'aménorrhée) est transformée en variable qualitative ordinale (catégories de prématurité).
Exemple de la tension artérielle (TA) : Elle peut être une valeur mesurée (quantitative continue) ou transformée en un statut hypertendu (oui/non) (qualitative nominale).
Principe de Notation
Pour faciliter la compréhension et les calculs, des conventions de notation sont utilisées :
: taille de la population totale.
: taille de l'échantillon observé.
et : caractères (variables) définis dans la population.
et : caractères (variables) définis dans l'échantillon.
et : valeurs observées chez le sujet .
Présentation de l'Information
L'information brute sous forme de série statistique (ex: 125, 178, 169, ...) est difficilement exploitable. Elle doit être organisée.
Tableaux de Distribution des Fréquences
Les tableaux permettent de condenser l'information.
Pour un caractère Qualitatif : La mise en forme est immédiate.
: fréquence absolue (nombre d'occurrences de la modalité ).
: fréquence relative (proportion d'occurrences de la modalité ).
Exemple : 120 sujets buveurs excessifs, statut marital
Statut marital
Célibataire
30
0,25
Pacs
18
0,15
Marié
24
0,20
Divorcé
36
0,30
Veuf
12
0,10
Pour un caractère Quantitatif : Nécessite souvent une transformation des données en classes de répartition. Exemple : 800 patients vus en consultation
Âge (années)
15 - 24
246
0,31
25 - 34
272
0,34
35 - 44
157
0,19
45 - 54
85
0,11
55 - 64
40
0,05
Indices Statistiques
Les indices permettent de résumer numériquement les caractéristiques principales d'une série statistique. Ils se divisent en indices de position et indices de dispersion.
Indices de Position (Mesures de Tendance Centrale)
Ces indices décrivent la position "centrale" ou "typiqued" des données.
Le Mode
Définition : Le mode est la valeur la plus fréquemment rencontrée dans une série statistique.
Détermination : Il s'identifie en comptant les occurrences de chaque valeur distincte.
Unité : Identique à celle de la série.
Exemple : Série d'âges (10 femmes en consultation pour infertilité) : 37, 29, 31, 39, 38, 35, 34, 33, 35, 32.
Dans cette série, la valeur 35 apparaît deux fois, les autres une seule fois. Le mode est 35 ans.
La Médiane
Définition : La médiane est la valeur seuil qui partage la série ordonnée en deux groupes de même effectif. La moitié des données est inférieure ou égale à la médiane, l'autre moitié est supérieure ou égale.
Détermination :
La série doit d'abord être ordonnée par ordre croissant.
Si (effectif) est impair (), la médiane est la valeur centrale, soit la -ième valeur.
Si est pair (), la médiane est la moyenne des deux valeurs centrales, soit la moyenne de la -ième et de la -ième valeur. \bar{x} = \frac{\sum x_i}{n} " data-type="inline-math"> \mu = \frac{\sum X_i}{N} " data-type="inline-math"> \bar{x} = \frac{\sum n_i x_i}{n} = \sum f_i x_i " data-type="inline-math"> \text{Étendue} = x_{\max} - x_{\min} " data-type="inline-math"> s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} " data-type="inline-math">$ Note : On divise par pour un échantillon car cela donne un estimateur non biaisé de la variance de la population.
Pour une population : \sum (x_i - \bar{x})^2 = \sum x_i^2 - \frac{(\sum x_i)^2}{n} " data-type="inline-math">$ D'où :
Pour un échantillon : \sigma^2 = \frac{\sum X_i^2 - \frac{(\sum X_i)^2}{N}}{N} " data-type="inline-math"> s^2 = \frac{1}{n - 1} \left( \sum n_i x_i^2 - \frac{(\sum n_i x_i)^2}{n} \right) " data-type="inline-math"> \sigma^2 = \frac{1}{N} \left( \sum N_i X_i^2 - \frac{(\sum N_i X_i)^2}{N} \right) " data-type="inline-math"> s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} = \frac{90,1}{10-1} = \frac{90,1}{9} = \text{10,01 années}^2 " data-type="inline-math"> s = \sqrt{s^2} " data-type="inline-math"> s = \sqrt{10,01} \approx \text{3,16 ans} " data-type="inline-math">$
Graphiques
Les graphiques sont des représentations visuelles des données qui facilitent la compréhension rapide des distributions et des comparaisons.
Graphiques pour Caractères Qualitatifs
Diagramme en Bâtons
Utilisé pour les caractères qualitatifs (nominaux ou ordinaux) ou quantitatifs discrets.
La hauteur des bâtons représente l'effectif () ou la fréquence relative () de chaque modalité (classe).
Les bâtons sont disjoints, soulignant l'absence de continuité entre les catégories.
Exemple : Nombre d'enfants de 234 femmes
Diagramme Circulaire (Secteurs)
Utilisé pour les caractères qualitatifs nominaux, particulièrement lorsque le nombre de catégories n'est pas trop élevé.
L'aire de chaque secteur est proportionnelle à la fréquence relative () de la catégorie.
L'ensemble de la série représente 360°. L'angle de chaque secteur est calculé par .
Les secteurs sont joints et couvrent la totalité du disque, représentant l'ensemble des observations ().
Exemple : Statut marital de 120 sujets
Statut marital
Célibataire
30
0,25
Pacs
18
0,15
Marié
24
0,20
Divorcé
36
0,30
Veuf
12
0,10
Graphiques pour Caractères Quantitatifs
Caractère Quantitatif Discret
La représentation est similaire au diagramme en bâtons pour les caractères qualitatifs.
Les bâtons sont disjoints.
Exemple : Nombre d'enfants chez 117 femmes atteintes d'un cancer du sein
Nombre d'enfants
1
28
0,24
2
39
0,33
3
26
0,22
4
14
0,12
5
9
0,08
6
1
0,01
Caractère Quantitatif Continu : Histogramme
Pour représenter une distribution continue, on la découpe en intervalles contigus (classes), généralement d'égales étendues et sans chevauchement.
Chaque classe correspond à un rectangle.
L'amplitude d'une classe peut être calculée comme : .
Construction des classes :
La hauteur du rectangle est proportionnelle à la fréquence relative () ou à l'effectif () si l'amplitude des classes est constante. S'il y a des amplitudes de classes inégales, c'est l'aire qui est proportionnelle à la fréquence.
Par sommation successive des , on peut calculer la fréquence relative cumulée , utile pour le calcul des quantiles.
Les rectangles sont joints, soulignant la continuité de la variable.
Relation entre Indices de Position et Distribution
La position relative de la moyenne, médiane et mode peut donner une indication sur la forme de la distribution (symétrique ou asymétrique).
Si la distribution est symétrique (ex: distribution normale), alors Mode Médiane Moyenne.
Si la distribution est asymétrique à gauche (étalée vers les valeurs faibles) : Moyenne Médiane Mode.
Si la distribution est asymétrique à droite (étalée vers les valeurs élevées) : Mode Médiane Moyenne.
Conclusion
La statistique descriptive est une phase fondamentale de toute approche statistique. Elle vise à :
Évaluer l'ordre de grandeur et la variabilité des caractères étudiés.
Contrôler la qualité des informations collectées.
Synthétiser et présenter les données de manière claire et compréhensible.
Orienter la démarche de l'analyse ultérieure (statistique inférentielle).
Bir quiz başla
Bilgini etkileşimli sorularla test et