Statistique Descriptive : Concepts et Méthodes
59 kartCe document couvre les bases de la statistique descriptive, y compris la présentation des données, les mesures de tendance centrale et de dispersion, ainsi que les types de variables. Il est destiné aux étudiants en médecine.
59 kart
La Statistique Descriptive en Épidémiologie: Cours du Pr. Khawla Boumaraf (2025-2026)
Ce cours de statistique descriptive vise à doter les étudiants de 6ème année de médecine des outils nécessaires pour comprendre, organiser, résumer et analyser les phénomènes de santé. L'objectif est d'apprendre les techniques fondamentales de la statistique descriptive et de savoir les appliquer de manière pertinente dans un contexte épidémiologique.1. Introduction à la Statistique
La statistique est une méthode scientifique rigoureuse permettant de collecter, analyser, commenter et critiquer des données chiffrées issues d'ensembles nombreux. Il est crucial de ne pas la confondre avec une statistique (au singulier), qui est une mesure descriptive obtenue à partir d'observations. Son but principal est de synthétiser des bases de données volumineuses. La méthode statistique se divise en deux branches principales : 1. Statistique descriptive ou déductive: Ensemble des méthodes pour recueillir, ordonner, réduire et condenser les données. Elle utilise des paramètres, des tableaux synthétiques, des graphiques et des méthodes d'analyse de données (grandement facilitées par l'outil informatique). Elle répond aux questions "Qui ?", "Quand ?", "Où ?" concernant un phénomène. 2. Statistique inférentielle ou inductive: Ensemble des méthodes permettant de faire des prévisions et des généralisations sur une population entière à partir des résultats obtenus sur un échantillon. Elle opère par raisonnement inductif (du particulier au général) et s'appuie sur des modèles théoriques (lois de probabilités).2. Vocabulaire Fondamental de la Statistique
Pour toute étude statistique, une compréhension précise du vocabulaire est essentielle :- Population: L'ensemble de tous les individus (ou unités statistiques) partageant un caractère commun et pertinents pour l'étude. Elle doit être exhaustive.
- Exemple: La population de la wilaya d'Alger.
- Taille de la population (): Le nombre total d'individus dans la population.
- Unité statistique (ou Individu): L'élément de base qui constitue la population.
- Exemple: Une personne âgée entre 0 et 100 ans habitant Alger.
- Échantillon: Un sous-ensemble construit de manière à être représentatif d'une population donnée (la population mère).
- Taille de l'échantillon (): Le nombre d'individus sélectionnés dans l'échantillon.
- Caractère (ou Variable): Une propriété ou une caractéristique susceptible de prendre différents états (valeurs) selon les individus, le temps ou le lieu observés.
- Exemples: Sexe, âge, poids, taille, groupe sanguin, tension artérielle.
- Chaque variable doit être clairement définie pour éviter toute ambiguïté (ex: le niveau socio-économique).
- Modalité: Les différents aspects ou valeurs que peut prendre un caractère (variable).
- Pour le caractère "sexe", les modalités sont "Féminin" et "Masculin".
- Pour l'âge, il existe une infinité de modalités.
2.1. Types de Variables
Les variables sont classées selon la nature de leurs modalités :A. Variable Qualitative
Un caractère est qualitatif lorsque ses modalités ne sont pas exprimées numériquement, mais par des qualités ou des catégories. Les modalités doivent être exhaustives (chaque individu peut être classé) et mutuellement exclusives (chaque individu n'appartient qu'à une seule modalité). Les opérations arithmétiques sont limitées au comptage des effectifs par modalité et au calcul de pourcentages.- Variable qualitative nominale: Les modalités sont des noms sans hiérarchie ni ordre intrinsèque.
- Exemples: Groupage sanguin (A, B, AB, O), religion, couleur des yeux.
- Un cas particulier est la variable nominale binaire (ou dichotomique), qui ne peut prendre que deux modalités.
- Exemples: État de santé (malade/sain), statut vaccinal (vacciné/non vacciné), vivant/décédé. Celles-ci sont très utilisées en épidémiologie.
- Variable qualitative ordinale: Les modalités sont des noms qui peuvent être classés ou hiérarchisés selon un ordre logique.
- Exemples: Complication d'une maladie (bénigne, modérée, sévère), niveau d'étude (primaire, secondaire, supérieur), degré de satisfaction (très satisfait, satisfait, peu satisfait, pas satisfait).
B. Variable Quantitative
Un caractère est quantitatif lorsque ses modalités sont exprimées par des valeurs numériques, souvent associées à une unité de mesure. Toutes les opérations arithmétiques (dénombrement, pourcentages, moyenne, médiane, écart-type, modélisation) sont applicables.- Variable quantitative discrète: Prend des valeurs isolées, le plus souvent des nombres entiers. Il n'y a pas de valeurs intermédiaires possibles entre deux modalités consécutives.
- Exemples: Nombre d'enfants dans une famille (0, 1, 2, ...), nombre de lits par hôpital, nombre de crises par jour.
- Les modalités peuvent être regroupées en classes si nécessaire.
- Variable quantitative continue: Peut prendre une infinité de valeurs au sein d'un intervalle donné.
- Exemples: Âge (peut être mesuré en années, mois, jours, heures, etc.), taille (170 cm, 170.5 cm, 170.53 cm...), poids, glycémie, tension artérielle.
- Pour l'étude de ces caractères, on regroupe souvent les modalités en classes (intervalles).
- Exemple: Les âges de 0 à 4 ans peuvent être regroupés dans la classe .
- Chaque classe est définie par : son amplitude (la largeur de l'intervalle), ses limites (inférieure et supérieure), et son centre de classe (point milieu de l'intervalle).
2.2. Effectifs et Fréquences
Une des premières étapes de la statistique est le recensement du nombre (effectif) ou du pourcentage (fréquence) d'individus présentant une modalité spécifique d'une variable.- Effectif (ou Fréquence absolue): Le nombre d'individus d'une population ou d'un échantillon qui possèdent une modalité donnée.
- Fréquence relative: Le rapport entre deux fréquences absolues. Elle peut être exprimée de différentes manières:
- Proportion: Le numérateur est inclus dans le dénominateur. C'est un nombre entre 0 et 1, ou un pourcentage (%).
- Exemple: enfants vaccinés sur enfants total .
- Ratio: Le numérateur et le dénominateur sont de même nature mais sont mutuellement exclusifs. S'exprime sans unité.
- Exemple: hommes / femmes (ratio H/F), soit 2 hommes pour 1 femme.
- Taux: Un rapport qui intègre la dimension temps, mesurant la probabilité de survenue d'un événement sur une période donnée.
- Exemple: Taux d'incidence, taux de mortalité.
- Indice: Le rapport de deux effectifs de nature différente, utilisé comme indicateur de fonctionnement.
- Exemple: lits pour médecins dans un hôpital lits par médecin.
- Proportion: Le numérateur est inclus dans le dénominateur. C'est un nombre entre 0 et 1, ou un pourcentage (%).
2.3. Série ou Distribution Statistique
Lorsque l'on observe un ou plusieurs caractères pour l'ensemble des unités d'observation d'une population ou d'un échantillon, l'ensemble des modalités observées forme une série ou distribution statistique. Elle peut être à un, deux, ou caractères.3. Présentation des Données
La présentation des données est cruciale pour leur interprétation. Elle peut se faire de manière tabulaire, graphique ou paramétrique. Chaque présentation doit être auto-suffisante pour être comprise sans texte explicatif.3.1. Présentation Tabulaire
Un tableau organise des données en lignes et colonnes pour montrer la fréquence d'événements dans différentes catégories d'une variable.| Avantages des tableaux | Avantages des graphiques |
|---|---|
| Présentation avec précision et souplesse de données plus complexes | Simplicité et clarté |
| Préparation exigeant moins de compétences ou d'installations techniques | Images visuelles mémorables |
| Utilisation de moins d'espace pour une somme d'informations donnée | Illustration de relations complexes |
| Mettent l'accent sur les nombres | Tendance à être apprécié (publications) |
Règles pour la construction de tableaux:
- Faire des tableaux simples (2-3 petits tableaux valent mieux qu'un grand).
- Ne pas présenter plus de trois variables à la fois.
- Chaque tableau doit être auto-suffisant avec :
- Un titre clair et concis (quoi, où, quand).
- Des lignes et colonnes clairement libellées.
- Les unités de mesures indiquées.
- Les codes, abréviations et symboles expliqués en bas de page.
- Les totaux clairement affichés.
- La source mentionnée (sauf pour les données originales).
Types de tableaux:
- Tableau brut des données: Le tableau de travail élémentaire où toutes les données brutes sont listées, unité par unité et variable par variable. Les individus sont en lignes et les variables en colonnes.
Exemple:N° Prénom Sexe Date de naissance Taille (cm) Poids (kg) 1 Sami M 24/10/1978 180 70 2 Amel F 24/04/1982 160 75 3 Kamel M 20/08/1962 175 60 4 Karim M 18/05/1983 170 -
Gestion des données problématiques (surtout dans les études de grande ampleur):- Données aberrantes: Erreurs de mesure, recopiage ou saisie.
- Données manquantes: Refus, oublis ou mesures non effectuées.
- Récupérer un maximum de données manquantes.
- Double saisie pour détecter les erreurs.
- Attribuer des codes spéciaux aux données aberrantes et manquantes.
- Mentionner ces données dans tous les tableaux pour transparence et ne calculer les résultats que sur les données disponibles.
- Tableau de fréquence (ou de distribution de fréquences): Une présentation synthétique des données. Il est toujours précédé d'un titre incluant les caractéristiques de personnes, de temps et de lieu.
Exemple: Population algérienne - Recensement 2008
Source: O.N.S. / Exploitation exhaustive du recensement général de la population et de l'habitat - RGPH 2008 -Sexe Effectif (n) Fréquence relative (%) Masculin 17 232 747 72{Note: L'exemple du cours a une erreur ici, 17232747/34080030 ≈ 50.56%}Féminin 16 847 283 69{Note: L'exemple du cours a une erreur ici, 16847283/34080030 ≈ 49.44%}Total 34 080 030 100 - Tableau de contingence (ou tableau croisé): Utilisé pour étudier la relation entre deux ou plusieurs variables simultanément. Les variables sont croisées pour présenter la distribution conjointe des fréquences.
3.2. Représentation Graphique
Un graphique est une méthode visuelle d'affichage de données quantitatives en utilisant un système de dessin géométrique (souvent un rectangle avec des axes x et y). Les graphiques offrent une synthèse visuelle essentielle des informations contenues dans les tableaux statistiques. Le choix du graphique dépend de la nature de la variable.Règles pour la conception de graphiques:
- Garder les graphiques simples, sans trop d'informations.
- Chaque graphique doit être auto-suffisant avec un titre clair et concis.
- Éviter les axes interrompus (sauts d'échelle) si possible.
- Libeller clairement les axes avec les unités spécifiées.
- Les quantités égales doivent être représentées par des intervalles égaux sur un axe (ex: sur l'axe x, les catégories couvrant 10 années doivent être deux fois plus longues que celles couvrant 5 années).
- Les graphiques sont principalement utilisés pour les variables continues (temps, nombre de parasites). Pour les variables non continues (sexe, niveau d'éducation), les diagrammes en barres sont préférables aux graphiques linéaires.
Types de graphiques:
- Diagrammes en secteurs (Camembert): Diagramme circulaire utilisé pour montrer la distribution de pourcentages. Un cercle est divisé en "parts" proportionnelles à la taille de chaque catégorie. Par convention, le découpage commence à 12h00 et les parts sont ordonnées de la plus grande à la plus petite dans le sens inverse des aiguilles d'une montre. Il est idéal pour visualiser la composition d'un tout, mais devient moins lisible avec trop de catégories ou des pourcentages similaires.
- Diagrammes en bâtons ou en barres: Contiennent des barres de même largeur, dont la hauteur (ou longueur si horizontal) est proportionnelle à la fréquence (effectif ou pourcentage) de chaque catégorie. Un espace est toujours laissé entre les barres. Ils sont adaptés aux variables qualitatives (nominales ou ordinales) ou quantitatives discrètes, où les catégories ne sont pas continues (ex: sexe, état civil).
- Précision importante: Si les catégories ont une "importance" ou une "largeur" différente (par exemple, des classes d'âge irrégulières), la hauteur des barres doit être ajustée de manière à ce que la *surface* de la colonne soit proportionnelle au nombre d'individus dans la catégorie, et non seulement la hauteur.
- Histogramme: Diagramme en barres utilisé pour les variables quantitatives continues. Contrairement aux diagrammes en barres, il n'y a pas d'espace entre les barres, et la largeur de chaque barre est proportionnelle à l'amplitude de la classe qu'elle représente. La hauteur de la barre est proportionnelle à la densité de fréquence (fréquence / largeur de classe).
- Il est utilisé pour représenter le nombre de cas ou les pourcentages sur l'axe des y, mais généralement pas les taux.
- Exemple détaillé pour l'ajustement de la hauteur: Pour des catégories d'âge inégales ( an, ans, ans, ans), si la catégorie ans contient patients, et que son amplitude est de 5 ans, la hauteur de la barre sera par an. Cela assure que l'aire de la barre reflète la fréquence.
- Polygone de fréquence: Représentation graphique de la distribution de fréquence d'une variable continue. Il est créé en plaçant un point au milieu de la partie supérieure de chaque barre d'un histogramme (correspondant à la fréquence et au centre de classe ), puis en reliant ces points par une ligne continue.
- Utilités:
- Idéal pour comparer les distributions de fréquence de plusieurs groupes sur un même graphique (ex: hommes et femmes).
- Peut représenter le nombre de cas, les pourcentages, et est particulièrement recommandé pour représenter des taux.
- Utilités:
- Pyramide des âges: Graphique spécifique utilisé pour montrer la distribution par âge et par sexe d'une population. C'est l'équivalent d'un double histogramme juxtaposé et inversé horizontalement.
- L'axe horizontal représente les effectifs (hommes d'un côté, femmes de l'autre).
- L'axe vertical médian comporte les classes d'âge.
- Principalement utilisé en démographie pour appréhender rapidement la structure d'une population et la comparer.
- Carte géographique (Cartes thématiques): Diagramme où les cas sont représentés par des points sur une carte. La taille des points peut varier en fonction du nombre de cas, ou bien les zones géographiques sont hachurées/colorées en fonction du taux de prévalence ou d'incidence de la maladie étudiée. Il est essentiel pour l'analyse spatiale des phénomènes de santé.
3.3. Présentation Paramétrique (Mesures de Résumé)
L'un des principaux défis de la statistique descriptive est de résumer de grandes séries statistiques de manière simple, en conservant un maximum d'informations malgré la réduction inhérente au processus. Ceci est réalisé grâce aux paramètres de réduction.A. Mesures de Tendance Centrale
Ces mesures cherchent à situer le "centre" ou la valeur typique d'une distribution de données.- La Moyenne Arithmétique (): C'est la somme de toutes les valeurs individuelles divisée par le nombre total de valeurs. C'est la mesure de tendance centrale la plus courante, car elle est utilisée dans de nombreux tests statistiques avancés.
- Désavantage Majeur: Elle est très sensible aux valeurs extrêmes (aberrantes), ce qui peut la rendre non représentative d'une distribution asymétrique.
- Formule pour données individuelles:
- : Moyenne arithmétique
- : Somme de
- : Chaque valeur individuelle
- : Nombre total de valeurs
- Exemple: Moyenne de (12, 15, 7, 13, 8) .
- Formule pour données groupées en classes (distribution de fréquences):
- : Fréquence (effectif) de l'événement dans la classe .
- : Point central (milieu) de l'intervalle de la classe .
- : Nombre total de valeurs.
- Exemple (Hb en gr/ml):
Moyenne gr/ml.HB en gr/ml Nombre de cas () : point central 8.0 – 8.9 2 8.45 (si intervalle est [8.0; 9.0[) ou 8.5 (si [8.0; 8.9]) 17.0 ... ... ... ... Total Somme
- La Médiane (Me): La valeur qui divise un jeu de données classées en deux groupes de taille égale: 50% des valeurs sont inférieures à la médiane, et 50% sont supérieures.
- Avantage Majeur: Elle est insensible aux valeurs extrêmes, ce qui en fait une mesure de choix pour les distributions asymétriques.
- Calcul pour données individuelles:
- Classer les valeurs par ordre de grandeur (ascendant ou descendant).
- Identifier la position de la médiane par la formule: .
- Si est impair, la médiane est la valeur à cette position.
- Exemple: (7, 8, 11, 12, 15), . Position . La 3ème valeur est 11.
- Si est pair, la médiane est la moyenne des deux valeurs centrales.
- Exemple: (7, 8, 12, 13, 15, 18), . Position . La médiane est .
- Exemple (valeurs centrales identiques): (7, 8, 12, 12, 15, 18), . Position . La médiane est .
- Calcul pour données groupées (distribution de fréquences):
- Calculer la position de la valeur médiane: .
- Localiser la classe qui contient cette position à l'aide des fréquences cumulées.
- Appliquer la formule:
- : Limite inférieure de la classe médiane (classe contenant la valeur centrale).
- : (Position de la médiane) - (Fréquence cumulée de la classe précédant la classe médiane).
- : Amplitude de la classe médiane.
- : Fréquence (effectif) de la classe médiane.
- Position: .
- Supposons que la 21ème observation se situe dans la classe .
- L = 10.
- (fréquence cumulée avant la classe médiane) = 6.
- J = .
- W (amplitude de la classe ) = 2.
- f (fréquence de la classe ) = 23.
- Médiane gr/ml.
- Le Mode (Mo): La valeur (ou la modalité) qui apparaît le plus fréquemment dans un jeu de données. Une distribution peut avoir un mode (unimodale), deux modes (bimodale) ou plusieurs modes (multimodale).
- Avantage: Peut être utilisé pour tous les types de variables (qualitatives et quantitatives).
- Désavantage: Peut ne pas être unique ou ne pas exister dans certaines distributions.
- Exemple: Dans (12, 15, 18, 7, 12, 8, 3, 19, 2), le mode est 12 (apparaît 2 fois).
- Exemple: Dans (12, 15, 12, 3, 18, 7, 12, 8, 3, 15, 19, 3, 2), les modes sont 3 et 12 (apparaissent 3 fois chacun).
-
- : Limite inférieure de la classe modale (classe avec l'effectif le plus élevé).
- : Fréquence de la classe modale.
- : Fréquence de la classe précédant la classe modale.
- : Fréquence de la classe suivant la classe modale.
- : Amplitude de la classe modale.
Formule du mode pour données groupées (classe modale) :
B. Mesures de Dispersion
Ces mesures décrivent la variabilité ou l'étalement des données autour de la tendance centrale.- L'Étendue (E): La différence entre la plus grande () et la plus petite () valeur observée.
- Formule: .
- Exemple: Pour (3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10), l'étendue est .
- Inconvénient: Ne prend en compte que les valeurs extrêmes et ne donne aucune information sur la répartition des autres valeurs.
- La Variance ( ou ): Mesure la dispersion des observations autour de la moyenne. Elle est basée sur la moyenne des carrés des écarts à la moyenne.
- La somme des écarts à la moyenne est toujours nulle, c'est pourquoi on met ces écarts au carré.
- Formule pour données individuelles: (pour un échantillon, est appelé correction de Bessel pour un estimateur sans biais). Pour une population, on utilise .
- Formule pour données groupées en classes: où sont les centres de classes et l'effectif de la classe.
- Une formule de calcul simplifiée (pour données groupées):
- L'Écart-type ( ou ): La racine carrée de la variance. Il s'exprime dans la même unité de mesure que la variable originale, ce qui le rend plus interprétable que la variance.
- Formule: .
- Interprétation:
- Si toutes les observations ont la même valeur, l'écart-type est .
- Plus les observations sont dispersées autour de la moyenne, plus l'écart-type est grand.
- Un petit écart-type indique que les valeurs sont proches de la moyenne (homogénéité), un grand écart-type indique une grande dispersion (hétérogénéité).
- Étapes de calcul de l'écart-type:
- Calculer la moyenne .
- Calculer la différence entre chaque observation et la moyenne ().
- Élever chaque différence au carré ().
- Additionner tous ces carrés ().
- Diviser la somme obtenue par (pour un échantillon) ou (pour une population). Ceci donne la variance.
- Prendre la racine carrée du résultat obtenu.
- Le Coefficient de Variation (CV): Mesure de dispersion relative, exprimée en pourcentage. Permet de comparer la variabilité de deux séries de données ou de deux variables différentes, même si elles sont exprimées dans des unités différentes ou ont des moyennes très différentes.
- Formule: où est l'écart-type et est la moyenne.
- Les Quartiles (Q1, Q2, Q3) et l'Intervalle Interquartile (IQ):
Les quartiles sont trois valeurs qui divisent une distribution de données ordonnées en quatre parties égales, chacune contenant 25% des observations.
- Premier Quartile (Q1): Sépare le 25% inférieur des données des 75% supérieurs.
- Deuxième Quartile (Q2): Correspond à la Médiane, séparant les 50% inférieurs des 50% supérieurs.
- Troisième Quartile (Q3): Sépare le 75% inférieur des données des 25% supérieurs.
- Intervalle Interquartile (IQ): La différence entre le troisième et le premier quartile (). Il représente l'étendue des 50% centraux des données, et est résistant aux valeurs extrêmes.
- Calcul des quartiles pour données groupées: Similaire à celui de la médiane, en remplaçant par pour et par pour .
- Où est la limite inférieure de la classe quartile, la fréquence cumulée avant cette classe, l'effectif de la classe quartile, et son amplitude.
4. Conclusion et Récapitulatif des Paramètres
La statistique descriptive permet de brosser un "portrait" du phénomène étudié en répondant aux questions fondamentales de l'épidémiologie :- Qui sont concernés ? (Caractéristiques de personnes)
- Quand le phénomène est-il survenu ? (Caractéristiques de temps)
- Où le phénomène est-il survenu ? (Caractéristiques de lieu)
Tableau Récapitulatif des Paramètres de Réduction et Dispersion (Note: les formules présentées sont généralement pour des échantillons et peuvent varier légèrement pour les populations).
| Type de paramètre | Données individuelles | Données groupées |
|---|---|---|
| PARAMÈTRES DE TENDANCE CENTRALE | ||
| Moyenne () | ( = effectif, = centre de classe) |
|
| Médiane (Me) | Position : | ( = limite inf., = cumulée avant) |
| Mode (Mo) | Valeur la plus fréquente | Classe modale (max ) ( = limite classe modale, = fréquence modale, = amplitude) |
| PARAMÈTRES DE DISPERSION | ||
| Étendue (E) | = borne sup. - borne inf. | |
| Variance ( ou ) | (pour population) ou (pour échantillon) | (pour population) ou (pour échantillon) |
| Écart-type ( ou ) | ||
| Coeff. variation (CV) | ||
| Intervalle interquartile (IQ) | ( = limite classe quartile) |
|
Symboles courants:
- : Effectif total ( pour échantillon, pour population)
- : Valeur individuelle ou centre de classe
- : Effectif/fréquence de la classe
- : Limite inférieure de la classe /classe modale
- : Fréquence cumulée de la classe précédant la classe
- : Amplitude de la classe
- : 1er et 3ème quartiles
Note: Les formules pour les données groupées sont valables pour des classes de même amplitude. Pour des classes inégales, il convient d'utiliser l'amplitude réelle de chaque classe dans les calculs appropriés.
5. Glossaire des Termes Clés
Voici un récapitulatif des termes importants abordés dans ce cours de statistique descriptive:- Variable (quantitative, qualitative)
- Population et échantillon
- Données (collecte, saisie)
- Effectif et fréquence
- Tableau de distribution
- Représentation graphique (histogramme, diagramme)
- Mesures de tendance centrale (moyenne, médiane, mode)
- Mesures de dispersion (variance, écart-type, étendue)
- Quartiles et percentiles
- Série statistique
- Données aberrantes
- Données manquantes
Statistique Descriptive : Aide-Mémoire
La statistique descriptive est une méthode scientifique qui vise à organiser, résumer et analyser des données chiffrées pour comprendre et décrire des phénomènes, notamment en santé publique.
1. Objectifs Pédagogiques
Maîtriser la statistique comme science et méthode.
Appliquer les techniques de statistique descriptive (organisation, résumé, analyse).
Mettre en œuvre ces techniques en fonction du contexte.
2. Définitions Fondamentales
Statistique : Science de collecte, analyse, commentaire et critique de données chiffrées en grands ensembles.
Une statistique : Mesure descriptive obtenue d'observations (ne pas confondre avec la science).
Deux types de statistique :
Descriptive (déductive) : Recueillir, ordonner, réduire, condenser les données (tableaux, graphiques, paramètres).
Inférentielle (inductive) : Faire des prévisions, des interpolations sur une population à partirdes résultats recueillis sur un échantillon (raisonnement du particulier au général, utilise les lois de probabilités).
Vocabulaire :
Population : Ensemble exhaustif d'individus (ou unités statistiques) ayant un caractère commun.
Taille de la population (): est le nombre total de sujets ou d'éléments dans la population
Unité statistique (individu) : Élément de base de la population.
Échantillon : Sous-ensemble représentatif d'une population.
Taille de l'échantillon (): Le nombre d'individus, de sujets ou d'éléments sélectionnés dans l'échantillon
Caractère (Variable) : Chaque individu d'une population peut être décrit relativement à un ou plusieurs caractères (ex: sexe, âge).
Modalité : Aspects que peut prendre un caractère (valeurs). Ex: pour le sexe: "Féminin", "Masculin".
Série ou distribution : ensemble de modalités observées relatives au caractère étudier, peut aussi, être à deux, trois ou n caractères
3. Types de Variables
Une variable est un caractère qui varie selon les individus, le temps ou le lieu.
Variables Qualitatives : Modalités non numériques, exprimées par une qualité, sont exhaustives et mutuellement exclusives, C-à-d, Chaque individu doit pouvoir être classé dans une et une seule modalité
Nominale : Pas d'ordre entre les modalités (ex: groupe sanguin A, B, AB, O).
Binaire : Seulement deux modalités (ex: malade/sain, vacciné/non vacciné).
Ordinale : Les modalités peuvent être ordonnées (ex: complication bénigne, modérée, sévère).
Opérations : Se limitent au comptage des effectifs (fréquences absolues) et calcul de pourcentages (fréquences relatives).
Variables Quantitatives : Modalités exprimées en valeurs numériques.
Discrète : Valeurs isolées, souvent des nombres entiers (ex: nombre d'enfants).
Continue : Infinité de valeurs dans un intervalle (ex: âge, taille, glycémie).
Souvent regroupées en classes, définies par une amplitude, des limites (inférieure, supérieure) et un centre.
Opérations : Toutes les opérations arithmétiques sont possibles (moyenne, médiane, écart-type, etc.).
4. Quantification des Données
Effectif (Fréquence absolue) : Nombre d'individus présentant une modalité.
Fréquence Relative : Rapport entre deux fréquences absolues.
Proportion : Numérateur est une partie du dénominateur (ex: ).
Ratio : Numérateur et dénominateur sont de même nature mais exclusifs (ex: 2000 hommes / 1000 femmes = 2).
Taux : Prend en compte le temps, probabilité de survenue d'un événement au cours du temps.
Indice : Rapport de deux effectifs de nature différente (ex: lits/médecin).
5. Présentation des Données
Le but est de rendre les données rapidement et facilement compréhensibles.
5.1. Représentations Tabulaires
Un tableau est un jeu de données rangées en lignes et colonnes, conçu pour présenter la fréquence avec laquelle des événements se produisent.
Principes :
Simples : 2-3 petits tableaux plutôt qu'un grand.
Max 3 variables par tableau.
Doit se suffire à lui-même : titre clair, libellés explicites, unités, codes expliqués, totaux, source.
Types de tableaux :
Tableau brut : Données élémentaires, toutes les données y figurent individus (unité) en ligne, variables en colonne.
Tableau de fréquence : Synthèse des données, distribution des fréquences par modalité.
Tableau de contingence : Croise deux ou plus variables simultanément.
Gestion des données problématiques :
Données aberrantes : Erreurs de mesure, recopiage, saisie.
Données manquantes : Refus, oublis.
Actions : Récupérer, double saisie, attribuer des codes spéciaux, mentionner dans les tableaux.
5.2. Représentations Graphiques
Méthode visuelle pour montrer des données quantitatives.
Principes :
Simples, se suffisent à eux-mêmes.
Éviter les axes interrompus (sauts d'échelle).
Titre, libellés d'axes clairs, unités précisées.
Intervalles égaux sur les axes pour des quantités égales.
Types de graphiques :
Diagramme en secteurs (Camembert) : Distribution de pourcentages (parts proportionnelles).Par convention, le découpage commence à 12h00 et les « parts » vont de la plus grande vers la plus petite dans le sens inverse des aiguilles d'une montre.
Diagrammes en bâtons ou barres : Catégories non continues (sexe, état civil). Espaces entre les barres ont toutes la même largeur de colonne quelle que soit la taille de la catégorie et peuvent être présentées verticalement ou horizontalement.
Histogramme : Variable quantitative continue. Largeur colonne valeur sur x, hauteur fréquence sur y. Pas d'espace entre les barres.
Polygone de fréquence : Variable continue. Fréquence d'une catégorie sur l'axe des y pointée au milieu du sommet de la catégorie, points connectés par une ligne. Utile pour comparer plusieurs groupes nombre de cas, les pourcentages ou représenter des taux.
Pyramide : Distribution par âge et sexe. Double histogramme inversé et juxtaposé. Utilisé en démographie.
Carte géographique : Représentation spatiale des cas par points dont la taille varie en fonction du nombre de cas ou zones hachurées en fonction du taux de prévalence ou d'incidence de la maladie étudiée.
5.3. Présentation Paramétrique (Paramètres de Réduction et de Dispersion)
Objectif : Résumer de façon simple de grandes séries statistiques en limitant la perte d'informations.
A. Mesures de Tendance Centrale
Indiquent où se situe le "centre" des données.
Moyenne arithmétique () :
Définition : Somme des valeurs divisée par le nombre de valeurs. (données individuelles).

Pour données groupées : où est le centre de classe.


Avantage : La plus utilisée, base pour d'autres tests.
Inconvénient : Très sensible aux valeurs extrêmes (aberrantes).
Médiane (Me) :
Définition : Valeur qui divise les données classées en deux groupes égaux (50% inférieurs, 50% supérieurs).
Calcul :
Classer les valeurs par ordre (ascendant ou descendant).
Déterminer la position de la médiane : .
Si est impair, c'est la valeur à cette position.
Si est pair, c'est la moyenne des deux valeurs centrales.
Pour données groupées : . Si N impaire : (N+1)/2
L = limite inférieure de la classe médiane
N = effectif total
F = effectif cumulé avant la classe médiane
f = effectif de la classe médiane
h = amplitude de la classe (lim sup – lim inf)
Avantage : Non influencée par les valeurs extrêmes, préférée pour distributions asymétriques.
Mode (Mo) :
Définition : La valeur la plus fréquemment observée.
Un jeu de données peut avoir plusieurs modes.
Pour données groupées : Classe modale (classe ayant le plus grand effectif).
B. Mesures de Dispersion
Indiquent comment les données sont étalées.
Étendue (E) :
Définition : Différence entre la plus grande et la plus petite valeur ().
Inconvénient : Ne tient compte que des valeurs extrêmes, ne reflète pas la répartition des autres valeurs.
Variance ( ou ) :
Définition : Moyenne des carrés des écarts à la moyenne.
Pour données individuelles : .
xi = chaque valeur de la variable
xˉ = moyenne
n = nombre total d’observations ( population)
Pour données groupées : ou .
xi = le centres de la classe.
ni = l'effectif de chaque groupe (combien de fois apparaît xix_i xi)
Écart-type ( ou ) :
Définition : Racine carrée de la variance.
Décrit la dispersion des observations autour de la moyenne.
Un signifie que toutes les observations ont la même valeur.
Un grand indique une forte dispersion.
Coefficient de Variation (CV) :
Définition :Mesure la variabilité par rapport à la moyenne (en pourcentage).
Utilité : Comparer la dispersion de deux variables exprimées dans des unités différentes.
Quartiles :
Q1 (premier quartile) : 25% des valeurs sont inférieures.
Q2 (deuxième quartile) : La médiane (50% inférieurs).
Q3 (troisième quartile) : 75% des valeurs sont inférieures.
Intervalle interquartile (IQ) : .
6. Conclusion
La présentation des données (tabulaire, graphique, paramétrique) permet d'avoir un "portrait" du phénomène étudié en répondant à :
Qui est concerné ? (Caractéristiques de personnes)
Quand le phénomène est-il survenu ? (Caractéristiques de temps)
Où le phénomène est-il survenu ? (Caractéristiques de lieu)
Type de paramètre | Données individuelles | Données groupées |
|---|---|---|
PARAMÈTRES DE TENDANCE CENTRALE | ||
Moyenne () |
| |
Médiane (Me) | Position : |
|
Mode (Mo) | Valeur la plus fréquente | Classe modale (max ) |
PARAMÈTRES DE DISPERSION | ||
Étendue (E) | = borne sup. - borne inf. | |
Variance () | ||
Écart-type () | ||
Coeff. variation (CV) | ||
Intervalle interquartile (IQ) |
| |
Note : Formules valables pour classes équivalentes. Pour classes inégales, utiliser l'amplitude réelle de chaque classe.xi étant les centres de classes.
Bir quiz başla
Bilgini etkileşimli sorularla test et