Statistique Descriptive : Concepts et Méthodes

59 kart

Ce document couvre les bases de la statistique descriptive, y compris la présentation des données, les mesures de tendance centrale et de dispersion, ainsi que les types de variables. Il est destiné aux étudiants en médecine.

59 kart

Tekrar et
Aralıklı tekrar, her kartı uzun süreli hafızalamak için en uygun anda gösterir ve gitgide artan aralıklarla revizyonlar.
Soru
Quelle est la particularité d'une variable quantitative continue ?
Yanıt
Une variable quantitative continue peut prendre une infinité de valeurs dans un intervalle donné.
Soru
Quel est l'objectif principal des représentations tabulaires et graphiques ?
Yanıt
L'objectif principal des représentations tabulaires et graphiques est de présenter les données de manière rapide et facile à comprendre.
Soru
Quel est l'objectif principal de la statistique descriptive ?
Yanıt
L'objectif est d\'organiser, de résumer et de présenter des données pour en faciliter l\'analyse.
Soru
Quelle est la fonction d'une pyramide des âges ?
Yanıt
Montre la distribution par âge et par sexe d'une population pour en appréhender la structure.
Soru
Qu'est-ce que l'effectif d'une modalité ?
Yanıt
L'effectif d'une modalité est le nombre d'individus présentant cette modalité. C'est aussi appelé fréquence absolue.
Soru
Quelle est la particularité d'une variable quantitative discontinue ?
Yanıt
Une variable quantitative discontinue prend des valeurs numériques isolées, souvent des entiers, comme le nombre d'enfants.
Soru
Qu'est-ce qu'une unité statistique ?
Yanıt
L'unité statistique est l'élément de base constitutif de la population étudiée.
Soru
Donnez un exemple de variable qualitative nominale.
Yanıt
Exemple : le groupe sanguin (A, B, AB, O) ou la couleur des yeux (bleu, vert, marron).
Soru
Quand utilise-t-on un tableau de contingence ?
Yanıt
On utilise un tableau de contingence pour croiser deux variables (ou plus) simultanément et analyser leurs fréquences respectives.
Soru
Qu'est-ce qu'une série statistique ?
Yanıt
Une série statistique est un ensemble de valeurs observées pour un caractère étudié sur l'ensemble des unités d'observation d'une population.
Soru
Qu'est-ce qu'une variable en épidémiologie ?
Yanıt
Une variable est un caractère pouvant varier entre individus, lieux ou moments, comme l'âge, le sexe ou la tension artérielle.
Soru
Citez un exemple de variable de personnes.
Yanıt
L'âge, le sexe, le statut marital, le mode de vie, la profession et le niveau socio-économique sont des exemples de variables de personnes.
Soru
Qu'est-ce qu'une variable quantitative ?
Yanıt
Une variable quantitative présente des modalités exprimées par des valeurs numériques, nécessitant la précision de l'unité choisie. Toutes les opérations arithmétiques sont applicables. Exemples : âge, taille, glycémie.
Soru
Quelle est la principale utilité d'un graphique ?
Yanıt
La principale utilité d'un graphique est de fournir une synthèse visuelle des données pour une compréhension rapide et facile.
Soru
Quelles sont les caractéristiques d'un bon tableau de données ?
Yanıt
Un bon tableau a un titre clair, des lignes et colonnes bien libellées, des unités, des totaux, et se suffit à lui-même. Il présente au maximum trois variables sans surcharge d'informations.
Soru
Quelle est la définition de la population en statistique ?
Yanıt
En statistique, la population est l'ensemble des individus présentant un caractère commun pour une thématique donnée.
Soru
Quelle est la différence entre statistique descriptive et inférentielle ?
Yanıt
La statistique descriptive résume et condense les données. La statistique inférentielle fait des prévisions sur une population à partir d\'un échantillon.
Soru
Qu'est-ce que l'étendue en statistique ?
Yanıt
L'étendue est la différence entre la plus grande et la plus petite valeur observée dans un ensemble de données. Elle mesure la dispersion simple des données.
Soru
Que mesure l'écart-type ?
Yanıt
L'écart-type mesure la dispersion des observations d'une série statistique autour de sa moyenne. Un écart-type de 0 indique que toutes les valeurs sont identiques.
Soru
Qu'est-ce que la statistique en tant que science ?
Yanıt
La statistique est une science méthodologique qui recueille, analyse, commente et critique des données chiffrées sur de grands ensembles.
Soru
Comment calcule-t-on la moyenne arithmétique pour des données individuelles ?
Yanıt
Pour calculer la moyenne arithmétique, on additionne toutes les valeurs individuelles puis on divise par leur nombre total. Formule : X=xi/n\overline{X} = \sum x_{i} / n.
Soru
Définissez la fréquence relative.
Yanıt
La fréquence relative est le rapport entre la fréquence absolue d'une modalité et l'effectif total, exprimé en proportion (0 à 1) ou en pourcentage.
Soru
Qu'est-ce qu'une variable qualitative ?
Yanıt
Une variable qualitative décrit une caractéristique dont les modalités ne sont pas numériques, mais représentent des qualités ou des catégories. Elle peut être nominale (sans ordre) ou ordinale (avec un ordre).
Soru
Qu'est-ce que la médiane dans un jeu de données ?
Yanıt
La médiane est la valeur centrale d'un jeu de données classé. Elle divise les données en deux parties égales : 50 % des valeurs sont inférieures, 50 % sont supérieures.
Soru
Quand préférer un polygone de fréquence ?
Yanıt
On préfère un polygone de fréquence pour comparer plusieurs distributions de fréquences simultanément, notamment pour des taux ou des pourcentages.
Soru
Quand faut-il utiliser un diagramme en bâtons plutôt qu'un graphique linéaire ?
Yanıt
Utilisez un diagramme en bâtons pour des variables non continues, comme le sexe ou le niveau d'éducation, plutôt qu'un graphique linéaire qui convient aux variables continues comme le temps.
Soru
Comment détermine-t-on le mode d'une série de valeurs ?
Yanıt
Le mode est la valeur la plus fréquemment observée dans une série de données. Il s'identifie en comparant les fréquences de chaque valeur. Une série peut avoir un ou plusieurs modes.
Soru
Quelle est la différence graphique entre un histogramme et un diagramme en bâtons ?
Yanıt
Un histogramme utilise des barres adjacentes pour représenter des variables quantitatives continues, tandis qu'un diagramme en bâtons utilise des barres espacées pour des catégories discrètes.
Soru
Qu'est-ce qu'un histogramme ?
Yanıt
Un histogramme représente la fréquence d'une variable quantitative continue. La largeur des barres est proportionnelle à la valeur sur l'axe des x, et la hauteur est proportionnelle à la fréquence sur l'axe des y. Il n'y a pas d'espace entre les barres.
Soru
Quelle est la particularité d'une variable quantitative discontinue ?
Yanıt
Une variable quantitative discontinue prend des valeurs numériques isolées, souvent des nombres entiers, sans valeurs intermédiaires possibles. Ex: nombre d'enfants.
Soru
Quel est l'objectif principal de la statistique descriptive ?
Yanıt
L'objectif principal est de recueillir, organiser, résumer et condenser les données afin de présenter un portrait clair du phénomène étudié.
Soru
Qu'est-ce qu'une unité statistique ?
Yanıt
Une unité statistique est l'élément de base qui compose une population étudiée, sur lequel des observations ou des mesures sont effectuées.
Soru
Quelle est la définition de la population en statistique ?
Yanıt
En statistique, la population est l'ensemble de tous les individus ou unités statistiques qui partagent une caractéristique commune et font l'objet d'une étude.
Soru
Quelle est la fonction d'une pyramide des âges ?
Yanıt
Une pyramide des âges montre la distribution par âge et par sexe d'une population. Elle permet une visualisation rapide de sa structure et des comparaisons démographiques.
Soru
Quand faut-il utiliser un diagramme en bâtons plutôt qu'un graphique linéaire ?
Yanıt
Un diagramme en bâtons est préférable pour les variables non continues (qualitatives ou discrètes), tandis qu'un graphique linéaire convient aux variables continues.
Soru
Qu'est-ce que l'effectif d'une modalité ?
Yanıt
L'effectif d'une modalité est le nombre d'individus de la population qui présentent cette modalité pour une variable donnée.
Soru
Quelle est la différence entre statistique descriptive et inférentielle ?
Yanıt
La statistique descriptive organise et résume les données, tandis que la statistique inférentielle tire des conclusions et fait des prévisions sur une population à partir d'un échantillon.
Soru
Citez un exemple de variable de personnes.
Yanıt
Un exemple de variable de personnes est l'âge ou le sexe, qui sont des caractéristiques des individus étudiés.
Soru
Qu'est-ce qu'une variable qualitative ?
Yanıt
Une variable qualitative est un caractère dont les modalités ne sont pas exprimées numériquement, mais par des qualités ou des catégories, comme le sexe ou le groupe sanguin.
Soru
Qu'est-ce qu'une variable quantitative ?
Yanıt
Une variable quantitative est une variable statistique dont les modalités sont exprimées par des valeurs numériques, permettant des opérations arithmétiques simples et complexes.
Soru
Qu'est-ce que la statistique en tant que science ?
Yanıt
La statistique est une méthode scientifique qui collecte, analyse, commente et critique des données chiffrées pour synthétiser de grandes bases de données, en utilisant des raisonnements déductifs et inductifs.
Soru
Qu'est-ce que la médiane dans un jeu de données ?
Yanıt
La médiane est la valeur qui divise un jeu de données ordonnées en deux moitiés égales, avec 50% des valeurs inférieures et 50% supérieures.
Soru
Qu'est-ce qu'une variable en épidémiologie ?
Yanıt
En épidémiologie, une variable est un caractère d'un individu, d'un lieu ou d'un temps, pouvant varier et prendre différents états. Elle sert à étudier la répartition et les circonstances des maladies.
Soru
Quand préférer un polygone de fréquence ?
Yanıt
Préférez un polygone de fréquence pour représenter la distribution d'une variable continue, surtout si vous comparez plusieurs groupes ou des taux.
Soru
Quelle est la différence graphique entre un histogramme et un diagramme en bâtons ?
Yanıt
Un histogramme représente une variable continue sans espace entre les barres, dont la largeur et la hauteur sont proportionnelles. Un diagramme en bâtons montre des catégories non continues avec des espaces entre les barres de même largeur.
Soru
Qu'est-ce qu'un histogramme ?
Yanıt
Un histogramme est un diagramme en barres représentant la distribution de fréquence d'une variable quantitative continue, où la largeur et la hauteur des colonnes sont proportionnelles aux valeurs et fréquences correspondantes.
Soru
Quelle est la particularité d'une variable quantitative continue ?
Yanıt
Une variable quantitative continue peut prendre une infinité de valeurs au sein d'un intervalle donné, comme l'âge ou la taille.
Soru
Donnez un exemple de variable qualitative ordinale.
Yanıt
Un exemple est le Niveau d'étude, avec des modalités comme primaire, secondaire, supérieur, qui peuvent être ordonnées.
Soru
Quel est l'objectif principal des représentations tabulaires et graphiques ?
Yanıt
L'objectif est de rendre les données rapidement et facilement compréhensibles, permettant une interprétation sans texte explicatif supplémentaire.
Soru
Quelle est la principale utilité d'un graphique ?
Yanıt
Un graphique est principalement utilisé pour la synthèse visuelle des données quantitatives, permettant une compréhension rapide et facile des informations.
Soru
Définissez la fréquence relative.
Yanıt
La fréquence relative est le rapport entre deux fréquences absolues, souvent exprimé comme une proportion, un ratio, un taux ou un indice.
Soru
Qu'est-ce qu'une série statistique ?
Yanıt
Une série statistique est un ensemble de valeurs observées (données) pour une variable donnée, recueillies auprès d'unités d'observation.
Soru
Comment détermine-t-on le mode d'une série de valeurs ?
Yanıt
Le mode est la valeur la plus fréquemment observée dans une série de données. On l'identifie en comparant la fréquence d'apparition de chaque valeur.
Soru
Comment calcule-t-on la moyenne arithmétique pour des données individuelles ?
Yanıt
Pour des données individuelles, la moyenne arithmétique (X{\overline{X}}) est la somme de toutes les valeurs individuelles (xix_i) divisée par leur nombre total (nn), soit X=xin{\overline{X}} = \frac{\sum x_i}{n}.
Soru
Donnez un exemple de variable qualitative nominale.
Yanıt
Un exemple est le groupage sanguin (A, B, AB, O), où les catégories n'ont pas d'ordre hiérarchique.
Soru
Qu'est-ce que l'étendue en statistique ?
Yanıt
En statistique, l'étendue est une mesure de dispersion qui représente la différence entre la valeur la plus grande (xmaxx_{\max}) et la plus petite (xminx_{\min}) d'un ensemble de données. Elle s'exprime par la formule E=xmaxxminE = x_{\max} - x_{\min}.
Soru
Quand utilise-t-on un tableau de contingence ?
Yanıt
On utilise un tableau de contingence pour {{bi_directional_linking}}croiser plusieurs variables statistiques{{/bi_direction_linking}} et analyser leurs interrelations, notamment la fréquence de leurs occurrences conjointes.
Soru
Quelles sont les caractéristiques d'un bon tableau de données ?
Yanıt
Un bon tableau de données doit être simple, avoir un titre clair, des libellés précis, inclure les unités de mesure, expliquer codes/abréviations, et mentionner les totaux et la source.
Soru
Que mesure l'écart-type ?
Yanıt
L'écart-type mesure la dispersion des observations autour de la moyenne. Un écart-type élevé indique une grande dispersion, tandis qu'un faible écart-type signifie des données proches de la moyenne.

La Statistique Descriptive en Épidémiologie: Cours du Pr. Khawla Boumaraf (2025-2026)

Ce cours de statistique descriptive vise à doter les étudiants de 6ème année de médecine des outils nécessaires pour comprendre, organiser, résumer et analyser les phénomènes de santé. L'objectif est d'apprendre les techniques fondamentales de la statistique descriptive et de savoir les appliquer de manière pertinente dans un contexte épidémiologique.

1. Introduction à la Statistique

La statistique est une méthode scientifique rigoureuse permettant de collecter, analyser, commenter et critiquer des données chiffrées issues d'ensembles nombreux. Il est crucial de ne pas la confondre avec une statistique (au singulier), qui est une mesure descriptive obtenue à partir d'observations. Son but principal est de synthétiser des bases de données volumineuses. La méthode statistique se divise en deux branches principales : 1. Statistique descriptive ou déductive: Ensemble des méthodes pour recueillir, ordonner, réduire et condenser les données. Elle utilise des paramètres, des tableaux synthétiques, des graphiques et des méthodes d'analyse de données (grandement facilitées par l'outil informatique). Elle répond aux questions "Qui ?", "Quand ?", "Où ?" concernant un phénomène. 2. Statistique inférentielle ou inductive: Ensemble des méthodes permettant de faire des prévisions et des généralisations sur une population entière à partir des résultats obtenus sur un échantillon. Elle opère par raisonnement inductif (du particulier au général) et s'appuie sur des modèles théoriques (lois de probabilités).

2. Vocabulaire Fondamental de la Statistique

Pour toute étude statistique, une compréhension précise du vocabulaire est essentielle :
  • Population: L'ensemble de tous les individus (ou unités statistiques) partageant un caractère commun et pertinents pour l'étude. Elle doit être exhaustive.
    • Exemple: La population de la wilaya d'Alger.
    • Taille de la population (): Le nombre total d'individus dans la population.
  • Unité statistique (ou Individu): L'élément de base qui constitue la population.
    • Exemple: Une personne âgée entre 0 et 100 ans habitant Alger.
  • Échantillon: Un sous-ensemble construit de manière à être représentatif d'une population donnée (la population mère).
    • Taille de l'échantillon (): Le nombre d'individus sélectionnés dans l'échantillon.
  • Caractère (ou Variable): Une propriété ou une caractéristique susceptible de prendre différents états (valeurs) selon les individus, le temps ou le lieu observés.
    • Exemples: Sexe, âge, poids, taille, groupe sanguin, tension artérielle.
    • Chaque variable doit être clairement définie pour éviter toute ambiguïté (ex: le niveau socio-économique).
  • Modalité: Les différents aspects ou valeurs que peut prendre un caractère (variable).
    • Pour le caractère "sexe", les modalités sont "Féminin" et "Masculin".
    • Pour l'âge, il existe une infinité de modalités.

2.1. Types de Variables

Les variables sont classées selon la nature de leurs modalités :
A. Variable Qualitative
Un caractère est qualitatif lorsque ses modalités ne sont pas exprimées numériquement, mais par des qualités ou des catégories. Les modalités doivent être exhaustives (chaque individu peut être classé) et mutuellement exclusives (chaque individu n'appartient qu'à une seule modalité). Les opérations arithmétiques sont limitées au comptage des effectifs par modalité et au calcul de pourcentages.
  1. Variable qualitative nominale: Les modalités sont des noms sans hiérarchie ni ordre intrinsèque.
    • Exemples: Groupage sanguin (A, B, AB, O), religion, couleur des yeux.
    • Un cas particulier est la variable nominale binaire (ou dichotomique), qui ne peut prendre que deux modalités.
      • Exemples: État de santé (malade/sain), statut vaccinal (vacciné/non vacciné), vivant/décédé. Celles-ci sont très utilisées en épidémiologie.
  2. Variable qualitative ordinale: Les modalités sont des noms qui peuvent être classés ou hiérarchisés selon un ordre logique.
    • Exemples: Complication d'une maladie (bénigne, modérée, sévère), niveau d'étude (primaire, secondaire, supérieur), degré de satisfaction (très satisfait, satisfait, peu satisfait, pas satisfait).
B. Variable Quantitative
Un caractère est quantitatif lorsque ses modalités sont exprimées par des valeurs numériques, souvent associées à une unité de mesure. Toutes les opérations arithmétiques (dénombrement, pourcentages, moyenne, médiane, écart-type, modélisation) sont applicables.
  1. Variable quantitative discrète: Prend des valeurs isolées, le plus souvent des nombres entiers. Il n'y a pas de valeurs intermédiaires possibles entre deux modalités consécutives.
    • Exemples: Nombre d'enfants dans une famille (0, 1, 2, ...), nombre de lits par hôpital, nombre de crises par jour.
    • Les modalités peuvent être regroupées en classes si nécessaire.
  2. Variable quantitative continue: Peut prendre une infinité de valeurs au sein d'un intervalle donné.
    • Exemples: Âge (peut être mesuré en années, mois, jours, heures, etc.), taille (170 cm, 170.5 cm, 170.53 cm...), poids, glycémie, tension artérielle.
    • Pour l'étude de ces caractères, on regroupe souvent les modalités en classes (intervalles).
      • Exemple: Les âges de 0 à 4 ans peuvent être regroupés dans la classe .
      • Chaque classe est définie par : son amplitude (la largeur de l'intervalle), ses limites (inférieure et supérieure), et son centre de classe (point milieu de l'intervalle).

2.2. Effectifs et Fréquences

Une des premières étapes de la statistique est le recensement du nombre (effectif) ou du pourcentage (fréquence) d'individus présentant une modalité spécifique d'une variable.
  • Effectif (ou Fréquence absolue): Le nombre d'individus d'une population ou d'un échantillon qui possèdent une modalité donnée.
  • Fréquence relative: Le rapport entre deux fréquences absolues. Elle peut être exprimée de différentes manières:
    • Proportion: Le numérateur est inclus dans le dénominateur. C'est un nombre entre 0 et 1, ou un pourcentage (%).
      • Exemple: enfants vaccinés sur enfants total .
    • Ratio: Le numérateur et le dénominateur sont de même nature mais sont mutuellement exclusifs. S'exprime sans unité.
      • Exemple: hommes / femmes (ratio H/F), soit 2 hommes pour 1 femme.
    • Taux: Un rapport qui intègre la dimension temps, mesurant la probabilité de survenue d'un événement sur une période donnée.
      • Exemple: Taux d'incidence, taux de mortalité.
    • Indice: Le rapport de deux effectifs de nature différente, utilisé comme indicateur de fonctionnement.
      • Exemple: lits pour médecins dans un hôpital lits par médecin.

2.3. Série ou Distribution Statistique

Lorsque l'on observe un ou plusieurs caractères pour l'ensemble des unités d'observation d'une population ou d'un échantillon, l'ensemble des modalités observées forme une série ou distribution statistique. Elle peut être à un, deux, ou caractères.

3. Présentation des Données

La présentation des données est cruciale pour leur interprétation. Elle peut se faire de manière tabulaire, graphique ou paramétrique. Chaque présentation doit être auto-suffisante pour être comprise sans texte explicatif.

3.1. Présentation Tabulaire

Un tableau organise des données en lignes et colonnes pour montrer la fréquence d'événements dans différentes catégories d'une variable.
Avantages des tableaux Avantages des graphiques
Présentation avec précision et souplesse de données plus complexes Simplicité et clarté
Préparation exigeant moins de compétences ou d'installations techniques Images visuelles mémorables
Utilisation de moins d'espace pour une somme d'informations donnée Illustration de relations complexes
Mettent l'accent sur les nombres Tendance à être apprécié (publications)
Règles pour la construction de tableaux:
  • Faire des tableaux simples (2-3 petits tableaux valent mieux qu'un grand).
  • Ne pas présenter plus de trois variables à la fois.
  • Chaque tableau doit être auto-suffisant avec :
    • Un titre clair et concis (quoi, où, quand).
    • Des lignes et colonnes clairement libellées.
    • Les unités de mesures indiquées.
    • Les codes, abréviations et symboles expliqués en bas de page.
    • Les totaux clairement affichés.
    • La source mentionnée (sauf pour les données originales).
Types de tableaux:
  1. Tableau brut des données: Le tableau de travail élémentaire où toutes les données brutes sont listées, unité par unité et variable par variable. Les individus sont en lignes et les variables en colonnes.
    Exemple:
    Prénom Sexe Date de naissance Taille (cm) Poids (kg)
    1 Sami M 24/10/1978 180 70
    2 Amel F 24/04/1982 160 75
    3 Kamel M 20/08/1962 175 60
    4 Karim M 18/05/1983 170 -

    Gestion des données problématiques (surtout dans les études de grande ampleur):
    • Données aberrantes: Erreurs de mesure, recopiage ou saisie.
    • Données manquantes: Refus, oublis ou mesures non effectuées.
    Actions requises:
    • Récupérer un maximum de données manquantes.
    • Double saisie pour détecter les erreurs.
    • Attribuer des codes spéciaux aux données aberrantes et manquantes.
    • Mentionner ces données dans tous les tableaux pour transparence et ne calculer les résultats que sur les données disponibles.
  2. Tableau de fréquence (ou de distribution de fréquences): Une présentation synthétique des données. Il est toujours précédé d'un titre incluant les caractéristiques de personnes, de temps et de lieu.
    Exemple: Population algérienne - Recensement 2008
    Sexe Effectif (n) Fréquence relative (%)
    Masculin 17 232 747 72 {Note: L'exemple du cours a une erreur ici, 17232747/34080030 ≈ 50.56%}
    Féminin 16 847 283 69 {Note: L'exemple du cours a une erreur ici, 16847283/34080030 ≈ 49.44%}
    Total 34 080 030 100
    Source: O.N.S. / Exploitation exhaustive du recensement général de la population et de l'habitat - RGPH 2008 -
  3. Tableau de contingence (ou tableau croisé): Utilisé pour étudier la relation entre deux ou plusieurs variables simultanément. Les variables sont croisées pour présenter la distribution conjointe des fréquences.

3.2. Représentation Graphique

Un graphique est une méthode visuelle d'affichage de données quantitatives en utilisant un système de dessin géométrique (souvent un rectangle avec des axes x et y). Les graphiques offrent une synthèse visuelle essentielle des informations contenues dans les tableaux statistiques. Le choix du graphique dépend de la nature de la variable.
Règles pour la conception de graphiques:
  • Garder les graphiques simples, sans trop d'informations.
  • Chaque graphique doit être auto-suffisant avec un titre clair et concis.
  • Éviter les axes interrompus (sauts d'échelle) si possible.
  • Libeller clairement les axes avec les unités spécifiées.
  • Les quantités égales doivent être représentées par des intervalles égaux sur un axe (ex: sur l'axe x, les catégories couvrant 10 années doivent être deux fois plus longues que celles couvrant 5 années).
  • Les graphiques sont principalement utilisés pour les variables continues (temps, nombre de parasites). Pour les variables non continues (sexe, niveau d'éducation), les diagrammes en barres sont préférables aux graphiques linéaires.
Types de graphiques:
  1. Diagrammes en secteurs (Camembert): Diagramme circulaire utilisé pour montrer la distribution de pourcentages. Un cercle est divisé en "parts" proportionnelles à la taille de chaque catégorie. Par convention, le découpage commence à 12h00 et les parts sont ordonnées de la plus grande à la plus petite dans le sens inverse des aiguilles d'une montre. Il est idéal pour visualiser la composition d'un tout, mais devient moins lisible avec trop de catégories ou des pourcentages similaires.
  2. Diagrammes en bâtons ou en barres: Contiennent des barres de même largeur, dont la hauteur (ou longueur si horizontal) est proportionnelle à la fréquence (effectif ou pourcentage) de chaque catégorie. Un espace est toujours laissé entre les barres. Ils sont adaptés aux variables qualitatives (nominales ou ordinales) ou quantitatives discrètes, où les catégories ne sont pas continues (ex: sexe, état civil).
    • Précision importante: Si les catégories ont une "importance" ou une "largeur" différente (par exemple, des classes d'âge irrégulières), la hauteur des barres doit être ajustée de manière à ce que la *surface* de la colonne soit proportionnelle au nombre d'individus dans la catégorie, et non seulement la hauteur.
  3. Histogramme: Diagramme en barres utilisé pour les variables quantitatives continues. Contrairement aux diagrammes en barres, il n'y a pas d'espace entre les barres, et la largeur de chaque barre est proportionnelle à l'amplitude de la classe qu'elle représente. La hauteur de la barre est proportionnelle à la densité de fréquence (fréquence / largeur de classe).
    • Il est utilisé pour représenter le nombre de cas ou les pourcentages sur l'axe des y, mais généralement pas les taux.
    • Exemple détaillé pour l'ajustement de la hauteur: Pour des catégories d'âge inégales ( an, ans, ans, ans), si la catégorie ans contient patients, et que son amplitude est de 5 ans, la hauteur de la barre sera par an. Cela assure que l'aire de la barre reflète la fréquence.
  4. Polygone de fréquence: Représentation graphique de la distribution de fréquence d'une variable continue. Il est créé en plaçant un point au milieu de la partie supérieure de chaque barre d'un histogramme (correspondant à la fréquence et au centre de classe ), puis en reliant ces points par une ligne continue.
    • Utilités:
      • Idéal pour comparer les distributions de fréquence de plusieurs groupes sur un même graphique (ex: hommes et femmes).
      • Peut représenter le nombre de cas, les pourcentages, et est particulièrement recommandé pour représenter des taux.
  5. Pyramide des âges: Graphique spécifique utilisé pour montrer la distribution par âge et par sexe d'une population. C'est l'équivalent d'un double histogramme juxtaposé et inversé horizontalement.
    • L'axe horizontal représente les effectifs (hommes d'un côté, femmes de l'autre).
    • L'axe vertical médian comporte les classes d'âge.
    • Principalement utilisé en démographie pour appréhender rapidement la structure d'une population et la comparer.
  6. Carte géographique (Cartes thématiques): Diagramme où les cas sont représentés par des points sur une carte. La taille des points peut varier en fonction du nombre de cas, ou bien les zones géographiques sont hachurées/colorées en fonction du taux de prévalence ou d'incidence de la maladie étudiée. Il est essentiel pour l'analyse spatiale des phénomènes de santé.

3.3. Présentation Paramétrique (Mesures de Résumé)

L'un des principaux défis de la statistique descriptive est de résumer de grandes séries statistiques de manière simple, en conservant un maximum d'informations malgré la réduction inhérente au processus. Ceci est réalisé grâce aux paramètres de réduction.
A. Mesures de Tendance Centrale
Ces mesures cherchent à situer le "centre" ou la valeur typique d'une distribution de données.
  1. La Moyenne Arithmétique (): C'est la somme de toutes les valeurs individuelles divisée par le nombre total de valeurs. C'est la mesure de tendance centrale la plus courante, car elle est utilisée dans de nombreux tests statistiques avancés.
    • Désavantage Majeur: Elle est très sensible aux valeurs extrêmes (aberrantes), ce qui peut la rendre non représentative d'une distribution asymétrique.
    • Formule pour données individuelles:
      • : Moyenne arithmétique
      • : Somme de
      • : Chaque valeur individuelle
      • : Nombre total de valeurs
      • Exemple: Moyenne de (12, 15, 7, 13, 8) .
    • Formule pour données groupées en classes (distribution de fréquences):
      • : Fréquence (effectif) de l'événement dans la classe .
      • : Point central (milieu) de l'intervalle de la classe .
      • : Nombre total de valeurs.
      • Exemple (Hb en gr/ml):
        HB en gr/ml Nombre de cas () : point central
        8.0 – 8.9 2 8.45 (si intervalle est [8.0; 9.0[) ou 8.5 (si [8.0; 8.9]) 17.0
        ... ... ... ...
        Total Somme
        Moyenne gr/ml.
  2. La Médiane (Me): La valeur qui divise un jeu de données classées en deux groupes de taille égale: 50% des valeurs sont inférieures à la médiane, et 50% sont supérieures.
    • Avantage Majeur: Elle est insensible aux valeurs extrêmes, ce qui en fait une mesure de choix pour les distributions asymétriques.
    • Calcul pour données individuelles:
      1. Classer les valeurs par ordre de grandeur (ascendant ou descendant).
      2. Identifier la position de la médiane par la formule: .
      3. Si est impair, la médiane est la valeur à cette position.
        • Exemple: (7, 8, 11, 12, 15), . Position . La 3ème valeur est 11.
      4. Si est pair, la médiane est la moyenne des deux valeurs centrales.
        • Exemple: (7, 8, 12, 13, 15, 18), . Position . La médiane est .
        • Exemple (valeurs centrales identiques): (7, 8, 12, 12, 15, 18), . Position . La médiane est .
    • Calcul pour données groupées (distribution de fréquences):
      1. Calculer la position de la valeur médiane: .
      2. Localiser la classe qui contient cette position à l'aide des fréquences cumulées.
      3. Appliquer la formule:
        • : Limite inférieure de la classe médiane (classe contenant la valeur centrale).
        • : (Position de la médiane) - (Fréquence cumulée de la classe précédant la classe médiane).
        • : Amplitude de la classe médiane.
        • : Fréquence (effectif) de la classe médiane.
        Exemple (Hb en gr/ml, ):
        • Position: .
        • Supposons que la 21ème observation se situe dans la classe .
        • L = 10.
        • (fréquence cumulée avant la classe médiane) = 6.
        • J = .
        • W (amplitude de la classe ) = 2.
        • f (fréquence de la classe ) = 23.
        • Médiane gr/ml.
  3. Le Mode (Mo): La valeur (ou la modalité) qui apparaît le plus fréquemment dans un jeu de données. Une distribution peut avoir un mode (unimodale), deux modes (bimodale) ou plusieurs modes (multimodale).
    • Avantage: Peut être utilisé pour tous les types de variables (qualitatives et quantitatives).
    • Désavantage: Peut ne pas être unique ou ne pas exister dans certaines distributions.
    • Exemple: Dans (12, 15, 18, 7, 12, 8, 3, 19, 2), le mode est 12 (apparaît 2 fois).
    • Exemple: Dans (12, 15, 12, 3, 18, 7, 12, 8, 3, 15, 19, 3, 2), les modes sont 3 et 12 (apparaissent 3 fois chacun).
    • Formule du mode pour données groupées (classe modale) :
      • : Limite inférieure de la classe modale (classe avec l'effectif le plus élevé).
      • : Fréquence de la classe modale.
      • : Fréquence de la classe précédant la classe modale.
      • : Fréquence de la classe suivant la classe modale.
      • : Amplitude de la classe modale.
B. Mesures de Dispersion
Ces mesures décrivent la variabilité ou l'étalement des données autour de la tendance centrale.
  1. L'Étendue (E): La différence entre la plus grande () et la plus petite () valeur observée.
    • Formule: .
    • Exemple: Pour (3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10), l'étendue est .
    • Inconvénient: Ne prend en compte que les valeurs extrêmes et ne donne aucune information sur la répartition des autres valeurs.
  2. La Variance ( ou ): Mesure la dispersion des observations autour de la moyenne. Elle est basée sur la moyenne des carrés des écarts à la moyenne.
    • La somme des écarts à la moyenne est toujours nulle, c'est pourquoi on met ces écarts au carré.
    • Formule pour données individuelles: (pour un échantillon, est appelé correction de Bessel pour un estimateur sans biais). Pour une population, on utilise .
    • Formule pour données groupées en classes: sont les centres de classes et l'effectif de la classe.
    • Une formule de calcul simplifiée (pour données groupées):
  3. L'Écart-type ( ou ): La racine carrée de la variance. Il s'exprime dans la même unité de mesure que la variable originale, ce qui le rend plus interprétable que la variance.
    • Formule: .
    • Interprétation:
      • Si toutes les observations ont la même valeur, l'écart-type est .
      • Plus les observations sont dispersées autour de la moyenne, plus l'écart-type est grand.
      • Un petit écart-type indique que les valeurs sont proches de la moyenne (homogénéité), un grand écart-type indique une grande dispersion (hétérogénéité).
    • Étapes de calcul de l'écart-type:
      1. Calculer la moyenne .
      2. Calculer la différence entre chaque observation et la moyenne ().
      3. Élever chaque différence au carré ().
      4. Additionner tous ces carrés ().
      5. Diviser la somme obtenue par (pour un échantillon) ou (pour une population). Ceci donne la variance.
      6. Prendre la racine carrée du résultat obtenu.
  4. Le Coefficient de Variation (CV): Mesure de dispersion relative, exprimée en pourcentage. Permet de comparer la variabilité de deux séries de données ou de deux variables différentes, même si elles sont exprimées dans des unités différentes ou ont des moyennes très différentes.
    • Formule: est l'écart-type et est la moyenne.
  5. Les Quartiles (Q1, Q2, Q3) et l'Intervalle Interquartile (IQ): Les quartiles sont trois valeurs qui divisent une distribution de données ordonnées en quatre parties égales, chacune contenant 25% des observations.
    • Premier Quartile (Q1): Sépare le 25% inférieur des données des 75% supérieurs.
    • Deuxième Quartile (Q2): Correspond à la Médiane, séparant les 50% inférieurs des 50% supérieurs.
    • Troisième Quartile (Q3): Sépare le 75% inférieur des données des 25% supérieurs.
    • Intervalle Interquartile (IQ): La différence entre le troisième et le premier quartile (). Il représente l'étendue des 50% centraux des données, et est résistant aux valeurs extrêmes.
    • Calcul des quartiles pour données groupées: Similaire à celui de la médiane, en remplaçant par pour et par pour .
      • est la limite inférieure de la classe quartile, la fréquence cumulée avant cette classe, l'effectif de la classe quartile, et son amplitude.

4. Conclusion et Récapitulatif des Paramètres

La statistique descriptive permet de brosser un "portrait" du phénomène étudié en répondant aux questions fondamentales de l'épidémiologie :
  • Qui sont concernés ? (Caractéristiques de personnes)
  • Quand le phénomène est-il survenu ? (Caractéristiques de temps)
  • le phénomène est-il survenu ? (Caractéristiques de lieu)
Ce portrait est réalisé à travers la collecte, l'organisation, la présentation et la réduction des données.
Tableau Récapitulatif des Paramètres de Réduction et Dispersion (Note: les formules présentées sont généralement pour des échantillons et peuvent varier légèrement pour les populations).
Type de paramètre Données individuelles Données groupées
PARAMÈTRES DE TENDANCE CENTRALE
Moyenne ()
( = effectif, = centre de classe)
Médiane (Me) Position :
( = limite inf., = cumulée avant)
Mode (Mo) Valeur la plus fréquente Classe modale (max )

( = limite classe modale, = fréquence modale, = amplitude)
PARAMÈTRES DE DISPERSION
Étendue (E) = borne sup. - borne inf.
Variance ( ou ) (pour population) ou (pour échantillon) (pour population) ou (pour échantillon)
Écart-type ( ou )
Coeff. variation (CV)
Intervalle interquartile (IQ)

( = limite classe quartile)



Symboles courants:

  • : Effectif total ( pour échantillon, pour population)
  • : Valeur individuelle ou centre de classe
  • : Effectif/fréquence de la classe
  • : Limite inférieure de la classe /classe modale
  • : Fréquence cumulée de la classe précédant la classe
  • : Amplitude de la classe
  • : 1er et 3ème quartiles

Note: Les formules pour les données groupées sont valables pour des classes de même amplitude. Pour des classes inégales, il convient d'utiliser l'amplitude réelle de chaque classe dans les calculs appropriés.

5. Glossaire des Termes Clés

Voici un récapitulatif des termes importants abordés dans ce cours de statistique descriptive:
  • Variable (quantitative, qualitative)
  • Population et échantillon
  • Données (collecte, saisie)
  • Effectif et fréquence
  • Tableau de distribution
  • Représentation graphique (histogramme, diagramme)
  • Mesures de tendance centrale (moyenne, médiane, mode)
  • Mesures de dispersion (variance, écart-type, étendue)
  • Quartiles et percentiles
  • Série statistique
  • Données aberrantes
  • Données manquantes

Statistique Descriptive : Aide-Mémoire

La statistique descriptive est une méthode scientifique qui vise à organiser, résumer et analyser des données chiffrées pour comprendre et décrire des phénomènes, notamment en santé publique.

1. Objectifs Pédagogiques

  • Maîtriser la statistique comme science et méthode.

  • Appliquer les techniques de statistique descriptive (organisation, résumé, analyse).

  • Mettre en œuvre ces techniques en fonction du contexte.

2. Définitions Fondamentales

  • Statistique : Science de collecte, analyse, commentaire et critique de données chiffrées en grands ensembles.

  • Une statistique : Mesure descriptive obtenue d'observations (ne pas confondre avec la science).

  • Deux types de statistique :

    • Descriptive (déductive) : Recueillir, ordonner, réduire, condenser les données (tableaux, graphiques, paramètres).

    • Inférentielle (inductive) : Faire des prévisions, des interpolations sur une population à partirdes résultats recueillis sur un échantillon (raisonnement du particulier au général, utilise les lois de probabilités).

  • Vocabulaire :

    • Population : Ensemble exhaustif d'individus (ou unités statistiques) ayant un caractère commun.

      • Taille de la population (): est le nombre total de sujets ou d'éléments dans la population

    • Unité statistique (individu) : Élément de base de la population.

    • Échantillon : Sous-ensemble représentatif d'une population.

      • Taille de l'échantillon (): Le nombre d'individus, de sujets ou d'éléments sélectionnés dans l'échantillon

    • Caractère (Variable) : Chaque individu d'une population peut être décrit relativement à un ou plusieurs caractères (ex: sexe, âge).

    • Modalité : Aspects que peut prendre un caractère (valeurs). Ex: pour le sexe: "Féminin", "Masculin".

    • Série ou distribution : ensemble de modalités observées relatives au caractère étudier, peut aussi, être à deux, trois ou n caractères

3. Types de Variables

Une variable est un caractère qui varie selon les individus, le temps ou le lieu.

  • Variables Qualitatives : Modalités non numériques, exprimées par une qualité, sont exhaustives et mutuellement exclusives, C-à-d, Chaque individu doit pouvoir être classé dans une et une seule modalité

    • Nominale : Pas d'ordre entre les modalités (ex: groupe sanguin A, B, AB, O).

      • Binaire : Seulement deux modalités (ex: malade/sain, vacciné/non vacciné).

    • Ordinale : Les modalités peuvent être ordonnées (ex: complication bénigne, modérée, sévère).

    • Opérations : Se limitent au comptage des effectifs (fréquences absolues) et calcul de pourcentages (fréquences relatives).

  • Variables Quantitatives : Modalités exprimées en valeurs numériques.

    • Discrète : Valeurs isolées, souvent des nombres entiers (ex: nombre d'enfants).

    • Continue : Infinité de valeurs dans un intervalle (ex: âge, taille, glycémie).

      • Souvent regroupées en classes, définies par une amplitude, des limites (inférieure, supérieure) et un centre.

    • Opérations : Toutes les opérations arithmétiques sont possibles (moyenne, médiane, écart-type, etc.).

4. Quantification des Données

  • Effectif (Fréquence absolue) : Nombre d'individus présentant une modalité.

  • Fréquence Relative : Rapport entre deux fréquences absolues.

    • Proportion : Numérateur est une partie du dénominateur (ex: ).

    • Ratio : Numérateur et dénominateur sont de même nature mais exclusifs (ex: 2000 hommes / 1000 femmes = 2).

    • Taux : Prend en compte le temps, probabilité de survenue d'un événement au cours du temps.

    • Indice : Rapport de deux effectifs de nature différente (ex: lits/médecin).

5. Présentation des Données

Le but est de rendre les données rapidement et facilement compréhensibles.

5.1. Représentations Tabulaires

Un tableau est un jeu de données rangées en lignes et colonnes, conçu pour présenter la fréquence avec laquelle des événements se produisent.

  • Principes :

    • Simples : 2-3 petits tableaux plutôt qu'un grand.

    • Max 3 variables par tableau.

    • Doit se suffire à lui-même : titre clair, libellés explicites, unités, codes expliqués, totaux, source.

  • Types de tableaux :

    • Tableau brut : Données élémentaires, toutes les données y figurent individus (unité) en ligne, variables en colonne.

    • Tableau de fréquence : Synthèse des données, distribution des fréquences par modalité.

    • Tableau de contingence : Croise deux ou plus variables simultanément.

  • Gestion des données problématiques :

    • Données aberrantes : Erreurs de mesure, recopiage, saisie.

    • Données manquantes : Refus, oublis.

    • Actions : Récupérer, double saisie, attribuer des codes spéciaux, mentionner dans les tableaux.

5.2. Représentations Graphiques

Méthode visuelle pour montrer des données quantitatives.

  • Principes :

    • Simples, se suffisent à eux-mêmes.

    • Éviter les axes interrompus (sauts d'échelle).

    • Titre, libellés d'axes clairs, unités précisées.

    • Intervalles égaux sur les axes pour des quantités égales.

  • Types de graphiques :

    • Diagramme en secteurs (Camembert) : Distribution de pourcentages (parts proportionnelles).Par convention, le découpage commence à 12h00 et les « parts » vont de la plus grande vers la plus petite dans le sens inverse des aiguilles d'une montre.

    • Diagrammes en bâtons ou barres : Catégories non continues (sexe, état civil). Espaces entre les barres ont toutes la même largeur de colonne quelle que soit la taille de la catégorie et peuvent être présentées verticalement ou horizontalement.

    • Histogramme : Variable quantitative continue. Largeur colonne valeur sur x, hauteur fréquence sur y. Pas d'espace entre les barres.

    • Polygone de fréquence : Variable continue. Fréquence d'une catégorie sur l'axe des y pointée au milieu du sommet de la catégorie, points connectés par une ligne. Utile pour comparer plusieurs groupes nombre de cas, les pourcentages ou représenter des taux.

    • Pyramide : Distribution par âge et sexe. Double histogramme inversé et juxtaposé. Utilisé en démographie.

    • Carte géographique : Représentation spatiale des cas par points dont la taille varie en fonction du nombre de cas ou zones hachurées en fonction du taux de prévalence ou d'incidence de la maladie étudiée.

5.3. Présentation Paramétrique (Paramètres de Réduction et de Dispersion)

Objectif : Résumer de façon simple de grandes séries statistiques en limitant la perte d'informations.

A. Mesures de Tendance Centrale

Indiquent où se situe le "centre" des données.

  • Moyenne arithmétique () :

    • Définition : Somme des valeurs divisée par le nombre de valeurs. (données individuelles).

      • Pour données groupées : est le centre de classe.

    • Avantage : La plus utilisée, base pour d'autres tests.

    • Inconvénient : Très sensible aux valeurs extrêmes (aberrantes).

  • Médiane (Me) :

    • Définition : Valeur qui divise les données classées en deux groupes égaux (50% inférieurs, 50% supérieurs).

    • Calcul :

      1. Classer les valeurs par ordre (ascendant ou descendant).

      2. Déterminer la position de la médiane : .

      3. Si est impair, c'est la valeur à cette position.

      4. Si est pair, c'est la moyenne des deux valeurs centrales.

    • Pour données groupées : . Si N impaire : (N+1)/2

      • L = limite inférieure de la classe médiane

      • N = effectif total

      • F = effectif cumulé avant la classe médiane

      • f = effectif de la classe médiane

      • h = amplitude de la classe (lim sup – lim inf)

    • Avantage : Non influencée par les valeurs extrêmes, préférée pour distributions asymétriques.

  • Mode (Mo) :

    • Définition : La valeur la plus fréquemment observée.

    • Un jeu de données peut avoir plusieurs modes.

    • Pour données groupées : Classe modale (classe ayant le plus grand effectif).

B. Mesures de Dispersion

Indiquent comment les données sont étalées.

  • Étendue (E) :

    • Définition : Différence entre la plus grande et la plus petite valeur ().

    • Inconvénient : Ne tient compte que des valeurs extrêmes, ne reflète pas la répartition des autres valeurs.

  • Variance ( ou ) :

    • Définition : Moyenne des carrés des écarts à la moyenne.

    • Pour données individuelles : .

      • xi​ = chaque valeur de la variable

      • xˉ = moyenne

      • n = nombre total d’observations ( population)

    • Pour données groupées : ou .

      • xi = le centres de la classe.

      • ni​ = l'effectif de chaque groupe (combien de fois apparaît xix_i xi​)

  • Écart-type ( ou ) :

    • Définition : Racine carrée de la variance.

    • Décrit la dispersion des observations autour de la moyenne.

    • Un signifie que toutes les observations ont la même valeur.

    • Un grand indique une forte dispersion.

  • Coefficient de Variation (CV) :

    • Définition :Mesure la variabilité par rapport à la moyenne (en pourcentage).

    • Utilité : Comparer la dispersion de deux variables exprimées dans des unités différentes.

  • Quartiles :

    • Q1 (premier quartile) : 25% des valeurs sont inférieures.

    • Q2 (deuxième quartile) : La médiane (50% inférieurs).

    • Q3 (troisième quartile) : 75% des valeurs sont inférieures.

    • Intervalle interquartile (IQ) : .

6. Conclusion

La présentation des données (tabulaire, graphique, paramétrique) permet d'avoir un "portrait" du phénomène étudié en répondant à :

  • Qui est concerné ? (Caractéristiques de personnes)

  • Quand le phénomène est-il survenu ? (Caractéristiques de temps)

  • le phénomène est-il survenu ? (Caractéristiques de lieu)

Type de paramètre

Données individuelles

Données groupées

PARAMÈTRES DE TENDANCE CENTRALE

Moyenne ()


( = effectif, = centre)

Médiane (Me)

Position :


( = limite inf., = cumulée avant)

Mode (Mo)

Valeur la plus fréquente

Classe modale (max )

( = limite classe modale, = fréquence modale, = amplitude)

PARAMÈTRES DE DISPERSION

Étendue (E)

= borne sup. - borne inf.

Variance ()

Écart-type ()

Coeff. variation (CV)

Intervalle interquartile (IQ)



( = limite classe quartile)

Note : Formules valables pour classes équivalentes. Pour classes inégales, utiliser l'amplitude réelle de chaque classe.xi étant les centres de classes.

Bir quiz başla

Bilgini etkileşimli sorularla test et