Introduction à la Statistique Descriptive

Nessuna carta

Les statistiques descriptives font partie intégrante de la biostatistique, permettant de résumer et présenter les données collectées.

Biostatistique : Résumé Essentiel

La biostatistique est l'application des méthodes statistiques aux sciences biomédicales. Ce cours est conçu pour les étudiants en médecine de premier cycle, axé sur la clarté et la concision des notions mathématiques.

I. Statistiques Descriptives

La statistique descriptive vise à résumer et présenter les données. Elle utilise des tableaux, des graphiques et des paramètres clés pour décrire un phénomène.

I.1. Collecte et Représentation des Données

Population statistique: Ensemble d'objets, d'êtres vivants ou abstraits de même nature.
Individu / Unité statistique: Élément de la population.
Variable statistique / Caractère: Caractéristique d'un individu.
- Variables quantitatives (numériques): Valeurs exprimées par des nombres (âge, poids).
- Variables qualitatives: Modalités expressions littérales (sexe, profession).
  - Variables ordinales: Modalités avec un ordre naturel (ex: "léger", "modéré", "grave").
  - Variables nominales: Pas d'ordre possible (ex: "homme", "femme").
- Variables quantitatives discrètes: Valeurs isolées (nombre d'enfants).
- Variables quantitatives continues: Valeurs dans un intervalle réel (taille, cholestérol).
Méthodes d'observation:
- Directe: Mesure ou comptage par l'observateur (dénombrement instantané ou continu).
- Indirecte: Basée sur les réponses (questionnaires).
Échantillonnage: Observation d'une partie de la population (échantillon) pour en tirer des conclusions sur la population entière.
- Échantillon représentatif: Reflète toutes les caractéristiques de la population.
- Méthodes aléatoires (probabilistes): Unités choisies au hasard.
  - Aléatoire simple: Chaque individu a la même chance.
  - Aléatoire systématique: Un premier nombre au hasard, puis intervalles fixes.
  - Stratification: Population divisée en strates homogènes, puis tirage aléatoire dans chaque strate. La taille pour chaque strate est calculée par .
- Méthodes non aléatoires (à choix raisonné): Unités non tirées au hasard (méthode des quotas).
Taille de l'échantillon (n): Déterminée par la formule .
Tableaux statistiques:
- Premier ordre: Une seule variable.
- Deuxième ordre (double entrée): Deux variables.
- Troisième ordre (triple entrée): Trois variables.
- De contingence: Deux variables qualitatives.
- De distribution des fréquences: Observations groupées par fréquence absolue, relative, cumulée.
Représentations graphiques:
- Variable discrète: Diagramme en bâtonnets, diagramme cumulatif.
- Variable continue: Histogramme, courbe cumulative.
- Autres: Graphique circulaire, diagramme à colonnes.

I.2. Paramètres Statistiques

Les paramètres résument l'information contenue dans une série statistique.

Paramètres de tendance centrale (ou de position): Représentent la valeur autour de laquelle les observations sont réparties.
- Moyenne arithmétique (): Somme des valeurs divisée par le nombre d'observations.
  - Pour distribution discrète: .
  - Pour distribution continue: Utiliser les centres de classes.
- Mode (Mo): Valeur observée avec la plus grande fréquence absolue. Peut être non unique.
- Médiane (Me): Valeur qui divise la série en deux parties égales (50% des observations en dessous, 50% au-dessus).
  - Pour impair: .
  - Pour pair: .
- Fractiles: Valeurs qui divisent la série ordonnée en parties d'effectifs égaux (quantiles, déciles, centiles).
Paramètres de dispersion: Mesurent l'étalement des observations.
- Étendue (E): Différence entre la valeur maximale et minimale. .
- Variance (): Moyenne des carrés des écarts à la moyenne.
  - Formule simple: .
  - Formule pondérée: .
  - Théorème de Koenig: .
- Écart-type (S): Racine carrée positive de la variance. .
- Coefficient de variation (C.V.): Mesure la dispersion relative. .
  - C.V. < 17%: Dispersion faible.
  - C.V. 17%: Dispersion forte.
Paramètres de forme: Caractérisent la forme de la courbe des fréquences.
- Coefficients d'asymétrie:
  - Coefficient de SKEWNESS .
  - Coefficient de FISHER .
  - : Symétrie.
  - : Dissymétrie à droite (longue queue positive).
  - : Dissymétrie à gauche (longue queue négative).
- Coefficients d'aplatissement:
  - Coefficient de FISHER .
  - : Leptokurtique (aiguë).
  - : Platykurtique (aplatie).
  - : Mésokurtique (normale).

I.3. Régression et Corrélation

Permet d'étudier la liaison entre deux variables quantitatives.

Régression: La variable X explique la variable Y.
- Droite de régression: .
- Méthode des moindres carrés: Minimise la somme des carrés des écarts pour trouver et .
Corrélation: Mesure de l'intensité de la liaison entre X et Y (relation symétrique).
- Coefficient de corrélation (r) de Bravais-Pearson: Mesure l'intensité de l'association linéaire.
- Propriétés de r:
  - est un nombre pur sans unités.
  - .
  - : Corrélation parfaite.
  - : Liaison significative (fortement corrélée).
  - : Faiblement corrélée.
  - : Corrélation positive.
  - : Corrélation négative.
  - : Pas de corrélation linéaire.

II. Éléments de Probabilités

Modélise les phénomènes aléatoires.

Expérience aléatoire (): Résultat non prévisible (ex: jeter un dé).
Espace des éventualités (): Ensemble de tous les résultats possibles d'une expérience aléatoire.
Événement aléatoire: Résultat qui peut ou non se réaliser (sous-ensemble de ).
- Événement élémentaire: Un seul point de .
- Événement impossible (): Ne contient aucun résultat possible.
- Événement certain (): Contient tous les résultats possibles.
Opérations sur les événements:
- Intersection (): A et B se réalisent simultanément.
- Union (): A ou B (ou les deux) se réalisent.
- Complémentaire (): A ne se réalise pas.
Événements disjoints (incompatibles): .
Système complet d'événements: Événements disjoints et dont l'union couvre tout l'espace .
Événements indépendants: .
Symétrie mutuelle: Tous les cas sont équiprobables.
Notion de probabilité:
- Définition de Laplace: .
- Définition de Kolmogorov: Axiomes fondamentaux:
  - .
  - et .
  - .
  - .
- Probabilités conditionnelles: .
- Multiplication des probabilités: .
- Formule de Bayes: .
- Probabilités totales: .

III. Variables Aléatoires et Distributions de Probabilités

Variable aléatoire (X): Fonction qui associe un nombre réel à chaque résultat d'une expérience aléatoire.
- Variable aléatoire discrète (v.a.d): Prend un nombre fini ou dénombrable de valeurs. Sa distribution est définie par .
- Variable aléatoire continue (v.a.c): Prend n'importe quelle valeur dans un intervalle. Sa distribution est définie par une densité de probabilité .
Paramètres caractéristiques:
- Moyenne théorique ou Espérance mathématique (E(X) ou ):
  - v.a.d.: .
  - v.a.c.: .
- Variance (Var(X) ou ):
  - v.a.d.: .
  - v.a.c.: .
- Écart-type (): .
Variables aléatoires indépendantes: Si .
- .
- .
- .

IV. Distributions de Probabilités Usuelles

Modèles probabilistes spécifiques.

IV.1. Distributions Discrètes

Distribution de Bernoulli (): Deux issues (succès/échec) avec probabilités et .
- Paramètres: , .
Distribution binomiale (): Nombre de succès en épreuves de Bernoulli indépendantes.
- Probabilité: .
- Paramètres: , , .
- Approximation:
  - Par loi de Poisson si et .
  - Par loi normale si .
Distribution de Poisson (): Nombre d'événements rares dans un intervalle de temps/espace.
- Probabilité: .
- Paramètres: , , .
- Approximation: Par loi normale si .
Distribution géométrique (): Nombre d'épreuves pour obtenir le premier succès.
- Probabilité: .
- Paramètres: , .
- Propriété: Sans mémoire.
Distribution hypergéométrique (): Nombre de succès en essais sans remise d'une population finie.
- Probabilité: .
- Paramètres: , .
- Approximation: Par loi binomiale si .

IV.2. Distributions Continues

Distribution exponentielle (): Temps d'attente entre deux événements successifs dans un processus de Poisson.
- Densité de probabilité: .
- Paramètres: , .
Distribution normale (Laplace-Gauss) (): Phénomènes complexes résultant de nombreuses causes indépendantes.
- Densité de probabilité: .
- Paramètres: , .
- Loi normale centrée réduite (): Si et . .
- Utilisation de la table: Permet de calculer en transformant en .
Distribution de Chi-carré (): Somme des carrés de variables normales centrées réduites indépendantes.
- Paramètres: , .
- Propriétés: Dissymétrique, tend vers la normale pour .
Distribution de Student (): Utilisée pour comparer des moyennes.
- Paramètres: , pour .
- Propriétés: Symétrique autour de 0, approche la normale pour .
Distribution de Fisher (F): Utilisée pour comparer deux variances ou dans l'ANOVA.
- Définition des ddl (numérateur) et (dénominateur).
- Propriétés: La table donne .

V. Inférence Statistique

Induire des conclusions sur une population à partir d'un échantillon.

Objectif: Estimer des caractéristiques inconnues (paramètres) d'une population.
Représentativité de l'échantillon: Échantillon aléatoire.
Fluctuations d'échantillonnage: Le hasard crée des variations.
- Intervalle de confiance: Intervalle qui contient la "vraie" valeur avec une certaine probabilité (, le niveau de confiance).

V.1. Estimation

Estimation ponctuelle: Une seule valeur pour estimer un paramètre.
- Estimateur sans biais: . (Ex: est un estimateur sans biais de ).
- Estimateur biaisé: .
- est un estimateur sans biais de .
Estimation par intervalle: Un intervalle pour estimer un paramètre.
- Général: .
- Moyenne d'une population:
  - Grands échantillons (): .
  - Petits échantillons (): .
- Proportion d'un événement: .
- Variance d'une population: .
- Somme et différence des moyennes de deux populations ( grands): .
- Somme et différence des proportions de deux populations ( grands): Formules similaires utilisant et .

V.2. Tests d'Hypothèses Paramétriques

Variables quantitatives. Formuler une hypothèse () et la rejeter ou la maintenir.

Hypothèse nulle (): Hypothèse de base (pas de différence, pas d'effet).
Hypothèse alternative (): Contradictoire à .
Seuil de signification (): Probabilité de rejeter alors qu'elle est vraie (erreur de type I).
Erreur de type II: Maintenir alors qu'elle est fausse.
Test unilatéral: avec , , , .
Test bilatéral: avec .
Étapes d'un test:
1. Choix du test et vérification des conditions.
2. Formulation de et .
3. Fixation de , calcul de la valeur critique, définition de la règle de décision.
4. Calcul de la statistique.
5. Application de la règle de décision.
6. Conclusion.
Comparaison de 2 moyennes:
- Grands échantillons (): Statistique .
- Petits échantillons (un ou deux ): Statistique avec Commun .
Comparaison d'une moyenne observée à une moyenne théorique:
- Grand échantillon (): Statistique .
- Petit échantillon (, inconnue): Statistique .
Comparaison de deux proportions: Statistique .
Comparaison d'une proportion observée à une proportion théorique: Statistique .
Comparaison de moyennes de données appariées:
- Test sur la moyenne des différences ().
- Variance inconnue: Statistique .
Test d'existence d'une liaison statistique linéaire (corrélation): Statistique .

V.3. Tests d'Hypothèses Non Paramétriques

Variables qualitatives. Comparaison entre effectifs observés () et théoriques ().

Statistique du : .
- Conditions d'application: , .
Test d'ajustement: Compare la distribution d'un échantillon à une loi connue.
- Hypothèses: : distribution observée s'ajuste à la théorique. : ne s'ajuste pas.
- Degrés de liberté (ddl): .
Test d'homogénéité: Compare la distribution d'un caractère entre plusieurs échantillons indépendants.
- Hypothèses: : distributions identiques. : distributions diffèrent.
- ddl: (pour modalités et échantillons).
Test d'indépendance: Teste l'indépendance entre deux caractères qualitatifs sur une même population.
- Hypothèses: : indépendance. : non indépendance.
- ddl: (pour modalités du caractère A et modalités du caractère B).

VI. Analyse de la Variance (ANOVA)

Compare les moyennes de plusieurs groupes indépendants.

Hypothèses: . : au moins une moyenne diffère.
Décomposition de la variance:
- SCT (Somme des Carrés Totaux): Variation totale.
- SCE (Somme des Carrés de l'Erreur / Intragroupe): Variation résiduelle.
- SCF (Somme des Carrés Factoriels / Intergroupe): Variation due au facteur.
- Relation: .
Test de Fisher (Test-F): Rapport des variances estimées. . Test unilatéral.
Tableau d'analyse de la variance: Organise les calculs.
ANOVA à un critère: Étudie un seul facteur.
ANOVA à deux critères: Étudie deux facteurs et leur interaction.
- Décomposition: .
- Tests pour les effets de ligne (SCL) et de colonne (SCC).

Inizia un quiz

Testa le tue conoscenze con domande interattive