Statistique 1
Keine KartenComprend les définitions, les champs d'application, la variabilité du vivant et les types de variables en biostatistique.
Statistique 1 : Résumé Essentiel (Cheatsheet)
La statistique est une discipline omniprésente, cruciale pour l'interprétation des données dans un contexte d'incertitude. Elle s'appuie sur la collecte, le traitement et l'interprétation de données d'observation. En biostatistique, elle est indispensable pour gérer la variabilité inhérente au vivant.
1. Définition et Champs d'Application de la (Bio)statistique (Chapitres a9962c53, e83a0064, 395aa15)
La statistique, initialement liée à la collecte d'informations pour l'État (impôts, registres de décès), est aujourd'hui une science aux applications innombrables.
Définition de la statistique : Ensemble des méthodes pour la collecte, le traitement et l'interprétation de données d'observation, permettant des décisions dans l'incertitude (Freund & Walpole, 1987).
Champs d'application :
Biologie/Médecine : Valeurs "normales", fiabilité des tests (VPP, VPN, sensibilité, spécificité), efficacité des traitements (randomisation, NNT), facteurs pronostiques, survie.
Psychologie : QI, tests statistiques, échelles.
Démographie : Recensements, pyramides des âges.
Géophysique : Prévisions météorologiques, climatologie.
Économie/Finances : Étude de comportements, actuariat, calcul des risques.
Marketing : Sondages d'opinion.
Informatique : Moteurs de recherche, recommandations multimédias (Netflix).
Physique : Mécanique statistique, thermodynamique.
2. La Variabilité du Vivant (Chapitres 31d47008, 318483de, b65bdab8, 42cac85a, 656c2bb7, e509d412, 3fbc9377, 2223cf31)
La caractéristique fondamentale du vivant est sa variabilité ( - William Osler), nécessitant des méthodes statistiques spécifiques.
2.1. Variabilité Biologique
Variabilité inter-individus : Taille, poids, groupe sanguin, couleur des yeux, tolérance au lactose, réponse immunitaire, etc. (même entre jumeaux homozygotes).
Variabilité intra-individus :
Fluctuations : Température, glycémie, dosages hormonaux.
Rythmes :
Nycthéméraux (circadiens) : (ex: cortisol, température corporelle).
Ultradiens : (ex: pulses de GnRH).
Infradiens : (ex: cycle menstruel).
2.2. Variabilité Expérimentale (Métrologique)
Variabilité totale = Variabilité biologique + Variabilité métrologique
Conditions de mesure : Tension artérielle, dosage de prolactine (importance des règles de mesure).
Appareils de mesure : Problèmes de précision (reproductibilité) et de biais (erreur systématique, liée à l'exactitude ou « accuracy »).
Un appareil peut être précis mais biaisé.
Un appareil peut être non biaisé mais imprécis.
Observateurs :
Intra-observateur : Différences d'observations par le même chercheur (ex: mesure d'un nodule par le même radiologue).
Inter-observateur : Différences entre observations par différents chercheurs (ex: lecture de lames histologiques). Évalué par le coefficient d'agrément kappa.
2.3. Conséquences de la Variabilité : Échantillonnage (Chapitres 3c625f09, c67c49c4, 791f57ec, 91ded7e5)
Variabilité des échantillons : Deux échantillons tirés de la même population ne seront pas identiques.
Ceci mène aux notions d' intervalle de confiance et de tests statistiques.
L'étude statistique porte généralement sur une population via un échantillon représentatif.
Échantillonnage aléatoire : Méthode la plus simple pour obtenir un échantillon représentatif, où chaque individu a une probabilité égale d'inclusion.
Avantages de l'échantillonnage : Économie de moyens, permet une estimation des paramètres de la population.
Inconvénients : L'estimation comporte un risque d'erreur, et la précision dépend de la taille de l'échantillon (plus la taille est grande, meilleure est la précision).
3. Types de Variables (Chapitres e04aa510, 1044f86d, 758c77b2, adcc243b, e66b57f3, d023e31c, 86be90d1, 2912f7d5, d3388ac9, 7e7ac969, 8c21d82b)
Une variable est une caractéristique qui peut varier entre individus, temps ou lieux. Elles peuvent être de deux types principaux:
3.1. Variables Quantitatives
Définition : Caractérisées par des valeurs numériques exploitables arithmétiquement.
Discrètes : Nombres entiers, sans valeur intermédiaire (issues de dénombrement). Ex: nombre d'enfants, nombre de cellules.
Continues : Peuvent prendre n'importe quelle valeur numérique dans un intervalle (nombres réels). Ex: taille, poids, glycémie.
Peuvent être regroupées en classes.
Temporelles : Utilisent des unités de temps. Ex: durée de grossesse (continue), date d'un accident (instant donné).
3.2. Variables Qualitatives
Définition : N'ont pas de valeur numérique intrinsèque.
Nominales : Classes non hiérarchisables. L'ordre de présentation est arbitraire. Ex: groupe sanguin (A, B, AB, O), genre, type de diabète, type de streptocoque.
Ordinales : Classes hiérarchisables selon un ordre logique. Ex: stade d'une tumeur (T1, T2, T3, T4), degré d'obésité (Grade 1, 2, 3), satisfaction patient (très insatisfait à très satisfait), Performance Status (PS) en oncologie.
Binaires : N'ont que deux modalités. Ex: présence/absence de mutation, Masculin/Féminin.
4. Statistique Descriptive (Chapitres 887119fa, 666957ae, f6a0844e, 92047aab, 011116b8, a3f9fb98, 34241423, f352d742, d0390898, b2dda4e3, f3739b3e, 31e5c3bc, 9fbf2048, 11efe633, 566882fe, 95c5eacf, 1351a308, fb41847d, 435dd22f, a3c24e6b, 59aad5db, e8ec36c4, dd6b5cf1, 4f216679, 23bee6da, 8a45a79d, 4392dfa0, f37c69ce, 8f97bc5f, f1267b82, 9f524a40, 3048fecd, 7b0c7fbf, 9d9370ca)
La statistique descriptive vise à résumer et décrire des distributions d'observations, souvent via des tableaux et des graphiques. Elle implique une perte de données pour une meilleure lisibilité.
4.1. Préparation des Données
"Data cleaning" : Nettoyage des données, essentiel car "garbage in, garbage out".
Transformation des données : Trier, regrouper, changer d'origine/unité, transformations mathématiques (ex: log).
Regroupement en classes : Utilisé pour les variables quantitatives avec un grand nombre de sujets.
Diviser la série en classes mutuellement exclusives.
Le nombre de classes dépend du nombre total d'observations et du bon sens.
Perte d'information (chaque individu est représenté par le milieu de la classe), mais gain en lisibilité.
4.2. Indices Descriptifs
Indices de localisation : Moyenne, médiane, mode (valeur centrale).
Indices de dispersion : Variance, écart-type (SD), écart interquartile (IQR), percentiles (ampleur des fluctuations).
4.3. Représentations Graphiques
L'objectif des graphiques est de fournir une vision synthétique et facilement appréhendable des tendances générales.
Un graphique doit être : simple, compréhensible par lui-même, légendé et honnête.
Distribution d'une variable qualitative :
Tableau des effectifs et fréquences : (effectif absolu) et (fréquence relative/pourcentage).
Diagramme en bâtons (ou barres) : Colonnes séparées avec largeur fixe. Peut être horizontal ou vertical. Attention à l'axe des valeurs numériques (base zéro pour éviter les erreurs d'interprétation).
Diagramme en camembert ("Pie chart") : Secteurs proportionnels à l'effectif de chaque modalité. Moins précis, à éviter pour un grand nombre de classes. Le plus grand secteur commence à midi et suit l'ordre décroissant.
Distribution d'une variable quantitative :
Histogramme : Rectangles juxtaposés (différence avec diagramme en bâtons) représentant les effectifs (ou fréquences) par classe.
Polygone de fréquence : Lisse l'histogramme en reliant les milieux des classes, atténuant l'impression de discontinuité.
Autres représentations (exemple) :
Box plots (boîte à moustaches) : Visualise les statistiques de localisation et de dispersion, y compris les valeurs extrêmes (outliers).
Dot plot : Représente chaque donnée individuellement.
Spider plot (Radar plot) : Compare le profil de plusieurs sujets pour plusieurs variables quantitatives.
Pyramide des âges : Deux histogrammes adossés (hommes/femmes) pour représenter la composition d'une population par sexe et âge.
Colonnes groupées / Stacked columns : Pour comparer des groupes au sein de différentes catégories.
SCORE : Modélisation du risque cardiovasculaire combinant plusieurs variables (sexe, tabac, âge, cholestérol, TA).
5. Introduction aux Probabilités et Statistique Inférentielle (Chapitres b5f39251)
Ces notions, approfondies en Statistique II, font l'objet d'une introduction pour préparer les étudiants.
Probabilités :
Notion de probabilité conditionnelle et bases du théorème de Bayes.
Lois de probabilités :
Discrètes : Loi binomiale, Loi de Poisson.
Continues : Loi normale (de Gauss-Laplace), Loi normale centrée réduite (Loi de Z), calculs de probabilités basés sur la Loi de Z.
Théorème Central Limite.
Dérivés de la loi normale : Lois de Student, Fisher, Chi².
Intervalles de confiance : Pour une moyenne, une proportion, ou une différence de moyennes.
Tests statistiques.
Quiz starten
Teste dein Wissen mit interaktiven Fragen