Biostatistique pour Analyse Biologique

20 cartes

Ce cours de biostatistique de 20 heures, destiné aux étudiants en licence 3 Analyse Biologique au Centre de Formation Africain du Sénégal (CEFAS), vise à développer des compétences fondamentales en biostatistique pour la collecte, l'organisation, la synthèse et l'interprétation de données quantitatives et qualitatives issues d'observations cliniques, d'analyses de laboratoire ou d'enquêtes sanitaires, particulièrement dans le contexte sénégalais.

20 cartes

Réviser

Question

Qu'est-ce qu'une variable qualitative nominale ?

Réponse

Une variable dont les catégories n'ont pas d'ordre logique. Exemple : le groupe sanguin (A, B, AB, O).

Question

Qu'est-ce que la biostatistique ?

Réponse

La branche de la statistique appliquée aux sciences du vivant, à la médecine et à la santé publique pour analyser des données biologiques.

Question

Citez les 4 étapes d'une analyse biostatistique.

Réponse

La collecte, l'organisation, l'analyse et l'interprétation de données biologiques ou sanitaires.

Question

Quelle est la principale différence avec la statistique générale ?

Réponse

La biostatistique se concentre sur les variables biologiques et sanitaires, tandis que la statistique générale s'applique à tous les domaines.

Question

Donnez une application de la biostatistique au Sénégal.

Réponse

Analyser l'évolution saisonnière des cas de paludisme pour recommander des actions ciblées comme la distribution de moustiquaires.

Question

Qu'est-ce qu'une variable en biostatistique ?

Réponse

Un caractère mesurable ou observable qui prend différentes valeurs (modalités) selon les sujets étudiés, comme la température corporelle.

Question

Différenciez une variable quantitative d'une qualitative.

Réponse

Une variable quantitative est numérique (ex: âge, poids), alors qu'une variable qualitative décrit une catégorie (ex: sexe, groupe sanguin).

Question

Qu'est-ce qu'une variable qualitative ordinale ?

Réponse

Une variable dont les catégories possèdent un ordre ou une hiérarchie logique. Exemple : le stade d'une maladie (I, II, III).

Question

Qu'est-ce qu'une variable quantitative discrète ?

Réponse

Une variable qui ne prend que des valeurs entières, issues d'un comptage. Exemple : le nombre de globules blancs par mm³.

Question

Qu'est-ce qu'une variable quantitative continue ?

Réponse

Une variable qui peut prendre n'importe quelle valeur dans un intervalle, souvent issue d'une mesure. Exemple : la glycémie (1,10 g/L).

Question

Comment définit-on le mode d'une série statistique ?

Réponse

Le mode est la valeur (ou modalité) qui apparaît le plus fréquemment dans un ensemble de données.

Question

Dans quel cas la médiane est-elle plus fiable que la moyenne ?

Réponse

Lorsque la série de données contient des valeurs extrêmes (aberrantes) qui tirent la moyenne vers le haut ou le bas.

Question

Quel graphique choisir pour visualiser une répartition en pourcentage ?

Réponse

Le diagramme circulaire (ou camembert) est le plus adapté pour montrer les proportions des différentes catégories d'un tout.

Question

Quand utiliser un histogramme ?

Réponse

Pour représenter la distribution d'une variable quantitative continue, en regroupant les valeurs en classes ou intervalles.

Question

Que mesure le coefficient de variation (CV) ?

Réponse

Il mesure la dispersion relative des données autour de la moyenne, en pourcentage. Il permet de comparer la variabilité de plusieurs séries.

Question

Que signifie un faible coefficient de variation (CV) ?

Réponse

Il indique une faible dispersion et donc une grande homogénéité des données. La série de mesures est considérée comme fiable et stable.

Question

Qu'est-ce qu'une probabilité en termes simples ?

Réponse

Une mesure de la chance ou du risque qu'un événement se produise, exprimée sur une échelle de 0 (impossible) à 1 (certain).

Question

Qu'est-ce que l'hypothèse nulle (H₀) dans un test statistique ?

Réponse

L'hypothèse postulant qu'il n'existe pas de différence significative ou d'effet réel entre les groupes ou les conditions étudiées.

Question

Dans quel cas utilise-t-on un test du Chi² (khi-deux) ?

Réponse

Pour comparer des proportions ou des répartitions observées avec des répartitions théoriques pour des variables qualitatives.

Question

Quand faut-il utiliser un test t de Student ?

Réponse

Pour comparer les moyennes de deux groupes indépendants afin de déterminer si une différence observée est statistiquement significative.

Module de Biostatistique pour l'Analyse Biologique

La biostatistique est l'application des méthodes statistiques aux données biologiques et médicales. Ce module fournit des compétences fondamentales en biostatistique pour collecter, organiser, résumer et interpréter des données quantitatives et qualitatives en analyse biologique, avec une application particulière au contexte sénégalais.

Ce cours est destiné aux étudiants de Licence 3 en Analyse Biologique au Centre de Formation Africain du Sénégal (CEFAS) et est préparé par Oumar Samba Ly.

1. Introduction Générale à la Biostatistique

La biostatistique est une discipline essentielle pour toute personne impliquée dans la collecte et l'analyse de données en santé humaine, animale ou environnementale. Elle est cruciale à toutes les étapes du diagnostic médical, du suivi thérapeutique, de la validation des méthodes analytiques, et de l'évaluation des programmes de santé publique.

1.1 Définition et Utilité

La biostatistique est la branche de la statistique qui s'applique aux sciences du vivant, à la médecine, à la santé publique et à l'environnement. Elle implique la collecte, l'organisation, l'analyse et l'interprétation de données biologiques ou sanitaires.

Exemples de données :
- Taux d'hémoglobine d'un patient
- Nombre de cas de paludisme par mois dans une région
- Résultats de glycémie à jeun dans une population

1.2 Rôle des techniciens biologistes au Sénégal

Au Sénégal, les techniciens biologistes doivent être capables de :

Comprendre les résultats numériques d'analyses biologiques (hématologie, biochimie, sérologie...).
Mettre en forme les résultats bruts pour les professionnels de la santé.
Assurer la traçabilité et la fiabilité des données biomédicales.
Participer à l'interprétation et à la transmission de l'information scientifique.

1.3 Différenciation : Biostatistique vs. Statistique Générale

Bien que toutes deux utilisent des méthodes statistiques, leurs domaines d'application diffèrent.

Statistique générale	Biostatistique
S'applique à tous les domaines (économie, social, etc.)	Spécifique à la biologie, la médecine, la santé et l'environnement
Intérêt pour les phénomènes économiques, sociaux	Intérêt pour les maladies, les paramètres physiologiques, les problématiques sanitaires
Variables souvent économiques ou sociales	Variables biologiques, sanitaires ou environnementales

1.4 Domaines d'application concrets

La biostatistique est indispensable dans divers contextes au Sénégal :

En laboratoire (clinique ou de recherche) :
- Étudier la répartition des résultats d'analyses (glycémie, cholestérol, créatinine).
- Comparer les résultats entre plusieurs méthodes d'analyse.
- Définir les valeurs de référence normales d'un paramètre biologique.
En épidémiologie :
- Estimer la prévalence d'une maladie (ex : VIH, tuberculose).
- Suivre l'évolution d'une épidémie (ex : fièvre jaune, dengue, Covid-19).
- Calculer des risques relatifs ou des taux d'attaque.
En santé publique :
- Évaluer les indicateurs de performance d'un centre de santé.
- Suivre les taux de vaccination dans une commune.
- Planifier les ressources (médicaments, personnel) à partir de données fiables.

1.5 Utilité : Exemples biomédicaux sénégalais

Utilité	Exemple biomédical sénégalais
Résumer des résultats d'analyse	Calcul de la moyenne des leucocytes sur un échantillon de patients
Comparer des groupes	Comparaison du taux de parasitémie entre zones urbaines et rurales
Appuyer un diagnostic	Interprétation d'un test VIH rapide en fonction de seuils établis
Évaluer l'efficacité d'un traitement	Suivi statistique de la baisse de la charge virale sous antirétroviraux
Suivre une épidémie	Courbes de progression du paludisme dans la région de Kédougou

1.6 Niveaux d'analyse statistique

Niveau d'analyse	But	Exemple
Statistique descriptive	Résumer les données	Moyenne des taux d'hémoglobine de 30 patients
Statistique inférentielle	Généraliser à une population	Estimer la prévalence du VIH à partir d'un échantillon
Tests statistiques	Comparer ou évaluer une hypothèse	Vérifier si deux traitements ont des effets différents

2. Types de Variables et Nature des Données Biomédicales

Savoir identifier et classer les types de variables est fondamental pour choisir les outils statistiques appropriés et interpréter correctement les résultats.

2.1 Définitions clés

Donnée : une information observée ou mesurée sur un patient, un échantillon ou un événement biologique (ex: sexe du patient, concentration de glucose).
Variable : un caractère mesurable ou observable qui prend différentes valeurs selon les cas étudiés (ex: "Température corporelle").
Modalité : une des valeurs possibles prises par une variable, le plus souvent qualitative (ex: pour "groupe sanguin", les modalités sont A, B, AB, O).

2.2 Classification des variables

Les variables peuvent être classées en deux catégories principales : qualitatives et quantitatives.

Type de variable	Définition	Exemple biomédical	Exemple Local
Qualitative nominale	Catégories sans ordre logique	Groupe sanguin, sexe du patient	Lieu de résidence
Qualitative ordinale	Catégories ordonnées de manière logique	Stade tumoral (I, II, III), score de douleur (léger à fort)	Gravité d'un symptôme (léger/moyen/sévère), score APGAR
Quantitative discrète	Valeurs entières, issues d'un comptage	Nombre de globules blancs, nombre de cycles menstruels	Nombre d'analyses par jour, fréquence respiratoire (cycles/min)
Quantitative continue	Valeurs réelles mesurables, sur une échelle	Tension artérielle, glycémie, poids, température	Taux d'urée, température corporelle, IMC

2.3 Exemple d'identification de variables

À partir d'une fiche d'analyse d'un patient :

Paramètre	Valeur mesurée	Type de variable
Sexe	Féminin	Qualitatif nominal
Âge	34 ans	Quantitatif discret
Groupe sanguin	O+	Qualitatif nominal
Numération globulaire	4,1 × 10⁶/mm³	Quantitatif discret (résultat d'un comptage)
Glycémie à jeun	1,10 g/L	Quantitatif continu
Résultat test VIH	Négatif	Qualitatif binaire (nominal)

3. Tableaux Statistiques et Représentations Graphiques

L'organisation et la visualisation des données sont cruciales pour leur compréhension et leur communication efficace.

3.1 Objectifs de l'organisation des données

Organiser les données en tableaux et les représenter graphiquement permet de :

Détecter rapidement une anomalie.
Mieux communiquer les résultats aux professionnels de la santé.
Appuyer une décision (ex: ajustement thérapeutique, alerte sanitaire).

3.2 Tableaux de fréquences

Pour des données brutes, il est utile de calculer les effectifs, les fréquences (pourcentages) et les fréquences cumulées.

Fréquence (%) = (effectif / N) × 100

La fréquence cumulée est particulièrement utile pour les variables ordinales ou continues.

Exemple : Répartition des groupes sanguins chez 60 donneurs de sang

Groupe sanguin	Effectif (ni)	Fréquence (%)	Fréquence cumulée (%)
O+	30	50,0	50,0
A+	15	25,0	75,0
B+	10	16,7	91,7
AB+	5	8,3	100,0
Total	60	100,0

3.3 Types de graphiques et leurs usages

Type de graphique	Quand l'utiliser ?	Exemple biomédical
Diagramme en bâtons	Comparer des modalités (catégories discrètes)	Nombre de cas de tuberculose par région
Histogramme circulaire (en classes)	Séries continues regroupées en classes	Répartition de la glycémie chez 100 patients
Diagramme circulaire	Visualiser une répartition en pourcentage	Part des infections bactériennes, virales...
Courbe cumulative	Étudier la progression d'une variable ou une répartition	Score de douleur, progression du poids
Nuage de points	Comparer deux variables continues	Relation entre glycémie et triglycérides

3.4 Histogramme : Exemple (taux de glycémie)

Un histogramme permet de visualer la répartition d'une variable continue.

Taux de glycémie à jeun de 40 patients

Classes de glycémie (g/L)	Effectifs
[0,70 – 0,89]	4
[0,90 – 1,09]	15
[1,10 – 1,29]	14
[1,30 – 1,49]	5
[1,50 – 1,69]	2

L'histogramme de ces données permet d'identifier la classe modale et la tendance générale. Les valeurs supérieures à 1,26 g/L peuvent indiquer une hyperglycémie possible.

4. Paramètres de Tendance Centrale (Moyenne, Médiane, Mode)

Les paramètres de tendance centrale résument une série de données numériques par une ou plusieurs valeurs représentatives. Ils indiquent autour de quelle valeur la majorité des observations se concentrent.

4.1 Définitions et utilités

Paramètre	Définition	Utilité biomédicale
Moyenne ()	Somme des valeurs ÷ nombre de valeurs	Représente la valeur globale d'un groupe de patients
Médiane (Me)	Valeur centrale d'une série triée	Moins influencée par les valeurs extrêmes (robustesse)
Mode (Mo)	Valeur la plus fréquente dans une série	Reflète le profil dominant ou habituel

4.2 Calcul de la moyenne

La moyenne est calculée en additionnant toutes les valeurs et en divisant par le nombre total de valeurs ().

$\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n}" data-type="inline-math">$ $\overset{x}{ˉ} = \frac{x _{1} + x _{2} + \dots + x _{n}}{n} " d a t a - t y p e = " in l in e - ma t h " >< / s p an >$

Exemple : Taux d'hémoglobine (g/dL) de 5 patientes : 11,5 – 10,8 – 12,2 – 11,0 – 11,9

$\bar{x} = \frac{11,5 + 10,8 + 12,2 + 11,0 + 11,9}{5} = \frac{57,4}{5} = 11,48 \text{ g/dL}" data-type="inline-math">$ $\overset{x}{ˉ} = \frac{11 , 5 + 10 , 8 + 12 , 2 + 11 , 0 + 11 , 9}{5} = \frac{57 , 4}{5} = 11, 48 g/dL " d a t a - t y p e = " in l in e - ma t h " >< / s p an >$

4.3 Calcul de la médiane

Pour calculer la médiane :

Trier la série de données par ordre croissant.
Si l'effectif est impair, la médiane est la valeur du milieu.
Si l'effectif est pair, la médiane est la moyenne des deux valeurs centrales.

Exemple : Âges (en années) de 7 donneurs : 22 – 25 – 24 – 29 – 30 – 28 – 27

Série ordonnée : 22 – 24 – 25 – 27 – 28 – 29 – 30

Médiane = 27 ans

4.4 Identification du mode

Le mode est la valeur la plus fréquente dans une série.
Une série peut avoir plusieurs modes (multimodale) ou aucun mode si toutes les valeurs sont différentes.

Exemple : Résultats Hb (g/dL) : 11,2 – 11,5 – 11,2 – 11,8 – 11,7 – 11,2

Mode = 11,2 g/dL

4.5 Choix de l'indicateur le plus fiable

Situation	Indicateur le plus fiable
Série avec forte valeur extrême	Médiane (moins sensible aux valeurs aberrantes)
Série homogène (pas de valeurs extrêmes)	Moyenne ou Médiane
Variable qualitative ordinale ou discrète	Mode (pour identifier la catégorie la plus fréquente)

5. Paramètres de Dispersion (Étendue, Variance, Écart-type)

Les paramètres de dispersion mesurent l'étalement ou la variabilité des données autour de la tendance centrale. Ils complètent les paramètres de tendance centrale pour fournir une image complète de la distribution des données.

5.1 Utilité des mesures de dispersion

Deux séries de données peuvent avoir la même moyenne mais des dispersions très différentes, indiquant :

Une anomalie dans les échantillons (variabilité excessive).
Une erreur de manipulation (résultat aberrant).
Une méthode d'analyse moins fiable.

5.2 Indicateurs de dispersion

Indicateur	Formule (série simple)	Interprétation
Étendue	Max − Min	Amplitude brute de la série (différence entre les valeurs extrêmes)
Variance ()		Moyenne des carrés des écarts à la moyenne
Écart-type ()		Moyenne des écarts à la moyenne (a la même unité que la variable)
Coefficient de variation (CV)		Dispersion relative exprimée en pourcentage (indépendant de l'unité, utile pour comparer la variabilité de séries différentes)

5.3 Exemple de calcul des paramètres de dispersion

Valeurs : numération leucocytaire (en milliers/mm³) : 6,5 - 6,8 - 6,3 - 6,2 - 6,7

Moyenne () : 6,5 K/mm³
Étendue : 6,8 - 6,2 = 0,6
Variance
Écart-type K/mm³
CV

Un CV très faible comme celui-ci indique une très faible dispersion et une série homogène de résultats.

5.4 Importance en Biologie

Un faible écart-type ou CV est indicateur d'une série cohérente et fiable. C'est important pour :

Suivre un paramètre biologique dans le temps (ex: CRP, glycémie).
Comparer deux méthodes d'analyse.
Évaluer si une anomalie relève d'un vrai problème ou d'une variabilité normale.

6. Initiation aux Probabilités et à leur Rôle en Biologie

La probabilité est la mesure du risque ou de la chance qu'un événement se produise. Elle est fondamentale pour gérer l'incertitude dans les décisions biologiques et médicales.

6.1 Qu'est-ce qu'une probabilité ?

Une probabilité s'exprime sous forme de fraction, de nombre décimal, ou de pourcentage.

Exemple : Si 3 tubes sur 10 sont non conformes dans un laboratoire, la probabilité de tirer un tube non conforme est de 3/10 (0,3 ou 30%).

6.2 Types d'événements et Probabilités

Type d'événement	Exemple en santé	Probabilité
Événement certain	Tous les patients testés reçoivent un résultat	1 (100 %)
Événement impossible	Aucun être humain n'a une température négative	0 (0 %)
Événement probable	Un patient sur cinq est hypertendu	0,2 (20 %)
Événement rare	Une allergie grave à un vaccin	≤ 0,01 (1 %)

6.3 Calcul d'une probabilité simple

La probabilité est le rapport entre le nombre de cas favorables et le nombre total de cas possibles.

$P(\text{événement}) = \frac{\text{Nombre de cas favorables}}{\text{Nombre total de cas possibles}}" data-type="inline-math">$ $P (\overset{e}{ˊ} v \overset{e}{ˊ} nement) = \frac{Nombre de cas favorables}{Nombre total de cas possibles} " d a t a - t y p e = " in l in e - ma t h " >< / s p an >$

Exemple : Sur 200 personnes dépistées, 50 sont séropositives au VIH. La probabilité qu'une personne testée soit séropositive est de ou .

6.4 Probabilité de l'événement complémentaire

La probabilité qu'un événement ne se produise pas (événement non A) est $1P(A)$ .

$\boxed{P(A) + P(\text{non } A) = 1}" data-type="inline-math">$ $P (A) + P (non A) = 1 " d a t a - t y p e = " in l in e - ma t h " >< / s p an >$

Si 25% des patients sont positifs, alors 75% sont négatifs.

6.5 Applications biomédicales

Application	Exemple biomédical concret
Prévention	Probabilité d'attraper le paludisme en saison humide
Diagnostic	Risque qu'un patient diabétique ait une glycémie > 1,26 g/L
Gestion de stock	Chances d'un réactif d'être inutilisable
Vaccination	Taux de personnes protégées dans une zone donnée

7. Applications Contextualisées (Tests Simples, Interprétation)

Les tests statistiques permettent de répondre à des questions biologiques ou médicales en comparant des groupes ou des situations, et de déterminer si les différences observées sont significatives ou dues au hasard.

7.1 Notions fondamentales des tests d'hypothèse

Terme	Signification
Hypothèse nulle (H₀)	Suppose qu'il n'y a pas de différence ou pas d'effet (ce que l'on cherche à réfuter)
Hypothèse alternative (H₁)	Suppose qu'il y a une vraie différence, un effet réel
Seuil (niveau de signification)	Probabilité de rejeter H₀ à tort. Souvent fixé à 5% (0,05)
P-value	Probabilité d'observer les résultats si H₀ est vraie. Si p-value < , H₀ est rejetée.

7.2 Test du Chi² ()

Utilisé pour comparer des proportions ou des répartitions entre deux ou plusieurs groupes.
Applicable aux variables qualitatives.

Exemple : Y a-t-il un lien entre le sexe et la présence de paludisme dans une population dépistée ?

7.3 Test t de Student

Permet de comparer les moyennes de deux groupes lorsque l'on a des résultats numériques (variables quantitatives).

Exemple : Le traitement A réduit-il la glycémie plus efficacement que le traitement B ?

Conditions d'application :

Échantillons indépendants.
Distribution des données approximativement normale.
Effectifs pas trop faibles (n ≥ 30 préférable, mais accepté pour n > 10).

7.4 Cas pratique : Comparaison entre deux traitements

Deux groupes de 8 patients sont traités contre une infection urinaire. Leur température est mesurée 48h après traitement.

Traitement A	37,8	37,2	38,0	37,4	37,5	37,6	37,2	37,9
Traitement B	38,5	38,3	38,0	38,2	38,1	38,4	38,2	38,3

Calcul des moyennes :

Traitement A : $\bar{x}_A = \frac{37,8 + 37,2 + 38,0 + 37,4 + 37,5 + 37,6 + 37,2 + 37,9}{8} = \frac{303,6}{8} = \mathbf{37,95^{\circ}C}" data-type="inline-math">$ $\overset{x}{ˉ}_{A} = \frac{37 , 8 + 37 , 2 + 38 , 0 + 37 , 4 + 37 , 5 + 37 , 6 + 37 , 2 + 37 , 9}{8} = \frac{303 , 6}{8} = 37, 9 5^{\circ} C " d a t a - t y p e = " in l in e - ma t h " >< / s p an >$
Traitement B : $\bar{x}_B = \frac{38,5 + 38,3 + 38,0 + 38,2 + 38,1 + 38,4 + 38,2 + 38,3}{8} = \frac{306,0}{8} = \mathbf{38,25^{\circ}C}" data-type="inline-math">$ $\overset{x}{ˉ}_{B} = \frac{38 , 5 + 38 , 3 + 38 , 0 + 38 , 2 + 38 , 1 + 38 , 4 + 38 , 2 + 38 , 3}{8} = \frac{306 , 0}{8} = 38, 2 5^{\circ} C " d a t a - t y p e = " in l in e - ma t h " >< / s p an >$

Interprétation :

La température moyenne du groupe A est 37,95 °C, celle du groupe B est 38,25 °C.
La température moyenne est inférieure dans le groupe A, ce qui suggère que le traitement A pourrait être plus efficace pour réduire la fièvre.
L'écart moyen de 0,3 °C (38,25 - 37,95) peut être cliniquement significatif.
Un test t de Student serait nécessaire pour confirmer si cette différence est statistiquement significative.

Résumé des compétences acquises

Ce module développe une culture statistique pour les contextes biologiques, cliniques et sanitaires. Les compétences clés incluent :

Classifier et structurer les données.
Représenter clairement les résultats chiffrés.
Calculer et interpréter les indicateurs clés (moyenne, médiane, écart-type, proportions).
Utiliser la probabilité pour gérer l'incertitude.
Comparer des groupes ou des traitements avec des tests simples (Chi², test t).

Lancer un quiz

Teste tes connaissances avec des questions interactives