Fondements de la biostatistique médicale
Aucune carteCe document couvre les concepts fondamentaux de la biostatistique, incluant la variabilité, les méthodes statistiques, les lois de probabilité, l'estimation, et les tests statistiques, avec des exemples pratiques et des annexes détaillées.
Le contenu fourni par l'utilisateur contient trop de caractères, j'ai donc dû le tronquer. Voici la documentation formatée en HTML :
Biostatistique
Introduction générale
En biostatisque, où les données sont vastes et complexes, les statistiques sont un outil essentiel utilisé pour organiser, décrire, estimer et comparer des phénomènes. Elles ne servent pas seulement à analyser les données existantes, mais aussi à créer et affiner de nouvelles méthodes d’analyse.
L'importance de la biostatisque continue de croître. En effet, de nombreux professionnels de la santé doivent utiliser les outils statistiques pour analyser des données, estimer des paramètres et tester des hypothèses.
Par contre, l'évolution rapide des outils informatiques, malgré ses avantages, pose un défi majeur: une utilisation inappropriée des méthodes statistiques peut mener à des conclusions erronées. En biomédecine, il est primordial de comprendre que les modèles statistiques sont des approximations de la réalité biologique et que les conditions de leur application doivent être rigoureusement respectées.
La biostatistique permet de :
Organiser les données disparates provenant des observations individuelles.
Décrire clairement les phénomènes par des paramètres résumant ces observations.
Estimer les valeurs de ces paramètres dans les populations d’où proviennent les échantillons observés.
Comparer ces paramètres entre plusieurs populations.
Prédire la probabilité de survenue d’événements.
Quelques notions de base
L'information est au cœur de la pratique clinique et de l'approche de santé publique. Pour traiter des données d'un groupe de sujets, la biostatisque propose des méthodes pour résumer et interpréter l'information utile.
Variabilité
La valeur d’une caractéristique chez les sujets d’une population ou d’un échantillon varie d’un individu à l’autre. Cette variabilité est en partie due aux instruments de mesures utilisés (erreur de mesure).
Ces sources de variabilité, inter et intra-sujet, que nous regroupons sous le terme général de variabilité individuelle, sont une des spécificités fondamentales des sciences de la vie. Quelle que soit la caractéristique d’un organisme vivant à laquelle on s’intéresse, sa mesure varie d’un sujet à l’autre ou d’un moment à l’autre pour un même sujet, indépendamment des erreurs de mesure.
Variabilité individuelle
Si l’on dit que la tension artérielle chez un adulte est de 14 mmHg, tout le monde comprend qu’on parle d’une valeur moyenne, ou habituelle. En fait la tension artérielle chez l’adulte varie d’un sujet à l’autre.
Si on prend, par exemple, la tension artérielle de 2000 sujets adultes d’une population à un instant donné, on obtient une grande variabilité des tensions artérielles.
Un échantillon de plusieurs adultes serait plus satisfaisant pour représenter l’ensemble des adultes, mais ne résoudrait pas complètement le problème car il existe y existe des variations d’un échantillon à l’autre. À l’extrême, si l’on prend la totalité de la population des adultes, il faut encore trouver des moyens pour résumer l’information et ne pas donner la liste, inutilisable en pratique, de la totalité des valeurs de la tension artérielle. Finalement, que ce soit dans le cas de variables quantitatives ou qualitatives, la statistique fournit les moyens appropriés pour tenir compte de la variabilité individuelle.
Fluctuation d’échantillonnage
Un échantillon est un sous-ensemble, plus ou moins important, des sujets de la population. En générale la composition de deux échantillons n’est, en général, pas la même. Ce phénomène, qualifié de fluctuation d’échantillonnage, est important à comprendre car, dans le domaine biomédical, il est extrêmement fréquent de travailler sur des échantillons, l’inclusion dans une enquête de tous les sujets de la population étant, la plupart du temps, impossible.
Il n’est donc possible de résumer l’ensemble des observations par le seul pourcentage de malades dans la population. Il faut indiquer comment les observations sont dispersées.
Conséquence de la variabilité et de la fluctuation d’échantillonnage
À partir d’un échantillon, on ne doit pas donner une estimation unique d’un pourcentage (ou d’une moyenne), mais un intervalle -> Intervalle de confiance.
La comparaison de pourcentages (ou de moyennes) observés nécessite des précautions -> Tests statistiques.
Les méthodes statistiques dans les sciences de la vie
L’utilisation de méthodes statistiques ne supprime pas la variabilité individuelle ni les fluctuations d’échantillonnage qui sont indissociablement liées aux sciences de la vie. Leur force est de permettre de dépasser le désordre apparent qui en résulte au niveau individuel, d’une part en donnant des résultats moyens qui sont autant de points de repère pour la pratique du clinicien ou du biologiste, ou pour le chercheur, et d’autre part en mettant en évidence des phénomènes réguliers et stables étayant l’existence de lois biologiques générales.
Population, échantillon, variable aléatoire
Population
Une population est un ensemble d’unités sur lesquelles une caractéristique peut être relevée. Le plus souvent, en épidémiologie, les unités sont des personnes. Très souvent, la population est de grande taille et on est amené à travailler sur une partie de la population : l'échantillon.
Échantillon
Un échantillon est une partie de la population. Il est habituellement de taille suffisamment petite pour que les caractéristiques auxquelles on s’intéresse puissent effectivement être mesurées sur tous les sujets qui le composent. Les observations faites sur un échantillon servent à répondre aux questions posées au niveau de la population. Il est donc important que l’échantillon soit constitué de telle sorte qu’il puisse remplir ce rôle. C’est la notion de représentativité.
Variable aléatoire
Une variable aléatoire associe une valeur à chaque sujet de la population. Cette valeur peut être numérique (âge) ou ne pas l’être (malade/non malade).
Distribution
Une distribution est la série de valeurs observées ou mesurées pour une variable donnée dans une population donnée. On peut la représenter graphiquement ou la caractériser par des indicateurs : mesures de fréquence pour les variables qualitatives et mesures de tendance centrale et de dispersion pour les variables quantitatives.
Statistique descriptive
Les différents types de variables
Une variable est une caractéristique dont on peut observer des valeurs différentes au sein d’un groupe de sujets. Une variable peut être de nature qualitative (catégorielle) ou de nature quantitative. Les modes de représentation et les méthodes d’analyse diffèrent selon que l’on a affaire à une variable qualitative ou à une variable quantitative. Il est donc important de bien comprendre leurs différences pour les distinguer avec assurance.
Variable qualitative
Une variable dite qualitative est une caractéristique ayant un certain nombre de catégories ou modalités, exhaustives et mutuellement exclusives :
Exhaustives car toutes les modalités possibles sont citées.
Mutuellement exclusives car chaque individu peut être classé dans une catégorie et une seule.
Variable qualitative à deux classes / variable qualitative à plusieurs classes
Quand il s’agit de classer les sujets selon deux catégories, la variable catégorielle est dite dichotomique (ou binaire). Par exemple, si l’on dénombre les hommes et les femmes dans un groupe, la variable « sexe » est une variable catégorielle à deux catégories : « hommes » et « femmes ».
Néanmoins, une telle variable en deux catégories peut être une représentation simplifiée de données plus complexes. Certaines caractéristiques se décrivent naturellement en plus de deux catégories.
Variable qualitative ordinale / variable qualitative nominale
Certaines variables catégorielles sont dites nominales : chaque classe désigne une catégorie de sujets. Il n’existe pas d’ordre naturel entre les catégories. C’est, par exemple, le cas du groupe sanguin : A / B / AB / O ou encore de la situation familiale.
Pour d’autres variables, il existe un ordre naturel entre les différentes catégories. Ces variables sont dites ordinales. Dans l’exemple concernant la douleur, on peut être plus précis en classant les sujets selon la sévérité de la douleur.
Variable quantitative
Les valeurs d’une variable quantitative sont obtenues par un instrument de mesure ou le résultat d’un dénombrement. Elles sont souvent accompagnées d’une unité de mesure. Avec une telle variable, on peut toujours répondre à une question commençant par : « combien …?».
Variable quantitative continue
Une variable est continue si elle peut prendre, en théorie, un nombre infini de valeurs dans un intervalle donné, et si la précision avec laquelle on la mesure ne dépend que de l’exactitude de l’instrument de mesure. L’âge, la pression artérielle systolique et la glycémie en sont des exemples. Lorsque l’on arrondit la valeur obtenue, on dit que l’on discrétise cette variable continue.
Variable quantitative discrète
On parle également de variable discrète lorsque la variable est, à l’origine, une variable qui ne peut prendre que certaines valeurs numériques. Par exemple, le nombre d’enfants d’une famille est une variable quantitative discrète qui peut prendre les valeurs : 0, 1, 2, 3, 4, 5, etc.
Il y a un petit test facile à réaliser pour distinguer les deux types de variables :
Pour une variable catégorielle ordinale, chaque différence entre les catégories ne signifie pas la même chose.
Pour une variable quantitative discrète, chaque différence entre les catégories a toujours la même signification sur toute l’étendue des valeurs.
Représentation graphique d’une distribution
Une bonne représentation graphique permet de résumer et d'interpréter facilement l'information contenue dans une distribution de données.
Paramètres de description d’une distribution
Nous avons vu qu’on peut représenter graphiquement une distribution et permettre ainsi de résumer et d’interpréter l’information à travers cette représentation graphique. La difficulté réside maintenant dans la nécessité de résumer les données d’une distribution afin de les exprimer et éventuellement de les comparer à d’autres données du même type provenant d’une série différente. Il existe des méthodes permettant de résumer en quelques nombres l’ensemble d’une distribution. Ces nombres sont appelés des indicateurs ou des paramètres. On distingue deux types d’indicateurs : mesures de tendance centrale (ou mesure de position) et les mesures de dispersion.
Les mesures de tendance centrale
Elles permettent de résumer en quelques valeurs la position d’une distribution en fonction des valeurs possibles de la variable étudiée.
La moyenne
La moyenne est une mesure de tendance centrale qui sert à résumer une série de données d’une variable quantitative. La moyenne est une valeur calculée résultant de la somme algébrique des valeurs observées dans la série, divisée par le nombre de sujets.
Calcul : si l’on appelle x les différentes valeurs de la variable quantitative étudiée, ∑x la somme de ces valeurs et N le nombre de sujets, µ la moyenne d’une série est égale à : .
La moyenne est sensible au poids des valeurs extrêmes. Si les valeurs sont dispersées de façon homogène autour d’une valeur centrale, la moyenne est un bon indicateur de la distribution. Si au contraire, il existe des valeurs très élevées ou très basses à l’une des extrémités de la distribution ces valeurs pèsent de façon importante sur la valeur moyenne. Le nombre obtenu sera un mauvais indice de valeur centrale ; dans ce cas là il sera plus adapté soit d’utiliser la médiane soit de transformer la variable.
La médiane
La médiane est la valeur centrale de la distribution, qui divise l’échantillon en deux moitiés de taille égale. Pour trouver la médiane, il faut d’abord classer toutes les observations par ordre croissant.
Si le nombre d’observations est impair, la médiane est la valeur correspondant à l’observation située au milieu.
Si n est un nombre pair, on considère que la médiane est à mi-chemin entre les deux valeurs du milieu de la distribution.
Le mode
Le mode est la valeur la plus représentée de la série. Une série peut ne pas avoir de mode ou au contraire avoir plusieurs modes. Le mode n’est utilisé que pour définir l’allure générale de la distribution.
Lorsqu’il n’existe qu’un seul mode avec un pic très accentué, on parle d’une distribution uni-modale. Il peut exister un deuxième pic, on parle de distribution bimodale.
Les paramètres de dispersion
Les mesures de tendance centrale sont utiles pour résumer l’information et décrire, mais elles sont insuffisantes pour renseigner sur la dispersion des valeurs. La dispersion des valeurs est importante à prendre en compte dans l’interprétation des résultats et les décisions qui en découlent.
Les extrêmes
Ce sont les deux valeurs extrêmes de la distribution, valeur minimum et maximum. Les extrêmes donnent une idée brute de la dispersion de la distribution de part et d’autre de la médiane.
L’étendue
C’est la différence entre les deux extrêmes. L’étendue donne en un seul chiffre une idée de la distribution autour de la médiane. Ce paramètre est utile si les valeurs extrêmes ne s’éloignent pas trop des valeurs voisines. Si les deux valeurs extrêmes sont aberrantes, l’étendue donne une fausse idée sur la dispersion.
Les quartiles
Les quartiles sont les trois valeurs qui partagent la distribution en quatre parties égales.
Le premier quartile () correspond à la valeur de l’observation qui a 25% de la distribution au-dessous et 75% au-dessus.
Le deuxième quartile () correspond à la valeur de l’observation qui a 50% de la distribution au-dessous et 50% au-dessus et est donc la médiane.
Le troisième quartile () correspond à la valeur de l’observation qui a 75% de la distribution au-dessous et 25% au-dessus.
Plutôt que les quartiles, on présente souvent l’étendue inter-quartile (25% à 75%) qui est donc la partie centrale qui couvre 50% de la distribution observée.
Les déciles et les percentiles
On peut raisonner de la même manière avec les déciles ou les centiles (percentiles), partageant la distribution en 10 ou 100 parties égales, respectivement. On peut ainsi calculer la valeur correspondant au 5ème percentile et au 95ème percentile et obtenir l’étendue centrale couvrant 90% de la distribution observée.
Variance et écart type
Une autre façon de mesurer la variabilité consiste à calculer la distance de chaque valeur de la distribution à la moyenne. La distance à la moyenne s’écrit : .
La moyenne de ces distances élevées au carré donne ainsi la variance, , qui est une mesure des distances de chaque individu à la moyenne : .
Pour exprimer la variabilité dans la même unité que les valeurs observées, on en prend la racine carrée, qui s’appelle l’écart-type (ou écart-type inter-individuel) : .
L’écart-type est très intéressant à titre descriptif car il permet d’apprécier à quel point la distribution est dispersée. Plus l’écart-type est grand, plus la dispersion est grande (pour une même variable).
Le coefficient de variation
C’est un coefficient qui mesure de variabilité rapportée à la moyenne (sans unité).
Variance et écart type d’une variable qualitative binaire
Pour une variable binaire la variance est : .
Et l
’écart type est : .
Les lois de probabilité
Comme il est habituellement impossible d’étudier la population entière, on dispose le plus souvent de données sur un échantillon d’individus. On utilise alors les informations obtenues sur cet échantillon pour en tirer des conclusions sur l’ensemble de la population que cet échantillon est supposé représenter. L’échantillon est considéré représentatif de cette population s’il n’a pas fait l’objet d’une sélection particulière. La méthode idéale pour constituer un échantillon représentatif d’une population est le tirage au sort.
Il existe beaucoup de lois de probabilité. On présentera ici, pour introduire cette notion de loi de probabilité, l’exemple de la loi normale qui est une loi relativement simple.
Loi Normale et son usage
Si l’on souhaite utiliser ces informations pour en déduire ce qui se passe dans la population dont cet échantillon est issu et représentatif, il faut faire l’hypothèse que la variable suit, dans la population, une distribution théorique ou loi de probabilité. Cette loi de probabilité est spécifiée mathématiquement. Dans cette écriture mathématique, la loi dépend de paramètres :
La moyenne, notée , et l’écart-type, notée , sont, par exemple, les paramètres de la distribution théorique la plus utilisée, la loi Normale (ou loi de Gauss) ; on note .
L’importance de la loi Normale est considérable dans le domaine du vivant car de nombreuses variables aléatoires suivent cette loi, en théorie. C’est la plus importante des lois utilisées en statistique. La loi normale s’applique aux variables quantitatives continues.
Propriétés de la loi normale
La loi normale est centrée autour de la moyenne.
L’aire contenue entre les deux points d’inflexion de la courbe mesure la probabilité que les valeurs de X soient comprises entre -1 écart-type et +1 écart-type autour de la moyenne. Cette probabilité est de 68%.
L’aire comprise entre -1,96 écart-type et +1,96 écart-type autour de la moyenne représente 95% de l’aire totale. En d’autres termes, 95% des valeurs de X sont comprises à peu près entre 2 écart-types de part et d’autre de la moyenne.
Inversement, 5% des valeurs de X sont extérieures à l’intervalle de 2 écart-types autour de la moyenne : 2,5% à gauche dans les valeurs basses et 2,5% à droite dans les valeurs hautes.
La loi normale centrée réduite
Toute distribution Normale peut être transformée en une seule distribution qui a pour moyenne 0 et pour écart-type 1 : la distribution Normale, centrée et réduite, notée : .
Comment faire ?
On centre la distribution par rapport à sa moyenne : On soustrait à chaque valeur d’une distribution Normale quelconque, la moyenne, .
On réduit le terme par rapport à l’écart-type . On obtient : .
On appelle cette quantité : l’écart-réduit. La distribution de l’écart-réduit suit une loi normale centrée réduite : .
Propriétés de la loi normale centrée réduite Z
La loi Z est centrée autour de 0.
La loi Z a pour écart-type 1.
95% des valeurs de Z sont comprises entre -1,96 et +1,96 (-2 et +2).
5% des valeurs sont à l’extérieur de l’intervalle -1,96 et +1,96 (-2 et +2) : réparties symétriquement de part et d’autre de la distribution : 2,5% des valeurs de Z sont inférieures à -1,96 et 2,5% des valeurs de Z sont supérieures de +1,96.
Toutes les propriétés de la loi normale centrée réduite Z sont fondamentales à connaître. Elles conditionnent tout le raisonnement concernant l’estimation d’une distribution à partir d’un échantillon et la plupart des tests statistiques usuels.
Estimation
Le plus souvent, on dispose de données sur un échantillon et on utilise ces informations pour décrire la population dont cet échantillon est issu. L’analyse se déroule, en général, en deux étapes :
La première étape consiste à donner une description résumée de la distribution de la variable.
La seconde étape consiste à comparer formellement la distribution observée d’une variable dans un échantillon par rapport à sa
distribution attendue dans la population ou à comparer la distribution observée dans plusieurs groupes.
En pratique, on utilise les données observées à partir de l’échantillon pour estimer la vraie valeur dans la population.
Faisons l’hypothèse que l’échantillon est représentatif de la population, c’est-à-dire constitué sans biais, au mieux par tirage au sort. On peut comprendre intuitivement que cette estimation va varier d’un échantillon à l’autre, en suivant une loi de probabilité. Il est donc nécessaire d’apprécier l’incertitude associée à notre estimation, grâce à un intervalle de confiance.
Intervalle de confiance d’une moyenne
Si on tire un échantillon au hasard dans la population, on s’attend intuitivement à observer une moyenne qui ne sera sans doute pas égale à la moyenne mais que l’on espère assez proche. Si on avait la chance de disposer d’un deuxième échantillon on observerait une seconde moyenne , qui sera encore différente, si on disposait d’une troisième j’aurais encore une autre valeur.
Si maintenant on pouvait disposer de tous les échantillons possibles que l’on pourrait extraire de la population, on verrait toutes les moyennes se disposer selon une courbe en cloche, symétrique autour de .
Donc une moyenne d’un échantillon :
Est une variable aléatoire
Suit une loi normale
Centrée sur la moyenne
D’écart-type
Si maintenant on pose ; on obtient une variable centrée sur zéro et si on la divise par son écart-type, on obtient une variable centrée réduite.
On estime l’écart type de la moyenne inconnue par la formule suivante : .
Si on utilise les caractéristiques de la loi normale centrée réduite, on obtient donc une fourchette, un intervalle de confiance dans lequel on fait le pari que se trouve la vraie moyenne , avec 95% de chances que cela soit vrai.
L’intervalle de confiance d’une moyenne à 95% est : .
Il existe deux conditions pour pouvoir utiliser cette formule de l’intervalle de confiance d’une moyenne :
L’échantillon doit être de grande taille, c'est-à-dire .
Le rapport doit être inférieur à 10% (si l’échantillon n’est pas trop grand par rapport à la population).
L’intervalle de confiance d’un pourcentage
La distribution d’une variable quantitative binaire, s’exprime par le pourcentage d’une des deux modalités de la variable. Le pourcentage n’est que la moyenne de cette variable où l’une des deux modalités vaut 1 et l’autre 0.
Le pourcentage P est inconnu. Si on dispose d’un échantillon, on obtiendra un pourcentage , quelque part à côté du vrai pourcentage P. Si on dispose d’un deuxième échantillon, on obtiendra un deuxième pourcentage , puis un troisième, etc.
Si on dispose d’une infinité d’échantillons, on verra la distribution des pourcentages se disposer de façon symétrique autour de P selon une courbe en cloche.
Donc un pourcentage d’un échantillon :
Est une variable aléatoire
Suit une loi normale
Centrée sur le pourcentage P
D’écart-type
On a toujours ce problème d’un écart-type inconnu . On ne connaît pas P. L’écart-type du pourcentage de l’échantillon est un bon estimateur de l’écart-type de la population.
On remplace donc dans la formule .
Ainsi, l’intervalle de confiance à 95% d’un pourcentage est : .
Il existe des conditions d’application de l’utilisation de cette formule :
L’échantillon doit être de grande taille, c'est-à-dire .
et .
Signification d’un intervalle de confiance à 95%
Il y a 95 chances sur 100 pour que le paramètre inconnu ou P soit contenu dans cet intervalle.
Il y a 5 chances sur 100 pour que le paramètre inconnu ou P soit extérieur à cet intervalle.
Il y a donc 5 chances sur 100 de se tromper.
Formule générale de l’intervalle de confiance
Jusqu'à maintenant, on a vu seulement la formule de l’intervalle de confiance à 95%.
En général la formule des intervalles de confiance, pour un pourcentage ou une moyenne, est : .
Il existe des tables statistiques où l'on peut lire les valeurs de correspondant à chaque valeur de .
En fait, le plus souvent on prend un risque de 5%, retenez donc cette valeur clé de 1,96 2.
Situation d’un petit échantillon ()
Les conditions d’utilisation de la formule avec la loi normale centrée réduite Z ne sont plus remplies. Elles ne peuvent pas être utilisées.
L’intervalle de confiance d’une moyenne µ d’un petit échantillon est : .
Pour rechercher la valeur de il existe une table statistique de la loi de Student. La lecture dans la table de Student nécessite deux paramètres : et le nombre de ddl (Degré de liberté). Le nombre de ddl est calculé à partir de la taille de l’échantillon : .
Il existe aussi des conditions d’application pour l’utilisation de cette formule d’estimation de l’intervalle de confiance :
La distribution de la variable doit être normale dans la population d’origine.
L’échantillon doit être petit (< 30).
Le rapport doit être inférieur à 10%.
Intervalle de confiance pour des échantillons de grande taille par rapport à la population ()
Devant une taille de l’échantillon importante par rapport à la taille de la population (), les variances d’un pourcentage ou d’une moyenne ne sont plus estimées par les termes que l’on a vus jusqu'à maintenant. Pour leur estimation, il faut rajouter dans la formule un terme appelé : facteur d’exhaustivité : .
Ainsi, les formules de l’intervalle de confiance deviennent :
Pour une moyenne : .
Pour un pourcentage : .
Test statistique
De même que le calcul de l’intervalle de confiance était un outil de l’estimation, le test statistique est un outil de comparaison. Une comparaison statistique porte sur des séries de données qui sont résumées en moyenne, pourcentage, distribution par classes, etc.
Un test statistique peut être assimilé à une pesée. Lorsqu’on effectue une comparaison entre deux ou plusieurs séries de données, on observe toujours une différence, plus ou moins grande entre les paramètres mesurés. Le but du test statistique est de déterminer si la différence observée est simplement due au hasard, c'est-à-dire la fluctuation d’échantillonnage, ou si au contraire la différence observée est bien réelle.
Au total les tests servent à extrapoler les résultats observés sur des échantillons à l’ensemble des populations dont ils sont issus. L’échantillon n’est qu’une image ponctuelle, les observations que l’on en tire n’ont aucun intérêt en tant que telles, et n’ont de valeur que si on les extrapole à la population d’où est issu l’échantillon.
L’intérêt majeur des tests statistiques est donc de réaliser des économies majeures de moyens, en permettant de déceler des différences sur un nombre réduit d’observations. En contrepartie il faut admettre l’existence d’un certain fl
ou dans les conclusions, il faut assumer un risque d’erreur. Les tests statistiques sont conçus pour déterminer ce risque d’erreur.
La réalisation d’un test statistique suppose quelques réflexions préalables concernant ses conditions d’utilisation et d’application.
Types de comparaisons
Test de conformité : Comparaison d’un paramètre observé sur un échantillon à une valeur dite « théorique » provenant d’un standard, d’une connaissance, d’une attente.
Test d’homogénéité : Comparaison de deux ou plusieurs paramètres observés sur deux ou plusieurs échantillons.
Principes des hypothèses
Le test statistique se base sur une approche scientifique. C’est un raisonnement hypothético-déductif.
L’Hypothèse nulle (H0)
L’hypothèse nulle (H0) est l’hypothèse selon laquelle les deux valeurs (observée et attendue) ne sont pas réellement différentes et la différence observée est simplement le fruit du hasard. C’est l’hypothèse qu’on peut vérifier statistiquement.
Il n’y a plus de différence quand on prend des échantillons aléatoires pour comparer deux populations et que l’on constate une différence, l’hypothèse nulle est que cette différence est due au hasard.
L’hypothèse alternative (H1)
L’hypothèse alternative (H1) est que la différence observée n’est pas due uniquement au hasard, mais qu’elle est réelle.
Test bilatéral : L’hypothèse que les deux valeurs sont différentes. On n’émet aucune hypothèse sur le sens de la différence.
Test unilatéral : L’hypothèse que l'une des valeurs est supérieure (ou inférieure) à l'autre. On émet une hypothèse sur le sens de la différence (plus grand ou plus petit).
Principe général des tests statistiques
Formuler l’hypothèse H0 : L’hypothèse nulle signifie que les différences observées sont le fait du hasard.
Fixer le risque : Dans la pratique, on fixe à 5% le risque que l’on accepte de prendre de rejeter H0 à tort (c'est-à-dire de conclure qu’il y a une différence alors qu’en réalité, il n’y en a pas). Si par exemple, le risque est fixé à 5%, cela signifie qu’il y a 5 chances sur 100 de se tromper en rejetant H0.
Déterminer la zone de rejet de H0 : La zone de rejet est déterminée pour une loi de probabilité donnée (loi de Z, loi de Student, loi de Chi2) en fonction de la valeur de . La zone de rejet correspond aux valeurs extrêmes auxquelles on ne devrait pas aboutir si H0 est vraie.
Convertir les données sous forme d’une variable aléatoire (dite variable de décision ou statistique de test) : La valeur (moyenne, pourcentage…) observée est convertie sous la forme d’une variable aléatoire de loi connue suivant H0.
Prendre une décision :
Si la valeur de la statistique de test calculée est incluse dans la zone de rejet, on rejette H0. Le test est statistiquement significatif (il existe une liaison, une différence significative).
Si la valeur de la statistique de test calculée est en dehors de la zone de rejet
, on ne rejette pas H0. Le test est non statistiquement significatif (il n’existe pas de liaison, pas de différence significative).
Stratégie d’utilisation des tests
Il existe une très grande quantité de tests statistiques. Le choix du test à utiliser dépend de nombreux facteurs :
Situation de comparaison
Comparaison entre des paramètres observés sur un échantillon et ceux d’une population de référence : test de conformité.
Deux ou plusieurs échantillons entre eux : test d’homogénéité.
Types de séries comparées
Deux séries sont indépendantes si les sujets de ces deux séries sont totalement indépendants.
Deux séries sont appariées si elles se correspondent par un élément commun. L’exemple le plus simple est lorsqu’on a les mêmes sujets vus à différents temps.
Nature des variables à comparer
Quantitative
Qualitative binaire
Qualitative nominale à plusieurs classes
Qualitative ordinale
Paramètres étudiés
Moyennes
Pourcentages
Variances
Effectifs
Rangs
Taille des échantillons
Grands
Petits
Conditions d’application
Normalité des distributions
Égalité des variances
Taille minimum des échantillons
Principe général des tests de comparaison
On calcule une expression de la différence à étudier qui se rapproche d’un modèle mathématique dont on connaît la loi de probabilité (loi de Z, loi T de Student, loi du chi2). On examine si la valeur obtenue est probable ou au contraire si elle a moins de 5 chances sur 100 d’être observée.
Dans ce dernier cas, on rejette H0 avec un risque de 5%. On affirme que la différence est significative.
Principaux tests
Test Z : Test de la loi normale centrée réduite
Sert à comparer :
Une moyenne observée à une population de référence.
Deux moyennes observées.
Deux moyennes observées sur 2 séries appariées.
Condition d’application :
La taille du ou des échantillons doit être supérieure à 30.
Sinon : test T de Student.
La formule du test Z est : .
Tests T de Student
Sert à comparer :
Une moyenne observée à une population de référence.
Deux moyennes observées.
Deux moyennes observées sur 2 séries appariées.
Lorsque la taille des échantillons est < 30.
Conditions d’applications plus strictes que pour le test Z :
La distribution de la variable doit être normale dans la population d’où provient l’échantillon +++.
Les variances doivent être identiques.
La formule du test de Student est : .
Tests de chi2 pour séries indépendantes
Le test du Chi2 est un test d’homogénéité et de conformité qui s’applique aux variables qualitatives. On l’utilise dans deux situations :
Quand on a une variable qualitative et on veut rechercher si les différentes modalités ont les mêmes fréquences d’une population à l’autre (test d’homogénéité). On va comparer les fréquences (pourcentages) observées dans des échantillons de différentes populations.
Quand on a une variable qualitative et on veut rechercher si les pourcentages des différentes modalités sont conformes à une distribution théorique connue (test de conformité).
Pour utiliser un test de chi2, il existe une condition d’application :
Il est important de calculer les effectifs théoriques pour vérifier la condition d’application :
Tous les effectifs théoriques doivent être supérieurs ou égaux à 5.
Dans le cas contraire (effectifs théoriques < 5), il faut regrouper les classes si cela est possible, ou utiliser un test exact.
En général, la formule du test de chi2 est la suivante : .
Pour déterminer la zone du rejet dans la loi de chi2 : il faut la valeur et le nombre de ddl.
Le nombre de .
Il existe une formule plus simplifiée de calcul directe de la valeur du test de chi2 :
.
Test de chi2 pour séries appariées
Il faut présenter les résultats sous une forme qui fait apparaître que les sujets sont les mêmes :
A | ||||
Succès (+) | Échec (-) | |||
B | Succès (+) | e | f | |
Échec (-) | g | h | ||
n | ||||
Le test est fondé sur la répartition des paires discordantes :
H0 : les pourcentages de succès avec A et B sont égaux.
pourcentage de paires - + = 50%
Pourcentage observé : .
Le problème se ramène à la comparaison d’un pourcentage à une valeur de référence (50% = 1/2) par un test de chi2.
Paires discordantes | |||
-+ | +- | ||
Effectifs observés | f | g | f+g |
Effectifs théoriques | (f+g)/2 | (f+g)/2 | f+g |
La formule du test de chi2 pour séries appariées est : .
Test de chi2 avec correction de Yates
Séries indépendantes :
Dans le cas des séries indépendantes, si un (au moins) des effectifs théoriques est inférieur à 5 et tous les effectifs théoriques sont supérieurs ou égaux à 3.
On utilise dans la formule du test de chi2 la correction de Yates :
.
Il existe une formule plus simplifiée et qui permet un calcul direct. Mais il ne faut pas oublier de vérifier les conditions d’application.
.
Séries appariées :
Dans le cas des séries appariées, si un (au moins) des effectifs théoriques est inférieur à 5 et tous les effectifs théoriques sont supérieurs ou égaux à 3.
On utilise dans la formule du test de chi2 la correction de Yates :
.
Avec les effectifs théoriques : .
Les risques et
Lorsqu’on fait un test statistique de comparaison, on prend 2 risques :
: celui d’affirmer une différence qui n’existe pas.
: celui de ne pas voir une différence qui pourtant existe.
ou risque de première espèce
= probabilité de rejeter H0 si H0 est vraie. C’est le risque de rejeter à tort l'hypothèse nulle.
Le risque est un risque qu’on se donne a priori. Son seuil habituel est fixé à 5%.
Risque
C’est le risque de ne pas rejeter H0 alors que H1 est vraie. Ce risque est appelé risque de deuxième espèce.
= Probabilité de ne pas rejeter H0 si H1 est vraie. Le risque est appelé aussi manque de puissance. Par opposition, on appelle puissance d’un test statistique la valeur .
La puissance d’un test statistique est liée à la taille des effectifs des échantillons. Plus la taille des échantillons comparés augmente, plus la puissance augmente et plus le risque diminue.
La valeur du risque n’intervient pas dans l’interprétation du test statistique car on ne sait pas la calculer. Il faut cependant toujours tenir compte de ce risque lorsqu’on ne rejette pas H0. C’est une des raisons pour laquelle on ne peut jamais vérifier qu’une hypothèse nulle est vraie. Car si la taille de l’échantillon avait été plus grande on aurait peut-être pu la rejeter. En pratique on utilise le risque dans le calcul de la taille des échantillons lorsqu’on bâtit une étude.
Degré de signification p
Lorsque la valeur du test a montré une valeur inférieure au seuil de 5%, on affirme que la différence est significative. Mais on désire aller plus loin. On ne se contente pas d’affirmer qu’on a moins de 5% de chances de se tromper. On désire afficher le risque ultime que l’on a pris. C’est à dire le risque correspondant à la valeur trouvée au test.
Le degré de signification, généralement noté , est la probabilité d’observer une valeur au moins aussi extrême que celle que l’on a observée, si l’hypothèse nulle est vraie.
Si , on rejette H0.
Lancer un quiz
Teste tes connaissances avec des questions interactives