Statistical Series with Two Variables

Aucune carte

This note covers the definition, graphical representation, covariance, linear correlation coefficient, and affine adjustment methods (least squares, Mayer's method) for çift variable statistical series.

Séries Statistiques Doubles : Analyse et Ajustement

Les séries statistiques doubles permettent l'étude simultanée de deux caractères au sein d'une même population. Contrairement aux statistiques à une variable qui se concentrent sur un seul caractère (par exemple, les notes d'une classe), les séries statistiques doubles explorent la relation ou l'association entre deux caractères, tels que les dépenses publicitaires et les ventes, ou l'ensoleillement et la température.

1. Définition d'une série statistique double

Une série statistique double s'intéresse à deux caractères, et , pour une population d'effectif . Pour chaque individu (allant de à ), on associe un couple de valeurs . Ici, est la modalité du caractère et est la modalité du caractère pour cet individu . L'ensemble de ces couples constitue la série statistique double.

Exemples

Corrélation entre ensoleillement et température: Pour différentes villes, on recueille le nombre moyen d'heures d'ensoleillement () et la température moyenne ().

Ville	Ajaccio	Lyon	Marseille	Brest	Lille	Paris	Strasbourg
Ensoleillement ()	2790	2072	2763	1729	1574	1833	1685
Température ()	14,7	11,4	14,2	10,8	9,7	11,2	9,7

Série chronologique: Lorsque l'un des caractères est une année ou une date, la série est dite chronologique. Par exemple, l'évolution de l'espérance de vie des femmes en France de 1990 à 1999.

Année ()	1990	1991	1992	1993	1994	1995	1996	1997	1998	1999
Espérance de vie ()	80,9	81,1	81,3	81,4	81,8	81,9	82,0	82,3	82,4	82,4

2. Représentation Graphique : Nuage de Points

Une série statistique double est généralement représentée graphiquement par un nuage de points. Chaque couple correspond à un point de coordonnées dans un repère du plan. Graphiquement, cela permet de visualiser l'existence ou non d'une relation entre les deux caractères.

Le Point Moyen G

Le point moyen du nuage de points est un point essentiel. Il est défini par les coordonnées , où est la moyenne arithmétique des valeurs du caractère (i.e., ) et est la moyenne arithmétique des valeurs du caractère (i.e., ).

3. Covariance d'une série statistique double

La covariance, notée ou , est un indicateur qui mesure la tendance des deux caractères quantitatifs et à varier ensemble.

Formules de la Covariance

La définition de la covariance est : où et sont les moyennes des séries simples. Une formule de calcul alternative, issue du Théorème de Huyghens-König, simplifie les calculs :

Propriété de la Covariance

La covariance possède une propriété importante concernant les transformations linéaires des variables. Soient deux caractères et , où sont des constantes réelles. Alors: Cette propriété montre que la covariance est sensible aux changements d'échelle des variables.

4. Ajustement Affine

Lorsque les points du nuage semblent suivre une tendance linéaire, on peut chercher à modéliser cette relation par une fonction affine de la forme . L'objectif est de trouver la droite qui représente le mieux la relation entre et , permettant ainsi de faire des prévisions.

Méthodes d'Ajustement

Il existe plusieurs méthodes pour déterminer les coefficients et de cette droite d'ajustement.

4.1. Méthode « au jugé »

Cette méthode consiste à tracer une droite "à main levée" qui semble passer au plus près de tous les points du nuage. Bien que simple et rapide, elle est peu précise et subjective, ne devant être utilisée que lorsque l'on ne requiert pas une grande exactitude. Il est généralement conseillé de la faire passer par le point moyen .

4.2. Méthode de Mayer

La méthode de Mayer offre un ajustement plus structuré :

Division des données: La série statistique double est divisée en deux sous-séries distinctes, idéalement de même effectif. Si est impair, un point peut être attribué à l'une ou l'autre sous-série.
Calcul des points moyens: Pour chaque sous-série, on calcule le point moyen et .
Tracé de la droite: La droite de Mayer est la droite passant par et . Elle offre un ajustement affine acceptable et a la propriété de passer par le point moyen global du nuage.

4.3. Méthode des Moindres Carrés

C'est la méthode la plus courante et la plus rigoureuse.

4.3.1. Principe

L'objectif est de trouver la droite d'équation qui minimise la somme des carrés des distances verticales entre chaque point du nuage et la droite. Ces distances sont appelées "résidus". La somme des résidus est définie par : où est la valeur observée et est la valeur prédite par la droite. Cette somme est une fonction des coefficients et . La méthode des moindres carrés cherche les valeurs et qui minimisent .

4.3.2. Détermination des coefficients

Les coefficients et qui minimisent sont donnés par les formules suivantes : Pour la droite de régression de en (d'équation ) : où est la variance du caractère , définie par . Il est également possible de déterminer une droite de régression de en (d'équation ). Les coefficients et sont donnés par : où est la variance du caractère . Il est important de noter que ces deux droites de régression passent toutes deux par le point moyen du nuage de points. En général, elles ne sont pas confondues, sauf en cas de corrélation parfaite.

5. Coefficient de Corrélation Linéaire

Le coefficient de corrélation linéaire, noté , mesure la force et la direction de la relation linéaire entre deux variables quantitatives.

Formule du Coefficient de Corrélation Linéaire

Le coefficient est défini par : où et sont les écarts-types des caractères et respectivement.

Propriétés et Interprétation

Valeurs possibles: Le coefficient est toujours compris entre -1 et 1 : .
- Si , il y a une corrélation linéaire positive parfaite (les points sont alignés sur une droite de pente positive).
- Si , il y a une corrélation linéaire négative parfaite (les points sont alignés sur une droite de pente négative).
- Si , il n'y a pas de corrélation linéaire évidente entre les variables. Cela ne signifie pas qu'il n'y a aucune relation, mais qu'elle n'est pas linéaire.
Relation avec les pentes des droites de régression: Le produit des pentes des deux droites de régression est égal au carré du coefficient de corrélation linéaire : . Cela implique que est toujours positif, même si la corrélation est négative.
Force de la corrélation: Plus la valeur absolue de est proche de 1, plus la corrélation linéaire est forte.
- Lorsque la corrélation est forte (par exemple, si ), les deux droites de régression sont très proches l'une de l'autre et le nuage de points est bien approximé par une droite. L'ajustement linéaire est alors pertinent.
- Lorsque la corrélation est faible (r proche de 0), le nuage de points ne peut pas être ajusté de manière satisfaisante par une droite. Dans ce cas, une autre forme de courbe (parabolique, exponentielle, etc.) pourrait être plus appropriée pour l'ajustement.

Conclusion

Les séries statistiques doubles offrent des outils puissants pour comprendre les relations entre deux variables. La visualisation par le nuage de points, le calcul de la covariance pour quantifier la variation conjointe, et l'ajustement affine (en particulier par la méthode des moindres carrés) permettent de modéliser ces relations. Enfin, le coefficient de corrélation linéaire détermine la force et la direction de la relation linéaire, guidant l'interprétation de l'ajustement. Ces méthodes sont fondamentales pour l'analyse prédictive et la prise de décision.

Les Séries Statistiques Doubles : Analyse et Ajustement

Les statistiques à deux variables, ou séries statistiques doubles, permettent d'étudier simultanément deux caractères au sein d'une même population. Contrairement aux statistiques à une variable qui se concentrent sur un seul trait (par exemple, les notes d'une classe), les séries doubles explorent la relation entre deux caractères distincts, comme le lien entre le nombre d'heures d'ensoleillement et la température moyenne dans différentes villes.

1. Définition d'une Série Statistique Double

Une série statistique double est caractérisée par l'étude conjointe de deux caractères et pour une population d'effectif . Pour chaque individu de la population (), on associe un couple de valeurs , où est la modalité du caractère et est la modalité du caractère . L'ensemble de ces couples forme la série statistique double.

2. Quelques Exemples de Séries Statistiques Doubles

Comprendre ces concepts passe par des exemples concrets :

Exemple 1 : Ensoleillement et Température

Ce tableau met en relation deux caractères climatiques pour différentes villes :

Ville	Ajaccio	Lyon	Marseille	Brest	Lille	Paris	Strasbourg
Ensoleillement (heures/an)	2790	2072	2763	1729	1574	1833	1685
Température moyenne (°C)	14,7	11,4	14,2	10,8	9,7	11,2	9,7

Population : Sept villes.
Caractère n°1 () : Nombre moyen d'heures d'ensoleillement.
Caractère n°2 () : Température moyenne.

Exemple 2 : Évolution de l'Espérance de Vie

Ce tableau suit l'évolution d'un paramètre démographique au cours du temps :

Année	1990	1991	1992	1993	1994	1995	1996	1997	1998	1999
Espérance de vie (années)	80,9	81,1	81,3	81,4	81,8	81,9	82,0	82,3	82,4	82,4

Population : Les femmes en France.
Caractère n°1 () : L'année.
Caractère n°2 () : L'espérance de vie à la naissance.

Lorsque l'un des caractères est une année ou une date, la série est qualifiée de série chronologique.

Exemple 3 : Publicité et Ventes

Cet exemple illustre une relation potentielle entre des variables économiques :

X = Frais de pub (millions d'euros)	0,24	0,3	0,25	0,32	0,35	0,2	0,18	0,3
Y = Ventes (millions d'euros)	38	42	39	40	45	35	34	41

À partir de cette série double, il est possible de dériver les séries statistiques simples pour et en regroupant les effectifs des modalités :

Série X (Frais de pub) :

X	0,18	0,2	0,24	0,25	0,3	0,32	0,35
Effectifs	1	1	1	1	2	1	1

Série Y (Ventes) :

Y	34	35	38	39	40	41	42	45
Effectifs	1	1	1	1	1	1	1	1

3. Représentation Graphique : Le Nuage de Points

La représentation graphique d'une série statistique double est le nuage de points. Chaque couple est représenté par un point de coordonnées dans un repère cartésien. Ce nuage permet de visualiser la relation entre les deux caractères : si les points tendent à suivre une direction, cela suggère une corrélation. Le point moyen du nuage de points est un point central dont les coordonnées sont la moyenne des valeurs du caractère et la moyenne des valeurs du caractère . Ses coordonnées sont , où :

(moyenne des )
(moyenne des )

4. Covariance d'une Série Statistique Double

La covariance est une mesure qui indique comment deux variables varient ensemble. Elle permet de savoir si elles tendent à augmenter ou diminuer simultanément. Pour une série statistique double , la covariance, notée ou , est définie par la formule : où et sont les moyennes des séries simples.

Théorème de Huyghens-König (Formule de calcul simplifiée) :

Cette formule est souvent plus pratique pour le calcul : Un signe positif de indique une tendance des deux variables à croître ou décroître ensemble. Un signe négatif indique qu'une variable tend à croître pendant que l'autre décroît. Une covariance proche de zéro suggère une absence de relation linéaire.

Propriété de la Covariance (Changement d'unités) :

Si et sont de nouvelles variables obtenues par transformation linéaire des variables et (avec des constantes réelles), alors : Cette propriété est utile car elle montre que la covariance est affectée par les changements d'échelle mais pas par les translations .

5. Ajustement Affine

Quand les points d'un nuage de points semblent suivre une tendance linéaire, on cherche à modéliser cette relation par une droite d'équation . Ce processus s'appelle l'ajustement affine. L'objectif est de trouver la droite qui "colle au mieux" aux données pour décrire la relation et, potentiellement, faire des prévisions.

5.1 Principe de l'Ajustement Affine

L'ajustement affine consiste à trouver une fonction affine telle que approche le mieux possible les données observées . Graphiquement, il s'agit de tracer une droite qui passe le plus près possible de l'ensemble des points du nuage.

5.2 Méthodes d'Ajustement Affine

5.2.1 Méthode « au jugé »

La méthode "au jugé" est la plus simple et la moins précise. Elle consiste à tracer à main levée une droite qui passe "au plus près" des points du nuage, idéalement en passant par le point moyen . Elle peut être suffisante pour des estimations rapides lorsque la précision n'est pas critique.

5.2.2 Méthode de Mayer

La méthode de Mayer est une méthode plus structurée pour trouver une droite d'ajustement.

Étape 1 : Découpage des sous-séries. On divise la série statistique double (et donc le nuage de points) en deux sous-séries distinctes, de préférence de même effectif. Si le nombre total de points est impair, un point sera attribué à l'un des deux sous-nuages (ex: le point médian).
Étape 2 : Calcul des points moyens des sous-séries. Calculer les coordonnées des points moyens et pour chacun des deux sous-nuages.
Étape 3 : Tracé de la droite de Mayer. La droite de Mayer est la droite passant par ces deux points moyens et . Cette droite passe systématiquement par le point moyen du nuage complet, ce qui en fait un ajustement « acceptable ».

5.2.3 Méthode des Moindres Carrés

C'est la méthode la plus courante et la plus rigoureuse pour l'ajustement affine.

5.2.3.1 Principe

L'objectif est de trouver les coefficients et de la droite d'équation qui minimisent la somme des carrés des écarts verticaux entre les points observés et les points prédits par la droite . La somme des résidus est définie par : où représente l'écart vertical (ou résidu) entre la valeur observée et la valeur prédite par la droite . Minimiser signifie trouver la droite qui réduit au maximum la distance "verticale" quadratique à l'ensemble des points.

5.2.3.2 Détermination des coefficients et

Le Théorème 1 fournit les formules pour les coefficients et qui minimisent :

Le coefficient directeur est donné par : où est la variance du caractère () et est la covariance.
L'ordonnée à l'origine est donnée par :

La droite d'équation obtenue avec ces coefficients est appelée droite de régression de Y en X. Elle permet de prédire en fonction de . Il existe également une droite de régression de X en Y, d'équation , pour prédire en fonction de . Les coefficients et sont :

Le coefficient directeur est donné par : où est la variance du caractère ().
L'ordonnée à l'origine (pour la régression de X en Y) est donnée par :

Il est important de noter que les deux droites de régression (de Y en X et de X en Y) passent toutes deux par le point moyen du nuage de points.

6. Coefficient de Corrélation Linéaire

Le coefficient de corrélation linéaire, noté , est une mesure standardisée de la force et de la direction de la relation linéaire entre deux variables quantitatives. Il est défini par : où et sont les écarts-types de et respectivement.

Remarques importantes concernant le coefficient de corrélation linéaire :

Intervalle de valeurs : Le coefficient de corrélation linéaire est toujours compris entre -1 et 1 :
- Si , il y a une corrélation linéaire positive parfaite (les points sont parfaitement alignés sur une droite de pente positive).
- Si , il y a une corrélation linéaire négative parfaite (les points sont parfaitement alignés sur une droite de pente négative).
- Si , il n'y a pas de corrélation linéaire. Cela ne signifie pas qu'il n'y a pas de relation du tout, juste pas de relation linéaire.
Lien entre les coefficients de régression et la corrélation : Il existe une relation importante entre les coefficients directeurs des droites de régression et le coefficient de corrélation : où est le coefficient de la régression de Y en X et celui de X en Y. Le carré du coefficient de corrélation linéaire, (appelé coefficient de détermination), représente la proportion de la variance d'une variable qui est prédictible à partir de l'autre variable au moyen de la régression linéaire.
Force de la corrélation :
- Lorsque la corrélation est forte (typiquement ou ), les deux droites de régression (de Y en X et de X en Y) sont très proches l'une de l'autre, et le nuage de points peut être bien approximé par une droite. L'ajustement linéaire est pertinent.
- Lorsque la corrélation est faible (valeurs de proches de 0), le nuage de points ne peut pas être correctement ajusté par une droite. Il est possible qu'il n'y ait pas de relation entre les variables, ou qu'il existe une relation non linéaire (par exemple, parabolique, exponentielle, etc.), auquel cas un autre type d'ajustement (non-linéaire) pourrait être plus approprié.

Synthèse et Applications

L'étude des séries statistiques doubles est fondamentale pour :

Comprendre les relations : Identifier si deux phénomènes sont liés et comment (positivement, négativement, fortement, faiblement).
Modélisation : Créer des modèles mathématiques (droites de régression) qui décrivent ces relations.
Prévision : Utiliser ces modèles pour prédire les valeurs d'une variable en fonction de l'autre.

Cependant, il est crucial de se rappeler que corrélation n'implique pas causalité. Un lien statistique fort entre deux variables ne signifie pas que l'une cause l'autre ; il peut y avoir une variable cachée influençant les deux, ou la relation peut être purement coïncidentielle.

Statistiques à Deux Variables : Séries Statistiques Doubles

Ce chapitre explore la notion de séries statistiques doubles, qui permettent l'étude simultanée de deux caractères pour une même population. Il détaille les méthodes de représentation, l'analyse de la relation entre les caractères, et les techniques d'ajustement affine.

1. Définition et Caractéristiques

Les statistiques à deux variables sont utilisées lorsque l'on étudie simultanément deux caractères, et , au sein d'une même population de taille .

1.1. Série Statistique Double

**Définition 1**: Pour une population d'effectif , si on étudie deux caractères et , on parle de **série statistique double**. Chaque individu (allant de à ) est associé à un couple , où est la modalité du caractère et celle du caractère pour cet individu. L'ensemble des couples forme la série statistique à deux variables.

**Définition 2**: Si l'un des deux caractères est une année ou une date, la série statistique double est qualifiée de **série chronologique**.

2. Représentation Graphique

Une série statistique double se représente visuellement par un nuage de points.

**Définition 3**: Pour les valeurs du premier caractère et les valeurs du second caractère , la série statistique double est représentée par un **nuage de points** dans un repère plan. Ces points ont pour coordonnées .

**Définition 4**: Soit la moyenne de la série et la moyenne de la série . Le point de coordonnées est appelé **point moyen** du nuage de points.

3. Covariance d'une Série Statistique Double

La covariance est une mesure de la variation conjointe de deux variables.

**Définition 5**: La **covariance** d'une série statistique double , notée ou , est définie par : où et sont les moyennes des séries simples.

Théorème de Huyghens-König pour la covariance:

Propriété 1 (Linéarité de la covariance): Si et , alors :

4. Ajustement Affine

L'ajustement affine vise à trouver une relation linéaire qui exprime les valeurs de en fonction de de manière approchée, notamment pour faire des prévisions.

4.1. Principe

Il s'agit de trouver une droite qui passe "au plus près" de tous les points du nuage.

4.2. Méthodes d'Ajustement

4.2.1. Méthode « au jugé »

Consiste à tracer une droite visuellement, idéalement en la faisant passer par le point moyen .

4.2.2. Méthode de Mayer

1. **Étape 1**: Diviser la série statistique double en deux sous-séries distinctes de même effectif (ou presque). 2. **Étape 2**: Calculer les points moyens et de ces deux sous-nuages. 3. **Étape 3**: Tracer la droite , appelée **droite de Mayer**. Cette droite passe par le point moyen global .

4.2.3. Méthode des Moindres Carrés

Cette méthode minimise la somme des carrés des écarts verticaux entre les points observés et la droite d'ajustement.

**Définition 6**: La **somme des résidus** associée à une droite d'équation est définie par : Si est le point d'abscisse sur la droite , alors .

**Définition 7**: La **méthode des moindres carrés** consiste à trouver les coefficients et qui rendent la somme minimale.

Détermination des coefficients:

**Théorème 1**: La somme est minimale pour :

**Proposition 1**: La droite d'équation , avec et déterminés par le Théorème 1, est appelée **droite de régression de Y en X** obtenue par la méthode des moindres carrés.

Pour la régression en :

**Proposition 2**: La droite d'équation est appelée **droite de régression de X en Y**, avec :

Ces deux droites de régression passent par le point moyen .

5. Coefficient de Corrélation Linéaire

Le coefficient de corrélation linéaire mesure la force et la direction de la relation linéaire entre deux variables.

**Définition 8**: Le **coefficient de corrélation linéaire** du couple , noté , est défini par :

Propriétés importantes:

Le coefficient de corrélation est toujours compris entre et : .
Le produit des pentes des droites de régression est égal au carré du coefficient de corrélation : .
Une corrélation forte (par exemple, ) indique que les droites de régression sont très proches et que le nuage de points peut être bien approximé par une droite.
Une faible corrélation suggère qu'un ajustement linéaire n'est pas approprié, mais d'autres types d'ajustement (non-linéaires) pourraient être pertinents.

Statistiques: Séries Statistiques Doubles (Formules Clés)

Les séries statistiques doubles étudient simultanément deux caractères et pour une même population d'effectif . Chaque individu est représenté par un couple .

1. Moyennes et Point Moyen

Moyenne du caractère :
Moyenne du caractère :
Le point moyen du nuage de points a pour coordonnées :

2. Covariance ( ou )

La covariance mesure la tendance de deux variables à varier ensemble.

Définition :
Formule de Huyghens-König :
Propriété de linéarité : Si et , alors

3. Ajustement Affine par la Méthode des Moindres Carrés

L'objectif est de trouver une droite qui minimise la somme des carrés des résidus.

Somme des résidus (à minimiser) :
Droite de régression de Y en X () :
- Coefficient directeur :
- Ordonnée à l'origine :
- Note : Cette droite passe par le point moyen .
Droite de régression de X en Y () :
- Coefficient directeur :
- Ordonnée à l'origine :
- Note : Cette droite passe également par le point moyen .

4. Coefficient de Corrélation Linéaire ()

Il mesure la force et la direction de la relation linéaire entre et .

Formule :
Propriété :
Relation avec les pentes des droites de régression :

Formules Clés en Statistiques à Deux Variables (Séries Statistiques Doubles)

Les séries statistiques doubles étudient la relation entre deux caractères ( et ) d'une même population. Chaque individu est représenté par un couple .

1. Moyennes des Séries Simples

Pour une série statistique double avec observations:

Moyenne du caractère :
Moyenne du caractère :
Le point moyen du nuage de points est .

2. Covariance d'une Série Statistique Double

La covariance mesure la tendance des deux variables à varier ensemble.

Définition de la Covariance

Formule de définition:

Théorème de Huyghens-König pour la Covariance

Cette formule est souvent plus simple pour les calculs: Formule de calcul:

Propriété de la Covariance (Changement de Variables)

Si et : Covariance transformée:

3. Ajustement Affine (Méthode des Moindres Carrés)

Objectif: Trouver la droite d'équation qui minimise la somme des carrés des résidus.

Somme des Résidus

Définition de :

Coefficients de la Droite de Régression de Y en X

La droite de régression de Y en X est .

Coefficient directeur : où est la variance du caractère .
Ordonnée à l'origine :

Coefficients de la Droite de Régression de X en Y

La droite de régression de X en Y est .

Coefficient directeur : où est la variance du caractère .
Ordonnée à l'origine :

Note: Ces deux droites ( et ) passent toutes deux par le point moyen .

4. Coefficient de Corrélation Linéaire

Le coefficient de corrélation linéaire mesure l'intensité et le sens de la relation linéaire entre et .

Définition du Coefficient de Corrélation Linéaire

Formule: où et sont les écarts-types des caractères et .

Propriétés

Plage de valeurs: .
- Si , corrélation linéaire positive forte (les variables varient dans le même sens).
- Si , corrélation linéaire négative forte (les variables varient en sens inverses).
- Si , absence de corrélation linéaire (cela n'exclut pas une relation non linéaire).
Relation avec les coefficients de régression: .
- Lorsque (corrélation forte), les droites de régression sont très proches, indiquant que l'ajustement linéaire est pertinent.

Lancer un quiz

Teste tes connaissances avec des questions interactives