Description des chapitres : Diapositives PDF
Kart yokCe document PDF fournit des diapositives décrivant les chapitres.
1. Introduction à la Description de Données
Le traitement de données est crucial pour les études statistiques. Il transforme des données brutes en informations utiles pour la prise de décision. Les variables sont des caractéristiques mesurées sur des individus.Types de Variables
- Variable Qualitative: Décrit une qualité ou une catégorie.
- Nominale: Pas d'ordre (ex: *couleur des yeux*).
- Ordinale: Ordre intrinsèque (ex: *niveau de satisfaction*).
- Variable Quantitative: Mesure une quantité.
- Discrète: Valeurs dénombrables (ex: *nombre d'enfants*).
- Continue: Valeurs sur un intervalle (ex: *température*, *taille*).
2. Représentations Graphiques
Les graphiques aident à visualiser la distribution des variables.Graphiques pour Variables Qualitatives
- Diagramme en bâtons: Fréquences absolues ou relatives pour chaque modalité.
Chaque bâton représente une catégorie, sa hauteur la fréquence.
- Diagramme en secteurs (Camembert): Proportion de chaque modalité par rapport au total.
La taille de chaque "part de gâteau" est proportionnelle à la fréquence.
Graphiques pour Variables Quantitatives Discrètes
- Diagramme en bâtons: Identique aux variables qualitatives, la hauteur du bâton indique la fréquence de la valeur.
Graphiques pour Variables Quantitatives Continues
- Histogramme: Regroupe les données en classes (intervalles).
L'aire d'un rectangle est proportionnelle à la fréquence de la classe. La largeur des classes peut varier.
- Polygone de fréquences: Relie les points médians des sommets des rectangles d'un histogramme.
- Diagramme "tige et feuilles": Alternative à l'histogramme, conserve les chiffres individuels.
3. Mesures de Position
Ces mesures décrivent le centre ou la position typique d'une distribution.- Moyenne arithmétique (): Somme des valeurs divisée par le nombre de valeurs.
Sensible aux valeurs extrêmes.
- Médiane (): Valeur centrale après tri des données.
Moins sensible aux valeurs extrêmes que la moyenne.
- Mode (): Valeur la plus fréquente.
Peut être unimodal, bimodal ou multimodal.
- Quantiles: Divise les données ordonnées en parties égales.
- Quartiles: Divisent en 4 (Q1, Q2=Médiane, Q3).
- Déciles: Divisent en 10.
- Centiles: Divisent en 100.
4. Mesures de Dispersion
Ces mesures décrivent l'étalement des données autour d'une mesure de position.- Étendue: Max - Min. Très sensible aux valeurs extrêmes.
- Écart interquartile (): . Mesure la dispersion des 50% centraux.
- Variance ( ou ): Moyenne des carrés des écarts à la moyenne.
Unité au carré par rapport aux données originales.
- Écart-type ( ou ): Racine carrée de la variance.
Unité compatible avec les données, plus interprétable.
- Coefficient de variation (): . Mesure la dispersion relative, utile pour comparer des groupes avec des moyennes différentes.
5. Mesures de Forme
Décrivent la symétrie et l'aplatissement de la distribution.- Coefficient d'asymétrie de Pearson:
- <0: Asymétrie à gauche (queue à gauche, *skewed left*).
- =0: Distribution symétrique.
- >0: Asymétrie à droite (queue à droite, *skewed right*).
- Coefficient d'aplatissement (Kurtosis):
- <0: Platykurtique (plus plat que la normale, moins de valeurs extrêmes).
- =0: Mésokurtique (comme la loi normale ou Gauss).
- >0: Leptokurtique (plus pointu que la normale, davantage de valeurs extrêmes).
6. Boîte à Moustaches (Box Plot)
Représentation graphique compacte résumant les 5 nombres clés d'une distribution.- Indique: Minimum, Q1, Médiane, Q3, Maximum.
- Utile pour détecter les outliers (valeurs aberrantes), visualisés comme des points au-delà des "moustaches".
Les outliers sont généralement définis comme des valeurs ou .
7. Tableau de Fréquences
Permet d'organiser les données brutes pour une meilleure analyse.- Fréquence absolue (): Nombre d'observations dans une catégorie ou classe.
- Fréquence relative (): , où est le total des observations.
- Fréquence cumulée ( ou ): Somme des fréquences jusqu'à une catégorie donnée.
8. Table de Contingence
Utilisée pour étudier la relation entre deux variables qualitatives.- Permet de visualiser les fréquences conjointes de deux variables.
- Les pourcentages peuvent être calculés par ligne, par colonne ou par rapport au total.
Statistique Descriptive : Outils et Méthodes pour l'Analyse des Données
La statistique descriptive est la branche de la statistique qui vise à décrire, organiser, synthétiser et représenter graphiquement un ensemble de données. Elle constitue la première étape de toute analyse statistique, permettant de comprendre les caractéristiques principales des données avant d'appliquer des méthodes plus complexes d'inférence. Elle ne tire pas de conclusions sur une population plus large que l'échantillon étudié, mais se concentre sur les données disponibles.1. Introduction aux Concepts Fondamentaux
1.1 Population, Échantillon et Individu
En statistique, la population désigne l'ensemble de tous les éléments ou individus (personnes, objets, événements, etc.) possédant une caractéristique commune que l'on souhaite étudier. Il peut s'agir d'une population finie (par exemple, tous les étudiants inscrits à l'ULB cette année) ou infinie (par exemple, toutes les étoiles de l'univers). Un échantillon est une sous-partie de la population sélectionnée pour l'étude. Comme il est souvent impossible ou peu pratique d'étudier toute une population, on prélève un échantillon dont on espère qu'il est représentatif de la population. La qualité de l'échantillon (sa taille et sa méthode de sélection) est cruciale pour la validité des inférences statistiques ultérieures. Un individu ou unité statistique est un élément unique de la population ou de l'échantillon. **Exemple :** * **Population :** Tous les électeurs éligibles en Belgique. * **Échantillon :** Un groupe de 1 000 électeurs interrogés lors d'un sondage d'opinion. * **Individu :** Un électeur belge.1.2 Caractères (Variables) et leurs Types
Un caractère, ou variable statistique, est une propriété ou une caractéristique que l'on observe ou mesure sur chaque individu d'une population ou d'un échantillon. Les caractères peuvent être classés en deux grandes catégories :1.2.1 Variables Qualitatives
Les variables qualitatives décrivent des qualités ou des catégories et ne peuvent pas être mesurées numériquement de manière significative. Elles sont souvent représentées par des mots ou des codes. * **Nominal (ou catégoriel pur) :** Les catégories n'ont pas d'ordre intrinsèque. La seule relation possible est l'égalité ou la différence. * **Exemples :** Couleur des yeux (bleu, vert, marron), genre (masculin, féminin, non-binaire), état matrimonial (célibataire, marié, divorcé), nationalité. * **Ordinal :** Les catégories ont un ordre naturel ou un classement, mais les intervalles entre les catégories ne sont pas nécessairement égaux ou mesurables. * **Exemples :** Niveau d'éducation (primaire, secondaire, supérieur), taille de vêtements (S, M, L, XL), qualité d'un service (mauvaise, moyenne, bonne, excellente), classement dans une course (premier, deuxième, troisième).1.2.2 Variables Quantitatives
Les variables quantitatives peuvent être mesurées numériquement et représentent des quantités. Elles peuvent être soumises à des opérations arithmétiques. * **Discrètes :** Les valeurs ne peuvent prendre qu'un nombre fini ou dénombrable de valeurs isolées, souvent des nombres entiers. Elles résultent généralement d'un comptage. * **Exemples :** Nombre d'enfants dans une famille (0, 1, 2, ...), nombre de voitures possédées, nombre d'appels reçus par jour, score à un QCM. * **Continues :** Les valeurs peuvent prendre n'importe quelle valeur dans un intervalle donné, généralement mesurées. Leur précision dépend de l'instrument de mesure. * **Exemples :** Taille d'une personne (1,75 m, 1,82 m), poids (65,3 kg, 72,1 kg), température (), temps de réaction, revenu. **Tableau comparatif des types de variables :** | Type de Variable | Caractéristiques | Exemples | Opérations permises | Représentations graphiques typiques | | :--------------- | :---------------------------------------------------- | :-------------------------------------------------------------- | :------------------------ | :---------------------------------- | | **Qualitative** | | | | | | Nominal | Catégories sans ordre | Sexe, couleur des cheveux, nationalité | , | Diagramme en bâtons, circulaire | | Ordinal | Catégories avec ordre | Niveau scolaire, appréciation (bon, moyen, mauvais) | , , , | Diagramme en bâtons, circulaire | | **Quantitative** | | | | | | Discrète | Valeurs dénombrables (souvent entiers) | Nombre d'enfants, nombre de défauts | Toutes (addition, moyenne) | Diagramme en bâtons, histogramme | | Continue | Valeurs dans un intervalle (mesures) | Taille, poids, température, temps | Toutes (addition, moyenne) | Histogramme, boîte à moustaches |1.3 Modalités et Effectifs
Les modalités sont les différentes catégories ou valeurs que peut prendre un caractère. L'effectif absolu d'une modalité (noté ) est le nombre de fois que cette modalité apparaît dans l'ensemble des données. La somme de tous les effectifs absolus est la taille totale de l'échantillon ou de la population, notée (ou pour un échantillon). L'effectif relatif, ou fréquence (noté ), est la proportion de l'effectif absolu par rapport à l'effectif total : . La somme de toutes les fréquences est toujours égale à 1 (ou 100% si exprimée en pourcentage). **Exemple :** Supposons une enquête auprès de 20 étudiants sur leur mode de transport principal. | Modalité (Mode de transport) | Effectif Absolu () | Effectif Relatif () | | :--------------------------- | :-------------------------------------- | :------------------------------------------- | | Voiture | 8 | | | Bus/Tram | 5 | | | Vélo | 4 | | | Marche | 3 | | | **Total** | | |2. Organisation et Représentation des Données
Une fois les données collectées, il est essentiel de les organiser pour en faciliter l'analyse.2.1 Tableaux Statistiques (Tableaux de Fréquences)
Un tableau statistique est une sorte de tableau qui regroupe les modalités d'une variable avec leurs effectifs et fréquences correspondantes. * **Variable qualitative :** Le tableau liste chaque modalité. * **Exemple (Genre) :** | Genre | Effectif Absolu () | Fréquence () | | :------- | :-------------------------------------- | :------------------------------------------- | | Hommes | 35 | 0.47 | | Femmes | 40 | 0.53 | | **Total**| 75 | 1.00 | * **Variable quantitative discrète :** Le tableau liste chaque valeur discrète comme une modalité. * **Exemple (Nombre d'enfants) :** | Nombre d'enfants () | Effectif Absolu () | Fréquence () | Fréquence Cumulée Croissante () | | :------------------------------------------ | :-------------------------------------- | :------------------------------------------- | :-------------------------------------------------------------- | | 0 | 8 | 0.20 | 0.20 | | 1 | 12 | 0.30 | 0.50 | | 2 | 14 | 0.35 | 0.85 | | 3 | 6 | 0.15 | 1.00 | | **Total** | | | | * La fréquence cumulée croissante () représente la proportion d'observations inférieures ou égales à la modalité . Elle est particulièrement utile pour les variables ordinales et quantitatives. Pour , . * **Variable quantitative continue :** Pour les variables continues (ou discrètes avec un grand nombre de modalités), il est souvent nécessaire de regrouper les données en classes ou intervalles. * **Règles pour la création de classes :** * Les classes doivent être mutuellement exclusives (pas de chevauchement). * Les classes doivent être collectées exhaustivement (couvrir toutes les données). * Idéalement, les classes devraient avoir la même largeur pour faciliter les comparaisons (sauf si la distribution est très asymétrique). * Le nombre de classes est un compromis : trop peu masque les détails, trop beaucoup rend le tableau illisible. La règle de Sturges ( où est le nombre de classes) est une heuristique courante. * **Exemple (Âge) :** | Classes d'âge | Effectif Absolu () | Fréquence () | Fréquence Cumulée Croissante () | Point Central de Classe () | | :---------------------------- | :-------------------------------------- | :------------------------------------------- | :-------------------------------------------------------------- | :------------------------------------------------------------------ | | | 15 | 0.30 | 0.30 | 21.5 | | | 20 | 0.40 | 0.70 | 30 | | | 10 | 0.20 | 0.90 | 42.5 | | | 5 | 0.10 | 1.00 | 57.5 | | **Total** | | | | | * Le point central de classe () est la moyenne des bornes inférieure et supérieure de la classe. Il est utilisé pour les calculs des indicateurs (moyenne, écart-type) lorsque les données sont regroupées en classes.2.2 Représentations Graphiques
Les graphiques permettent une visualisation rapide et intuitive de la distribution des données. Le choix du graphique dépend du type de variable.2.2.1 Variables Qualitatives
* **Diagramme en Bâtons (Bar Chart) :** Chaque modalité est représentée par un bâton dont la hauteur est proportionnelle à son effectif (ou fréquence). Les bâtons sont généralement espacés car il n'y a pas de continuité entre les catégories. * **Usage :** Variables nominales et ordinales. * **Diagramme Circulaire (Pie Chart) :** Le cercle entier représente l'effectif total (100%). Chaque modalité est représentée par un secteur dont l'aire est proportionnelle à sa fréquence. * **Usage :** Variables nominales avec un petit nombre de catégories. Moins efficace pour comparer des proportions similaires ou un grand nombre de catégories. * **Diagramme en Barres :** Très similaire au diagramme en bâtons, mais les barres sont généralement horizontales.2.2.2 Variables Quantitatives Discrètes
* **Diagramme en Bâtons :** Idem que pour les variables qualitatives, mais l'ordre des bâtons suit l'ordre numérique des modalités. La hauteur représente l'effectif ou la fréquence.2.2.3 Variables Quantitatives Continues (ou discrètes regroupées en classes)
* **Histogramme :** Des rectangles adjacents sont utilisés pour représenter les fréquences des classes. L'aire de chaque rectangle est proportionnelle à la fréquence (ou densité de fréquence si les classes n'ont pas la même largeur). L'axe horizontal représente les valeurs de la variable, et l'axe vertical représente les fréquences ou densités. * **Distinction Histogramme vs. Diagramme en Bâtons :** Les bâtons sont espacés dans un diagramme en bâtons, car les catégories sont distinctes. Dans un histogramme, les barres sont contiguës pour signifier la continuité de la variable. * **Polygone de Fréquences :** Les points centraux des sommets supérieurs des barres d'un histogramme sont reliés par des segments de droite. Il offre une alternative à l'histogramme pour visualiser la forme de la distribution. * **Courbe Cumulative (Ogive) :** Représente les fréquences cumulées. Sur l'axe horizontal, on place les bornes supérieures des classes, et sur l'axe vertical, les fréquences cumulées (de 0 à 1 ou 0% à 100%). Permet de lire des quantiles (médiane, quartiles). **Exemple de piège :** Un diagramme circulaire avec trop de catégories devient illisible. Un histogramme avec des classes de largeurs inégales doit utiliser des densités de fréquence pour que l'aire soit proportionnelle à l'effectif.3. Mesures de Tendance Centrale
Les mesures de tendance centrale sont des valeurs qui décrivent le "centre" ou l'emplacement typique d'un ensemble de données.3.1 La Moyenne ()
La moyenne arithmétique est la somme de toutes les observations divisée par le nombre d'observations. * **Pour données brutes :** où est la -ième observation et est le nombre total d'observations. * **Pour données regroupées en tableau de fréquences (modalités individuelles) :** où est le nombre de modalités distinctes, est l'effectif de la modalité , et est sa fréquence relative. * **Pour données regroupées en classes :** où est le point central de la classe . Cette moyenne est une approximation. * **Propriétés de la moyenne :** * Sensible aux valeurs extrêmes (outliers). * La somme des écarts à la moyenne est toujours nulle : . * Peut être utilisée pour des variables quantitatives. * Changement d'origine et d'échelle : Si , alors . **Exemple :** Notes d'un examen (sur 100) pour 5 étudiants : 70, 85, 60, 90, 75. .3.2 La Médiane (Me)
La médiane est la valeur qui sépare les données en deux moitiés, de sorte que 50% des observations sont inférieures ou égales à la médiane, et 50% sont supérieures ou égales. Pour la calculer, les données doivent être ordonnées. * **Pour données brutes :** 1. Ordonner les données par ordre croissant. 2. Si est impair, la médiane est la valeur à la position . 3. Si est pair, la médiane est la moyenne des deux valeurs centrales, aux positions et . * **Pour données regroupées en classes :** 1. Identifier la classe médiane : la première classe dont la fréquence cumulée (ou pourcentage cumulé) est supérieure ou égale à 0.5 (ou 50%). 2. Utiliser la formule d'interpolation linéaire : où : * = borne inférieure de la classe médiane. * = effectif total. * = fréquence cumulée absolue de la classe précédant la classe médiane. * = effectif absolu de la classe médiane (non la fréquence relative). * = largeur de la classe médiane. * **Propriétés de la médiane :** * Moins sensible aux valeurs extrêmes que la moyenne, ce qui la rend plus robuste pour les distributions asymétriques. * Peut être calculée pour des variables quantitatives et ordinales. **Exemple :** Notes d'un examen pour 5 étudiants (ordonnées) : 60, 70, 75, 85, 90. est impair. Position ème. . **Exemple :** Notes de 6 étudiants : 60, 70, 75, 80, 85, 90. est pair. Position ème (75) et ème (80). .3.3 Le Mode (Mo)
Le mode est la (ou les) modalité(s) qui apparaît(issent) le plus fréquemment dans un ensemble de données. C'est la valeur avec le plus grand effectif. * **Propriétés du mode :** * Peut être utilisé pour tous les types de variables (qualitatives et quantitatives). * Un ensemble de données peut avoir un mode (unimaginable), plusieurs modes (bimodal, multimodal) ou aucun mode (si toutes les valeurs apparaissent avec la même fréquence). * Moins précis que la moyenne ou la médiane pour les variables quantitatives, car il ne prend en compte que la fréquence, pas la valeur numérique. **Exemple :** Couleurs préférées de 10 personnes : Rouge, Bleu, Vert, Rouge, Jaune, Bleu, Rouge, Blanc, Bleu, Rouge. Le mode est Rouge (apparaît 4 fois). Il y a aussi Bleu (apparaît 3 fois), si la distinction est fine, on peut parler de distribution bimodale si les effectifs étaient égaux ou très proches. **Tableau comparatif des mesures de tendance centrale :** | Mesure | Définition | Types de Variables Applicables | Sensibilité aux Outliers | Utilité Clé | | :--------- | :------------------------------------------------ | :---------------------------------------- | :----------------------- | :------------------------------------------ | | **Moyenne**| Somme des valeurs / Nombre de valeurs | Quantitative | Élevée | Représente la "charge" totale, centre de gravité des données. Utilisée en inférence. | | **Médiane**| Valeur centrale après tri, divise les données en deux | Quantitative, Ordinale | Faible | Point de référence pour la moitié des données. Préférable pour les distributions asymétriques. | | **Mode** | Valeur la plus fréquente | Qualitative (Nominal/Ordinal), Quantitative | Nulle | Indique la catégorie ou valeur la plus populaire. | **Quand utiliser quelle mesure ?** * **Moyenne :** Pour distributions symétriques et sans outliers marqués (ex: taille des humains). * **Médiane :** Pour distributions asymétriques ou avec outliers (ex: revenus, prix de l'immobilier). Lorsque l'on ne peut pas calculer la moyenne (variables ordinales). * **Mode :** Pour les données qualitatives (catégories) ou pour identifier les pics dans une distribution quant.4. Mesures de Dispersion
Les mesures de dispersion indiquent à quel point les données sont étalées ou dispersées autour de la tendance centrale.4.1 L'Étendue (R)
L'étendue est la différence entre la valeur maximale et la valeur minimale d'un ensemble de données. . * **Propriétés :** * Facile à calculer. * Très sensible aux valeurs extrêmes. * Ne donne aucune information sur la distribution des valeurs entre les extrêmes. **Exemple :** Notes d'examen : 60, 70, 75, 85, 90. .4.2 L'Écart Interquartile (IQR)
L'écart interquartile (IQR) est la différence entre le troisième quartile () et le premier quartile (). . * (premier quartile) : Valeur sous laquelle se trouvent 25% des observations. * (deuxième quartile ou médiane) : Valeur sous laquelle se trouvent 50% des observations. * (troisième quartile) : Valeur sous laquelle se trouvent 75% des observations. Les quartiles sont calculés de manière similaire à la médiane, en divisant les données ordonnées en quarts. Pour les données regroupées, on utilise une interpolation linéaire, comme pour la médiane, en remplaçant par pour et par pour . * **Propriétés :** * Mesure de dispersion robuste, car elle n'est pas affectée par les valeurs extrêmes (elle se concentre sur les 50% du milieu des données). * Utile pour identifier les outliers (observations considérées comme outliers si elles sont en dessous de ou au-dessus de ). * Peut être utilisée pour des variables quantitatives et ordinales. **Exemple :** Données ordonnées : 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60. () est la position ème valeur, donc . est la position ème valeur, donc . .4.3 La Variance ( ou )
La variance mesure la dispersion des données autour de la moyenne. C'est la moyenne des carrés des écarts à la moyenne. * **Variance de la population () :** où est la moyenne de la population. * **Variance de l'échantillon () :** (formule non biaisée, préférable pour l'estimation de la variance de la population). (formule biaisée). * **Propriétés :** * Toujours positive ou nulle. * Unités au carré de la variable originale, ce qui rend l'interprétation directe difficile. * Sensible aux valeurs extrêmes. * Ne peut être calculée que pour des variables quantitatives. * Formule de Huygens (forme calculatoire plus simple) : (pour la variance échantillon) ou (pour la variance population).4.4 L'Écart Type ( ou )
L'écart type est la racine carrée de la variance. Il s'exprime dans les mêmes unités que la variable originale, ce qui le rend plus facile à interpréter. * **Écart type de la population :** * **Écart type de l'échantillon :** * **Propriétés :** * Plus l'écart type est grand, plus les données sont dispersées. * Une valeur d'écart type nulle signifie que toutes les observations sont identiques à la moyenne. * Ne peut être calculée que pour des variables quantitatives. * Changement d'origine et d'échelle : Si , alors et ( n'affecte pas la dispersion). **Exemple :** Population de 3 données : 1, 2, 3. Moyenne . . .4.5 Le Coefficient de Variation (CV)
Le coefficient de variation est une mesure de dispersion relative, exprimée en pourcentage. Il permet de comparer la dispersion de datasets ayant des moyennes différentes, ou des unités de mesure différentes. (pour une population) ou (pour un échantillon). * **Propriétés :** * Adimensionnel (sans unité). * Utile pour comparer la variabilité. * Non défini si la moyenne est nulle. * Sensible aux petites variations de la moyenne si la moyenne est proche de zéro. **Exemple :** Comparer la variabilité du poids (moyenne 70 kg, écart-type 5 kg) et de la taille (moyenne 1,75 m, écart-type 0,10 m). CV Poids = . CV Taille = . Le poids a une variabilité relative légèrement plus élevée que la taille dans cet exemple.5. Mesures de Forme
Les mesures de forme décrivent l'apparence générale de la distribution des données.5.1 L'Asymétrie (Skewness)
L'asymétrie mesure le degré de symétrie de la distribution. * **Distribution Symétrique :** Les deux moitiés de la distribution sont des images miroir l'une de l'autre. Moyenne = Médiane = Mode. * **Distribution Asymétrique Positive (oblique à droite) :** La queue de la distribution est plus longue vers les valeurs élevées. Moyenne Médiane Mode. * **Distribution Asymétrique Négative (oblique à gauche) :** La queue de la distribution est plus longue vers les valeurs faibles. Moyenne Médiane Mode. Un indicateur couramment utilisé est le coefficient d'asymétrie de Pearson (pour un échantillon) : ou (approximation). **Piège :** La relation Mode-Moyenne-Médiane est une règle générale, mais elle peut être fausse dans des distributions multimodales prononcées.5.2 L'Aplatissement (Kurtosis)
L'aplatissement (kurtosis) mesure le degré de "pointu" ou "plat" d'une distribution par rapport à une distribution normale (qui est dite mésocurtique). * **Leptocurtique :** Plus pointue et a des queues plus lourdes (plus de valeurs extrêmes) que la distribution normale. Kurtosis > 3 (ou > 0 si l'excès de kurtosis est utilisé). * **Mésocurtique :** Semblable à la distribution normale. Kurtosis = 3 (ou = 0 pour l'excès de kurtosis). * **Platocurtique :** Plus plate et a des queues plus légères (moins de valeurs extrêmes) que la distribution normale. Kurtosis < 3 (ou < 0 pour l'excès de kurtosis). Le coefficient de kurtosis est calculé par la formule : . On utilise souvent l'excès de kurtosis : , pour que la distribution normale ait un excès de kurtosis de 0.6. Mesures de Position (Quantiles)
Les mesures de position divisent une distribution ordonnée en parties égales. Les plus courantes sont les quartiles (Q), les déciles (D) et les centiles ou percentiles (P). * **Quartiles :** Divisent les données en 4 parties égales (25% chacune). . * = Décile 2.5%, * = Médiane, * = * **Déciles :** Divisent les données en 10 parties égales (10% chacune). . = . * **Centiles (Percentiles) :** Divisent les données en 100 parties égales (1% chacune). . est la valeur sous laquelle se trouve des observations. **Calcul des quantiles pour données brutes :** 1. Ordonner les données. 2. Position du p-ième percentile : . * Si est un entier, le percentile est la valeur à cette position. * Si n'est pas un entier, on interpole entre les deux valeurs adjacentes. * **Exemple :** données, . . C'est à 75% du chemin entre la 2e et la 3e valeur. Si les valeurs sont et , alors . **Calcul des quantiles pour données regroupées en classes :** Utiliser une formule d'interpolation similaire à celle de la médiane : où est la proportion désirée (ex. 0.25 pour ). La classe du quantile est la première classe dont la fréquence cumulée dépasse .7. Représentations Graphiques Avancées
7.1 Diagramme en Boîte (Box Plot)
Le diagramme en boîte est une représentation graphique standardisée de la distribution des données basées sur cinq résumés numériques : 1. **Minimum :** La plus petite valeur observée non-outlier. 2. ** (Premier quartile) :** 25% des données sont inférieures. 3. **Médiane () :** 50% des données sont inférieures. 4. ** (Troisième quartile) :** 75% des données sont inférieures. 5. **Maximum :** La plus grande valeur observée non-outlier. * La "boîte" s'étend de à , contenant les 50% du milieu des données (l'IQR). * Une ligne à l'intérieur de la boîte marque la médiane. * Les "moustaches" (whiskers) s'étendent des bords de la boîte jusqu'aux valeurs minimales et maximales non considérées comme des outliers. Conventionnellement, ces limites sont et . * Les outliers (valeurs extrêmes) sont représentés individuellement par des points au-delà des moustaches. * **Avantages :** * Excellent pour comparer la distribution de plusieurs groupes de données. * Identifie facilement la tendance centrale, la dispersion et la présence d'asymétrie et d'outliers. * **Inconvénients :** Ne montre pas la forme exacte de la distribution (pics, vallées).7.2 Dot Plot (Nuage de Points)
Un diagramme en points affiche chaque point de donnée comme un point sur un axe numérique. Utile pour visualiser des petites à moyennes quantités de données et leur distribution, y compris les clusters et les écarts.7.3 Stem-and-Leaf Plot (Diagramme Tige-Feuilles)
Le diagramme tige-feuilles est une méthode pour afficher la distribution des données tout en conservant les valeurs individuelles. Les "tiges" sont les premiers chiffres d'une valeur, et les "feuilles" sont les chiffres suivants. * **Exemple :** Notes d'examen : 62, 65, 70, 71, 71, 75, 80, 83, 89, 90, 91. * Tige 6 | 2 5 * Tige 7 | 0 1 1 5 * Tige 8 | 0 3 9 * Tige 9 | 0 1 * **Avantages :** Montre la forme de la distribution et toutes les données individuelles. Facile à construire à la main pour de petits ensembles.8. Analyse Bivariée (Variables Qualitatives) : Tableaux de Contingence
Quand on étudie la relation entre deux variables qualitatives, on utilise les tableaux de contingence (ou tableaux croisés dynamiques). * Un tableau de contingence présente la distribution conjointe de deux variables. Les lignes représentent les modalités de la première variable, et les colonnes, celles de la seconde. Les cellules contiennent les effectifs conjoints (nombre d'individus ayant simultanément deux modalités spécifiques). * Les totaux des lignes et des colonnes sont appelés effectifs marginaux. * On peut calculer des fréquences conditionnelles (en ligne ou en colonne) pour analyser la dépendance entre les variables. Si la distribution conditionnelle est très différente de la distribution marginale, il y a probablement une association entre les variables. **Exemple :** Enquête sur le genre et la préférence pour un mode de transport. | | Voiture | Bus/Tram | Vélo | Marche | Total (Genre) | | :------------ | :------ | :------- | :--- | :----- | :------------ | | **Hommes** | 6 | 2 | 3 | 1 | **12** | | **Femmes** | 2 | 3 | 1 | 2 | **8** | | **Total (Transport)** | **8** | **5** | **4**| **3** | **20 (Total Général)**| * **Fréquences conjointes :** Par exemple, 6 hommes préfèrent la voiture sur 20 individus au total, soit 30%. * **Fréquences conditionnelles en ligne (Hommes) :** Proportion d'hommes qui prennent la voiture = . * **Fréquences conditionnelles en colonne (Voiture) :** Proportion de conducteurs de voiture qui sont des hommes = . Si les fréquences conditionnelles en ligne (par exemple) sont très différentes d'une ligne à l'autre ou des fréquences marginales de transport, il y a une association. Ex : La proportion d'hommes prenant la voiture est de 50%. La proportion de femmes prenant la voiture est de . Il semble y avoir une association.9. Relations entre Variables Quantitatives : Nuages de Points et Coefficient de Corrélation
9.1 Nuage de Points (Scatter Plot)
Un nuage de points est un graphique qui affiche la relation entre deux variables quantitatives. Chaque point représente une observation, avec sa valeur sur l'axe des abscisses pour la première variable et sur l'axe des ordonnées pour la deuxième. * **Usage :** Permet de visualiser la direction (positive, négative, nulle) et la force (faible, modérée, forte) de la relation, ainsi que la forme (linéaire, non linéaire). * Corrélation positive : Les points tendent à monter de gauche à droite. * Corrélation négative : Les points tendent à descendre de gauche à droite. * Pas de corrélation : Les points sont dispersés sans suivre de tendance claire. * Corrélation non linéaire : Les points suivent une courbe.9.2 Covariance
La covariance mesure la tendance de deux variables à varier ensemble. * **Covariance de la population :** * **Covariance de l'échantillon :** * **Interprétation :** * : Les variables varient dans la même direction (relation positive). * : Les variables varient dans des directions opposées (relation négative). * : Pas de relation linéaire. * **Limite :** La valeur de la covariance dépend des unités de mesure, il est donc difficile de comparer la force de la relation entre différentes paires de variables.9.3 Coefficient de Corrélation de Pearson (r)
Le coefficient de corrélation de Pearson standardise la covariance, offrant une mesure de la force et de la direction d'une *relation linéaire* entre deux variables quantitatives. où est la covariance de l'échantillon, et et sont les écarts-types des variables et . * **Valeur :** . * : Corrélation linéaire positive parfaite. * : Corrélation linéaire négative parfaite. * : Absence de corrélation linéaire. Cela ne signifie pas l'absence de toute relation (il pourrait y avoir une relation non linéaire forte). * **Interprétation (guide mais pas règle stricte) :** * : Corrélation faible. * : Corrélation modérée. * : Corrélation forte. * **Piège :** Corrélation n'implique pas causalité. Les variables peuvent être fortement corrélées en raison d'une variable tierce, ou par pure coïncidence. **Exemple :** Relation entre les heures d'étude (X) et le score à un examen (Y) pour 5 étudiants. X: 5, 8, 10, 12, 15 Y: 60, 70, 75, 80, 90 Un nuage de points montrerait une tendance linéaire positive. Le calcul de confirmerait la force de cette relation.10. Point de Vigilance : Les Illusions Statistiques et les Bonnes Pratiques
* **L'erreur d'agrégation (Ecological Fallacy) :** Tirer des conclusions sur des individus à partir de données agrégées (groupes). * **Exemple :** Si les habitants des villes avec plus d'églises votent républicain, cela ne signifie pas que les individus qui résident près d'une église votent républicain. Il peut s'agir d'une autre variable (comme la taille de la ville) qui explique les deux phénomènes. * **L'erreur du paradoxe de Simpson :** Un phénomène qui apparaît dans plusieurs groupes de données différentes, mais s'inverse lorsque ces groupes sont combinés. * **Exemple :** Un traitement médical peut sembler plus efficace pour les hommes et pour les femmes individuellement, mais moins efficace pour l'ensemble de la population lorsque les groupes sont combinés, à cause d'une variable confondante non prise en compte (par exemple, la gravité de la maladie étant plus élevée chez l'un des sexes et liée à la propension à recevoir le traitement). * **Mauvaise représentation graphique :** Des axes tronqués pour exagérer les différences, des échelles inappropriées, l'omission de la base 0 pour les effectifs peuvent fausser l'interprétation. * **Choix inapproprié de la mesure :** Utiliser la moyenne pour une distribution très asymétrique alors que la médiane serait plus pertinente. * **Ne pas confondre corrélation et causalité :** C'est une erreur fondamentale en statistique. Une forte corrélation ne prouve pas qu'une variable cause l'autre. Il peut y avoir un facteur confondant ou une causalité inverse.11. Logiciels et Outils pour la Statistique Descriptive
La statistique descriptive est facilitée par de nombreux logiciels. * **Tableurs :** Microsoft Excel, Google Sheets (fonctions `MOYENNE`, `MEDIANE`, `MODE`, `ECART.TYPE`, `LOI.NORMALE`, graphiques divers). * **Logiciels statistiques dédiés :** R, Python (avec des bibliothèques comme NumPy, Pandas, Matplotlib, Seaborn), SPSS, SAS, Minitab, Stata. Ces outils offrent des fonctions plus avancées pour l'analyse, la visualisation et la manipulation de grands jeux de données. * **Outils de visualisation :** Tableau, Power BI pour créer des tableaux de bord interactifs.Conclusion et Synthèse des Points Clés
La statistique descriptive est l'art de résumer et de présenter des données de manière significative. Elle est indispensable pour : * **Comprendre la nature des données :** Le type de variable détermine les méthodes d'analyse. * **Identifier les tendances centrales :** Où se situe le "c_oe"ur" des données (moyenne, médiane, mode). * **Évaluer la dispersion :** À quel point les données sont-elles étalées (étendue, IQR, variance, écart-type, CV). * **Détecter les formes de distribution :** Asymétrie, aplatissement, présence d'outliers. * **Explorer les relations entre variables :** Via des tableaux de contingence pour les qualitatives et des nuages de points/corrélation pour les quantitatives. * **Communiquer efficacement les résultats :** Grâce à des tableaux et des graphiques bien choisis et interprétés. Une compréhension solide des concepts et méthodes de la statistique descriptive est la fondation nécessaire pour des analyses statistiques plus complexes et pour prendre des décisions éclairées basées sur les données. La vigilance est de mise pour éviter les interprétations erronées et les pièges courants.Bir quiz başla
Bilgini etkileşimli sorularla test et