Statistiques - Chapitre 1 : Présenter pour informer

Sin tarjetas

Chapitre 1 : Présenter pour informer

Objectifs du chapitre

  • Découvrir les enjeux de la statistique et la démarche du statisticien.

  • Se familiariser avec les concepts de base.

  • Mesurer l'importance du travail de présentation des données.

Plan du chapitre

  1. Réaliser une étude statistique.

  2. Communiquer : le vocabulaire de la statisticienne.

  3. Communiquer : la présentation des données.

Section 1 : Réaliser une étude statistique

Le besoin de décider mène au besoin d'information, qui est satisfait par une étude statistique.

Exemples de décisions nécessitant des études statistiques :

  • Identifier les populations à risque pour optimiser une campagne de prévention.

  • Connaître l'évolution démographique pour planifier le financement du système de retraite.

  • Prévoir la répartition d'une population par zones géographiques pour les quotas de médecins.

  • Localiser des prospects pour optimiser la ventilation des forces de vente.

Les 6 étapes d'une étude statistique

Tous les choix sont guidés par le type de problématique.

Étape 1 : Quel type de problématique ?

Il s'agit de définir clairement la problématique qui intéresse le commanditaire de l'étude. Une demande vague, comme une simple « enquête de satisfaction », doit être précisée pour identifier les vrais objectifs (ex : modifier la mise en rayon, améliorer l'affichage, mieux répondre aux attentes des clients, mieux définir les horaires d'ouverture).

Étape 2 : Choix des données à observer (le « Qui ? »)

Une fois l'objet d'étude défini, il faut déterminer sur quels individus ou unités statistiques les observations seront réalisées. La population concernée doit être définie et délimitée (sa taille est parfois connue, parfois non).

Étape 3 : Choix de la méthode de recueil des données (le « Comment obtenir les informations ? »)

Plusieurs méthodes existent :

  • Expérimentation : observation directe de l'impact d'une variable de contrôle sur une variable d'observation (approche scientifique).

  • Observation ou enquête qualitative : observation extensive d'un petit nombre d'individus pour comprendre en profondeur.

  • Données de seconde main : réutilisation d'informations déjà disponibles.

  • Enquête quantitative : travail sur-mesure (questionnaires, enquêtes) pour collecter des informations spécifiques. C'est l'option la plus coûteuse.

Étape 4 : Campagne de mesures

Si une enquête quantitative est choisie, il faut définir :

  • Combien de personnes enquêter.

  • Quand les enquêter.

  • Comment les enquêter.

Étape 5 : Traitement des données

C'est l'objet des Techniques Statistiques. Les données récoltées doivent être traitées pour extraire l'information pertinente et répondre à la problématique. Les traitements peuvent être :

  • Présenter les données sans perte d'information (Chapitre 1).

  • Résumer l'information variable par variable (Chapitre 2).

  • Analyser les évolutions temporelles (Chapitre 3).

  • Croiser des informations de plusieurs variables (Chapitre 4).

Étape 6 : Prise de décision

Le rapport statistique doit inclure les résultats des traitements et les choix méthodologiques. Il doit être orienté vers la décision. Toute information inutile à la problématique doit être bannie. La décision finale n'est pas le rapport statistique lui-même, mais un acte politique basé sur les informations collectées et d'autres considérations (coût, éthique, etc.).

Section 2 : Communiquer : le vocabulaire du statisticien

  • La Population : L'ensemble (mathématique) étudié.

  • Les Individus ou Unités statistiques : Les éléments de cette population.

  • La Taille de la population ou Effectif total : Le nombre d'individus ou d'unités statistiques.

  • Une variable statistique ou caractère statistique : Une application associant une valeur à chaque individu.

  • Les modalités : Les valeurs prises par une variable statistique. Les variables sont notées en majuscule (Ex: X) et leurs valeurs en minuscule (Ex: xᵢ).

Illustration des notions statistiques

Exemple : Étude sur la criminalité et la délinquance en France (2009)

  • Population : L'ensemble des crimes et délits commis en France en 2009.

  • Unités statistiques : Chaque crime ou délit.

  • Effectif total : 3 628 584 (tous les crimes et délits).

  • Variable statistique : La catégorie du crime/délit. C'est une variable qualitative nominale.

  • Modalités : "Vols (dont recels)", "Infractions économiques et financières", "Crimes et délits contre des personnes", "Autres infractions (dont stupéfiants)".

Les différents types de variables (ou caractères statistiques)

On distingue 2 types principaux et 4 sous-types de variables :

  1. Variables Qualitatives :

    Les modalités ne sont pas des nombres et représentent des qualités ou des catégories.

    • Qualitative Nominale : Il n'est pas possible de classer les modalités selon un ordre qui a du sens (Ex: Sexe (homme, femme, autre), Couleur des yeux).

    • Qualitative Ordinale : Il est possible de classer les modalités selon un ordre qui a du sens (Ex: Qualité d'un service (mauvaise, plutôt mauvaise, plutôt bonne, très bonne), Mention à un examen (passable, assez bien, bien, très bien)).

  2. Variables Quantitatives :

    Les modalités sont des nombres et représentent des quantités.

    • Quantitative Discrète : Les modalités relèvent du comptage (ensemble dénombrable). Ce sont généralement des nombres entiers (Ex: Nombre d'enfants (0, 1, 2, 3...), Nombre de frères et sœurs).

    • Quantitative Continue : Les modalités relèvent de la mesure (ensemble non dénombrable). Elles peuvent prendre n'importe quelle valeur dans un intervalle (Ex: Taille en cm (179, 182.5, 183.7 cm), Poids, Température).

Attention aux confusions : une variable qualitative peut être codée sous forme de nombre dans une base de données, mais sa nature reste qualitative si ce nombre ne représente pas une quantité (un mot valant un chiffre).

Section 3 : Communiquer : la présentation des données

Il existe deux manières principales de présenter une variable sans perte d'information :

Série ou données brutes (raw data)

C'est l'ensemble des observations telles quelles, sans aucun traitement. Pour un caractère quantitatif ou qualitatif ordinal, un traitement est nécessaire pour passer à la distribution observée (tri des modalités, comptage des effectifs).

Exemple : Mini-enquête sur le nombre de frères et sœurs de 87 étudiants. La série brute est la liste des 87 réponses. Une fois triée, elle devient la série ordonnée.

Distribution observée des effectifs (frequencies)

Elle associe à chaque modalité d'une variable statistique l'effectif observé correspondant. L'effectif d'une modalité est le nombre d'individus présentant cette modalité. Cette distribution peut être représentée sous forme de tableau ou de diagramme en colonnes. Il s'agit souvent de la première étape d'une analyse statistique.

Exemple : Distribution observée du nombre de frères et sœurs avec les modalités (0, 1, ..., 14) et leurs effectifs correspondants (11 pour 0 frère/sœur, 33 pour 1, etc.). Cette distribution peut être visulalisée avec un diagramme à barres.

Répartition d'un caractère statistique (avec fréquences)

La distribution d'une variable statistique peut aussi être représentée par des fréquences. Une fréquence d'une modalité est la proportion d'individus présentant cette modalité dans la population totale (exprimée souvent en pourcentage).

  • Ces fréquences peuvent être représentées par un diagramme en barres ou un camembert.

  • Pour un caractère quantitatif, la fréquence cumulée d'une modalité est la proportion d'individus présentant une modalité donnée ou inférieure dans la population. Formellement, si X est la variable, xᵢ les modalités, nᵢ les effectifs et n l'effectif total :

La fréquence fᵢ = nᵢ / n

La fréquence cumulée Fₖ = Σi=1k fᵢ

Plusieurs distributions d'un même caractère statistique (comparaison)

Il est courant de présenter simultanément plusieurs distributions d'un même caractère pour les comparer. Ces comparaisons peuvent être faites entre différentes populations ou sous-populations (par année, zone géographique, etc.). Le but est de comparer la répartition de la variable entre ces sous-populations.

  • Les tableaux permettent une lecture détaillée des évolutions des effectifs ou fréquences pour chaque modalité à travers les sous-populations.

  • Les diagrammes en colonnes groupées visualisent l'évolution des effectifs (ou fréquences) par modalité à travers les sous-populations. Les couleurs représentent différentes sous-populations, ce qui permet de comparer l'importance des modalités au sein de chaque groupe.

Exemple 1 : Distribution de l'âge des personnes incarcérées en France, par année (2005-2010).

  • Population : L'ensemble des personnes incarcérées en France sur la période.

  • Sous-populations : Les personnes incarcérées pour chaque année spécifique (2005, 2006, etc.).

  • Caractère statistique : La catégorie d'âge. C'est une variable qualitative ordinale.

  • Comparaison : L'analyse porte sur l'évolution de la répartition des catégories d'âge au fil des années.

Exemple 2 : Distribution du nombre d'enfants par famille en France, par année (1975-2008) (en milliers).

  • Population : L'ensemble des familles en France métropolitaine.

  • Sous-populations : Les familles pour chaque année spécifique (1975, 1982, etc.).

  • Caractère statistique : Le nombre d'enfants par famille. C'est une variable quantitative discrète.

  • Comparaison : L'analyse vise à comprendre l'évolution du nombre d'enfants par famille au fil des ans. Pour une comparaison temporelle, il est préférable d'utiliser les fréquences (% du total) pour s'affranchir des évolutions de la taille de la population.

Principes de la présentation des données

La présentation des données (tableaux, graphiques) a pour but d'informer, c'est-à-dire de donner forme et signification aux données brutes. Ce sont des outils de communication.

Pour une bonne communication, il est essentiel :

  • D'utiliser des intitulés précis, évitant les noms de variables ou modalités obscurs.

  • Que les présentations soient lisibles par un non-spécialiste.

  • Que la compréhension soit immédiate ou simplifiée au maximum. Si la complexité est inévitable, ajouter une note de lecture.

  • D'indiquer les unités de mesure, la population et les choix méthodologiques.

Remarques conclusives

  • Une étude statistique passe par plusieurs étapes cruciales.

  • La présentation des distributions (effectifs, fréquences, fréquences cumulées) est la première étape de la statistique descriptive.

  • Lorsque l'information exhaustive n'est pas disponible, un échantillon est tiré. Les techniques pour déduire des éléments de la population à partir de cet échantillon relèvent de la statistique inférentielle.

Empezar cuestionario

Prueba tus conocimientos con preguntas interactivas