Analyse des données avec SPSS et R

Aucune carte

Ce document couvre les méthodes d'analyse des données, y compris les enquêtes, les tests statistiques, les méthodes de prédiction et de classification, ainsi que l'utilisation des logiciels SPSS et R.

Analyse des Données : Concepts Fondamentaux et Méthodologies

L'analyse des données est un domaine crucial pour la prise de décision éclairée, confrontée à un déficit croissant de compétences analytiques et managériales. Elle permet de transformer des informations brutes en connaissances actionnables, en s'appuyant sur des méthodes qualitatives et quantitatives.

Pénurie de Compétences Analytiques

Les États-Unis manquent de 140 000 à 190 000 personnes ayant des compétences analytiques poussées, ainsi que 1,5 million de managers et d'analystes capables d'interpréter les analyses de données pour prendre des décisions efficaces. (McKinsey Global Institute)

Ce constat souligne l'importance croissante de la maîtrise des outils d'analyse de données dans le monde professionnel.

Types d'Études en Analyse de Données

Les études peuvent être classées en deux grandes catégories : qualitatives et quantitatives, chacune ayant des objectifs, des échantillons, des méthodes de collecte, d'analyse et des résultats distincts.

Comparaison Études Qualitatives et Quantitatives

	Études « Quali »	Études « Quanti »
Objectif	Comprendre motivations et raisons sous-jacentes	Généraliser les résultats et quantifier
Échantillon	Petit nombre de cas non représentatifs	Grand nombre de cas représentatifs
Collecte	Non structurée	Structurée
Analyse	Non statistique	Statistique
Résultat	Comprendre	Recommander une action

Typologie des Études

Descriptif : Décrire les phénomènes.
Exploratoire : Comprendre en profondeur les motivations.
Causal : Expliquer les relations de cause à effet.

Processus de Collecte et d'Analyse des Données

Le processus type pour la collecte et l'analyse des données se décompose en plusieurs étapes séquentielles :

Identification de la population à interroger : Définir précisément qui sera la cible de l'étude.
Rédaction d'un questionnaire : Concevoir des questions claires et non ambiguës.
Prétest du questionnaire : Tester le questionnaire sur un petit groupe pour identifier les problèmes.
Administration (collecte des données) : Mettre en œuvre le questionnaire sur l'échantillon.
Saisie : Transférer les réponses dans une base de données.
Traitement des données : Nettoyer, organiser et préparer les données pour l'analyse.
Analyse et rédaction du rapport : Interpréter les données et présenter les conclusions.

Étape 1 : Identification de la Population à Interroger

Cette étape est cruciale et nécessite de passer d'une idée vague à une cible marketing précise et opérationnalisable.

Définition de la Cible

Il est impératif de bien cerner la population mère pour éviter les biais de couverture. La population cible doit être clairement définie en termes de caractéristiques mesurables.

Objectifs marketing	Cibles marketing potentielles = Options possibles de population mère	Opérationnalisation des caractères statistiques pour être éligible
Évaluer les ventes pour un nouveau produit lancé par Coca-Cola en France	Cible 1 - Clients réguliers actuels de Coca-Cola en France Cible 2 - Nouveaux clients : jeunes, urbains et sportifs Cible 3 - Nouveaux clients : femmes actives et aisées	- Consommer du Coca-Cola au moins une fois par semaine - Résider en France - Ne pas consommer de Coca-Cola - Âge : 15-25 ans - Habitat : ville de ≥ 80 000 habitants - Pratique régulière d'un sport - Sexe féminin, travail à temps plein - Revenus annuels ≥ 40 000 €

Considérations Budgétaires

Le budget est un facteur déterminant dans la portée d'une étude :

Environ 50 % du budget est alloué à la gestion du terrain (achat de fichiers, enquêteurs, contrôle).
Environ 50 % est destiné aux frais fixes (chargés d'études) et au traitement des données.
Un budget de 15 000 à 20 000 € permet d'interroger environ 1 000 personnes pour une étude ad hoc.
Les facteurs de surcoût incluent une population rare (ex: énarques) ou faiblement disponible (médecins), ainsi que la dispersion géographique (ex: possesseurs de cabriolets).

Représentativité de l'Échantillon

L'objectif est de pouvoir généraliser les résultats de l'échantillon à la population mère avec une précision connue. L'outil clé est l'intervalle de confiance (ou "fourchette"), qui donne la marge de fluctuation des résultats.

Plus l'intervalle est étroit, plus le sondage est précis.
La précision dépend directement de la taille de l'échantillon (un échantillon plus grand = plus de précision).
La précision n'est PAS influencée par la taille de la population mère (sauf cas très particulier de tirage exhaustif).

Calcul de la Précision

Pour un seuil de risque de 5% (95% de confiance), l'intervalle de confiance pour une proportion p est donné par :

où z est la valeur critique de la loi normale centrée réduite correspondant au niveau de confiance, p est la proportion observée, q = 1-p, et n est la taille de l'échantillon.

Exemple : Si 20% d'un échantillon de 1000 personnes ont regardé une émission, l'audience réelle (π) se situe entre 17,5% et 22,5%, avec une précision de ± 2,5 points.

Calcul de la Taille Nécessaire de l'Échantillon

La formule peut être inversée pour déterminer la taille de l'échantillon requise pour une précision donnée (ex: ±3%) :

où e est la marge d'erreur souhaitée.

Exemple : Pour une précision de ±3%, 683 personnes seraient suffisantes au lieu de 1000.

Méthodes d'Échantillonnage

Le choix de la méthode d'échantillonnage dépend de l'existence d'une liste complète de la population mère :

Méthodes Probabilistes (Aléatoires) : Utilisées lorsque la liste de la population mère est disponible. Le hasard guide le choix (ex: échantillonnage simple, stratifié, en grappe).
Méthodes Empiriques (sur choix raisonné) : Employées lorsque la liste est absente. La logique et l'expérience guident le choix.

L'échantillonnage aléatoire simple est souvent le plus court et le plus facile.

Biais dans l'Échantillonnage

Divers biais peuvent altérer la qualité des résultats :

Biais d'origine statistique

Biais d'origine humaine

Erreur de couverture

Base de sondage inadéquate (fichier incomplet)
Population mère mal cernée
Tirage de l'échantillon défectueux
Contact défectueux : manque de temps ou d'intérêt des répondants, lassitude, absence lors du contact

Erreur d'échantillonnage

Fluctuation statistique (précision de l'estimation et risque d'erreur)

Erreur de non-réponse

Ignorance de l'information
Question pas comprise
Refus de réponse : sujet tabou, peur d'être jugé

Erreur de mesure

Réponses erronées : questions pas comprises, mal formulées, souvenir déformé, oubli partiel
Réponses inventées : questionnaires bidonnés
Réponses orientées : tendance à faire plaisir à l'enquêteur, réponses socialement acceptables (standing, conformité, etc.), peur d'être jugé, réaction de l'enquêteur

Étape 2 : Rédaction d'un Questionnaire

Structure d'un Bon Questionnaire

Un questionnaire bien structuré facilite la collecte de données pertinentes et minimise la fatigue du répondant :

Introduction / Échauffement : Questions générales, simples, non impliquantes (ex: "Fréquentez-vous les cinémas en général ?").
Cœur du Sujet : Questions spécifiques, organisées par thèmes (blocs) (ex: questions sur les genres de films préférés, puis sur les plateformes de streaming).
Questions Délicates : Sujets sensibles (revenus, opinions politiques...). Placées à la fin pour ne pas brusquer et perdre le répondant.
Identification : Questions socio-démographiques (âge, CSP, etc.). Toujours à la fin, car l'effort cognitif demandé est faible et elles sont moins sensibles.

Types de Questions

Dichotomique : Simple et direct (ex: [Oui] [Non]).
QCM (Choix Multiple) : Pour identifier des éléments dans une liste (ex: [ ] Option A [X] Option B [X] Option C).
Échelle de Likert : Pour mesurer un degré d'accord ou de satisfaction, souvent sur une échelle de 1 à 5 ou 1 à 7 (ex: Pas du tout d'accord ● -- ● -- ○ -- ● -- ● Tout à fait d'accord).
Sémantique Différentielle : Pour qualifier une image de marque sur un axe binaire (ex: Innovant ○ -- ● -- ● -- ● -- ● Traditionnel).

Biais à Éviter lors de la Rédaction

Piège de l'ambiguïté : Éviter les termes subjectifs (ex: "Regardez-vous souvent la TV ?"). Préférer des choix précis (ex: "À quelle fréquence regardez-vous la TV ?" avec des catégories définies).
Piège de la question orientée : Éviter les formulations suggestives ou à double négation (ex: "Ne pensez-vous pas que le gouvernement devrait interdire... ?"). Opter pour une formulation neutre (ex: "Êtes-vous favorable ou défavorable à l'interdiction de... ?").
Piège des sujets tabous : Pour les sujets comme le revenu, la religion, l'hygiène, les gens ont tendance à donner des réponses "socialement acceptables". Une étude qualitative peut être plus adaptée pour ces sujets.

Étape 3 : Prétest du Questionnaire

Après la rédaction, le questionnaire doit être pré-testé sur une demi-douzaine de personnes pour vérifier sa clarté, sa fluidité et identifier d'éventuels problèmes de compréhension ou de formulation. L'administration peut ensuite se faire par "effet boule de neige" pour un petit échantillon initial.

Saisie et Traitement des Données : Définition des Variables

La nature des variables est fondamentale car elle détermine les analyses statistiques possibles.

Types de Variables

Famille	Type	Définition	Exemple
QUALITATIVES (Mots)	Nominale	Catégories sans ordre.	Marque de voiture, Couleur préférée.
	Ordinale	Catégories ordonnées.	Niveau de satisfaction (Likert), Classe d'âge.
QUANTITATIVES (Chiffres)	Discrète	Nombres entiers (on compte).	Nombre d'enfants, Nombre d'achats.
	Continue	Nombres avec virgule (on mesure).	Âge exact, Prix, Température.

Pour une échelle de Likert, bien que les valeurs soient numériques, elles représentent un ordre de satisfaction et sont souvent traitées comme ordinales.

Exemples :

La variable age est numérique ou une échelle (quantitative continue).
La variable edcat (niveau d'éducation : "High School Degree", "Some College", "Graduate") est ordinale car il existe un ordre légitime.
La variable jobcat ("Managerial", "Sales") est nominale car il n'y a pas d'ordre légitime entre les catégories.

Il est important de noter que SPSS (ou tout autre logiciel statistique) indiquera toujours si une variable est quantitative, ordinale ou nominale, ce qui guide le choix des analyses adéquates.

Codification des Variables Qualitatives en Quantitatives

Pour l'analyse statistique, les variables qualitatives doivent souvent être codifiées numériquement :

Genre (quali)	Femme (quanti)
Femme	1
Homme	0

Éducation (quali)	Primaire (quanti)	Secondaire (quanti)
Primaire	1	0
Secondaire	0	1
Supérieur	0	0

Données Primaires vs. Secondaires

Données primaires : Données nouvelles récoltées spécifiquement pour une étude donnée.
Données secondaires : Données récupérées d'une autre étude (ex: données INSEE, rapports financiers).

De nombreuses études combinent données primaires et secondaires, par exemple en collectant des données primaires sur un phénomène nouveau et en les appariant à des données secondaires existantes pour enrichir l'analyse.

Nouvelles Tendances dans la Collecte de Données

Analyse Textuelle et Traitement du Langage Naturel

L'analyse textuelle est de plus en plus utilisée pour capter des tendances et des sentiments :

Récupération de mots clés.
Analyse de sentiments à l'aide de dictionnaires (lexiques).
Permet de comprendre les sentiments sur les réseaux sociaux, les forums, les commentaires clients.
Utile pour suivre l'évolution de la Responsabilité Sociale des Entreprises (RSE) dans les rapports d'entreprise ou l'évolution des clauses contractuelles.

Exemple : L'analyse des tweets géolocalisés pour identifier la proportion de messages soutenant la distanciation sociale (ex: "Stay home", "wear mask") a montré que plus de 99% des tweets étaient en faveur, avec une pondération par le nombre de likes pour mesurer le sentiment global.

Google Trends

Google Trends fournit un score de "tendance" d'une recherche par pays, région ou zone urbaine. Il est de plus en plus utilisé pour capter le sentiment de la population sur des sujets sensibles comme la santé mentale (recherches sur les effets secondaires des antidépresseurs) ou pour mesurer la croissance économique (termes comme "hypothèques", "investissements", "liquidation").

Analyse d'Images et d'Émotions

Des API comme Microsoft Face API permettent de coder les émotions (Colère, Mépris, Dégoût, Peur, Joie, Neutre, Tristesse, Surprise) à partir d'expressions faciales sur des images, offrant des opportunités d'analyse comportementale.

Analyse et Rédaction du Rapport : Choisir le Bon Outil

Le choix de l'analyse dépend du type de variables à étudier.

Analyses Univariées

Variable Nominale seule : Analyse des fréquences, Mode (ex: 40% préfèrent la marque A).
Variable Quantitative seule : Analyse de la moyenne, médiane, écart-type (ex: Le budget moyen est de 52€).

Statistiques Descriptives Clés

Moyenne : Centre de gravité des valeurs ().
Médiane : Valeur qui sépare l'échantillon en deux groupes de même effectif.
Mode : Valeur la plus fréquente.

Les données peuvent également être visualisées à l'aide d'histogrammes (ou "boîtes à moustaches") qui résument les valeurs minimales, Q1 (premier quartile), médiane, Q3 (troisième quartile) et maximales. La boîte bleue s'étend de Q1 à Q3, et l'IQR (écart interquartile) est Q3-Q1.

Analyses Bivariées

Croisement Nominale x Nominale : Tableau croisé, Test du Khi-2 (ex: Les hommes préfèrent-ils plus la marque A que les femmes ?).
Croisement Nominale x Quantitative : Comparaison de moyennes (ex: Les clients de la marque A dépensent-ils plus en moyenne que ceux de la marque B ?).
Croisement Quantitative x Quantitative : Corrélation (ex: Est-ce que le budget augmente avec l'âge ?).

Pour les variables nominales, un diagramme en bâtons permet de visualiser les effectifs ou fréquences. Pour les variables quantitatives, un nuage de points est utilisé pour afficher la relation entre deux variables, en observant la direction (positive ou négative), la forme (linéaire ou non linéaire) et la force de cette relation.

Type de donnée(s)

Mesures & Outils Descriptifs

Analyses & Tests

Graphiques recommandés

Une seule Variable Qualitative (Nominale)

Fréquences ¹¹¹, Mode

Tableau des effectifs

Diagramme en bâtons ⁴, Graphique en secteurs (Camembert) ⁵

Une seule Variable Quantitative

Moyenne () ⁶⁶, Médiane ⁷, Mode ⁸, Écart-type () ⁹, Variance () ¹⁰, Étendue ¹¹

Mesures de tendances centrales ¹²¹²et de dispersion

Histogramme ¹⁴, Boxplot (Boîte à moustache) ¹⁵

Croisement : 2 Variables Qualitatives

Tableau de contingence (Crosstab) ^16161616

Test du Khi-2

Diagramme en bâtons (groupés ou empilés) ¹⁸

Croisement : Quali (x) Quanti

Comparaison de moyennes par catégorie ^{19191919191919}

Analyse de la variance ou comparaison de groupes

Boxplots comparatifs ²¹, Histogrammes superposés ²²

Croisement : 2 Variables Quantitatives

Nuage de points

Corrélation

Diagramme de dispersion (Scatter plot)

Données Quantitatives : Expérimentations et Relations Causales

L'objectif de l'analyse causale est d'établir qu'un phénomène (X) cause un autre (Y). Les expérimentations sont des outils précieux pour cela.

Principes des Expérimentations

Groupes jumelés : Deux groupes doivent être similaires en termes de caractéristiques socio-démographiques pour s'assurer que le stimulus est la seule source du résultat observé.

Groupe de traitement : Reçoit le stimulus (ex: chambre gratuite, voucher de 30 $).</li><li>Groupe de contrôle : Ne reçoit rien.</li></ul>Exemple : Des expérimentations marketing ont montré que des offres ciblées (voucher de 30$ ) peuvent générer plus de dépenses que des offres perçues comme gratuites (chambre gratuite).

Types d'Expérimentations

Expérimentations naturelles : Un changement exogène (ex: mise en place d'une politique publique) est observé.
Expérimentations encadrées : Le chargé d'études manipule un ou plusieurs critères, sur le terrain ou en laboratoire (par questionnaire).

Exemple : Afficher les calories dans un menu peut dégrader la valeur perçue d'un produit. On peut observer l'évolution des ventes chez Starbucks ou Dunkin'Donuts avant et après une telle mesure.

Esther Duflo souligne l'importance des "expériences sociales pour combattre la pauvreté", en comparant des camps avec et sans incitations pour mesurer l'impact sur l'éducation ou la santé.

Une autre expérimentation a montré qu'une promotion même non-remarquée peut dégrader la valeur perçue d'un produit. Des étudiants ont noté la valeur perçue de sauces tomates, certains voyant une promotion "prix barré" qui, paradoxalement, a réduit l'évaluation de la qualité. Le prix barré peut faire passer le produit d'une catégorie "produit de luxe" à "produit discount de marque".

Avantages et Inconvénients des Expérimentations

	Avantages	Inconvénients
Expérimentation en laboratoire	- Degré élevé de contrôle - Facilité de mise en œuvre - Moindre coût	- Nombre restreint d'individus étudiés - Risque de décalage / la réalité
Expérimentation sur le terrain	- Validité externe élevée - Comportement normal des individus étudiés	- Coût élevé des marchés tests - Difficulté de contrôler tous les facteurs externes

Relation Causale et "Bonnes Variables"

L'objectif est de montrer qu'un changement de X entraîne un changement de Y (ex: un changement de prix [X] cause une baisse de valorisation du produit [Y]).

Il est essentiel de choisir des "bonnes variables" qui mesurent fidèlement ce qu'elles sont censées mesurer. Par exemple, la performance d'un film peut être mesurée par sa performance financière, critique, ou le nombre de prix obtenus.

Tests d'Hypothèses

Les tests d'hypothèses permettent de vérifier une supposition sur la réalité à l'aide de données.

Démarche Générale

Formuler la question business : Que souhaite-t-on savoir ?
Traduire en hypothèses H₀ / H₁ : Quel est le statu quo (H₀) face à ce que l'on veut démontrer (H₁) ?
Définir le risque acceptable (α) : Quelle est la tolérance à l'erreur ?
Obtenir la p-value : Utiliser un logiciel statistique.
Prendre une décision : Comparer la p-value et α, puis traduire le résultat statistique en action managériale.

Hypothèses Nulle (H₀) et Alternative (H₁)

H₀ (Hypothèse nulle) : Hypothèse du statu quo, pas de différence, d'effet ou de changement (ex: "Le salaire moyen des hommes et des femmes est identique"). C'est la présomption d'innocence.
H₁ (Hypothèse alternative) : Hypothèse du chercheur, il existe une différence ou un effet (ex: "Le salaire moyen des hommes et des femmes est différent"). C'est ce que l'on cherche à démontrer.

Population et Échantillon

Population : L'ensemble de tous les individus d'intérêt.
Échantillon : Un sous-ensemble représentatif de la population, utilisé pour inférer des conclusions sur celle-ci.

Types d'Erreurs

Le hasard de l'échantillonnage implique un risque d'erreur :

	Décision
	On rejette H₀	On ne rejette pas H₀
H₀ est Vraie	Erreur de type I (α)	Correct
H₀ est Fausse	Correct	Erreur de type II (β)

Erreur de type I (Faux positif) : Rejeter H₀ alors qu'elle est vraie (ex: lancer une campagne coûteuse pour un problème inexistant). Le risque maximal accepté est α (souvent 5% en sciences sociales).
Erreur de type II (Faux négatif) : Ne pas rejeter H₀ alors qu'elle est fausse (ex: passer à côté d'un problème réel d'inégalité).

La p-value

C'est la probabilité d'obtenir un résultat aussi extrême que celui observé dans l'échantillon, en supposant que H₀ est vraie.

p-value élevée : Pas surprenant, aucune raison de rejeter H₀.
p-value faible : Très surprenant, il est plus probable que H₀ soit fausse.

Règle de décision : Si , on rejette H₀ (le résultat est statistiquement significatif). Si , on ne rejette pas H₀ (le résultat est non significatif).

Mantra : « If the p is low, the null must go! »

Exemple : Un test A/B pour comparer la couleur d'un bouton (bleu vs. vert). Si le bouton vert a un taux de clic de 13% contre 10% pour le bleu, et que la p-value est de 0,028 (avec α = 0,05), alors . On rejette H₀, concluant que le bouton vert est plus performant.

Outils Statistiques pour Différents Types de Questions

Comparer les moyennes de deux groupes (Qualitative vs Quantitative) : Test t (ex: salaires H/F, efficacité de 2 publicités).
Comparer les moyennes de plus de deux groupes (Qualitative vs Quantitative) : ANOVA (ex: ventes dans 3 régions).
Comparer des proportions ou pourcentages (Qualitative vs Qualitative) : Test du Khi-deux (χ²) (ex: % de clics sur 2 boutons).
Tester la force d'une relation entre deux variables (Quantitative vs Quantitative) : Test de corrélation / Régression (ex: budget pub lié au chiffre d'affaires).

Le Test T pour Échantillons Indépendants

Le Test t est utilisé pour déterminer si la différence observée entre les moyennes de deux groupes est statistiquement significative ou due au hasard.

Fonctionnement

H₀ : Les moyennes des deux groupes sont égales (μ₁ = μ₂).
Le test calcule le score t, qui est le ratio entre le signal (différence entre les moyennes) et le bruit (variabilité à l'intérieur des groupes).

Un t élevé indique une différence significative.

Exemple : Comparer le revenu moyen entre abonnés et non-abonnés Netflix. SPSS réalise le test de Levene (pour l'égalité des variances) puis le test t. Si la p-value du test t est supérieure à α (0,05), on ne rejette pas H₀.

Étape 1 : Regarder le Test de Levene pour l'égalité des variances

Ce test vérifie si la dispersion ("le bruit") est la même dans les deux groupes.

Regardez la colonne

"Sig." : Si Sig. > 0.05 (comme ici, 0.219) => On suppose les variances égales. On lit la première ligne du tableau.
Si Sig. < 0.05 => On suppose les variances inégales. On lirait la deuxième ligne

Étape 2 : Regarder le T-test pour l'égalité des moyennes

On lit la première ligne car Sig. du Levene > 0.05. Regardez la colonne "Sig. (bilatérale)" : c'est notre p-value ! Ici, p-value = 0.272.

Étape 3 : Prendre la décision

On compare la p-value au seuil de signification (α = 0.05). 0.272 > 0.05 => On ne peut pas rejeter l'hypothèse nulle H0.

Conclusion : "Il n'y a pas de preuve statistique suffisante pour affirmer que le revenu moyen diffère entre les abonnés et les non-abonnés à Netflix."

ANOVA (ANalysis Of VAriance)

L'ANOVA est une généralisation du Test t, permettant de comparer les moyennes de plus de deux groupes.

Fonctionnement

H₀ : Toutes les moyennes sont égales (μ₁ = μ₂ = μ₃ = ...).
L'ANOVA compare deux types de variabilité :
- Variance INTER-groupes (Between) : Écart entre les moyennes des groupes et la moyenne générale (le signal).
- Variance INTRA-groupes (Within) : Dispersion des données à l'intérieur de chaque groupe (le bruit).

Si F est grand (> 1), le signal domine le bruit, suggérant une différence significative.
Si F est proche de 1 : le signal n’est pas plus fort que le bruit. Les différences observées sont probablement dues au hasard

Exemple : L'impact de différentes primes (contrôle, prime antitabac, hausse de salaire) sur la motivation des employés. Si la p-value de l'ANOVA est à 0,000 (ce qui est inférieur à 0,05), on rejette H₀ et on conclut qu'il existe une différence significative entre au moins deux des groupes.

Etape d'interprétation :

On regarde le tableau de résultats de l'Anova :

Interprétation :

Regarder la ligne "Intergroupe".
La valeur de F est de 19,07. C'est très supérieur à 1. Le "signal" est presque 20 fois plus fort que le "bruit".
La significativité (p-value) est de 0,000.
Décision : 0,000 < 0.05. On rejette H0.

Test du Khi-deux (χ²) d'Indépendance

Ce test est utilisé pour déterminer s'il existe une relation entre deux variables qualitatives (nominales ou ordinales).

Fonctionnement

H₀ : Les deux variables sont indépendantes (pas de lien).
Le test compare le tableau des effectifs observés (données réelles) au tableau des effectifs attendus (valeurs si les variables étaient indépendantes).
La valeur attendue pour une cellule est calculée par :
Le khi-deux (χ²) mesure l'écart entre ces deux tableaux :
Si , les variables sont indépendantes. Plus est grand, plus on s'éloigne de l'indépendance.

Condition d'application : Au moins 5 observations par cellule (règle traditionnelle), ou aucune cellule < 1 et pas plus de 20% des cellules < 5.

Exemple : Y a-t-il un lien entre le genre et l'abonnement Netflix ? Si la p-value > 0,05, on ne rejette pas H₀, concluant qu'il n'y a pas de preuve statistique d'un lien entre les deux variables.

Etape d'interprétation :

SPSS affiche à la fois le tableau observé et le tableau attendu dans le même tableau croisé.
Interprétation :
- Vérification de la condition d’application (note en bas du tableau SPSS) : « 0 cellule (0,0 %) a un effectif théorique inférieur à 5 ». Condition respectée → on peut utiliser le test.
- Valeur du Khi-deux (χ²) = 1,401 → c’est l’écart calculé.
- Signification (p-value) = 0,237.
- Décision : comme 0,237 > 0,05, on ne rejette pas l’hypothèse nulle H₀.

Corrélation vs. Causalité

Corrélation : Relation entre deux variables, elles co-évoluent, mais sans forcément de lien de causalité (ex : les gens ont leur parapluie quand il pleut).
Causalité : Lien de cause à effet (ex: Il pleut, donc les gens prennent leur parapluie).

Il est crucial de ne pas confondre corrélation et causalité. Des corrélations fallacieuses peuvent exister (ex: le nombre de films avec Nicolas Cage et le nombre de noyades dans des piscines). Un article scientifique a même été publié (par plaisanterie) pour alerter sur ce fait, en montrant un lien entre la consommation de chocolat et le nombre de prix Nobel.

Coefficient de corrélation de Pearson

Résultat entre -1 et 1
Corrélation entre -0,3 et 0,3: faible
Corrélation entre -0,3 et -0,6 ou 0,3 et 0,6 : moyenne
Corrélation > 0,6 ou < - 0,6 : fort

Régression Linéaire : Modélisation et Prédiction

La régression linéaire permet de quantifier les relations entre variables pour prédire des résultats et identifier des axes d'action.

Régression Linéaire Simple

Elle modélise la relation entre une variable dépendante (Y) et une variable indépendante (X).

Variable dépendante (Y) : Ce que l'on souhaite expliquer ou prédire (ex: les recettes d'un film).
Variable indépendante (X) : Ce que l'on utilise pour expliquer Y (ex: le budget d'un film).
Équation du modèle :
- : Valeur prédite.
- : Variable indépendante.
- (ordonnée à l'origine) : Valeur de Y lorsque X est nul.
- (pente /slope) : Variation moyenne de Y lorsque X augmente d'une unité.

Exemple : Pour les films, un b_1

application de l'équation

548,8 + 1,897 * 100 = 738,5 $ millions de dollars.

La significativité (p-value, ou "Sig.") des coefficients indique si X a un effet significatif sur Y.

3 seuils de significativité (précision des coefficients):

1% si sign. <0,01
5% si sign. <0,05
10% si sign. <0,1

Mesure de la Fiabilité : le R²

Le (coefficient de détermination) mesure le pourcentage de la variation de Y expliquée par la variation de X.

Il varie de 0%(0) (aucune explication) à (1)100% (explication parfaite).

Un de 18,4% signifie que le budget explique 18,4% de la variation des recettes mondiales, suggérant que d'autres facteurs sont aussi importants.

Régression Linéaire Multiple

Elle inclut plusieurs variables indépendantes pour des analyses plus fines.

Selon l’importance des variables pour l’objet étudié, on les appelle variables explicatives d’intérêt ou de contrôles

Elle offre une meilleure estimation en isolant les effets de chaque variable.
Elle permet d'obtenir le vrai coefficient de chaque variable en contrôlant pour les autres.

Exemple : Expliquer les recettes d'un film avec le budget, le nombre d'écrans et les semaines d'exploitation comme variables explicatives.

Le ajusté tient compte du nombre de variables.

Problème de la Multicolinéarité

La multicolinéarité survient lorsque les variables indépendantes sont fortement corrélées entre elles (ex: gros budget et grand nombre d'écrans). Cela rend difficile de distinguer l'impact propre de chaque facteur.

Le VIF (Variance Inflation Factor) mesure ce phénomène. Si VIF > 5, la variable est trop corrélée et devrait être supprimée.
Il est recommandé de vérifier la stabilité des coefficients dans différents modèles pour s'assurer de leur robustesse.

Modèles en Logarithme, Interactions, Médiation et Régression Logistique

Modèles en Logarithme

Utilisés lorsque l'on s'intéresse aux variations relatives (pourcentages) plutôt qu'absolues. On transforme les variables avec le logarithme népérien (Log).

Modèle Log-Log :
- Le coefficient b est l'élasticité : "Une augmentation de 1% de X est associée à une variation de b% de Y."
- Ex: → Si le prix augmente de 1%, les ventes diminuent de 0.8%.
Modèle Log-Level :
- Le coefficient b mesure un effet semi-élastique : "Une augmentation d'une unité de X est associée à une variation de (100 * b)% de Y."
- Ex: → Chaque année d'étude supplémentaire est associée à une augmentation du salaire moyen de 6%.

Cas Pratique : L'impact de l'affichage des calories chez Starbucks à New York.

Un modèle Log-Level

() a montré une réduction significative des calories par transaction, interprétée en pourcentage.

Interactions entre Variables (Modération et Double Différence)

Elles permettent de comprendre si l'effet de X sur Y est modulé par un facteur Z (modération) ou de mesurer l'impact d'une politique (double différence).

Modèle avec Interaction :
- Le terme d (terme d'interaction) indique comment l'effet de X change lorsque Z augmente d'une unité.

Exemple de Modération : L'effet de l'affichage des calories varie-t-il selon le genre ? Un modèle avec interaction

peut montrer que les femmes sont plus sensibles à l'information calorique que les hommes, en ayant un effet d'affichage plus prononcé.

Double Différence : Utilisée pour mesurer l'impact d'une expérimentation avant et après un stimulus sur un groupe de traitement par rapport à un groupe de contrôle. L'interaction entre la variable "groupe de traitement" et la variable "période post-stimulus" capte l'effet de la politique.

Médiation

La médiation explique pourquoi ou comment X cause Y, en identifiant une variable intermédiaire (Z).

Exemple : Le salaire (X) peut affecter la performance via l'intérêt (Z) et la créativité (Y). Un modèle

peut révéler que l'intérêt a un effet de médiation sur la relation salaire-créativité.

Modération:

quand ou pour qui X cause Y

Modèles Curvilinéaires

Ces modèles sont utilisés lorsque la relation entre X et Y n'est pas linéaire, mais suit une courbe (ex: en U ou en U inversé).

Courbe en U
- b est significativement négatif
- c est significativement positif
Courbe en U inversé
- b est significativement positif
- c est significativement négatif

Modèle Quadratic :

Exemple : Le bonheur et l'âge. Le modèle peut montrer une courbe en U (le bonheur diminue puis augmente avec l'âge) si b est négatif et c positif.

Régression Logistique

Utilisée lorsque la variable dépendante (Y) est binaire (0 ou 1, ex: client accepte (1) ou non (0)). Elle prédit une probabilité de succès.

Limitations de la Régression Linéaire pour Variables Binaires

Violation des hypothèses : La variable Y binaire viole l'hypothèse de normalité des résidus.
Prédictions hors limites : La droite de régression peut prédire des probabilités < 0 ou > 1.

Concept des Cotes (Odds)

La régression logistique utilise les "cotes" (odds) : , qui représentent le rapport entre la probabilité que l'événement se produise et celle qu'il ne se produise pas.

Formulation du modèle logistique :

Les coefficients sont estimés par le logiciel.

Processus de prédiction : Le logiciel calcule les cotes estimées () puis en déduit la probabilité estimée

(), garantissant une valeur entre 0 et 1.

Exemple : Identifier les clients d'une carte de crédit les plus susceptibles de passer à une carte "Platinum" en fonction des dépenses et si le client a des cartes additionnelles. Les coefficients Exp(B) (exponentielle de B) représentent l'Odds Ratio, indiquant de combien les chances de souscription sont multipliées.

Données : Un échantillon de 30 clients pour lesquels on a suivi 3 variables :

1. Y : Le client a-t-il accepté la mise à niveau ? (1=oui, 0=non)

2. X₁ : Dépenses de l'année précédente (en milliers de $).

3. X₂ : A-t-il commandé des cartes additionnelles ? (1=oui, 0=non).

Donc pour :

Dépenses : 36 000 $ (donc X₁ = 36).
Cartes additionnelles : Oui (donc X₂ = 1).

Calculs détaillés :

Calcul du log(cote) :

ln(cote) = -6.9394 + (0.1395 36) + (2.7743 1) = 0.857

Calcul de la Cote : cotes estimées ()

Cote = e^0.857 = 2.36 (Ce client a 2.36 chances contre 1 d'accepter la mise à niveau.)

Calcul de la Probabilité (),

( : Probabilité = 2.3558 / (1 + 2.3558) = 0.702 = 70.2%

Conclusion : Le modèle prédit que ce type de client a 70.2% de chances d'accepter la mise à niveau. C'est une CIBLE PRIORITAIRE pour la campagne !

Conclusion : L'analyse de données requiert la capacité de choisir l'outil statistique approprié en fonction de la question posée et de la nature des variables, afin de transformer les données en décisions managériales concrètes et éclairée

Lancer un quiz

Teste tes connaissances avec des questions interactives