Cours particuliers et soutien scolaire : Les SherpasInscription

Que signifient R² et p-valeur dans une régression en SES ?

Mis à jour le 22/10/2025 - CC BY 4.0

Avez-vous déjà essayé de prédire le revenu d'une personne à partir de son expérience professionnelle sur un graphique ? Comment savoir si la relation entre ces deux variables tient vraiment ou s'il ne s'agit que d'un hasard statistique ? Les outils statistiques comme la régression linéaire reposent sur deux indicateurs essentiels : le r² (coefficient de détermination) et la p-valeur. Mais à quoi servent-ils concrètement pour l'analyse économique et sociale ?

Les Sherpas
Besoin d'un prof particulier de SES exceptionnel ? ✨

Nos Sherpas sont là pour aider votre enfant à progresser et à prendre confiance en lui.


Prendre votre cours d'essai offert
Eleve qui prend des cours de soutien scolaire avec Les Sherpas
  • Les fondements de la régression linéaire
  • Comment interpréter le r², ou coefficient de détermination ?
  • Pourquoi la p-valeur est-elle indispensable pour juger la significativité ?
  • Erreurs fréquentes à propos du r² et des p-valeurs

À retenir :

  • La régression linéaire utilise le r² pour évaluer la qualité d'un modèle en mesurant la variance expliquée par les variables indépendantes.
  • Le r² proche de 1 indique un modèle performant, mais peut être biaisé par un nombre excessif de variables indépendantes.
  • La p-valeur aide à juger de la significativité des coefficients dans la régression, vérifiant si les résultats dépendent ou non du hasard.
  • Un r² élevé sans p-valeurs significatives peut conduire à des conclusions trompeuses, nécessitant une analyse prudente.

Les fondements de la régression linéaire

La régression linéaire sert à expliquer la variation d'une variable dépendante grâce à une ou plusieurs variables indépendantes. L'objectif est de quantifier le lien entre ces variables : par exemple, déterminer combien d'années d'études correspondent à une hausse du salaire moyen.

Le modèle ajuste une droite aux données afin d'estimer une pente (appelée aussi coefficient), qui reflète ici l'impact moyen des années d'études sur le revenu. Selon l'Insee, l'écart de salaire mensuel net médian entre les titulaires du baccalauréat et ceux sans diplôme dépasse 400 euros en 2020 (Salaires dans le secteur privé et les entreprises publiques, Insee, 2022). Cette estimation illustre directement l'utilité de la régression linéaire dans l'analyse des écarts salariaux.

Comment interpréter le r², ou coefficient de détermination ?

Le r² mesure la part de la variance expliquée par le modèle. Autrement dit, il indique le pourcentage de la variabilité totale de la variable dépendante que la régression “capture” grâce à ses variables explicatives.

Le r² varie entre 0 et 1 (ou 0% à 100%). Une valeur proche de 1 signale une forte qualité du modèle. Par exemple, un r² de 0,8 signifie que 80% de la variance observée des salaires peut être expliquée par la formation prise en compte. Cela invite à considérer sérieusement l'influence de cette variable, même si d'autres facteurs non inclus peuvent exister.

Quels sont les atouts du coefficient de détermination ?

L'intérêt principal du r² réside dans sa capacité à synthétiser l'information sur la qualité globale du modèle. Plus ce coefficient se rapproche de 1, plus la modélisation explique précisément les écarts constatés dans les données.

Lorsqu'on compare différentes analyses, on repère facilement celle dont le pouvoir explicatif est supérieur. La Banque de France utilise régulièrement cet indicateur pour évaluer la précision de ses prévisions macroéconomiques (Prévisions économiques : comment les lit-on ?, Banque de France, 2023).

Quelles limites présente le r² ?

Un r² élevé n'assure pas toujours la pertinence du modèle. Cet indicateur ne teste pas la significativité statistique de chaque coefficient individuel. Il existe différents protocoles pour affiner l'interprétation des modèles statistiques lors de l'analyse approfondie des résultats.

Parfois, il existe un risque de sur-ajustement : le modèle colle trop fidèlement aux données disponibles et perd en capacité de prédiction sur de nouveaux cas. Pour limiter ce biais, on préfère souvent utiliser le r² ajusté, surtout lorsque le nombre de variables indépendantes croît.

  • r² proche de 1 : forte variance expliquée, modèle performant
  • r² faible : peu de variance capturée, prédictibilité limitée
  • r² gonflé artificiellement par trop de variables
Exemple de valeurs de r² dans différentes études
Sujet de l'étudeNombre de variables indépendantesr² obtenu
Effet du diplôme sur le salaire20,63
Impact de l'ancienneté et de la taille d'entreprise sur le salaire40,75
Prévision de la consommation des ménages60,85

Pourquoi la p-valeur est-elle indispensable pour juger la significativité ?

La p-valeur — ou p-value — permet de vérifier la significativité statistique des coefficients estimés dans la régression linéaire. Elle exprime la probabilité que le résultat observé soit dû au hasard plutôt qu'à une véritable relation entre les variables.

En pratique, on compare la p-valeur à un seuil conventionnel, généralement fixé à 0,05. Si la p-valeur d'un coefficient est inférieure à ce seuil, l'effet associé à la variable indépendante paraît robuste. Sinon, il reste possible que le lien détecté relève de la coïncidence statistique.

Exemple : analyse d'une politique publique de soutien à l'emploi

Supposons qu'une étude cherche à mesurer l'impact d'une formation professionnelle sur la durée de recherche d'emploi. Le coefficient lié à la participation ressort positif, avec une p-valeur de 0,009. Ce chiffre, bien inférieur à 0,05, indique que l'effet observé possède une vraie significativité statistique (source : DARES, Accès à la formation et retour à l'emploi, 2021).

Si la même estimation donne une p-valeur de 0,12, il devient difficile d'affirmer que la formation influence réellement le retour à l'emploi : l'interprétation demande alors précaution et recul.

À quoi sert la p-valeur dans l'interprétation globale du modèle ?

L'évaluation conjointe du r² et des p-valeurs affine l'analyse. Il arrive qu'un modèle présente un bon r-carré sans proposer de coefficients robustes, ou l'inverse.

Comme le souligne J.-P. Olivier dans L'économétrie simplement (2020) : “un r² élevé sans significativité des coefficients conduit à des conclusions trompeuses pour le décideur.” Voilà pourquoi les p-valeurs restent incontournables dans toute étude d'impact en économie appliquée.

  • p-valeur < 0,05 : effet robuste, significatif
  • p-valeur > 0,05 : absence de preuve solide, prudence nécessaire

Erreurs fréquentes à propos du r² et des p-valeurs

Confondre la variance expliquée par le modèle (r²) avec la validité de chaque variable indépendante correspond à une erreur fréquente. Tous les coefficients exigent un contrôle individuel via la p-valeur pour valider leur pertinence dans la régression linéaire.

Une autre confusion courante concerne le choix automatique des variables pour maximiser le r². Trop de variables risquent d'alourdir la modélisation, sans réelle amélioration de la qualité du modèle ni meilleure compréhension du phénomène étudié.

Finalement, comment pourriez-vous mobiliser le r² et la p-valeur pour enrichir vos propres analyses, que ce soit dans le suivi de politiques publiques, la gestion d'entreprise ou l'étude des inégalités sociales ?

Explorez ce contenu avec l'IA !

Lire aussi 🔎 :
  • Quels sont les avantages et les inconvénients de chaque méthode ?
  • Comment la construction de l'échantillon influence-t-elle la fiabilité d'un sondage ?
  • Qu'est-ce que l'observation participante en sociologie ?
  • En quoi consiste le sophisme "cum hoc ergo propter hoc" ?
  • Comment justifier le choix de ses variables dans un travail de recherche ?
  • Comment construire une grille d'entretien efficace pour une enquête qualitative ?
  • Qu'est-ce qu'un biais de sélection et comment fausse-t-il les résultats d'une enquête ?
  • Quelles sont les principales sources de l'endogénéité (variable omise, simultanéité, erreur de mesure) ?
  • Comment passer d'un concept à un indicateur statistique pertinent ?
  • Pourquoi est-il crucial de tester son questionnaire avant de le diffuser ?
Comment lire et construire un diagramme circulaire ?
Comment lire et construire un diagramme circulaire ?
Croissance endogène : définition, mécanismes et critiques
Croissance endogène : définition, mécanismes et critiques
PIB : définition, calcul et limites du produit intérieur brut
PIB : définition, calcul et limites du produit intérieur brut
Concurrence pure et parfaite : définition et conditions
Concurrence pure et parfaite : définition et conditions
Inégalités et croissance : quelles relations économiques ?
Inégalités et croissance : quelles relations économiques ?
Les Sherpas
Besoin d'un prof particulier de SES exceptionnel ? ✨

Nos Sherpas sont là pour aider votre enfant à progresser et à prendre confiance en lui.


Prendre un cours d'essai
Eleve qui prend des cours de soutien scolaire avec Les Sherpas

Questions fréquentes sur r² et p-valeur en régression linéaire 🔍

  • Oui, un coefficient spécifique peut être significatif (p-valeur basse) même si le r² global du modèle est faible. Cela montre qu'une seule variable indépendante joue un rôle important, mais que beaucoup d'autres facteurs échappent encore à la régression linéaire.

    • Bonne significativité locale
    • Qualité globale du modèle médiocre
  • Non, rechercher uniquement le r² maximal peut produire un modèle sur-adapté, peu généralisable à d'autres situations. Il faut équilibrer explication, simplicité et significativité statistique. Privilégiez le r² ajusté et vérifiez la pertinence des variables indépendantes avec leurs p-valeurs respectives.

    • Se méfier du sur-ajustement
    • Utiliser le r² ajusté si plusieurs variables interviennent
  • Une p-valeur élevée indique que les données ne suffisent pas à prouver l'existence d'un effet réel. Plusieurs raisons existent : relations non linéaires, bruit statistique, taille d'échantillon insuffisante ou corrélation entre variables indépendantes.

    Raison possibleDescription
    Bruit statistiqueVariations aléatoires masquant l'effet réel
    Taille d'échantillon faibleDonnées insuffisantes pour trancher
    Corrélation entre variablesRedondance affaiblissant la détection de l'effet principal
  • Comparer uniquement le r² revient à ignorer la pertinence économique ou sociale des variables et leur significativité. Il convient d'examiner simultanément la variance expliquée, le signe et le niveau des coefficients, ainsi que leur p-valeur pour une interprétation complète du modèle de régression linéaire.

    • r² : qualité globale du modèle
    • p-valeur : confiance statistique dans chaque coefficient
Trouver un prof particulier de SES
Guide parents : Aider son enfant à s'organiser au Collège  Guide méthodo Lycée
Notre offre
  • Cours de SES à domicile
  • Cours de SES en ligne
  • Aide aux devoirs
  • Donner cours particuliers SES
Dans votre ville
  • Aix-en-Provence
  • Amiens
  • Angers
  • Avignon
  • Bordeaux
  • Brest
  • Brive-la-Gaillarde
  • Caen
  • Chalon-sur-Saône
  • Colmar
  • Colombes
  • Dax
  • Dijon
  • Grenoble
  • Le Havre
  • Le Mans
  • Lille
  • Limoges
  • Lyon
  • Marseille
  • Metz
  • Montpellier
  • Montreuil
  • Nancy
  • Nantes
  • Nevers
  • Nice
  • Niort
  • Paris
  • Pau
  • Reims
  • Rennes
  • Roanne
  • Saint-Malo
  • Strasbourg
  • Tarbes
  • Thionville
  • Toulouse
  • Vannes
  • Versailles
Les Sherpas
L'entreprise
  • Qui sommes-nous
  • Avis Sherpas
  • Média Parents
  • Mentions légales/CGU

Besoin d'aide ?

Contactez-nous