Objectifs. Introduire la notion d'inférence
statistique.
Prérequis. Cours de L1; Article Les étapes de la
recherche scientifique.
Résumé. L'article pose le problème fondamental auquel
tente de répondre la notion d'inférence. Une présentation intuitive de ce
problème est proposée et on montre qu’il existe une réponse intuitive à ce
problème, une inférence statistique naïve. La démarche statistique classique n’est
alors qu’une réponse formelle, systématique et mathématisée, à ce problème
naturel.
1. Approche Intuitive de la statistique inférentielle
L’histoire du pouvoir télékinétique de Mr Magic … ou la preuve
que vous possédez déjà intuitivement la démarche statistique !
En vacances dans un endroit très touristique, vous croisez un
magicien et des badauds « Approchez mesdames et messieurs, venez
voir Mr Magic, l’homme qui peut contrôler les objets par le pouvoir de sa
pensée ! ». Bien entendu, être de raison, vous êtes plus que
sceptique. L’homme ajoute « Regardez mesdames et messieurs, Mr Magic peut faire
tomber la pièce de monnaie du côté que vous voulez… » Un enfant parmi les
spectateurs demande alors au magicien de faire tomber la pièce sur le côté pile. « Regardez mesdames et messieurs Mr Magic
va faire tomber la pièce sur pile ! ». Il lance la pièce en l’air et
effectivement la pièce tombe sur pile. « Et voilà, mesdames et messieurs,
la démonstration du pouvoir télékinétique de Mr Magic ! ».
À cet instant, ayant suivi l’échange et la
« démonstration » du coin de l’œil, la première idée qui vous vient à
l’esprit risque d’être : « bah, c’est sans intérêt, de toute façon il
y avait une chance sur 2 que la pièce tombe du bon côté ».
Prenons le temps d’analyser cette réaction. Le magicien a
obtenu le résultat qu’il avait annoncé, donc, en droit, on pourrait se dire que
son affirmation initiale a été corroborée par l’expérience. Mais voilà, vous
savez pertinemment que le hasard seul est largement suffisant pour expliquer
cette observation. Vous devez donc trancher entre deux explications (au moins),
l’une facile à croire, l’effet du hasard, l’autre très difficile à croire,
l’effet de la télékinésie. Eh bien par ce raisonnement simple, vous venez de
réaliser un véritable test de signification statistique. Vous aviez d’un côté
l’hypothèse énoncée par le magicien, le pouvoir télékinétique. D’un autre côté,
vous avez mobilisé l’hypothèse que le hasard pourrait expliquer le résultat
observé. Cette deuxième hypothèse revient à dire qu’en réalité, l’effet
télékinétique est nul, et donc on appelle cette deuxième hypothèse
« hypothèse nulle ». Vous vous trouvez donc à devoir choisir,
décider, entre deux hypothèses contradictoires pour expliquer l’observation
empirique. L’hypothèse du magicien ou l’hypothèse nulle. A priori vous n’êtes
pas prêt à croire à l’hypothèse du magicien. À combien évaluez-vous la
probabilité a priori que cette explication soit bonne ? Une chance sur
mille ? Sur dix mille ? Sur un million ? Quoi qu’il en soit, en
comparant une chance sur 2 pour que la pièce tombe du bon côté par hasard et
les chances qu’on ait affaire à un super pouvoir, la décision est vite
prise : vous choisissez de croire à l’effet du hasard. Vous acceptez
l’hypothèse nulle et le test du magicien n’a pas été concluant.
En fait c’est même tellement évident que vous vous doutez
déjà que le magicien ne va pas en rester là. Le grand frère du petit garçon
lui-même s’exclame « c’est un coup de chance ! Je parie que vous ne
pouvez pas le refaire… »
« Eh bien, mesdames et messieurs, Monsieur Magic peut
le refaire, autant de fois que vous le voulez ! ». Et sur ce il lance
3 fois la pièce et 3 fois elle tombe sur pile. Vous commencez à douter car 4
lancers de suite qui tombent sur pile par hasard, vous savez que c’est encore possible
mais moins fréquent. Mais néanmoins c’est encore suffisamment possible pour que
vous ne changiez pas votre opinion.
Analysons cette deuxième partie de l’histoire. Le point
intéressant maintenant, c’est que même sans faire formellement le calcul, vous
savez – et même l’enfant le sait aussi – que
la probabilité de sortir pile au hasard 4 fois de suite (la première
fois et les trois fois suivantes) est faible. Effectivement, l’analyse
mathématique du problème donne pour cette probabilité une chance sur 16, soit
6% de chances environ. Mais cela reste quand même possible.
Poursuivons notre histoire, car vous avez déjà bien compris
que le magicien ne s’arrêterait pas là… et effectivement, il lance encore 10
fois la pièce et 10 fois elle tombe sur pile. « Et voilà, mesdames et
messieurs, la démonstration irréfutable du pouvoir télékinétique infaillible de
Mr Magic ! ». Mais bon, on ne vous la fait pas. Vous pensez
immédiatement que la pièce doit être truquée pour tomber sur pile. Pas la peine
d’adopter une croyance invraisemblable comme la télékinésie.
Analysons maintenant cette troisième partie. Cette fois,
vous êtes bien convaincu que le hasard n’est pour rien dans le résultat des
lancers de pièce. De fait, si l’on fait le calcul, cette probabilité est
nettement trop faible pour qu’on puisse adopter sans autre forme de procès
l’hypothèse que le hasard puisse expliquer cette série de 14 côtés pile (moins
d’une chance sur 16000 en fait). Donc, même sans calcul explicite, vous avez
spontanément abandonné cette explication. L’enfant et vous avez « rejeté
l’hypothèse nulle ».
Sans le savoir, vous avez donc entièrement réalisé la démarche
d’un test statistique. La seule véritable différence tient au fait que vous
avez utilisé vos intuitions de probabilité et votre intuition du degré de
risque acceptable ou non, plutôt que d’utiliser des routines mathématiques
reconnues et des conventions sociales en vigueur dans la communauté
scientifique concernant l’acceptabilité des hypothèses. Dans les articles
suivants, et en particulier dans les grandes leçons dédiées aux statistiques inférentielles, nous examinerons de plus près comment la statistique, en tant que
discipline, formalise ces intuitions pour des calculs rigoureux.
En résumé,
- Pour expliquer un phénomène observé (phénomène généralement exprimé par un jeu de statistiques descriptives), on a
toujours au moins deux hypothèses, l’hypothèse nulle (le hasard explique ce
qu’on a observé) et l’hypothèse inverse (il existe un effet systématique
derrière les résultats observés) ;
- Si le hasard semble pouvoir expliquer facilement
les résultats, on privilégie l’hypothèse du hasard, l’hypothèse nulle.
- S’il semble invraisemblable que le hasard puisse
expliquer les résultats, on admet sans difficulté qu’il y a « quelque
chose », autrement dit on rejette l’hypothèse nulle (mais sans
nécessairement accepter l’hypothèse principale).
Ces trois points constituent les bases même de la « statistique
inférentielle ». C’est-à-dire une approche formelle visant à prendre
exactement la même décision (accepter ou rejeter l’hypothèse que le hasard explique les résultats observés) mais en
s’appuyant sur une analyse rigoureuse des situations étudiées.
En
particulier,
les statisticiens s'attachent à préciser des méthodes rigoureuses
de calcul de la probabilité que l'hypothèse nulle soit la bonne. L'étude
de quelques-unes de ces méthodes est précisément l'objet de ce cours.
|