Page 2 sur 4
2. La démarche générale d'évaluation du risque alpha
Nous renvoyons le lecteur aux articles sur Distributions théoriques, ainsi que celui sur représentations des distributions pour réactiver leurs connaissances sur le sujet.
2.1. La notion de distribution observée.
Dans l'immédiat, nous nous contenterons de rappeler qu'une distribution
observée correspond grosso modo à la proportion d'observations qui
tombent dans chacun des intervalles de valeurs possibles. Par exemple, si
j'imagine un test d'aptitude intellectuelle comprenant 50 exercices, et
que je compte un point par exercice réussi, chaque sujet obtient un
score compris entre 0 et 50. Si je regroupe les valeurs possibles par
intervalles de 5, cela me donne par exemple les intervalles 0-5; 6-10;
11-15 ; ... ; 46-50.
En pratique, on va par exemple constater que les individus dont le score
tombe dans l'intervalle 0-5 ou 46-50 sont proportionnellement très
rares. Au contraire les scores qui tombent les intervalles 20-25 et
26-30 sont de loin les plus fréquents, représentant à eux seuls par
exemple 50% des observations.
Nous avons donc là une distribution observée.
2.2. La notion de distribution théorique.
Supposons, que l'on sache que dans une situation donnée, un effet
quelconque résulte de l'accumulation d'un grand nombre de petits effets
aléatoires. Par exemple, si l'on prend la capacité générale à
résoudre des problèmes logico-mathématiques inconnus, on sait que cette
capacité proviendra de la conjonction d'une multitude de petits facteurs
comme la vitesse de circulation de l'influx nerveux dans le cerveau,
le temps passé à s'entraîner sur ce type de problème, l'état de fatigue
du sujet, le fait que ses parents possédaient eux-mêmes une certaine
aptitude générale à traiter cette classe de problèmes, la qualité et la
quantité de nourriture reçue pendant la grossesse de la mère, etc. Alors
on peut prouver mathématiquement qu'une telle conjonction de facteurs
aléatoires produira une distribution de type normale ou gaussienne.
Autrement dit les observations que l'on pourra faire devraient se
répartir selon une courbe en cloche dite courbe de Gauss.
Bien entendu, on peut avoir d'autres présupposés théoriques, et donc
construire mathématiquement d'autres distributions théoriques. À chacune
de ces distributions théoriques correspondent un ensemble de
postulats de départ qui, s'ils sont respectés, induisent une
distribution de la forme correspondante. Les plus connues pour nous
étant probablement la loi du t de student, la loi du F de Fisher, la loi du
Chi-deux.
2.3. La distribution théorique correspond à l'hypothèse nulle parfaite
Pour la suite de la démarche, nous allons partir du principe que la
distribution théorique correspond à la distribution théorique de
l'hypothèse nulle.
En effet, les lois théoriques ignorent totalement l'hypothèse
expérimentale du chercheur et ne tiennent compte que d'une distribution
aléatoire dans les conditions étudiées. Si l'on admet que les postulats
d'une distribution théorique (ou loi) devraient s'appliquer dans la
situation étudiée, nous pouvons alors associer directement la
distribution théorique et la distribution que l'on observerait
idéalement si l'hypothèse nulle était vraie.
Il nous reste à trouver un moyen de comparer la distribution théorique,
qui représente l'hypothèse nulle, et la distribution observée, qui
représente la réalité. La suite de la démarche va consister à
calculer la probabilité d'avoir les valeurs observées dans l'hypothèse
où la loi théorique est valide. Et nous pourrons alors utiliser cette
probabilité comme mesure du risque alpha.
La clé de ce calcul consiste alors à observer que...
2.4. Les paramètres d'une distribution théorique peuvent être associés à une probabilité
2.4.1. Principe
Prenons l'exemple de la loi de distribution dite normale. On sait que la
loi normale est caractérisée par deux paramètres, sa moyenne μ et son
écart-type σ.
Connaissant ces deux paramètres, et sous l'hypothèse que la distribution
est effectivement normale, on peut alors dire que 68% des observations
seront comprises entre la moyenne moins la valeur d'un écart-type et la moyenne plus la valeur d'un
écart-type. De même 95% des observations seront comprises dans
l'intervalle de deux écarts-types autour de la moyenne. Ou, ce qui
revient au même, que moins de 5% des observations seront situées à plus de
deux écarts-types de la moyenne.
Là où l'information devient intéressante pour notre sujet, c'est que l'on peut raisonner aussi dans l'autre sens pour, à partir de la valeur d'une observation particulière, calculer la probabilité de rencontrer une telle valeur.
Si cette probabilité est trop faible on tendra alors à rejeter
l'hypothèse nulle (le hasard explique difficilement qu'on ait observé
cette valeur) et sinon on acceptera l'hypothèse nulle (le hasard
pourrait facilement expliquer cette observation).
Ce type de raisonnement s'applique pour la loi normale mais aussi pour
toute autre loi dont on connait les paramètres : loi du t de student,
Loi du F de Fischer, Loi du Chi-deux....
2.4.1.Exemple
Supposons que nous voulons savoir si notre échantillon de données a une
distribution normale. On sait que la forme d'une distribution
normale est symétrique. On peut donc calculer à partir des valeurs de
l'échantillon une statistique qui décrit à quel point notre échantillon
est asymétrique. Une asymétrie de 0 correspond à une distribution
parfaitement symétrique, une asymétrie de 1 correspond à une déviation
vers la droite, une asymétrie de 2 est encore plus biaisée à droite, une
asymétrie de -3 est encore plus biaisée mais à gauche, etc.
Cette statistique d'asymétrie suit elle-même une distribution normale,
c'est-à-dire que si l'on calculait cette statistique pour une multitude
d'échantillons tirés d'une distribution symétrique (par exemple on
extrait aléatoirement 1000 échantillons de données de la population
symétrique, et on obtient donc 1000 valeurs de la statistique
d'asymétrie), la distribution des valeurs d'asymétrie suivrait à peu
près une courbe de Gauss de moyenne 0 et d'écart-type 1.
Or, pour une valeur donnée qui suit une loi normale, on peut savoir
quelle est la probabilité de tirer par hasard une valeur, plus petite
(ou inversement, plus grande), ou plus éloignée de la moyenne, ou au
contraire plus près de la moyenne. Cette probabilité correspond aux
pourcentages d'observations qui dans la distribution sont inférieures
(resp. supérieures) ou plus éloignées (resp. plus près) du centre de la
distribution. Nous renvoyons à l'article sur la loi normale
pour plus de détails sur la distribution normale).
Partant de là, si notre échantillon donne une valeur d'asymétrie disons
de 4, on peut calculer que la probabilité de notre échantillon soit issu
d'une population symétrique est d'environ p =0,00006. Dans ce cas, il est difficile de croire que notre échantillon est issu d'une population symétriquement distribuée.
Voyons maintenant de plus près le calcul de probabilité associé à la fonction
normale, car il va servir de modèle pour tous les autres calculs de
probabilité.
|