UOH - Psychométrie et Statistique en L2 - 8. Population et échantillons
8. Population et échantillons
Écrit par Éric Raufaste   

Objectifs. Positionner le vocabulaire et les concepts de base de la statistique inférentielle.

Prérequis. Cours de L1 sur les statistiques descriptives

Résumé. À partir du problème fondamental que pose la production de connaissances générales, on introduit les notions d'individu statistique, d'échantillon et de test d'hypothèse. 

 


 

1. Le pari du développement de connaissances générales

On distingue classiquement les sciences dites "exactes", comme les mathématiques ou la logique, et les sciences dites "empiriques", comme la physique, la biologie, ou la psychologie. Contrairement aux premières qui ne requièrent qu'un bon cerveau et de bonnes stratégies de raisonnement, les sciences empiriques sont caractérisées par l'observation d'une réalité qu'il n'était souvent pas possible de penser a priori. Ou, pour être plus précis, qu'il est toujours possible de penser de différentes façons, incompatibles entre elles mais entre lesquelles il n'est pas possible de trancher autrement qu'en allant observer le comportement de la réalité. Nous nous situons ici dans le cadre des sciences empiriques, au cœur même de ce qui en fait la difficulté : fonder la relation entre des modèles théoriques qui répondent idéalement aux canons des sciences exactes, et une réalité empirique plus ou moins compatible avec ces modèles.

Quelle que soit l'étude scientifique menée empriquement, on a généralement un ensemble de données numériques, ou d'observations que l'on ramène à des nombres. L'analyse de ces nombres doit alors nous informer sur la structure de la réalité.

Le problème fondamental de la statistique est lié à la nature même de l'opération de quantification de la réalité. En effet, pour pouvoir quantifier la réalité, il faut l'observer. Il n'est généralement pas possible d'observer la totalité de la réalité, et donc on se ramène à l'observation d'une partie de la réalité. Mais la partie n'est jamais le tout. On fait alors le pari que la partie observée est suffisamment représentative du tout pour que ce que nous apprend notre observation de la partie soit utilisable pour comprendre aussi le reste de la réalité, bien plus vaste, que nous n'avons pas observé.

Mais voilà: qui dit pari dit risque de perdre. En l'occurrence pour le scientifique, risque de se tromper. Ce dernier étant prudent par nature va donc vouloir prendre un risque calculé. Il va vouloir évaluer le risque qu'il prend. C'est tout le sujet de la statistique inférentielle.

Bien entendu, la statistique inférentielle n'épuise pas le sujet de la question de la généralisabilité des conclusions prises à partir d'une observation restreinte de la réalité. Elle représente une tentative quantifiée d'évaluation du risque pris. À l'évidence, ce risque dépend fortement de la similarité entre la partie observée et la partie non observée. Ou, pour poser les choses autrement, entre la partie observée et le tout.

Nous allons maintenant voir comment la pensée statistique décrit ces réalités.

 

 

 

2. De l'échantillon à la population

2.1. Notion d'individu statistique

Notre scientifique va observer des exemplaires de son objet d'étude, exemplaires sur chacun desquels il prendra des mesures.

Nous appellerons Individu statistique chaque exemplaire de son objet d'étude. Pour un psychologue par exemple, un individu statistique peut correspondre à un individu humain.  Ou bien à un couple, s'il étudie des couples. Ou s'il travaille en sciences de l'éducation, il peut très bien prendre une classe entière comme individu statistique. De l'autre côté du spectre, il peut même s'intéresser à un comportement particulier, le comportement d'appui sur un bouton, et prendre chaque exemplaire de ce comportement comme un seul individu statistique.

2.2. Échantillons d'individus et échantillons de mesures

Dans un premier sens du mot, on qualifiera l'ensemble des individus statistiques mesurés comme étant son échantillon.

Par opposition, on appellera population la totalité des individus qu'il aurait été possible d'observer dans l'absolu.

Admettons pour simplifier que notre chercheur ait pris une mesure par individu statistique. Il dispose donc d'un échantillon de mesures, ce qui constitue un deuxième sens du mot.

Il faut prendre garde à la distinction entre les deux : à partir d'un seul individu de l'échantillon d'individus, notre chercheur peut très bien prendre tout un échantillon de 100 mesures ! Ainsi dans une approche de type avant-après (par exemple on mesure chaque individu avant puis après l'application d'une thérapie), on disposera d'un échantillon d'individus mais de deux échantillons de mesures, celles prises avant et celles prises après.

2.3. Décrire l'échantillon mais inférer la population

Munis de ces définitions, reprenons notre problème initial. Nous l'avons vu en introduction, la partie de la réalité observée n'est généralement qu'une toute petite partie de la réalité totale. Le problème du chercheur est de quantifier le risque qu'il prend en supposant que les conclusions tirées à partir de l'échantillon s'appliquent à toute la population.

Il n'existe aucune expérience de psychologie ou de biologie qui prenne comme échantillon la totalité des humains. C'est tout simplement infaisable. L'échantillon est donc toujours différent de la population, c'est un sous-ensemble de la population.

Dans le cours sur la statistique descriptive, nous avons vu un ensemble de calculs qu'il était possible de faire pour décrire la réalité de nos échantillons. On peut par exemple calculer des indices de tendance centrale (moyenne, médiane) ou au moins de dominance (mode). On peut aussi produire des statistiques  de dispersion (variance, écart-type, erreur standard, écart interquartile, ...). Etc. Mais absolument toujours, ce sont des valeurs calculées à partir de l'échantillon. Et donc toujours se pose la question du pari calculé ! Quel risque est-ce que je prends si je considère que ma statistique descriptive s'applique au-delà de mon échantillon ?

On dira donc que l'échantillon est décrit mais que la population n'est qu'inférée, imaginée à partir de l'échantillon.  Et c'est pourquoi l'on parlera de statistique inférentielle dès lors qu'on veut généraliser nos résultats à la population entière.

 

  

 

 

3. Faiblesses de l'échantillonnage

On s'en doute, le terme d'échantillonnage traduit l'opération par laquelle on extrait un échantillon d'individus de la population cible pour procéder à des mesures. Si l'échantillonnage était parfait, on ne prendrait aucun risque en extrapolant à la population les conclusions tirées sur l'échantillon. Mais voilà, un échantillon n'est JAMAIS parfait. Examinons quelques faiblesses de l'échantillonnage. 

3.1. Les biais d'échantillonnage

Les chercheurs en sciences sociales le savent bien, la population n'est pas homogène. Il y a des femmes, il y a des hommes. Il y a des grands et des petits, des gros et des minces, des jeunes et des âgés, des gens intelligents et d'autres qui le sont moins, des gens cultivés d'autres qui le sont moins, certains parlent français d'autres anglais, etc.

Si l'on imagine qu'un échantillon parfait puisse exister, il faudrait donc que cet échantillon contienne la même proportion d'individus de chaque catégorie que la population globale. Le lecteur peut facilement se convaincre qu'il s'agit d'un exercice impossible si l'on considère la multitude de catégories qu'il est possible de prendre en compte.

On va donc parler de biais d'échantillonnage pour décrire une différence systématique entre l'échantillon et la population. Ces biais constituent évidemment des limites à la généralisabilité des résultats issus de la description de l'échantillon. Si mon échantillon est composé uniquement d'hommes, est-ce que les résultats de mon étude s'appliquent aussi aux femmes ? Peut-être... mais peut-être pas. Seule une reflexion menée au cas par cas permet d'évaluer ce type de risque et là, la statistique quantifiée n'y peut rien. Seule la connaissance du domaine peut donner une idée. Si j'étudie un thème neutre sexuellement alors il est possible que les résultats obtenus sur des hommes soient valides sur l'ensemble de la population. Si au contraire, mon thème est fortement sexué, alors il est peu propable quer mes résultats se généralisent, et à tout le moins, c'est à moi d'en établir la preuve, par exemple en répliquant mon étude sur un autre échantillon contenant des femmes.

3.2. Les erreurs d'échantillonnage

Même si le problème est simple, il reste que la population est incroyablement diverse alors que l'échantillon est réduit. Intrinsèquement, l'échantillonnage opére une réduction de la complexité de la réalité. Plus mon échantillon est petit par rapport à la population et plus cette réduction est importante.

Une différence majeure entre les notions d'erreur d'échantillonnage et de biais d'échantillonnage réside dans le caractère systématique de la faiblesse. En effet, si mon échantillon contient plus d'hommes que de femmes, alors que dans la population c'est l'inverse, je biaise systématiquement les résultats dans le sens d'un poids trop important donné aux informations tirées des hommes. Bien sûr si en tant que chercheur je produis un tel biais par inattention, on aura envie de parler "d'erreur", conformément à l'usage du sens commun. Mais ce n'est pas le sens que l'on utilise lorsqu'on parle d'erreur en statistique. Dans ce dernier cas, on applique généralement le terme "erreur" aux situations où c'est le hasard qui est responsable des décalages entre la description de l'échantillon et la réalité de la population.

Comme le statisticien s'intéresse à des  statistiques (moyenne, écart-type, etc.), on réservera le terme d'erreur d'échantillonnage aux décalages induits par l'opération d'échantillonnage sur ces statistiques. Et comme on veut s'y intéresser d'une manière générale, indépendante des spécificités de telle ou telle discipline, nous allons nous intéresser aux décalages qui ne dépendent que des propriétés mathématiques des mesures prises, notamment du fait des aléas.

 

    

 

4. Statistiques d'échantillon et statistiques de population

4.1. Statistiques de population

Si l'on en avait la possibilité physique, on pourrait construire une valeur mathématique, une statistique sur la population globale. Par exemple la taille moyenne. Il "suffirait" de mesurer les 7 milliards d'humains, entrer les mesures dans une gigantesque opération et en sortie l'ordinateur nous dirait sans difficulté quellle est la vraie taille de l'humain moyen (lequel n'existe pas mais la question du rapport entre les construits de la science et leurs contreparties empiriques supposées sort du cadre du présent cours).

Nous aurons donc obtenu une Statistique de population, une mesure valable pour l'ensemble de la population. On note généralement ces statistiques avec des lettres grecques, ce dont on peut se servir comme moyen mnémotechnique pour rappeler leur caractère "idéal" plutôt que réel.

Typiquement les moyennes de populations par exemple se notent avec la lettre grecque mu qui s'écrit

                                                    

Error (moslatex): Not all paths appear to be valid.

Les écarts-types de populations se notent avec la lettre grecque sigma qui en minuscule s'écrit

                                                    

Error (moslatex): Not all paths appear to be valid.

L'écart-type étant la racine carrée de la variance, les variances de population se notent souvent

                                                    

Error (moslatex): Not all paths appear to be valid.

 

À titre d'exemple, nous prendrons la population des hommes ayant marché sur la lune. À ce jour, cette population est très restreinte puisqu'elle comporte en tout et pour tout... 12 individus. Imaginons que nous nous intéressions à l'âge des individus de cette population au moment de leur sortie sur notre satellite. Nous obtenons le tableau suivant :

 Individu  Age
 1  38
 2  39
 3  39
 4  37
 5  47
 6  39
 7  39
 8  41
 9  41
 10  36
 11  38
 12  37

À partir de ce tableau il est facile de calculer la moyenne et l'écart-type des âges, soit

                              

Error (moslatex): Not all paths appear to be valid.

et

  

Error (moslatex): Not all paths appear to be valid.

On a aussi la variance de notre population qui est

                               

Error (moslatex): Not all paths appear to be valid.

 

4.2. Statistiques d'échantillon

De même que l'on calcule les statistiques de population en prenant en compte tous les individus de la population cible, on calcule les statistiques d'échantillon en prenant en compte tous les individus de l'échantillon.

Pour chaque échantillon, on pourra donc calculer, par exemple sa moyenne. On note généralement ces statistiques avec des lettres romanes.Typiquement les moyennes d'échantillon par exemple se notent avec la lettre m (notez l'italique, correspondant aux normes de notation en vigueur en psychologie).

Il faut noter que pour des raisons techniques, la variance d'un échantillon se calcule avec une formule légèrement différente de la variance de la population : on divise la somme des carrés des écarts à la moyenne par n-1 et non par n.

Pour les besoins de l'exemple, imaginons que nous souhaitions connaître l'âge moyen des astronautes au moment de leur sortie mais que nous ne disposions que des données pour un échantillon de 4 des 12 astronautes, les âges des autres nous étant inaccessibles. La meilleure estimation possible de l'âge moyen de la population serait donc l'âge moyen dans l'échantillon. Et la meilleure estimation possible de l'écart-type de la population serait l'écart-type de l'échantillon. Soit donc notre échantillon :

 Individu  Age
 4  37
 5  47
 6  39
 7  39

À partir de ce deuxième tableau il est facile de calculer les formules de la moyenne et l'écart-type des âges (revoir cours de première année), soit

                              

Error (moslatex): Not all paths appear to be valid.

et

               

Error (moslatex): Not all paths appear to be valid.

Rappelons encore une fois que, pour des raisons techniques, on considère que l'estimation de la variance de la population à partir de la variance de la population est meilleure si l'on divise la somme des carrés par n-1 au lieu de n comme c'était le cas pour la variance de la population.

 

Bien entendu, on imaginant que la moyenne de la population est à peu près comme la moyenne de l'échantillon, on commet une erreur d'estimation puisque cela nous conduit à évaluer l'âge de la population à 40.5 ans, alors que dans ce cas très particulier nous savons que la vraie valeur est 39.25. Il en est de même pour la variance et l'écart-type : nous commettons des erreurs d'estimation. D'ailleurs, si nous tirons un autre échantillon, nous obtiendrons certainement des estimations légèrement différentes.

Et voilà posé un problème de la statistique : comment évaluer l'erreur commise sur l'estimation des caractéristiques de la population à partir des informations connues de l'échantillon ?

Une première idée est que les échantillons que l'on peut tirer d'une population constituent un ensemble que l'on peut étudier pour en inférer des informations sur la population. Examinons donc les relations qui existent entre les propriétés de la population et les propriétés de l'échantillons que l'on peut en tirer. La première des relations que nous allons considérer est la question du nombre d'échantillons que l'on peut tirer d'une population.

 

4.2. Dénombrement des statistiques d'échantillon

4.2.1. Premier facteur : la taille de la population

Soit une toute petite population d'individus, disons par exemple notre population d'individus ayant marché sur la lune. Nous l'avons vu plus, haut, chaque échantillon sera plus ou moins biaisé par rapport à la population. De plus, il y a de nombreuses façons de constituer l'échantillon.

Pour ceux qui ont le goût des mathématiques, on peut facilement dénombrer ces façons car cela correspond au nombre de combinaisons de k individus que l'on peut tirer dans une population de n individus. soit

                              

Error (moslatex): Not all paths appear to be valid.

où le caractère "!" représente l'opération factorielle.

                   

Error (moslatex): Not all paths appear to be valid.



Par exemple, si nous appliquons cela à une population de, disons, 12 astronautes, et que l'on construit des échantillons de 4 personnes, le nombre d'échantillons possibles est

Error (moslatex): Not all paths appear to be valid.

Et cela monte très très vite : avec une population de seulement 15 astronautes, on pourrait déjà tirer... 1365 échantillons de 4 individus !

 

4.2.2. Second facteur : la taille de l'échantillon

Le nombre d'échantillons différents que l'on peut extraire d'une population dépend d'un deuxième paramètre, à savoir la taille des échantillons, traduite par la lettre k dans la formule générale :

                              

Error (moslatex): Not all paths appear to be valid.

Un tableur nous donne directement la valeur cherchée au moyen de la formule suivante :

 =COMBIN(n;k)

Sur une population de n sujets, on ne pourra construire qu'un échantillon de n sujets, mais on pourra construire n-1 échantillons différents de n-1 sujets. Dans l'exemple précédent, on voit facilement qu'on peut tirer 1365 échantillons de 4 sujets à partir de 15, mais on peut tirer 3003 échantillons de 5 personnes, 6435 échantillons de 7 personnes, etc. Au total à partir de  seulement 15 personnes on peut tirer... 32767 échantillons différents !

4.2.3. Échantillonner c'est comme jouer au loto !

En fait, si l'on combine les deux facteurs précédents, on voit que de façon générale, il y a 2n façons différentes d'échantillonner une population de n individus.  Partant de là, on voit que s'il s'agit d'étudier 7 milliards d'humains, le nombre d'échantillons possibles défie complètement l'imagination.

Et ne parlons même pas d'espérer réaliser l'échantillon parfait, celui qui serait parfaitement représentatif de la réalité complète. Il s'ensuit que tout échantillonnage réalisé dans la pratique peut s'apparenter à une sorte de tirage au sort dans une gigantesque urne décrivant tous les échantillonnages possibles.  


 

 
Dernière mise à jour : ( 27-01-2013 )