Sondage/Le choix de l'échantillon
L’échantillon est un sous ensemble de la population de base qui est interrogée après sélection lors d’une enquête. Après traitement, les résultats obtenus auprès de l’échantillon sont extrapolés à la population étudiée. Pour assurer la fiabilité de cette extrapolation, l’échantillon doit être le plus représentatif possible de la population mère. La représentativité de l’échantillon en France est garantie par la méthode des quotas. Lorsqu’un institut de sondage mène une enquête et qu’il désire interroger un échantillon représentatif de la population française, il va se fixer des objectifs d’interviews par sous catégories de population de façon à ce qu’en proportion, il y ait une répartition qui corresponde à celle que leur communique l’INSEE à partir du recensement de la population.
Cinq critères sont utilisés pour assurer la représentativité de l’échantillon : le sexe, l’âge, la catégorie socioprofessionnelle, la région et la catégorie d’agglomération. Pour chacune de ces variables il y a un découpage en plusieurs tranches :
Un échantillon est dit représentatif lorsqu’il possède les mêmes caractéristiques que la population que l’on souhaite étudier : elle doit surtout se faire sur les caractéristiques pouvant influencer les réponses des sondés. Il est néanmoins parfois difficile pour les enquêteurs d’obtenir un échantillon représentatif de la population française dans son ensemble, notamment à cause des difficultés évoquées précédemment pour entrer en contact avec la population.
Par exemple, une personne sollicitée pour répondre à un sondage va d’autant plus y participer que son niveau de diplôme est élevé. Cela entraîne des distorsions entre le niveau socioculturel de la population mère et le niveau socioculturel de l’échantillon. Quelques comparaisons entre les données de l’INSEE et les résultats observés dans les échantillons indiquent que le niveau de diplôme de ceux qui sont recrutés pour donner leur opinion dans les sondages serait significativement plus élevé que dans la réalité. Cette distorsion culturelle paraît d’ailleurs encore plus accentuée lorsqu’il s’agit de sondages effectués par téléphone. Le cas du niveau culturel est exemplaire car il démontre que le respect scrupuleux des quotas ordinaires ne suffit pas nécessairement à assurer la qualité de l’échantillonnage. Il se peut aussi que d’autres « variables cachées » tendent à biaiser la représentativité des échantillons de sondage. Ceux qui acceptent de recevoir l’enquêteur diffèrent peut-être de la population d’ensemble : ils sont sans doute par exemple plus « intéressés » par la politique, et plus disposés à se reconnaître une compétence dans ce domaine. Le tableau ci-dessous illustre ces différences de pourcentages de réponses dans la population française, selon le niveau de diplôme.
Il faut également savoir qu’un échantillon constitué selon la méthode des quotas est évidemment « représentatif » des critères correspondants aux quotas (sexe, âge, catégorie socioprofessionnelle...) selon lesquels il a été fabriqué. Cependant, il n’existe aucun moyen de savoir jusqu’à quel point il est « représentatif » de la population française. L’expression « représentatif de la population française », que la presse utilise souvent, prête évidemment à confusion. On a l’impression que l’échantillon est « représentatif » de tout ce que l’on veut. On peut imaginer que les enquêteurs n’arrivent pas à recruter certaines sous-catégories de la population, soit parce que la procédure de l’enquête ne le permet pas, soit parce que ces personnes refusent systématiquement de répondre aux questions des sondeurs (communes isolées, quartiers considérés comme potentiellement dangereux,). Une personne interrogée qui refuse de répondre ou qui est injoignable, va être remplacée par son sosie sociologique. Ce n’est pas pour autant son sosie « politique » (lors d’un sondage d’opinion).
En statistique, on désigne plutôt par « échantillon représentatif », un échantillon où le hasard permet d’éviter les biais inconnus et d’appliquer le calcul des probabilités (ce qui correspond à la méthode aléatoire).