Sondage/Les différentes techniques

**Les différentes techniques**
Leçon : Sondage

Chapitre n^o 2
Chap. préc. :	Introduction
Chap. suiv. :	Le choix de l'échantillon

En raison de limitations techniques, la typographie souhaitable du titre, « Sondage : Les différentes techniques
Sondage/Les différentes techniques », n'a pu être restituée correctement ci-dessus.

Introduction

Dans cette rubrique, vous découvrirez tout d’abord les différentes techniques utilisées par les instituts de sondages et leur fonctionnement pour réaliser des sondages les plus « représentatifs » de la population de base. Vous trouverez également les différents modes de recueil qui sont pratiqués par ces instituts pour collecter les réponses des sondés, ainsi que certains outils mathématiques intervenant dans la réalisation et la compréhension des sondages.

La méthode des quotas

La méthode des quotas est la méthode la plus employée par les instituts de sondage. Cette méthode ne contient pas d'élément aléatoire et par conséquent sa fiabilité ne peut être mathématiquement calculée puisqu’on ne peut pas utiliser le calcul des probabilités.

C'est une méthode d’échantillonnage qui consiste à s’assurer de la représentativité d’un échantillon, en lui affectant une structure similaire à celle de la population mère, au titre de plusieurs critères que sont, dans le cas d’une étude grand public, le sexe, l’âge, la profession, la région et la catégorie d’agglomération (critères détaillés dans la rubrique échantillon) puis à calculer le pourcentage de personnes appartenant à chaque catégorie selon les données du recensement de l’INSEE.

La méthode des quotas est très utilisée pour les sondages d’opinions. Dans ce cadre, les instituts de sondages s’assurent que l’échantillon est une représentation réduite de la population ayant le droit de vote. Par exemple, si les ouvriers hommes, âgés de 30 à 40 ans et urbains, représentent 2 % de la population des électeurs, un échantillon de 1 000 individus établis selon la méthode des quotas doit comprendre 20 personnes appartenant à cette catégorie. Lors d’une enquête téléphonique par quotas, un logiciel est utilisé pour décompter les individus déjà interrogés pour chaque catégorie de répondants. Des questions d’identification sont préalablement posées par les sondeurs pour savoir si l’individu peut être interrogé en fonction de l’état d’avancement de l’obtention des quotas. Lorsqu’une catégorie de répondants est difficile à obtenir, les instituts de sondages utilisent parfois des techniques de redressement d’échantillon.

Quels sont les avantages et inconvénients de la méthode des quotas ?

Le grand avantage de la méthode des quotas est qu’elle ne nécessite pas de disposer d’une base de données exhaustive de la population, d’où, comparativement à un sondage aléatoire de même taille, un très faible coût et une très grande rapidité.

De plus, avec la méthode aléatoire, les sondés ne sont pas « interchangeables ». Cela signifie que la personne tirée au sort doit être recontactée autant de fois que nécessaire. Grâce aux quotas, il est possible de remplacer un sondé par un autre qui a les mêmes caractéristiques sociodémographiques. Cela permet de réaliser un sondage dans des délais plus courts.

La méthode probabilité

La méthode aléatoire est très peu utilisée par les instituts de sondages en France. Cette méthode consiste à choisir des individus de telle sorte que chaque membre de la population ait une chance égale de figurer dans l’échantillon. Ce choix peut se faire avec remise ou sans remise : avec remise, l’individu peut être choisi plusieurs fois ; sans remise, l’individu ne peut être choisi qu’une seule fois (c’est le cas habituel). Cette technique nécessite que la personne tirée au sort réponde au questionnaire, ce qui exige de la recontacter jusqu'à ce que celle-ci soit jointe et réponde au questionnaire. Si elle exprime un refus pour répondre au questionnaire, elle est remplacée par une autre personne, elle-aussi choisie au hasard.

À l’aide de cette méthode, on peut espérer obtenir un échantillon «représentatif » de la population mère puisqu’elle donne à chaque individu une chance égale de faire partie de l’échantillon. Ainsi, les personnes difficilement joignables ont plus de chances de figurer dans l’échantillon qu’avec la méthode des quotas (répétition des appels jusqu’à ce que les individus concernés répondent au téléphone lors d’une enquête téléphonique). Toutefois, cette technique est peu utilisée car elle exige que les personnes tirées au sort répondent, ce qui peut nécessiter de nombreuses relances et prendre un temps considérable pour réaliser l’enquête. Dans un pays comme la France, de plus de soixante millions d’habitants, il faudrait :

Associer un numéro allant de un à soixante millions à chacun des habitants du pays
Tirer mille numéros au hasard à l’aide d’un logiciel (comme la fonction « aléa » sur Excel)
Retrouver ces mille personnes pour les interroger .

Cette méthode est très onéreuse et n’est applicable que lorsqu’il existe une liste exhaustive de toute la population mère, ce qui est irréalisable à grande échelle, mais toutefois envisageable sur de petites populations cernées. C’est pour cette raison que les sondages politiques réalisés lors des élections présidentielles se font par la méthode des quotas. En effet, réaliser un véritable sondage aléatoire lors d’une campagne électorale (où le facteur temps est décisif) n’est pas facile. Du reste, les méthodes aléatoires sont longues et coûteuses. Au téléphone, une fois sélectionnée par tirage au sort, à l’intérieur du foyer, la personne à interroger, il faut réussir à la joindre en rappelant autant de fois que nécessaire. Outre le prix de ces contacts, on considère habituellement qu’une procédure de rappel peut étirer le temps de réalisation du terrain d’enquête à quatre ou cinq jours, durée problématique dans les derniers jours de la campagne électorale.

En revanche, pour des sondages réalisés en entreprises (ou groupe d’individus réduit), la méthode aléatoire est souvent préférée car elle permet de calculer la précision des résultats obtenus. Comme le cite l’institut opinion net : « Dans la plupart des études, nous préconisons la méthode aléatoire car elle permet de calculer scientifiquement la précision des résultats mais aussi d'interroger des personnes difficiles à joindre, ce qui assure leur représentation au sein de l'échantillon. Par exemple, dans les études auprès du personnel, cela permet notamment de joindre des salariés travaillant en horaires décalés ; or il est probable que leurs horaires de travail impactent leur perception de leur exercice professionnel ». Elle est également utilisée lorsqu'on ne peut connaitre la structure (la composition) de la population mère : par exemple pour des "études de passage" (cf interview de Mme Gomant).

Les différents modes de recueil

Le « face à face »

Historiquement, le premier mode de recueil utilisé est le « face à face ». Ce mode de recueil s’est beaucoup développé durant les années 1930 et après la Seconde Guerre mondiale. Comme l’indique son nom, ce mode de recueil consiste à rencontrer les personnes interrogées en pratiquant le porte à porte à leur domicile, ou encore, en allant à leur rencontre directement dans la ville. Peu commode et coûteuse, cette technique n’est utilisée qu’en dernier recours par les instituts de sondage, lorsqu’ils n’ont pas d’autres solutions. Par exemple, un institut de sondages qui décide de réaliser une étude d’opinion sur une exposition, afin de savoir ce qu’en pensent les visiteurs, sera obligé d’utiliser la méthode du « face à face » pour recueillir les informations de ces derniers, afin d’être certain d’interroger des personnes ayant réellement vus l’exposition. Toutefois, ce mode de recueil est de moins en moins utilisé car il présente de nombreux inconvénients, notamment économiques mais aussi temporels. En effet, cette méthode implique la participation de nombreux sondeurs sur le terrain et le temps de recueil des réponses est considérable. Par conséquent, les instituts de sondage ont décidé de développer de nouvelles techniques de recueil, en utilisant d’autres moyens de communication.

Le téléphone

Ce mode de recueil est apparu dans les années 1980 et s’est rapidement développé dans le courant des années 1990. C’est le mode de recueil le plus utilisé aujourd’hui par les sondeurs, notamment lors de la réalisation d’enquêtes d’opinion. Comme son nom le laisse présager, il consiste à appeler directement les personnes à leur domicile afin d’obtenir leurs réponses. Ce mode de recueil présente de nombreux avantages car il est rapide, efficace et peu coûteux pour les instituts de sondage.

Internet

Ce mode de recueil est aujourd’hui de plus en plus utilisé. Il présente de nombreux avantages puisqu’il est peu onéreux, rapide et ne nécessite pas la participation de nombreux sondeurs. Cependant, 26% de la population française n’a pas encore accès à internet ce qui peut biaiser l’échantillon puisque toute la population mère n’est pas représentée (voir l'interview de Mme. Gomant à ce sujet)

Problèmes rencontrés pour contacter les sondés

Il n’est pas toujours aisé pour les sondeurs, quels que soient les modes de recueil utilisés, de rentrer en contact avec les personnes qu’ils désirent interroger. Ainsi, lors d’un sondage en « face à face », il est souvent difficile pour les sondeurs, d’entrer en contact avec les personnes vivant dans un immeuble du fait du digicode à l’entrée qui leur en empêche l’accès. Avec le téléphone, il faut savoir qu’un institut de sondage doit passer aux alentours de dix mille appels téléphoniques dans l’espoir d’obtenir un millier de réponses. En effet, il faut environ quinze à vingt minutes pour répondre à un sondage et les personnes manquent parfois de disponibilité. Il se peut également que le questionnaire soit interrompu en cours de réalisation parce que le sondé ne peut plus donner suite à l’appel (double appel sur une autre ligne, problème domestique…). Des personnes au téléphone peuvent être tout à fait volontaires mais elles ne sont pas forcément éligibles pour répondre à l’enquête. Par exemple, si des enquêteurs réalisent un sondage d’opinion pour faire des pronostics sur les résultats de l’élection présidentielle et qu’ils rentrent en contact téléphonique avec un mineur, ils vont devoir raccrocher et interroger une autre personne puisque ce dernier est dans l’incapacité de voter. Par ailleurs, d’autres personnes refusent catégoriquement d’exprimer leurs opinions et se méfient des sondages. Par conséquent, les sondeurs doivent trouver de nouveaux individus à interroger. Ces dernières années les refus de répondre aux enquêtes ont augmenté de façon considérable. Un baromètre politique établi sur 5 000 réponses peut nécessiter plus de 80 000 coups de téléphones (voir tableau ci-dessous).

Bilan d’appels fourni par l’IFOP pour la troisième vague du Baromètre Politique Français (décembre 2006)

Par ailleurs, de nombreuses personnes n’utilisent plus de téléphone fixe (les "mobile only") ou alors n’utilisent plus France Télécom comme opérateur téléphonique ce qui les rend « inexistants » dans les fichiers qui sont fournis aux instituts de sondage.

Les outils mathématiques

Plusieurs outils mathématiques sont à la disposition des instituts de sondage. En règle générale, ils utilisent fréquemment la moyenne arithmétique. Ces moyennes sont souvent publiées et interprétées par les médias.

La moyenne d’une série statistique est donnée par la formule suivante :

Voir équation

Dans cette formule, les xi désignent les valeurs du caractère étudié et les ni désignent les effectifs correspondants.

La moyenne est un paramètre de position car elle sert de repère. Elle est souvent utilisée pour comparer un même critère dans différents pays, comme par exemple le nombre d’élèves par classe (cliquez sur le tableau pour le voir en plus grand) :

voir tableau

Source : OCDE

Toutefois, même si elle est très utilisée, la moyenne n’est pas l’outil mathématique le plus fiable car elle n’est pas toujours représentative du caractère étudié. En effet, selon les critères (salaires, consommation des ménages…) les instituts de sondage complètent les informations données par la moyenne par celles données par la médiane et la dispersion qu’ils jugent plus représentatif.

La médiane d'une série statistique partage cette série en deux parties de telle sorte que :

Au moins 50% des données soient inférieures ou égales à la médiane
Au moins 50% des données soient supérieures ou égales à la médiane

La médiane, comme la moyenne, est un paramètre de position. Cependant, il n’est pas influencé par les valeurs extrêmes contrairement à la moyenne.

Par exemple, un sondage réalisé en février 2012 indique que le salaire moyen mensuel des français est de 1 997 €, alors que le salaire médian est de 1 594 €. Pour rappel : le salaire moyen en France est la somme de tous les salaires des français divisée par le nombre de salaires considérés ; le salaire médian est le salaire tel que la moitié des français gagne plus et la moitié gagne moins.

Comment expliquer cette différence ?

La moyenne est sensible aux valeurs extrêmes, ce qui n’est pas le cas de la médiane. Ainsi, le salaire moyen est « tiré vers le haut » à cause des salaires très élevés. Le salaire médian n’est pas influencé par ces salaires élevés car ils sont peu nombreux à l’échelle du nombre total de salariés en France. Dans cette étude statistique, la médiane est donc probablement un indicateur statistique plus pertinent que la moyenne.

Autre exemple, dans la grande consommation, le sondage réalisé en décembre 2011 par opinionway sur le budget consacré par les français pour leurs dépenses de Noël donne une moyenne de 484 € par ménage. Cependant, cette information est complétée par d’autres indications comme la dispersion, ce qui permet de savoir que les dépenses vont de moins de 200 € à plus de 601 € par ménage selon la répartition suivante :

voir graph

L’information donnée uniquement par la moyenne est insuffisante car il apparaît que le budget consacré aux dépenses de Noël n’est pas resserré autour de la valeur moyenne 484 € mais dispersé puisque 62% des ménages ont un budget inférieur à 400 € et que 20% ont un budget supérieur à 600 €.

Sondage

Introduction

Le choix de l'échantillon