Statistique inférentielle/Intervalle de confiance
Estimation d'une fréquence
[modifier | modifier le wikicode]Exemple d'un sondage
[modifier | modifier le wikicode]Avant une élection, un candidat veut estimer le pourcentage p de voix qu’il va obtenir. Mais il ne peut pas interroger tous les électeurs, sauf à faire une élection avant l’heure ! Il va donc commander un sondage sur un "échantillon représentatif" (terme à préciser) de la population et obtenir une estimation de son futur score.
Plusieurs questions se posent alors :
- Quelle précision peut-il escompter d'un tel sondage ?
- Quelle taille l'échantillon doit-il avoir pour obtenir une précision donnée ?
- Que signifie "représentatif" ?
Intervalle de confiance Bilatéral
[modifier | modifier le wikicode]L'intervalle est un intervalle de confiance bilatéral de niveau si la probabilité que p soit dans cet intervalle est supérieure ou égale à , qui s'écrit encore :
Exemple
[modifier | modifier le wikicode]Si le sondage donne 40 % d'intentions de vote pour le candidat, avec une incertitude de 1 %, avec un niveau de confiance de 95 %, cela signifie que l'intervalle est un intervalle de confiance bilatéral au niveau de confiance 0,95 pour p.
Intervalles de confiances Unilatéraux
[modifier | modifier le wikicode]Parfois il peut arriver que l’on cherche à connaître la borne maximale (ou minimale) d'un paramètre. Dans ce cas on utilise un intervalle de confiance qui n’est pas symétrique comme dans les intervalles de confiance bilatéraux, mais asymétrique.
Il en existe de 2 sortes :
L'intervalle est un intervalle de confiance unilatéral à droite de niveau si la probabilité que p soit dans cet intervalle est supérieure ou égale à , qui s'écrit encore :
L'intervalle est un intervalle de confiance unilatéral à gauche de niveau si la probabilité que p soit dans cet intervalle est supérieure ou égale à , qui s'écrit encore :
Intervalle de confiance Bilatéral à 95%
[modifier | modifier le wikicode]En faisant un sondage au niveau de confiance de 95 % sur n individus, et en faisant l'hypothèse que p est assez proche de 0,5 ; on obtient un intervalle de confiance approximatif :
Exemple
[modifier | modifier le wikicode]Si le candidat demande un sondage au niveau de confiance de 95% sur 1000 personnes, quel intervalle de confiance obtient-il ?
On applique le théorème de confiance Bilatéral à 95%, on attribut n=1000:
Ce qui nous donne environ (arrondit à × 10-2):
Soit un intervalle de confiance:
Remarques :
- Ce théorème approximatif ne peut se démontrer qu’à l'aide de la théorie des probabilités vue dans l'enseignement supérieur.
- Il permet cependant de constater que pour multiplier la précision par 10, il faut multiplier par 100 la taille de l'échantillon, ce qui est très coûteux.
Exercice
[modifier | modifier le wikicode]Le candidat veut connaître son futur score à 0,1 % près, avec un niveau de confiance de 95 %. Combien de personnes faut-il interroger ?
- Préambule:
Pour répondre à la question posée, comme on ne connait a priori pas la loi de probabilité du sondage, il faut utiliser le théorème suivant :
Soit un échantillon d'une loi de probabilité d'espérance , et de variance . Soit la moyenne empirique de l'échantillon, et sa variance empirique.
Posons : .
Alors la loi de la variable aléatoire converge vers une loi
- Résolution générale :
Hypothèse : Considérons que le candidat veut un intervalle de confiance avec une erreur bilatérale.
Notons : et avec où est la fonction de répartition de la loi normale centrée réduite.
Par définition de l'intervalle de confiance on a : .
Dans ce cas le problème équivaut à rechercher tel que avec la distance euclidienne.
Soit encore : .
D'où on en tire aisément que : avec la partie entière.
- Applications numériques :
Or précédemment il a été fait la majoration suivante : , l'inégalité devient .
Pour , et on obtient que
Pour , et on obtient que
Pour , et on obtient que
On retrouve bien que pour augmenter la précision d'un facteur 10 (donc diviser k par 10), il faut multiplier par 100 la taille de l'échantillon.