Statistique inférentielle/Intervalle de confiance d'une fréquence
Loi d'échantillonnage de la fréquence
[modifier | modifier le wikicode]La théorie de l'échantillonnage
[modifier | modifier le wikicode]En statistique, il est en général impossible d'étudier un caractère sur toute une population de taille N élevée.
La théorie de l'échantillonnage se pose la question suivante :
En supposant connus les paramètres statistiques de la population,
que peut-on en déduire sur les échantillons prélevés dans la population ?
On suppose que ces échantillons sont prélevés au hasard
- et que le tirage de ces échantillons est effectué avec remise.
L'ensemble de ces échantillons de taille n est appelé échantillonnage de taille n.
Étudions dans ces conditions la loi d'échantillonnage des fréquences.
Loi d'échantillonnage des fréquences
[modifier | modifier le wikicode]On suppose donc sur une population de taille N, un caractère de fréquence p.
Soit X la variable aléatoire valant 1 si le caractère est acquis, 0 sinon.
X suit donc une loi de Bernoulli de paramètre p, d'espérance p
- et de variance .
Dans un échantillon de taille n,
on répète n de ces épreuves indépendantes auxquelles correspondent n variables aléatoires :
de même loi que X.
La variable aléatoire représentant la moyenne de l'échantillon est :
- Elle dépend bien sûr de la taille n des échantillons.
D'après le théorème central limite, on déduit :
Intervalle de confiance de la fréquence
[modifier | modifier le wikicode]L'estimation ponctuelle de la fréquence dans la population à partir de celle dans l'échantillon n'indique pas le risque d'erreur.
Il s'agit de déterminer un intervalle contenant la valeur de la fréquence
- dans la population avec un risque d'erreur décidé à l'avance.
p et étant inconnus,
on les remplace par leurs estimations ponctuelles :
- f et
En posant ,
le théorème précédent implique que suit une loi normale centrée réduite.
Soit la probabilité, fixée à l'avance,
que n'appartiennent pas à l'intervalle , alors :
donc
on obtient donc le :
- Un intervalle de confiance de la moyenne m au seuil de risque est :
- où t est le nombre tel que et se lit dans la table de la loi normale N(0;1).
Exemple
[modifier | modifier le wikicode]Un sondage dans une commune révèle que sur les 500 personnes interrogées,
- 42% sont mécontentes du réseau de transports en commun.
Déterminer un intervalle de confiance du pourcentage p de personne mécontentes dans la commune,
- au seuil de risque de 1%.