Initiation à l'échantillonnage et l'estimation/Échantillonnage
Ce chapitre reprend plus en détail la théorie de l'échantillonnage ébauchée dans le chapitre précédent.
les paramètres de la population sont supposés connus.
Étude de la fréquence d'apparition d'un caractère dans un échantillon
[modifier | modifier le wikicode]Un élément d'une population peut avoir une propriété avec une certaine fréquence.
Par exemple, supposons que nous ayons une urne contenant des boules blanches et des boules noires et supposons qu'une boule sur 8 soit noire. La fréquence des boules noires serait alors de 12,5 %.
Si la quantité de boules dans l'urne est grande, on peut assimiler la fréquence à une probabilité .
Une boule prise au hasard a une probabilité d'être noire.
On peut être amené à étudier la fréquence sur un échantillon de boules extraites de l'urne.
On notera la variable aléatoire qui prend pour valeur la fréquence observée sur des échantillons de boules de taille extraits de l'urne.
On montre et nous admettrons que:
|
D'autre part si , on peut dire que suit une loi normale de moyenne et d'écart-type .
Si , les formules ci-dessus sont toujours vraies mais ne suis plus une loi normale.
Pour calculer des intervalles de fluctuation, on utilise alors des abaques.
Dans le cas ou , on peut donc calculer un intervalle de fluctuation au risque 5 % ainsi :
Cela signifie que si l'on extrait un échantillon de taille de la population, alors la fréquence d'apparition d'un caractère a une probabilité de 0,95 de se trouver dans l'intervalle précédent.
Exemple. Supposons que la proportion de boules noires dans l'urne soit de 12,5 %. On considère un échantillon de 50 boules que l'on a extraite de l'urne. Donner un intervalle de fluctuation au risque 5 % de la fréquence des boules noires sur cet échantillon.
L'échantillon contenant plus de 30 boules, on peut dire que la fréquence des boules noires sur l'échantillon suit une loi normale et on peut donc appliquer la formule donnant l'intervalle de fluctuation au risque 5 %. L'espérance de la fréquence sur les échantillons sera . L'écart-type de la fréquence sur les échantillons sera:
L'intervalle de fluctuation au risque 5 %. sera donc:
Soit:
La fréquence de boules noires sur l'échantillon de 50 boules aura 95 % de chance d'être comprise entre 3,3 % et 21,7 %. |
Élargissement de l'intervalle de fluctuation
[modifier | modifier le wikicode]Par définition, un intervalle de fluctuation au risque 5% est un intervalle dont la probabilité d'y trouver la fréquence du caractère est au moins de 95%.
Nous allons voir que l'on peut alors trouver un intervalle plus simple que :
ayant une probabilité d'au moins 95% d'y trouver la fréquence du caractère simplement en majorant l'expression
Nous voyons que nous pouvons déjà majorer légèrement cette expression par
Ensuite, nous savons que prend des valeurs sur l'intervalle . Nous étudierons donc la fonction définie par sur
La dérivée sera alors :
Ce qui nous montre que la fonction est croissante sur et décroissante sur elle atteint donc un maximum pour . Comme , nous voyons que sur l'intervalle .
Par conséquent :
S'il y a plus de 95 % de chance de trouver la fréquence du caractère dans l'intervalle :
il y aura, à plus forte raison, plus de 95 % de chance de trouver la fréquence du caractère dans l'intervalle :
qui est plus simple.
Toutefois, si s'éloigne trop de la valeur , l'intervalle de remplacement s'avère trop large. Si l'on veut que l'intervalle contienne au moins 95 % de chance d'y trouver la fréquence du caractère sans toutefois dépasser 99 %, il faut imposer à de prendre des valeurs comprises entre et .