Aller au contenu

Initiation à l'échantillonnage et l'estimation/Échantillonnage

Leçons de niveau 13
Une page de Wikiversité, la communauté pédagogique libre.
Début de la boite de navigation du chapitre
Échantillonnage
Icône de la faculté
Chapitre no 2
Leçon : Initiation à l'échantillonnage et l'estimation
Chap. préc. :Introduction
Chap. suiv. :Estimation
fin de la boite de navigation du chapitre
En raison de limitations techniques, la typographie souhaitable du titre, « Initiation à l'échantillonnage et l'estimation : Échantillonnage
Initiation à l'échantillonnage et l'estimation/Échantillonnage
 », n'a pu être restituée correctement ci-dessus.

Ce chapitre reprend plus en détail la théorie de l'échantillonnage ébauchée dans le chapitre précédent.


les paramètres de la population sont supposés connus.

Étude de la fréquence d'apparition d'un caractère dans un échantillon

[modifier | modifier le wikicode]

Un élément d'une population peut avoir une propriété avec une certaine fréquence.

Par exemple, supposons que nous ayons une urne contenant des boules blanches et des boules noires et supposons qu'une boule sur 8 soit noire. La fréquence des boules noires serait alors de 12,5 %.

Si la quantité de boules dans l'urne est grande, on peut assimiler la fréquence à une probabilité .

Une boule prise au hasard a une probabilité d'être noire.

On peut être amené à étudier la fréquence sur un échantillon de boules extraites de l'urne.

On notera la variable aléatoire qui prend pour valeur la fréquence observée sur des échantillons de boules de taille extraits de l'urne.


On montre et nous admettrons que:



D'autre part si , on peut dire que suit une loi normale de moyenne et d'écart-type .


Si , les formules ci-dessus sont toujours vraies mais ne suis plus une loi normale.

Pour calculer des intervalles de fluctuation, on utilise alors des abaques.


Dans le cas ou , on peut donc calculer un intervalle de fluctuation au risque 5 % ainsi :

Cela signifie que si l'on extrait un échantillon de taille de la population, alors la fréquence d'apparition d'un caractère a une probabilité de 0,95 de se trouver dans l'intervalle précédent.


Exemple.

Supposons que la proportion de boules noires dans l'urne soit de 12,5 %.

On considère un échantillon de 50 boules que l'on a extraite de l'urne.

Donner un intervalle de fluctuation au risque 5 % de la fréquence des boules noires sur cet échantillon.


Solution.

L'échantillon contenant plus de 30 boules, on peut dire que la fréquence des boules noires sur l'échantillon suit une loi normale et on peut donc appliquer la formule donnant l'intervalle de fluctuation au risque 5 %.

L'espérance de la fréquence sur les échantillons sera .

L'écart-type de la fréquence sur les échantillons sera:

L'intervalle de fluctuation au risque 5 %. sera donc:

Soit:

La fréquence de boules noires sur l'échantillon de 50 boules aura 95 % de chance d'être comprise entre 3,3 % et 21,7 %.


Élargissement de l'intervalle de fluctuation

[modifier | modifier le wikicode]

Par définition, un intervalle de fluctuation au risque 5% est un intervalle dont la probabilité d'y trouver la fréquence du caractère est au moins de 95%.

Nous allons voir que l'on peut alors trouver un intervalle plus simple que :

ayant une probabilité d'au moins 95% d'y trouver la fréquence du caractère simplement en majorant l'expression

Nous voyons que nous pouvons déjà majorer légèrement cette expression par

Ensuite, nous savons que prend des valeurs sur l'intervalle . Nous étudierons donc la fonction définie par sur

La dérivée sera alors :

Ce qui nous montre que la fonction est croissante sur et décroissante sur elle atteint donc un maximum pour . Comme , nous voyons que sur l'intervalle .

Par conséquent :

S'il y a plus de 95 % de chance de trouver la fréquence du caractère dans l'intervalle :

il y aura, à plus forte raison, plus de 95 % de chance de trouver la fréquence du caractère dans l'intervalle :

qui est plus simple.

Toutefois, si s'éloigne trop de la valeur , l'intervalle de remplacement s'avère trop large. Si l'on veut que l'intervalle contienne au moins 95 % de chance d'y trouver la fréquence du caractère sans toutefois dépasser 99 %, il faut imposer à de prendre des valeurs comprises entre et .