Échantillonnage et estimation pour le bio-médical/Estimation

**Estimation**
Leçon : Échantillonnage et estimation pour le bio-médical

Chapitre n^o 3
Chap. préc. :	Échantillonnage
Chap. suiv. :	Tests de conformité

En raison de limitations techniques, la typographie souhaitable du titre, « Échantillonnage et estimation pour le bio-médical : Estimation
Échantillonnage et estimation pour le bio-médical/Estimation », n'a pu être restituée correctement ci-dessus.

les paramètres de l'échantillon sont supposés connus.

Nous avons affaire à une population très grande que nous ne pouvons pas étudier directement.

On extrait de la population un échantillon que l'on va étudier et on va essayer à partir des renseignements constatés sur l'échantillon d'en déduire des renseignements sur la population.

À moins d'étudier la totalité de la population, les paramètres de celle-ci ne seront jamais connus exactement. On peut toutefois en donner une idée de deux façons différentes.

Première façon: Estimation ponctuelle d'un paramètre.

On essaye de trouver une valeur approchée du paramètre que l'on veut connaître. Cette valeur et appelée une estimation du paramètre.

Deuxième façon: Estimation d'un paramètre par un intervalle de confiance.

Cette méthode est plus rigoureuse. Elle consiste à calculer un intervalle de confiance tel que le paramètre ait une certaine probabilité connue de se trouver.

On dira par exemple après avoir étudié un échantillon que la moyenne de la population a 95 % de chance de se trouver entre les valeurs 37 et 39.

Estimation ponctuelle de la variance de la population.

Nous cherchons estimer le paramètre $\sigma$ de la population.

Nous noterons toujours $s$ la valeur estimée du paramètre $\sigma$ de la population.

On a vu en théorie de l'échantillonnage que:

$E(S_{e})=\sigma {\sqrt {\frac {n-1}{n}}}$

Si on ne connaît pas $\sigma$ , $E(S_{e})$ ne peut pas être connue.

Si on extrait un échantillon, on peut raisonnablement penser que l'écart-type observé sur l'échantillon n'est pas loin de $E(S_{e})$ .

Nous noterons toujours $s_{e}$ l'écart-type observé sur l'échantillon.

par conséquent, si dans la formule $E(S_{e})=\sigma {\sqrt {\frac {n-1}{n}}}$ , on remplace $E(S_{e})$ par $s_{e}$ qui est proche de $E(S_{e})$ , $\sigma$ sera lui remplacé par une valeur proche de $\sigma$ . On prendra donc pour $s$ cette valeur et on aura:

${\begin{aligned}s_{e}=s{\sqrt {\frac {n-1}{n}}}&\Leftrightarrow s_{e}=s{\frac {\sqrt {n-1}}{\sqrt {n}}}\\&\Leftrightarrow s_{e}{\frac {\sqrt {n}}{\sqrt {n-1}}}=s\\&\Leftrightarrow s_{e}{\sqrt {\frac {n}{n-1}}}=s\end{aligned}}$

On retiendra:

$s=s_{e}{\sqrt {\frac {n}{n-1}}}$

Sur certaines calculatrice $s_{e}$ est noté par $\sigma _{n}$ et $s$ est noté par $\sigma _{n-1}$ .

Dans ce que l'on vient de dire, la difficulté réside sur les multiples notations à propos des écarts-types. Pour clarifier, nous pouvons résumer :

$\sigma$ est l'écart type de la population (non mesurable car la population est trop grande).
$s$ est la valeur estimée de l'écart type de la population.
$s_{e}$ est l'écart type que l'on observe sur l'échantillon.
$S_{e}$ est la variable aléatoire qui, à tout échantillon extrait de la population, associe son écart-type.

Exemple.

On mesure la taille de 7 personnes extraites d'une population. On obtient successivement en centimètres:

$172,\,163,\,181,\,177,\,158,\,169,\,177$ .

1° Donner une estimation de l'écart-type des tailles sur la population de laquelle a été extraite cet échantillon.

2° Rentrer les 7 valeurs dans une calculatrice et vérifier qu'en appuyant sur $\sigma _{n}$ , on a bien $s_{e}$ et qu'en appuyant sur $\sigma _{n-1}$ , on a bien $s$ .

Solution.

1° La moyenne des 7 valeurs ci-dessus est ${\bar {X}}=171$ .

La variance sur l'échantillon sera donc:

s_{e}={\frac {172^{2}+163^{2}+181^{2}+177^{2}+158^{2}+169^{2}+177^{2}}{7}}-171^{2}=58,57

L'écart type de l'échantillon sera donc:

s_{e}={\sqrt {58,57}}=7,653

cm.

Une estimation de l'écart-type de la population sera donc:

s=s_{e}{\sqrt {\frac {n}{n-1}}}=7,653{\sqrt {\frac {7}{7-1}}}=8,266

cm.

2° Si l'on rentre les 7 valeurs dans une calculatrice on obtient:

{\bar {X}}=171

.

s_{e}=\sigma _{n}=7,6531973

.

s=\sigma _{n-1}=8,2663978

.

Estimation ponctuelle de la moyenne de la population.

Nous cherchons à estimer le paramètre $\mu$ de la population.

Nous noterons $m$ la valeur estimée du paramètre $\mu$ de la population.

Nous noterons ${\bar {X}}$ la moyenne observée sur échantillon.

Dans la théorie de l'échantillonnage, nous avions:

$E({\bar {X}})=\mu$

Si $\mu$ n'est pas connue, $E({\bar {X}})$ ne peut pas être connue.

mais on peut raisonnablement penser que la moyenne de l'échantillon ${\bar {X}}$ n'est pas loin de $E({\bar {X}})$ , donc n'est pas loin non plus de $\mu$ .

On prendra donc pour $m$ la valeur de ${\bar {X}}$ .

On retiendra:

$m={\bar {X}}$

Estimation de la moyenne de la population par un intervalle de confiance

Dans la théorie de l'échantillonnage, nous avions vu que si $n\geqslant 30$ , $X$ suit une loi normale de moyenne $\mu$ et d'écart-type ${\frac {\sigma }{\sqrt {n}}}$ .

On peut en déduire des intervalles de fluctuation de la forme:

$\left[\mu -t_{\alpha }{\frac {\sigma }{\sqrt {n}}};\,\mu +t_{\alpha }{\frac {\sigma }{\sqrt {n}}}\right]$ .

tel que ${\bar {X}}$ s'y trouve avec une probabilité $1-\alpha$ .

Réciproquement, si l'on extrait un échantillon et que l'on calcule la valeur ${\bar {X}}$ , on pourra en déduire un intervalle de confiance de la forme:

$\left[{\bar {X}}-t_{\alpha }{\frac {\sigma }{\sqrt {n}}};\,{\bar {X}}+t_{\alpha }{\frac {\sigma }{\sqrt {n}}}\right]$ .

tel que $\mu$ est une probabilité $1-\alpha$ de s'y trouver.

$\alpha$ n'étant lui non plus pas connu, on le remplace par son estimation $s$ et on montre que:

Si $n\geqslant 30$ , un intervalle de confiance de la moyenne $\mu$ de la population au risque $\alpha$ est de la forme:

$\left[{\bar {X}}-t_{\alpha }{\frac {s}{\sqrt {n}}};\,{\bar {X}}+t_{\alpha }{\frac {s}{\sqrt {n}}}\right]$ .

Avec $t_{\alpha }=1,96$ pour $\alpha =0,05$ .

Avec $t_{\alpha }=2,576$ pour $\alpha =0,01$ .

Pour les autres valeurs de $\alpha$ , on calculera $t_{\alpha }$ en faisant comme si $\mu$ suivait une loi normale de moyenne ${\bar {X}}$ et d'écart type ${\frac {s}{\sqrt {n}}}$ .

Si $n<30$ et si $X$ suit une loi normale, on montre que ${\frac {{\bar {X}}-\mu }{s/{\sqrt {n}}}}$ suit une loi de Student à $n-1$ degrés de liberté.

On se sert de cela pour en déduire des intervalles de confiance de $\mu$ .

Si $n<30$ et si $X$ ne suis pas une loi normale, on ne peut rien dire.

Exemple.

On mesure la taille de 7 personnes extraites d'une population. On obtient successivement en centimètres:

$172,\,163,\,181,\,177,\,158,\,169,\,177$ .

Donner un intervalle de confiance au risque 5% de la moyenne de la population.

Solution.

On ne peut rien dire car l'échantillon est trop petit $7<<30$ .

Supposons maintenant que l'échantillon contiennent 50 personnes et que la moyenne des Valeurs soit de $173$ avec un écart type de $8$ .

Quel serait alors l'intervalle de confiance au risque 5% de la moyenne de la population ?

Solution.

L'estimation de l'écart-type de la population est:

$s=s_{e}{\sqrt {\frac {n}{n-1}}}=8\times {\sqrt {\frac {50}{50-1}}}=8,08$ .

L'intervalle de confiance au risque 5% sera donc:

$\left[173-1,96\times {\frac {8,08}{\sqrt {50}}};\,173+1,96\times {\frac {8,08}{\sqrt {50}}}\right]$ .

Soit:

$\left[170,76;\,175,24\right]$ .

Il y a 95 % de chance que la moyenne des tailles de la population soit comprise entre 170,76 cm et 175,24 cm.

Estimation de la fréquence d'un caractère dans une population.

Soit $f$ la fréquence observée sur un échantillon.

$F$ est la variable aléatoire qui, à tout échantillon extrait de la population, associe la fréquence du caractère sur celui-ci.

On sait déjà que $E(F)=p$ . Si $p$ n'est pas connue, $E(F)$ ne sera pas connue. Mais on peut raisonnablement penser que la fréquence observée $f$ n'est pas loin de $E(F)$ donc n'est pas loin non plus de $p$ . On prendra donc $f$ pour estimer $p$ .

Estimation de la fréquence d'un caractère dans une population par un intervalle de confiance.

On sait de la théorie de l'échantillonnage que $E(F)=p$ et $V(F)={\frac {p(1-p)}{n}}$

On a vu aussi que si $n\geqslant 30$ , $F$ suit une loi normale. Par conséquent en estimant $p$ par $f$ (car $p$ n'est pas connue), on montre qu'un intervalle de confiance au risque $\alpha$ de la fréquence $p$ est :

$\left[f-t_{\alpha }{\sqrt {\frac {f(1-f)}{n}}};\,f+t_{\alpha }{\sqrt {\frac {f(1-f)}{n}}}\right]$

Avec $t_{\alpha }=1,96$ pour $\alpha =0,05$ .

Avec $t_{\alpha }=2,576$ pour $\alpha =0,01$ .

Pour les autres valeurs de $\alpha$ , on calculera $t_{\alpha }$ en faisant comme si $p$ suivait une loi normale de moyenne $f$ et d'écart type ${\sqrt {\frac {f(1-f)}{n}}}$ .

Exemple.

On dispose d'un sac contenant un mélange de graines de tulipes rouges et de graines de tulipes noires, on décide de planter au hasard $100$ graines extraites de ce sac. Au bout de quelques jours, on obtient $54$ tulipes rouges et $46$ tulipes noires.

1° Donner un intervalle de confiance au risque 5% du pourcentage de graines de tulipes rouges dans le sac.

2° Peut-on affirmer qu'il y a dans le sac plus de graines de tulipes rouges que de graines de tulipes noires ?

Solution.

1° Cet intervalle est:

\left[0,54-1,96{\sqrt {\frac {0,54(1-0,54)}{100}}};\,0,54+1,96{\sqrt {\frac {0,54(1-0,54)}{100}}}\right]

Soit :

\left[0,442;\,0,638\right]

Il y a 95 % de chance que le pourcentage de graines de tulipes rouges dans le sac soit compris entre 44,2 % et 63,8 %.

2° Comme $50\in \left[44,2;\,63,8\right]$ on ne peut pas affirmer que, dans le sac, il y a plus de graines de tulipes rouges que de graines de tulipes noires.

Estimation du paramètre $\lambda$ de la loi de Poisson.

On montre que la meilleure estimation du paramètre $\lambda$ d'une loi de Poisson est la moyenne de l'échantillon étudié.

Si on ne connaît pas la moyenne de l'échantillon, mais si on connaît la probabilité $p(X=k)$ , on peut estimer $\lambda$ par la solution de l'équation:

$e^{-\lambda }.{\frac {\lambda ^{k}}{k!}}=p(X=k)$

L'inconnue étant $\lambda$ .

Exemple.

Le nombre de naissance par jour dans une maternité suit une loi de Poisson.

On remarque que la probabilité qu'il y ait cinq naissances le même jour et de une chance sur dix.

En déduire une estimation du paramètre $\lambda$ de la loi de Poisson.

Solutions.

En appliquant la formule, on a :

$p(X=5)=e^{-\lambda }.{\frac {\lambda ^{5}}{5!}}$

Soit en remplaçant :

$0,1=e^{-\lambda }.{\frac {\lambda ^{5}}{5!}}$

La résolution de cette équation est impossible directement car $\lambda$ se trouve à la fois dans l'exposant de $e$ et en dehors. On n'arrivera jamais à isoler $\lambda$ dans un membre pour calculer sa valeur. On peut toutefois trouver une solution approchée de cette équation en utilisant une calculatrice qui possède la touche « ans ».

Pour cela on remarque préalablement que l'équation s'écrit :

$0,1=e^{-\lambda }.{\frac {\lambda ^{5}}{120}}$

Donc s'écrit :

${\begin{aligned}e^{-\lambda }.\lambda ^{5}=12&\Leftrightarrow \lambda ^{5}={\frac {12}{e^{-\lambda }}}\\&\Leftrightarrow \lambda =\left({\frac {12}{e^{-\lambda }}}\right)^{\frac {1}{5}}\\&\Leftrightarrow \lambda =\left({\frac {12}{e^{-\lambda }}}\right)^{0,2}\end{aligned}}$

Sur la calculatrice, on commence par taper 0 puis « enter »

On rentre ensuite la formule $\left({\frac {12}{e^{-\lambda }}}\right)^{0,2}$ en remplaçant $\lambda$ par « ans ».

Et on appuie sur « enter » plusieurs fois jusqu'à ce que l'affichage se stabilise (Une quarantaine de fois pour une précision sur tout l'affichage, une quinzaine de fois pour avoir trois chiffres après la virgule).

Pour une précision sur tout l'affichage, on trouve $\lambda =2,987829692$

Selon les besoins, on pourra se contenter de l'estimation $\lambda \simeq 3$ .

Si vous ne possédez pas de calculatrice avec la touche « ans », il existe des tables de la loi de Poisson. À ce moment là, sur la ligne $k=5$ , on cherche le nombre se rapprochant le plus de $0,1$ . On trouve $0,10082$ qui correspond à $\lambda =3$ .