Échantillonnage et estimation pour le bio-médical/Échantillonnage

**Échantillonnage**
Leçon : Échantillonnage et estimation pour le bio-médical

Chapitre n^o 2
Chap. préc. :	Introduction
Chap. suiv. :	Estimation

En raison de limitations techniques, la typographie souhaitable du titre, « Échantillonnage et estimation pour le bio-médical : Échantillonnage
Échantillonnage et estimation pour le bio-médical/Échantillonnage », n'a pu être restituée correctement ci-dessus.

les paramètres de la population sont supposés connus.

On étudie un caractère pour lequel la moyenne de la population est $\mu$ et son écart type est $\sigma$ .

Soit donc $X$ , une variable aléatoire définie sur la population qui prend pour valeur le caractère étudié.

On a donc:

$E(X)=\mu$

$V(X)=\sigma ^{2}$

De la population, on extrait des échantillons de taille $n$ (contenant $n$ individus).

Étude de la moyenne d'un échantillon

Sur l'ensemble des échantillons, on peut définir une nouvelle variable aléatoire ${\bar {X}}$ appelée moyenne aléatoire de l'échantillon qui prend pour valeur les moyennes des valeurs du caractère sur chaque échantillon.

Il est évident que la moyenne des valeurs du caractère n'est pas la même sur chaque échantillon car les tirages se font au hasard. On appelle cela les fluctuations de l'échantillonnage.

Nous sommes dans les conditions d'application du théorème de la limite centrale.

Lorsque $n$ est suffisamment grand, on peut dire que:

${\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}$

suit une loi normale centrée réduite.

On considérera que ceci est vrai pour $n\geqslant 30$ .

On peut en déduire que:

Si l'effectif de l'échantillon est supérieur à 30. La variable ${\bar {X}}$ suit une loi normale de moyenne $\mu$ et d'écart-type ${\frac {\sigma }{\sqrt {n}}}$ .

On retiendra:

$E({\bar {X}})=\mu$

$V({\bar {X}})={\frac {\sigma ^{2}}{n}}$

$\sigma ({\bar {X}})={\frac {\sigma }{\sqrt {n}}}$

Remarque

Si $n<30$ et si $X$ suit une loi normale, ces formules sont toujours vraies. Par contre si $X$ ne suis pas une loi normale, on ne peut rien dire sur ${\bar {X}}$ .

Exemple.

La moyenne des taux de cholestérol sur la population et de 1,13 grammes par litre avec un écart-type de 0,1 gramme par litre environ. La loi de répartition du cholestérol n'est pas normale mais bimodale.

On décide d'analyser le taux de cholestérol chez 40 personnes prises au hasard et on se propose de faire la moyenne des 40 valeurs obtenues. Calculer un intervalle de fluctuation tel qu'avant de faire l'analyse, on puisse prévoir que la moyenne des 40 valeurs du taux de cholestérol ait 95 % de chance de s'y trouver.

Solution.

Comme l'échantillon comprend 40 valeurs, c'est-à-dire plus de 30, on peut dire que la moyenne des 40 valeurs suit une loi normale de moyenne 1,13 gramme par litre et d'écart type $0,1/{\sqrt {4}}0\simeq 0,016$ gramme par litre.

(Bien que le taux de cholestérol ne suive pas une loi normale.)

Il suffit donc de calculer un intervalle de fluctuation au risque 5 % à partir de ces valeurs.

Soit $[1,13-1,96\times 0,016;\,1,13+1,96\times 0,016]$ .

L'intervalle recherché est donc:

$[1,10;\,1,16]$ .

Avant de faire l'analyse, on peut donc dire d'avance qu'il y a 95 % de chance que la moyenne des 40 valeurs du taux de cholestérol tombe entre 1,10 gramme par litre et 1,16 gramme par litre.

Étude de la variance d'un échantillon

On notera $V_{e}$ la variable aléatoire qui prend pour valeur les variances des échantillons extraits de la population.

On notera $S_{e}$ la variable aléatoire qui prend pour valeur les écarts-types des échantillons. On a déjà:

$V_{e}=S_{e}^{2}$

On démontre et nous admettrons que :

$E(V_{e})={\frac {n-1}{n}}\sigma ^{2}$

$E(S_{e})=\sigma {\sqrt {\frac {n-1}{n}}}$

Exemple.

Reprenons l'exemple précédent :

Le taux de cholestérol suis une loi bimodale de moyenne $1,13$ grammes par litre et d'écart type $0,1$ gramme par litre.

On étudie un échantillon de 40 personnes. Quel écart-type peut-on espérer avoir sur cet échantillon.

Solution.

On a:

${\begin{aligned}E(S_{e})&=\sigma {\sqrt {\frac {n-1}{n}}}\\&=0,1{\sqrt {\frac {40-1}{40}}}\\&=0,0987\end{aligned}}$

Remarques

Supposons que l'échantillon contient seulement 6 personnes. L'écart-type que l'on peut espérer avoir sur cet échantillon serait alors :

${\begin{aligned}E(S_{e})&=\sigma {\sqrt {\frac {n-1}{n}}}\\&=0,1{\sqrt {\frac {6-1}{6}}}\\&=0,091\end{aligned}}$

On remarque que plus l'échantillon est petit, plus l'écart-type de l'échantillon s'éloigne de l'écart-type de la population.

On remarque aussi que l'écart-type de l'échantillon est plus faible que l'écart-type de la population.

On remarque aussi que si l'échantillon contient une personne, l'écart-type espéré sera :

${\begin{aligned}E(S_{e})&=\sigma {\sqrt {\frac {n-1}{n}}}\\&=0,1{\sqrt {\frac {1-1}{1}}}\\&=0\end{aligned}}$

Ce qui est normal.

Étude de la fréquence d'un caractère dans un échantillon

Un élément d'une population peux avoir une propriété avec une certaine fréquence.

Par exemple, un bébé sur 8 né prématuré. La fréquence serait alors de 12,5 %.

Si la population est grande, on peut assimiler la fréquence à une probabilité $p$ .

Un bébé pris au hasard a une probabilité $p=0,125$ d'être né prématurément.

On peut être amené à étudier la fréquence sur un échantillon extrait de la population.

On notera $F$ la variable aléatoire qui prend pour valeur la fréquence observée sur des échantillons de taille $n$ extrait de la population.

On Montre et nous admettrons que:

$E(F)=p$

$V(F)={\frac {p(1-p)}{n}}$

$\sigma (F)={\sqrt {\frac {p(1-p)}{n}}}$

D'autre part si $n\geqslant 30$ , on peut dire que $F$ suit une loi normale de moyenne $p$ et d'écart-type ${\sqrt {\frac {p(1-p)}{n}}}$ .

Si $n<30$ les formules ci-dessus sont toujours vraies mais $F$ ne suis plus une loi normale.

Pour calculer des intervalles de fluctuation, on utilise alors des abaques.

Exemple.

Supposons que la population des bébés prématurés soit de 12,5 %.

On considère un échantillon de 50 bébés.

Donner un intervalle de fluctuation au risque 5 % de la fréquence des bébés prématurés sur cet échantillon.

Solution.

L'échantillon contenant plus de 30 bébés, on peut dire que la fréquence de bébés prématurés sur l'échantillon suit une loi normale et on peut donc appliquer la formule donnant l'intervalle de confiance au risque 5 %.

L'espérance de la fréquence sur les échantillons sera $0,125$ .