Échantillonnage et estimation pour le bio-médical/Tests de conformité

**Tests de conformité**
Leçon : Échantillonnage et estimation pour le bio-médical

Chapitre n^o 4
Chap. préc. :	Estimation
Chap. suiv. :	Tests d'homogénéité
Exercices :	Test du χ²

En raison de limitations techniques, la typographie souhaitable du titre, « Échantillonnage et estimation pour le bio-médical : Tests de conformité
Échantillonnage et estimation pour le bio-médical/Tests de conformité », n'a pu être restituée correctement ci-dessus.

Les tests de conformité permettent de s'assurer :

qu'un échantillon a bien été extrait d'une population donnée ;
qu'un phénomène est conforme aux prévisions d'une loi théorique ;
que les performances de nouveaux produits sont meilleures que celle d'un ancien produit déjà connu.

Comparaison de la moyenne d'un échantillon à la moyenne de la population

Soit $X$ une variable aléatoire telle que :

$E(X)=\mu \qquad \qquad V(X)=\sigma ^{2}\qquad \qquad \sigma (X)=\sigma$ .

On considère un échantillon dont la moyenne et ${\bar {x}}$ et l'écart-type est $s_{e}$ . Le problème que l'on se propose de résoudre est le suivant :

L'échantillon a-t-il été extrait d'une population régie par la variable aléatoire $X$ ?

Soit $s$ l'écart-type estimé à partir de $s_{e}$ .

Mise en place du test.

Soit $H_{0}$ , l'hypothèse : L'échantillon a été extrait d'une population régie par la variable aléatoire $X$ .

Soit $H_{1}$ , l'hypothèse : L'échantillon n'a pas été extrait d'une population régie par la variable aléatoire $X$ .

Si $H_{0}$ est vraie et si $n\geqslant 30$ , on sait d'après a théorie de l'échantillonnage que ${\bar {X}}$ (variable aléatoire qui prend pour valeur les moyennes des échantillons extrait de la population) suit sensiblement une loi normale de moyenne $\mu$ et écart-type ${\frac {\sigma }{\sqrt {n}}}$ .

on en déduit que ${\frac {{\bar {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}$ suit sensiblement une loi normale centrée réduite.

Puisqu'il s'agit de comparer $X$ à $\mu$ , cela suppose $\mu$ connue. Par contre, il se peut que $\sigma$ ne soit pas connu. On le remplace alors par son estimation $s$ et l'on obtient que :

si $n\geqslant 30,\quad {\frac {{\bar {X}}-\mu }{\frac {s}{\sqrt {n}}}}$ suit sensiblement une loi normale centrée réduite.

Pour faire le test, on procède donc ainsi :

On calcule ${\bar {x}}$ et $s_{e}$ . on en déduit $s$ grâce à :

$s=s_{e}{\sqrt {\frac {n}{n-1}}}$

et l'on calcule la valeur $u$ définie par :

$u={\frac {{\bar {x}}-\mu }{\frac {s}{\sqrt {n}}}}$ .

Si $u\in [-t_{\alpha };\,t_{\alpha }]$ , on accepte l'hypothèse $H_{0}$ .

Si $u\not \in [-t_{\alpha };\,t_{\alpha }]$ , on rejette l'hypothèse $H_{0}$ .

On rappelle que :

$t_{\alpha }=1,96$ pour $\alpha =0,05$ .

$t_{\alpha }=2,576$ pour $\alpha =0,01$ .

$\alpha$ est le risque de première espèce.

Si $n<30$ et si $X$ suit une loi normale.

${\frac {{\bar {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}$ suit une loi normale centrée réduite.

${\frac {{\bar {X}}-\mu }{\frac {s}{\sqrt {n}}}}$ suis une loi de Student à $n$ degrés de liberté.

Si $n<30$ et si $X$ ne suit pas une loi normale, on ne peut rien dire.

Exemple.

La moyenne des taux de glycémie chez des individus normaux est de 1,18 grammes par litre. On analyse le taux de glycémie chez une équipe de 40 plongeurs juste après qu'ils aient passé une semaine par $-100$ mètres de profondeur. On trouve sur l'échantillon une moyenne de 1,165 grammes par litre et un écart type de 0,06 gramme par litre. Peut-on dire au risque 5 % que la plongée par grand fond a une influence sur le taux de glycémie ?

Solution.

Mise en place du test :

Soit $H_{0}$ l'hypothèse : La plongée sous-marine n'a pas d'influence sur le taux de glycémie.

Soit $H_{1}$ l'hypothèse : La plongée sous-marine modifie le taux de glycémie.

Dans le cas où $H_{0}$ est vraie et comme $n=40$ , on peut dire que ${\frac {{\bar {X}}-\mu }{\frac {s}{\sqrt {n}}}}$ suit une loi normale centrée réduite.

$s=0{,}06{\sqrt {\frac {40}{39}}}=0{,}06076$

$u={\frac {{\bar {X}}-\mu }{\frac {s}{\sqrt {n}}}}={\frac {1{,}165-1{,}18}{\frac {0{,}06076}{\sqrt {40}}}}\simeq -1{,}56$ .

Pour $\alpha =0;05,\quad t_{\alpha }=1{,}96$ .

On remarque que $-1{,}56\in [-1{,}96;\,1{,}96]$ .

Donc au risque de première espèce 5 %, on peut dire que la plongée sous-marine n'influe pas sur le taux de glycémie. La différence observée est probablement due aux fluctuations d'échantillonnage.

Comparaison de la fréquence sur un échantillon à la fréquence sur la population

Soit $p$ la fréquence d'un caractère sur une population.

Soit $f$ la fréquence observée d'un caractère sur un échantillon de $n$ individus.

Le problème que l'on se propose de résoudre est :

L'échantillon a-t-il été extrait d'une population sur laquelle la fréquence des caractères est $p$ ?

Mise en place du test :

Soit $H_{0}$ , l'hypothèse : L'échantillon a été extrait d'une population sur laquelle la fréquence du caractère est $p$ .

Soit $H_{1}$ , l'hypothèse : L'échantillon n'a pas été extrait d'une population sur laquelle la fréquence du caractère est $p$ .

Si $H_{0}$ est vraie et si $n\geqslant 30$ , on sait d'après a théorie de l'échantillonnage que $F$ (variable aléatoire qui prend pour valeur les fréquences observée sur les échantillons extrait de la population) suit une loi normale de moyenne $p$ et écart-type ${\sqrt {\frac {p(1-p)}{n}}}$ .

Par conséquent, on peut en déduire que :

${\frac {F-p}{\sqrt {\frac {p(1-p)}{n}}}}$ suit sensiblement une loi normale centrée réduite.

Puisqu'il s'agit de comparer $f$ à $p$ , cela suppose $p$ connu.

Pour faire le test, on procédera donc ainsi :

On calcule la valeur $u$ définie par :

$u={\frac {f-p}{\sqrt {\frac {p(1-p)}{n}}}}$

Si $u\in [-t_{\alpha };\,t_{\alpha }]$ , on accepte l'hypothèse $H_{0}$ .

Si $u\not \in [-t_{\alpha };\,t_{\alpha }]$ , on rejette l'hypothèse $H_{0}$ .

On rappelle que :

$t_{\alpha }=1{,}96$ pour $\alpha =0{,}05$ .

$t_{\alpha }=2{,}576$ pour $\alpha =0{,}01$ .

$\alpha$ est le risque de première espèce.

Exemple.

On sait qu'une souris grise réussit un test d'intelligence dans 37 % des cas. On fait subir le test à 35 souris blanches et l'on constate que 18 d'entre elles réussissent le test. Peut-on déduire au risque 5 % que l'intelligence des souris blanches est différente de celle des souris grises ?

Réponse.

Mise en place du test.

Soit $H_{0}$ , l'hypothèse : il n'y a pas de différence entre l'intelligence des souris grises et l'intelligence des souris blanches.

Soit $H_{1}$ , l'hypothèse : les souris grises et les souris blanches n'ont pas la même intelligence.

Dans le cas où $H_{0}$ est vraie et comme $n\geqslant 30$ , on peut dire que :

${\frac {F-p}{\sqrt {\frac {p(1-p)}{n}}}}$ suit sensiblement une loi normale centrée réduite.

Calculons : $u={\frac {f-p}{\sqrt {\frac {p(1-p)}{n}}}}={\frac {{\frac {18}{35}}-0{,}37}{\sqrt {\frac {0{,}37(1-0{,}37)}{35}}}}\simeq 1{,}768$ .

$1{,}768\in [-1{,}96;\,1{,}96]$ , donc on accepte l'hypothèse $H_{0}$ . On ne peut pas dire que les souris grises et les souris blanches ont une intelligence différente. La différence observée est probablement due aux fluctuations d'échantillonnage.

Test du Khi-deux

Wikipedia-logo-v2.svg

Wikipédia possède un article à propos de « Test du χ² ».

Le test du Khi-deux est un test de conformité qui permet de s'assurer qu'un ensemble d'effectifs observés est conforme à un ensemble d'effectifs théoriques. La loi du Khi-deux est une variable aléatoire continue qui dépend d'un paramètre appelé degré de liberté.

Soit $O_{1},\,O_{2},\,\cdots ,\,O_{k}$ , les effectifs observés sur un échantillon et soit $C_{1},\,C_{2},\,\cdots ,\,C_{k}$ , les effectifs que l'on devrait théoriquement avoir sur cet échantillon.

Mise en place du test.

Soit $H_{0}$ l'hypothèse : Les effectifs observés sont conformes aux effectifs théoriques.

Soit $H_{1}$ l'hypothèse : Les effectifs observés ne sont pas conformes aux effectifs théoriques.

Si $H_{0}$ est vraie, la variable aléatoire $\chi ^{2}$ qui prend pour valeur :

$\chi ^{2}={\frac {(O_{1}-C_{1})^{2}}{C_{1}}}+{\frac {(O_{2}-C_{2})^{2}}{C_{2}}}+\cdots +{\frac {(O_{k}-C_{k})^{2}}{C_{k}}}$

suit une loi du Khi-deux à $k-1$ degrés de liberté.

Pour faire le test, on procède donc ainsi :

On calcule les effectifs que l'on devrait théoriquement observer sur notre échantillon. C'est-à-dire $C_{1},\,C_{2},\,\cdots ,\,C_{k}$ . On calcule :

$\chi ^{2}={\frac {(O_{1}-C_{1})^{2}}{C_{1}}}+{\frac {(O_{2}-C_{2})^{2}}{C_{2}}}+\cdots +{\frac {(O_{k}-C_{k})^{2}}{C_{k}}}$

et l'on regarde si le nombre obtenu dépasse ou non le nombre donné dans la table du Khi-deux à la colonne indiquant le risque de première espèce $\alpha$ et à la ligne indiquant le degré de liberté $\nu =k-1$ . Si le nombre obtenu $\chi ^{2}$ est inférieur au nombre donné dans le tableau, on accepte l'hypothèse $H_{0}$ . Si le nombre $\chi ^{2}$ est supérieur nombre donné dans le tableau, on rejette l'hypothèse $H_{0}$ .

Exemple.

On a effectué le croisement de balsamines blanches avec des balsamines pourpres. On obtient en deuxième génération :

1790 balsamines pourpres.

547 balsamines rose.

548 balsamines blanc lavande.

213 balsamines blanches.

la théorie mendélienne prévoyait :

9/16 de balsamine pourpres.

3/16 de balsamine roses.

3/16 de balsamines blanc lavande.

1/16 de balsamines blanches.

Peut-on accepter l'hypothèse de répartition mendélienne avec un risque de première espèce de 5%.

Réponse.

Notre échantillon contient en tout $1790+547+548+213=3098$ balsamines. Théoriquement, on aurait dû obtenir:

${\frac {9}{16}}\times 3098=1742,625$ balsamines pourpres.

${\frac {3}{16}}\times 3098=580,75$ balsamines rose.

${\frac {3}{16}}\times 3098=580,75$ balsamines blanc lavande.

${\frac {1}{16}}\times 3098=193,625$ balsamines blanche.

Mise en place du test.

Soit $H_{0}$ l'hypothèse : La répartition obtenue est conforme à la répartition mendélienne.

Soit $H_{1}$ l'hypothèse : La répartition obtenue n'est pas conforme à la répartition mendélienne.

si $H_{0}$ est vraie, la variable aléatoire $\chi ^{2}$ qui prend pour valeur :

$\chi ^{2}={\frac {(O_{1}-1742{,}625)^{2}}{1742{,}625}}+{\frac {(O_{2}-580{,}875)^{2}}{580{,}875}}+{\frac {(O_{3}-580{,}875)^{2}}{580{,}875}}+{\frac {(O_{4}-193{,}625)^{2}}{193{,}625}}$

où $O_{1},\,O_{2},\,O_{3},\,O_{4}$ sont les effectifs observés respectivement pour les balsamines pourpres, roses, blanc lavande et blanches, suit une loi du Khi-deux à $4-1=3$ degrés de liberté.

Calculons :

$\chi ^{2}={\frac {(1790-1742{,}625)^{2}}{1742{,}625}}+{\frac {(547-580{,}875)^{2}}{580{,}875}}+{\frac {(548-580{,}875)^{2}}{580{,}875}}+{\frac {(213-193{,}625)^{2}}{193{,}625}}\simeq 7{,}06$ .

Cherchons dans la table du Khi-deux à la ligne $\nu =3$ et à la colonne $\alpha =0{,}05$ . On lit $7{,}81$ . Comme $7{,}06<7{,}81$ , on accepte l'hypothèse $H_{0}$ . La répartition peut donc être considérée comme mendélienne. Les différences observées sont probablement dues aux fluctuations d'échantillonnage.

Échantillonnage et estimation pour le bio-médical

Estimation

Tests d'homogénéité