**Principes généraux**
Recherche : Techniques de régressions au mieux

Chapitre n^o 1
Retour au	Sommaire
Chap. suiv. :	Régressions monômiales et polynômiales

En raison de limitations techniques, la typographie souhaitable du titre, « Techniques de régressions au mieux : Principes généraux
Techniques de régressions au mieux/Principes généraux », n'a pu être restituée correctement ci-dessus.

1 / Principe de décomposition et de sommation paire et impaire des régressions

NOTA : il s'agira en fait de trouver la courbe et l'équation "au plus prés" - sera-ce la plus probable ? à voir et à démontrer -( différente de la courbe de régression classique au sens de la somme minimale des carrés des écarts ).

Il sera préférable et nécessaire de prendre un nombre impair de n couples de données avec n=3+4n et de le centrer. Les valeurs des y seront ramenées relativement à la valeur centrale

Y_{0}

, ce qui donne

yi=Y_{i}-Y_{0}

et donc

y_{0}=0

Tout échantillon dont il faut déterminer la courbe de régression "au plus près " ainsi que son équation sera décomposé en un échantillon impair et un pair dont il sera la somme.

La somme géométrique des courbes de régressions et celle algébrique des équations trouvées donneront la courbe au plus près et l'équation résultantes .

Par itération de la méthode, le résidu sera traité de la même façon. Des exemples illustreront ves différents points. Patience.....

2 / Principe de décomposition et de sommation linéaire des régressions au plus près

Les courbes et équations de régression au plus près de tout échantillon ou de toute partie impaire ou paire d'un échantillon sont décomposables en une combinaison linéaire géométrique de courbes de régression et une somme algébrique de leurs équations dont la résultante sera la moyenne barycentrique.

La démonstration est triviale. La somme des coefficients affectés à chaque composante de la moyenne barycentrique est de 1 dans le cas où il n'y a plus de résidu ( à voir ). Les coefficients seront déterminés en minimisant la somme des carrés des écarts ou en réappliquant la méthode de résolution de systèmes linéaires au plus près.

Seront retenues les combinaisons présentant des totaux de carrés d'écarts admissibles.

3 / Principes du choix des courbes et équations de régression de base

3.1 / Premiers choix de fonctions de régression de base

A / Monômes et combinaisons linéaires ( polynômes ) pairs et impairs ( dont celui du premier degré appelé droite de régression, composé d'une fonction paire - le terme sans variable b - et d'une fonction impaire - monôme du premier degré de la variable ax - )

y=a*x^{2*k+1}

et

y=b*x^{2*k}

B / Sinus et cosinus trigonométriques ainsi que leurs puissances et ainsi que les combinaison linéaires de sinus, respectivement de cosinus .

y=a*sin^{k}(w*x^{h})

et

y=b*(1-cos^{k}(w*x^{h}))

y=a*sin^{2k+1}(w*x^{h})

et

y=b*(1-cos^{2k+1}(w*x^{h}))

C / Sinus et cosinus hyperboliques et combinaison linéaires de sinus, respectivement de cosinus .

y=a*sh^{k}(w*x^{h})

et

y=b*(1-ch^{k}(w*x^{h}))

y=a*sh^{2k+1}(w*x^{h})

et

y=b*(1-ch^{2k+1}(w*x^{h}))

D / Exponentielles simples paires et impaires construites et leurs combinaisons linéaires.

y=a*(1-e^{2k|x|^{h}})

et

y=b*(1-e^{(2k+1)|x|^{h}})

y=signe(x)*a*(1-e^{2k|x|^{h}})

et

y=signe(x)*b*(1-e^{(2k+1)|x|^{h}})

y=a(1-k^{|x|})

et

=a*sign(x)(1-k^{|x|})

E / Tout produit d'une fonction de base simple A B C ou D avec une autre A B C ou D ou avec une exponentielle ammortie aux infinis paire :

e^{-x^{2}h}

.

F / Tout produit de produit E avec une fonction simple A B C D ou E .

G / ETC et toutes autres possibilités avec celle de multiplier aussi par une exponentielle paire ammortie aux infinis.

H / Fonctions de puissances de la totalité des données.

y^{k1}=a*F^{k2}(x^{h})

avec F parmi A B C D E F

I / Analyse des variatons différentielles des données y au lieus des y ( ex pour les fonctions arcs ) et retour à y par intégration.

J / Détermination de y sous la forme d'un développement limité ( ex fonction fraction rationnelle )

3.2 / Principes de pose des systèmes d' équations

Principe du rapport entre le nombre de données de l'échantillon et le nombre de paramètres de l'équation de la courbe de régression

Sélectionner une fonction parmi celles précédentes ( 2 à n paramètres )

Écrire l'équation attendue appliquée à chaque donnée de l'échantillon comme si la courbe passait par le point représentatif. Une explication de ce choix sera donnée. On obtient un système avec, en considérant la moitié de l'échantillon avec des x positifs, plus d'équations que de paramètres à déterminer.

Transformer, par développement et en isolant un monôme de fonction dans un membre et par dégrés croissants, et un produit/fraction dans l'autre membre.

Transformer le demi-système à valeurs de données en x positives en un système d'équations linéaires comportant toujours plus d'équations que d'inconnues. Cette dernière transformation consiste à prendre le logarithme de chaque membre de l'équation.

Application :

yi=f(xi,p1i,p2i)

où n couples (xi,yi) sont connus, f considéré et p1 p2 les deux paramètres à déterminer s'ils existent

Pour è données :

{\begin{cases}y0=f(0,p10,p20)\\y1=f(1,p11,p21)\\y2=f(2,p12,p22)\\y3=f(3,p13,p23)\\\end{cases}}

Avec

y0=O

Qui deviendra après les transformations successives :

{\begin{cases}f1(y2-y0/y1-y0)=f2(p22)f3(2)\\f1(y3-y0/y1-y0,y2-y0/y1-y0)=f2(p23)f3(3)\\\end{cases}}

IL s'agit ensuite de déterminer une "moyenne" de f2(p22) et de f2(p23):

a / moyenne arithmétique :

maf2(p2)=0.5({\frac {f1(y2-y0/y1-y0)}{f3(2)}}+{\frac {f1(y3-y0/y1-y0,y2-y0/y1-y0)}{f3(3)}})

b / moyenne géométrique :

mgf2(p2)={\sqrt {{\frac {f1(y2-y0/y1-y0)}{f3(2)}}\times {\frac {f1(y3-y0/y1-y0,y2-y0/y1-y0)}{f3(3)}})}}

c / moyenne harmonique :

mhf2(p2)={\frac {mgf2(p2)}{maf2(p2)}}

d / moyenne au plus près ou fractionnelle :

mpf2(p2)={\frac {f1(y2-y0/y1-y0)+f1(y3-y0/y1-y0,y2-y0/y1-y0)}{f3(2)+f3(3)}}

e / moyenne barycentrique :

mbf2(p2)=k2{\frac {f1(y2-y0/y1-y0)}{f3(2)}}+k3{\frac {f1(y3-y0/y1-y0,y2-y0/y1-y0)}{f3(3)}}

avec

k2+k3=1

On en déduit différents p2. Ceux-ci seront examinés et retenus ou non selon le phénomène étudié et les tests, en privilégiant la d et la a.

3.3 / Principe de transformation du système pour une résolution du système au plus près

le système d'équations linéaires ainsi obtenu sera résolu par la méthode au plus près afin d'obtenir les paramètres de la première courbe de régression de base.

Voir Trace et transposée de matrice/Résolution au mieux d'un système d'équations insoluble

http://fr.wikiversity.org/wiki/Trace_et_transposée_de_matrice/Résolution_au_mieux_d'un_système_d'équations_insoluble

Le système insoluble est alors ramené à un système comportant autant d'équations que d'inconnues, facile à résoudre.

Dans le cas où cela conduirait à des impossibilité, il faudra choisir plus de données ou éliminer le type de fonction de régression de base, choisie initialement et en choisir une autre. Procéder par élimination.

3.4 / Premiers exemples

Soit un échantillon minimum E de 7 couples de valeurs ( x,y ). (le cas de 5 couples est trop restrictif puisqu’il n'induit qu'un paramètre ).

Le problème consiste à trouver la courbe et l'équation à deux paramètres inconnus à déterminer , passant "au plus près" sans à priori.

E=[(-3,z(-3));(-2,z(-2));(-1,z(-1));(0,z(0));(1,z(1));(2,z(2));(3,z(3))]

et en application

Eapp=[(-3,1);(-2,-2);(-1,1);(0,1);(1,2);(2,1);(3,3)]

3.4.1 / Etape 1 : décomposition en 2 échantillons EI impair et EP pair

EI=[i,{\frac {z(-i)-z(i)}{2}}]

EIapp=[(-3,-1);(-2,-1.5);(-1,-0.5);(0,0);(1,0.5);(2,1.5);(3,1)]

EP=[i,{\frac {z(-i)+z(i)}{2}}]

EIapp=[(-3,2);(-2,-0.5);(-1,1.5);(0,1);(1,1.5);(2,-0.5);(3,2)]

Avec la résultante :

E=EI+EP

Eapp=EIapp+EPapp

EI et EP seront analysés indépendamment.

3.4.2 / Polynôme au plus près

3.4.3 / Harmonique simple au plus près

Il s'agit d'approcher les échantillons EI et EP par une courbe-fonction

y=a*sin(w*x)

pour EI, et une

y=a*(1-cos(w*x))

pour EP.

Analyse de la partie impaire EI

Méthode avec passage par trois points y(-1),y(0)y(1)pour EI à 7 données

Pour EI on vérifie que :

{\begin{cases}y0=a*sin(0w)\\y1=a*sin(1w)\\y2=a*sin(2w)\\y3=a*sin(3w)\\\end{cases}}

sin étant impair, les équations pour x<0 sont vérifiées de fait de l'imparité.

D'où :

{\begin{cases}y2-y0=y1*2cos(w)\\y3-y0=y1*(-1+4cos^{2}(w))\\\end{cases}}

Puis:

{\begin{cases}{\frac {y2}{2y1}}=cos(w2)\\{\frac {1+{\frac {y3}{y1}}}{4}}=cos^{2}(w3)\\\end{cases}}

ET ENFIN :

{\begin{cases}Log({\frac {y2}{2y1}})=Log(cos(w2))\\Log({\frac {y1+y3}{4y1}})=2Log(cos(w3))\\\end{cases}}

D'où par la méthode des moindres carrés :

Log(cos(w))={\frac {2Log({\frac {y2}{2y1}})+Log({\frac {y1+y3}{4y1}})}{4}}

$w=acos(({\frac {y2}{2y1}})^{2}\times {\frac {y1+y3}{4y1}})^{\frac {1}{4}}$

$a={\frac {y1}{sin(w)}}$

Méthode avec pasage par 1 point y(0)pour EI à 7 données

Pour EI on vérifie que :

{\begin{cases}y0=a*sin(0w)\\y1=a*sin(1w)\\y2=a*sin(2w)\\y3=a*sin(3w)\\\end{cases}}

sin étant impair, les équations pour x<0 sont vérifiées de fait de l'imparité.

{\begin{cases}y0=0\\y1=a*sin(w)\\y2=2a*sin(w)*cos(w)\\y3=a*sin(w)*(-1+4cos^{2}(w))\\\end{cases}}

{\begin{cases}y0=0\\y1=a*sin(w)\\y2=2a*sin(w)*cos(w)\\y3=a*sin(w)*(-1+4cos^{2}(w))\\\end{cases}}

ET ENFIN :

{\begin{cases}Log(y1)=Log(a*sin(w))\\Log({\frac {y2}{2}})=Log(a*sin(w))+Log(cos(w))\\Log({\frac {y3+y1}{4}})=Log(a*sin(w))+2Log(cos(w))\\\end{cases}}

D'où , par la méthode de résolution des systèmes linéaires ( 2 inconnues en Log(a*sin(w)) et Log(cos(w)) pour 3 équations ):

$w=({\frac {y1+y3}{4y1}})^{\frac {1}{2}}$

Log(a*sin(w))={\frac {Log(y1^{5}*{\frac {y2}{2}}*{\frac {y1+y3}{4}})}{3}}

$a={\frac {(y1^{5}*{\frac {y2}{2}}*({\frac {y1+y3}{4}})^{-3})^{\frac {1}{3}}}{sin(w)}}$

Le résidu ( échantillonnage - sinusoïde calculée )sera traité par une sinusoïde si possible sinon il faudra considérer la suite.

S'il n'y a pas de solution vu les conditions de signe, on envisagera de considérer 9 données ou de tester un autre type de fonction impaire que la sinusoïde. On peut aussi considérer un nombre impair quelconque de données dès le départ mais il vaut mieux travailler par plages pour voir l'évolution des données.

Analyse de la partie paire EP

Méthode avec passage par trois points y(-1),y(0)y(1)pour EP à 7 données

Pour chaque couple de EP, on vérifie que :

{\begin{cases}y0=a*(1-cos(0w))\\y1=a*(1-cos(1w))\\y2=a*(1-cos(2w))\\y3=a*(1-cos(3w))\\\end{cases}}

sin étant pair, les équations pour x<0 sont vérifiées de fait de la parité.

D'où :

{\begin{cases}y0=0\\y2=2y1*(1+cos(w_{2}))\\y3=y1*(1+4cos(w_{2})+4cos^{2}(w_{2}))\\\end{cases}}

Puis:

{\begin{cases}{\frac {y2-2y1}{2y1}}=cos(w_{2})\\{\frac {y3+3y1-2y2}{4y1}}=cos^{2}(w_{3})\\\end{cases}}

ET ENFIN :

{\begin{cases}Log({\frac {y2-2y1}{2y1}})=Log(cos(w_{2}))\\Log({\frac {y3+3y1-2y2}{4y1}})=2Log(cos(w_{3}))\\\end{cases}}

D'où :

Log(cos(w))={\frac {Log({\frac {y3+3y1-2y2}{4y1}})+2Log({\frac {y2-2y1}{2y1}})}{4}}

$w=acos(({\frac {y3+3y1-2y2}{4y1}}\times ({\frac {y2-2y1}{2y1}})^{2})^{\frac {1}{4}})$

$a={\frac {y1}{1-cos(w)}}$

Méthode avec passage par un point y(0)pour EP à 7 données

Pour chaque couple de EP ,on vérifie que :

{\begin{cases}y0=a*(1-cos(0w))\\y1=a*(1-cos(1w))\\y2=a*(1-cos(2w))\\y3=a*(1-cos(3w))\\\end{cases}}

sin étant impair, les équations pour x<0 sont vérifiées de fait de l'imparité.

{\begin{cases}y0=0\\y1=a*(1-cos(w))\\y2=a*(1-(2cos^{2}(w)-1))\\y3=a*(1-(4cos^{3}(w)-3cos(w)))\\\end{cases}}

{\begin{cases}y0=0\\y1=a*(1-cos(w))\\y2=2*a*(1-cos(w))(1+cos(w))\\y3=a*(1-cos(w))(1+4cos(w)+4cos^{2}(w))\\\end{cases}}

d'où :

1+4cos(w)=1+4({\frac {y2}{2y1}}-1)={\frac {-3y1+2y2}{y1}}

ET ENFIN :

{\begin{cases}Log(y1)=Log(a*(1-cos(w)\\Log({\frac {y2-2y1}{2}})=Log(a*(1-cos(w))+Log(cos(w))\\Log({\frac {y3+3y1-2y2}{4}})=Log(a*(1-cos(w))+2Log(cos(w)))\\\end{cases}}

D'où , par la méthode de résolution des systèmes linéaires ( 2 inconnues en Log(a*sin(w)) et Log(cos(w)) pour 3 équations ):

$w=({\frac {7y1+y3-2y2}{4y1}})^{\frac {1}{2}}$

Log(a*(1-cos(w))={\frac {Log(y1^{5}*{\frac {y2-2y1}{2}}*({\frac {7y1+y3-2y2}{4}})^{-3})}{3}}

$a={\frac {(y1^{5}*{\frac {y2-2y1}{2}}*({\frac {7y1+y3-2y2}{4}})^{-3})^{\frac {1}{3}}}{1-cos(w)}}$

Le résidu ( échantillonnage - valeur centrale - ( 1-cosinusoïde calculée) )sera traité par une (1-cosinusoïde ) , si possible , sinon il faudra considérer la suite.

S'il n'y a pas de solution vu les conditions de signe, on envisagera de considérer 9 données ou de tester un autre type de fonction paire que la 1-cosinusoïde. On peut aussi considérer un nombre impair quelconque de données dès le départ mais il vaut mieux travailler par plages pour voir l'évolution des données.

......

_______

Détermination de la courbe et fonction de régression finale résultante

Principe de calcul de la régression sans écart

Techniques de régressions au mieux

Sommaire

Régressions monômiales et polynômiales