En raison de limitations techniques, la typographie souhaitable du titre, « Annexe : Tableaux Corrélation entre les codons dans les gènes de protéines/Annexe/Tableaux », n'a pu être restituée correctement ci-dessus.
Le contenu en GC (%GC) de 80 bactéries sont tirés des tableaux numériques de l'article "répétition des bases dans l'ADN des procaryotes". Pour la cyanobactérie synd voir dans cyanobactérie de la même annexe.
récupération des contenus en GC (%GC) des résultats du chapitre précédent.
Création de la colonne %AT (100-%GC)
Somme de tous les codons (codons stops compris) d'une bactérie donnée, colonne aas. La colonne Trp isole les tga donnant du Trp, des tga donnant des stops.
Moyenne des aas par bactérie: 6 550 aas par bactérie, avec un écart type de 304.
Le nombre de codons est calculé d'après les équations des courbes de tendance pour caractériser chaque codon par un maximum de la courbe et, s'il n'existe pas (équation du second degré sans solution), par la valeur à 75% GC ou AT.
Ces constantes sont relevées à la main parce que le format de l'équation dans Libreoffice/calc est une image. Ces équations sont représentées dans les diagrammes.
C'est la solution qui annule la dérivée de l'équation de degré 3. C'est une équation du second degré qui quelque fois n'a pas de solution. Mais quand il y en a 1 ou 2 solutions, une seule est valable et doit être supérieure à 50 et inférieur à 100 %GC ou %AT. J'ai éliminé les abscisses supérieures à 90% pour tenir compte des valeurs extrêmes trouvées chez les bactéries étudiées.
La fonction dans calc est: "=(-2*P345-RACINE(((2*P345)^2)-12*O345*Q345))/(6*O345)" où P345 désigne la cellule de la 2ème constante, O345 la 1ère et Q345 la 3ème.
Il est calculé avec l'équation du diagramme: "=P387*(O345*P387^2+P345*P387+Q345)" voir abscisse ci-dessus et P387 étant la cellule de l'abscisse (%AT ou %GC)
Caractérisation des codons par les courbes et les coefficients de corrélation
Tableau partiel pour illustration. Pour repérer les queues, dans le tableau des calculs des écarts, il suffit de copier le format seul du tableau des courbes théoriques après avoir coloré le fond des cellules de queue. Les moyennes des codons sont celles calculées dans le tableau des diagrammes.
Totalité du tableau à copier dans un tableur. Largeur de colonne 1,3 cm.
111 bactéries: Caractérisation des codons . Moyenne des écarts, moyenne des codons, queues,
Les valeurs présentées ici sont les coefficients de corrélation X 100. La corrélation entre 2 codons est celle de 2 colonnes du tableau des diagrammes normalisé. Pour obtenir les valeurs absolues il suffit de copier ce tableau (largeur de colonne 1,3 cm) et de remplacer le moins (-) par rien. Pour extraire le maximum d'une colonne il suffit de remplacer 100 par rien (format sans décimales et option de recherche 'cellule entière').
Légende:
moyenne : moyenne des corrélations en valeurs absolues d'un codon.
>74 : nombre de corrélations en valeurs absolues d'un codon supérieures à 0.74.
>79 : nombre de corrélations en valeurs absolues d'un codon supérieures à 0.79.
max : corrélation maximum parmi les valeurs absolues des corrélations d'un codon.
Les valeurs de la légende sont utilisées dans le tableau synthétique des aas et des codons
Le paramètre R2 est le coefficient de détermination des courbes de tendance. Pour comparaison avec le paramètre écart.
Le paramètre queue a été déterminé à partir des courbes calculées à partir des coefficients du polynôme de degré 3 du diagramme de chaque codon. Voir le tableau de ces calculs. Il est exprimé ici en nombre de bactéries dont les effectifs des codons sont nulles ou très faibles au début des abscisses, voir le tableau de la 1ère détermination de ces queues avec des effectifs qui ne dépassent pas 3% du total. Sur 32 queues de longueur supérieure à 4, 5 seulement ont des effectifs qui dépassent 1% du total.
Le paramètre écart est l'équivalent du R2 mais calculé pour les effectifs sans la queue du codon. C'est la moyenne des différences, en valeur absolue et en % par rapport à la valeur théorique, entre cette valeur théorique et l'effectif compté du codon. Quand une différence est très élevée à cause d'un effectif théorique très faible, elle est ignorée et la queue rallongée. Voir le tableau de ces calculs.
Le paramètre abscis est l'abscisse du maximum de la courbe de tendance. Il est exprimé en %GC ou %AT. Voir le tableau de ces calculs. Pour les courbes sans maximum l'abscisse 75% (AT ou GC) est utilisée pour comparaison. Quand l'abscisse du maximum dépasse 75% elle est seulement indiquée sous la forme 75/xx où xx est l'abscisse en question.
Le paramètre moyen, pour moyenne, est la moyenne du codon sur les 111 bactéries. C'est la somme des effectifs d'un codon divisé par 111.
La colonne %: c'est le pourcentage d'un codon dans la constitution de son acide aminé.
Le paramètre max est l'ordonnée de l'abscisse abscis. C'est le maximum de la courbe ou la valeur pour l'abscisse 75% quand ce maximum n'existe pas ou si son abscisse est supérieure à 75%.
La colonne %moy c'est le rapport max/moyen dans le but de normaliser les courbes.
La colonne cor>79 correspond au nombre de corrélations supérieures à 0.79 pour un codon donné avec les autres codons (l'identité exclue).
La colonne cor tot correspond à la moyenne des corrélations d'un codon avec les autres codons. Cette moyenne est reportée en fin du tableau des corrélations.
111 bactéries. Caractérisation des codons par leurs diagrammes et leurs coefficients de corrélation.
codon
R2
écart
queue
Moyen.
%
abscis
max
%moy.
Cor>79
cor tot
act
891
38
14
68
21
75/82
137
200
10
64,1
acc
932
30
8
121
37
75
238
196
17
66,0
aca
884
38
18
65
20
75/78
129
198
6
63,0
acg
832
38
4
71
22
69
110
155
0
48,4
325
gct
911
30
9
108
22
66
170
156
4
56,8
gcc
931
28
9
164
33
75
405
247
17
66,9
gca
929
30
6
91
19
67
141
155
6
59,2
gcg
882
35
5
126
26
75
287
228
3
59,5
490
gtt
944
28
8
132
28
68
211
160
11
62,7
gtc
916
32
4
118
25
75
328
278
7
62,9
gta
888
45
13
84
18
70
143
171
0
58,4
gtg
907
39
5
137
29
70
236
172
0
60,1
471
ggt
900
30
0
142
31
63
183
129
0
39,6
ggc
956
42
0
169
37
75
419
248
28
68,6
gga
847
42
9
88
19
75/78
157
178
2
56,0
ggg
710
42
0
54
12
64
70
131
0
26,8
453
tta
925
47
35
120
20
75
389
324
13
61,2
ttg*
765
43
5
81
13
60
119
147
0
26,6
ctt
805
47
10
97
16
63
153
158
0
39,2
ctc
839
44
12
104
17
75
289
278
4
60,0
cta
756
46
20
30
5
71
54
183
0
51,5
ctg
878
38
16
180
30
71
357
198
6
61,9
611
agt
876
43
16
38
11
75/86
78
205
7
62,3
agc
857
37
0
55
16
61
75
136
0
42,6
tct
876
37
19
69
20
75
137
200
7
62,5
tcc
868
37
4
66
20
67
107
162
0
54,8
tca
893
38
19
50
15
75
120
240
12
63,5
tcg
853
43
4
58
17
75
138
236
3
58,2
336
aga
715
64
31
60
16
75
150
251
1
53,2
agg*
308
92
10
24
6
59
36
148
0
13,5
cgt
736
51
0
103
27
56
134
131
0
18,2
cgc
938
28
19
132
34
75
359
272
17
66,6
cga
571
66
0
20
5
61
28
136
0
22,4
cgg
699
56
20
44
12
75
131
297
0
48,5
383
111 bactéries. Caractérisation des codons par leurs diagrammes et leurs coefficients de corrélation.
Voir l'article pour la définition des paramètres pour l'établissement des matrices du paramètre diag. Ces paramètres sont donnés avant la matrice pour être utilisés dans un tableur.
écart: C'est la moyenne des différences, en valeur absolue et en % par rapport à la valeur théorique, entre cette valeur théorique et l'effectif compté du codon. Voir le tableau de ces calculs.
q3: C'est la cotation du paramètre queue, nombre de bactéries, en continu, ayant des effectifs faibles ou nuls. Le tableau des cotations pour les paramètres q3 et a3 donne la correspondance entre le %AT ou le %GC et le rang de la dernière bactérie de la queue avant le décollage de la courbe. Voir le tableau de ces calculs.
a3: Cotation du paramètre abscis, abscisse du maximum de la courbe de tendance. Il est exprimé en %GC ou %AT. Voir le tableau de ces calculs. Le tableau des cotations pour les paramètres q3 et a3 donne la correspondance entre a3 et abscis.
moyen.: pour moyenne, est la moyenne des effectifs du codon sur les 111 bactéries. En tant que moyenne ce paramètre n'a pas de sens biologique, car que veut dire l'absence d'un codon pour une bactérie donnée? Par contre la somme des effectifs correspond en mathématique à l'intégrale d'une courbe continue.C'est une caractéristique mathématique du diagramme. Voir calculs.
cor>79: nombre de coefficients du codon supérieurs à 79; pour illustration. Voir le tableau des coefficients.
cor tot: corrélation moyenne, moyenne des valeurs absolues des coefficients (multipliés par 100) du codon; pour illustration. Voir calculs.
Matrice de calcul du paramètre diag %AT (diagramme)
Le paramètre diag est la somme des différences entre 2 codons, en valeur absolue et en %, des paramètres e, q3, a3 et moyen. Ici écart=e, queue=q3 et abscis=a3 (Voir l'introduction). Son calcul est le suivant:
Le paramètre diag est la somme des différences entre 2 codons, en valeur absolue et en %, des paramètres e, q3, a3 et moyen. Ici écart=e, queue=q3 et abscis=a3 (Voir l'introduction). Son calcul est le suivant:
Ces 30 parallèles sont faits pour les couples dont le paramètre diag est inférieur à 100. Le paramètre cor est tiré du tableau des corrélations et les autres paramètres sont ceux du tableau synthétique.
diag/cor la 1ère ligne indique la valeur de diag la 2ème, la corrélation entre les 2 codons du parallèle.
Nota: ici l’abscisse du maximum peut aller jusqu'à 86% AT car les bactéries peuvent atteindre ce taux. Quand la courbe de tendance n'a pas de maximum c'est ce taux qui est indiqué. Si le maximum a exactement 86% alors c'est indiqué sous la forme */86.
Les 2 tableaux non formatés du 15.3.17
111 bactéries: Caractérisation des codons . Parallèle diagramme %AT / coefficient de corrélation. 2/2.
codon
écart
queue
Moyen.
abscis
Cor>79
cor tot
diag/cor
tca
38
19
50
86
12
63,5
64
tgt
37
19
27
86
5
57,8
62
gta
45
13
84
70
0
58,4
64
ctt
47
10
97
63
0
39,2
49
tgt
37
19
27
86
5
57,8
66
agt
43
16
38
86
7
62,3
72
cct
32
8
65
68
11
63,0
70
cat
30
10
59
73
6
60,0
74
ttg*
43
5
81
60
0
26,6
71
gca
30
6
91
67
6
59,2
36
gca
30
6
91
67
6
59,2
71
cct
32
8
65
68
11
63,0
79
cca
39
19
58
74
3
60,2
71
aca
38
18
65
78
6
63,0
75
gtt
28
8
132
68
11
62,7
76
gca
30
6
91
67
6
59,2
83
cca
39
19
58
74
3
60,2
78
cat
30
10
59
73
6
60,0
62
tat
22
11
116
86
20
66,2
78
aat
35
15
133
86
10
58,9
92
tct
37
19
69
86
7
62,5
79
act
38
14
68
82
10
64,1
79
att
30
9
168
86
13
63,2
79
aat
35
15
133
86
10
58,9
85
gtt
28
8
132
68
11
62,7
82
cct
32
8
65
68
11
63,0
81
gta
45
13
84
70
0
58,4
87
caa
36
14
89
80
12
63,3
65
ata
80
31
84
86
0
44,3
95
tta
47
35
120
86
13
61,2
62
111 bactéries: Caractérisation des codons . Parallèle diagramme %AT / coefficient de corrélation. 1/2.
Ces 30 parallèles sont faits pour les couples dont le paramètre diag est inférieur à 100. Le paramètre cor est tiré du tableau des corrélations et les autres paramètres sont ceux du tableau synthétique.
diag/cor la 1ère ligne indique la valeur de diag la 2ème, la corrélation entre les 2 codons du parallèle.
Nota: ici l’abscisse du maximum peut aller jusqu'à 75% GC car les bactéries peuvent atteindre ce taux. Quand la courbe de tendance n'a pas de maximum c'est ce taux qui est indiqué. Si le maximum a une abscisse supérieure à 75% alors cette abscisse est indiquée sous la forme */xx où xx est l'abscisse en question. Cela reste une caractéristique de la courbe même si biologiquement cette abscisse n'est pas atteinte.
Tableaux non formatés du 15.3.17
111 bactéries: Caractérisation des codons . Parallèle diagramme %GC / coefficient de corrélation. 2/2.
codon
écart
queue
Moyen.
abscis
cor>79
cor tot
diag/cor
gag
30
0
226
75
6
61,7
51
gac
20
0
202
75
27
69,4
81
ttc
22
0
125
75
25
67,8
54
atc
26
2
181
73
11
63,8
89
tac
25
0
107
75/83
8
60,1
54
atc
26
2
181
73
11
63,8
66
ggc
42
0
169
75
28
68,6
55
atc
26
2
181
73
11
63,8
84
ttc
22
0
125
75
25
67,8
56
gac
20
0
202
75
27
69,4
91
ggc
42
0
169
75
28
68,6
62
gag
30
0
226
75
6
61,7
73
ggc
42
0
169
75
28
68,6
63
aag
27
0
202
75/85
1
56,8
68
tga*
104
−
2
75
1
44,8
66
tag
129
−
1
75
0
9,3
11
gtg
39
5
137
70
0
60,1
66
gcg
35
5
126
75
3
59,5
69
tac
25
0
107
75/83
8
60,1
67
aag
27
0
202
75/85
1
56,8
77
tac
25
0
107
75/83
8
60,1
67
cac
20
0
70
75
19
66,2
92
ttc
22
0
125
75
25
67,8
67
cac
20
0
70
75
19
66,2
87
gcg
35
5
126
75
3
59,5
67
ccg
40
8
101
75/82
7
61,3
89
ttc
22
0
125
75
25
67,8
67
aag
27
0
202
75/85
1
56,8
80
gtc
32
4
118
75
7
62,9
71
ccg
40
8
101
75/82
7
61,3
75
111 bactéries: Caractérisation des codons . Parallèle diagramme %GC / coefficient de corrélation. 1/2.
écart*: moyenne des écarts de l'aa calculée ci-dessus
ax et cte: de l'équation de la courbe de tendance linéaire, "effectif de l'aa" = ax+cte. À calculer à partir du tableau des diagrammes des aas. Le signe de ax indique le sens de la variation de l'aa.
Les bactéries zin et crp sont extrêmes, ce qui fait que le Maximum et le minimum sans eux ne concernent que 109 bactéries et avec les écart* faibles, le rapport M/m (Maximum sur minimum) reflète mieux la courbe de tendance linéaire.
Les valeurs présentées ici sont les coefficients de corrélation X 100. La corrélation entre 2 aas est celle de 2 colonnes du tableau des diagrammes des aas. Pour obtenir les valeurs absolues il suffit de copier ce tableau (largeur de colonne 1,3 cm) et de remplacer le moins (-) par rien. Pour extraire le maximum d'une colonne il suffit de remplacer 100 par rien (format sans décimales et option de recherche 'cellule entière').
Légende:
moyenne : moyenne des corrélations en valeurs absolues d'un aa.
>74 : nombre de corrélations en valeurs absolues d'un aa supérieures à 0.74.
>79 : nombre de corrélations en valeurs absolues d'un aa supérieures à 0.79.
max : corrélation maximum parmi les valeurs absolues des corrélations d'un aa.
Les valeurs de la légende sont utilisées dans le tableau synthétique des aas et des codons
>74−79 : nombre de corrélations d'un aa supérieures à 0.74 − dont corrélations supérieures à 0.79.
max : corrélation maximum d'un aa.
Corrélations entre codons
t,c,a,g,t/c,a/g : terminaison des codons (t/c pour t ou c), pour lesquels on a la moyenne "moy" sous moyt (comme pour les aas) et le nombre ">74−79" sous >74−79t (comme pour les aas).
moyt : total des moyennes "moy" des codons d'un aa.
>74−79t : total des nombres ">74−79" des codons d'un aa.
0-70 : pour un codon, zéro corrélations supérieures à 0.74 − avec une corrélation maximale (en valeur absolue) de 0.70.
stop : les codons stops. Les codons taa et tga ont une seule corrélation supérieure à 0.74 et c'est celle entre eux. Elle est négative (*). Sont indiqués aussi le maximum de tag et les maxima de taa et tga en dehors de leur corrélation de -0.802.
Résumés :
moyn : nombre des moyennes "moy" pour une gamme donnée en en-tête de la colonne.
74n : nombre des nombres ">74−79" pour une gamme donnée en en-tête de la colonne.
74t : total des corrélations supérieures à 0.74 seulement, des codons d'un aa.
moyt : déjà défini dans codons
%total: 20 aas et 61 codons (pour les aas).
Résumé III: La corrélation entre aas traduit peu la corrélation qui existe entre codons. Ainsi
Les aas à un codon, M W, sont peu corrélés avec les autres aas et peu corrélés avec les autres codons;
Les aas, A F I P V Y, sont très corrélés avec les autres aas et leurs codons sont très corrélés avec les autres codons;
Les aas, G K N R, sont très corrélés avec les autres aas et leurs codons sont peu corrélés avec les autres codons;
Les aas, C D E H L Q S T, sont peu corrélés avec les autres aas et leurs codons sont très corrélés avec les autres codons.
111 bactéries: Caractérisation des aas . Coefficients de corrélation codons / aas.
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
aas
moy
61
20
51
26
59
62
40
65
64
13
35
62
60
32
56
31
46
58
38
55
>74−79
7−7
0
1−0
0
7−5
9−9
0
9−9
9−9
0
0
9−9
9−8
0
8−7
0
0
7−6
0
7−7
max
38
74
56
66
35
54
54
57
67
68
codons
moyt
242
111
135
120
131
191
126
171
119
300
19
116
238
130
222
344
242
244
43
126
t
57
58
66
-
64
40
60
63
-
39
-
59
63
-
18
63
64
63
-
66
c
67
53
69
-
68
69
66
64
-
60
-
58
54
-
67
55
66
63
-
60
a
59
-
-
58
-
56
-
44
63
51
-
-
60
63
22
64
63
58
-
-
g
59
-
-
62
-
27
-
-
57
62
19
-
61
66
49
58
48
60
43
-
t/a
61
53
62
c/g
27
13
43
>74−79t
62−30
8−5
65−48
25−10
56−40
40−30
44−25
50−24
28−12
47−23
0−0
27−18
51−22
50−33
33−18
75−29
76−33
65−18
0−0
48−28
t
7 −4
8−5
28−21
-
22−15
0-70
14 −6
23−13
-
0-69
-
13−10
21−11
-
0-70
16 −7
25 −10
19−11
-
31−20
c
33−17
0-72
37−27
-
34−25
33−28
30−19
26−11
-
9 −4
-
14 −8
1 −1
-
29−17
4 −76
30−17
24 −7
-
17 −8
a
13 −6
-
-
8 −4
-
6 −2
-
1 −76
20−11
0-69
-
-
12 −3
21−12
0-46
27−12
21 −6
10 −78
-
-
g
9 −3
-
-
17−6
-
1-75
-
-
8 −1
20 −6
0-55
-
17 −7
29−21
1 −75
8 −3
0-73
12 −77
0-72
-
t/a
18−13
2 −1
20 −7
c/g
0-52
0-43
0-65
Stop
max
suivant
max
taa
80*
60
tag
48
tga
80*
62
* taa/tga=
-80.2
I
Résumés
codons
>27
26-12
10-6
4-0
codons
>58
57-51
<49
aas
7-9
1
0
aas
>58
57-51
<49
74n
11
23
9
18
moyn
40
8
13
74n
10
1
9
moyn
8
3
9
II
+faibles
74n
%total
moyn
%total
+forts
74n
%total
moyn
%total
gamme
<3
<33
>12/7
>54
codons
17
28 %
6
10 %
34
56 %
45
74 %
aas
10
50 %
5
25 %
10
50 %
10
50 %
III
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
aas
>74
7
1
7
9
9
9
9
9
8
7
7
moy
61
20
51
26
59
62
40
65
64
13
35
62
60
32
56
31
46
58
38
55
codons
74t
62
8
65
25
56
40
44
50
28
47
0
27
51
50
33
75
76
65
0
48
moyt
242
111
135
120
131
191
126
171
119
300
19
116
238
130
222
344
242
244
43
126
Repartition des fréquences de corrélation des aas et des codons
Les effectifs ou fréquence (fr) sont comptés à partir des matrices des coefficients de corrélation des aas et des codons. La matrice est formatée sans décimales et copiée dans 'writer'. L'effectif d'une corrélation donnée (exemple 3) est affiché (18) quand on exécute la recherche sur la matrice de cette corrélation avec l'option 'tout rechercher'.
Légende :
cor : corrélation
fr : fréquence
Les diagrammes: Repartition des corrélations codons et aas. Dans le même tableau de diagrammes: Fréquences des corrélations entre codons, Répartition des corrélations entre codons, Fréquences des corrélations entre aas, Répartition des corrélations entre aas
Fréquences des corrélations entre codons (multipliées par 100).
Fréquences des corrélations entre aas (multipliées par 100).
Tableaux triés des corrélations des aas et des codons entre eux
Image du tableau formaté: Un tableau de cette taille formaté avec wikipédia serait très compliqué à faire. Aussi j'ai opté de prendre une image de ce tableau formaté sous le tableur calc de LibreOffice.
Construction: 3 lignes-colonnes sont ajoutées pour trier les codons. La L-C "ordre original" sert à retrouver l’ordre de la matrice des corrélations entre codons. Elle est numérotée de 1 à 64 de façon progressive sur cette matrice. Les 2 autres L-C "ordres optimisés" séparent les numéros des codons se terminant par "a,t" (en incluant agg, ttg et en excluant tga) des numéros des codons se terminant par "g,c" (en procédant de façon inverse pour agg, ttg et tga).
Tri sur les valeurs les plus élevées des corrélations: les numéros des 2 L-C sont obtenus par estimation de l'ordre des codons suivant le classement de leurs corrélations positives avec les autres codons. Le tableau final est optimisé pour avoir des groupes de codons fortement corrélés entre eux, les plus grands possibles. Voici ci-dessous les ordres estimés et optimisés obtenus, à recopier dans un tableur. Les codons ayant beaucoup de corrélations alternées, positives et négatives, ne sont pas inclus, c'est-à-dire atg, tag, ctg, agg. Les tris ne concernent alors que 2 carrés à corrélations positives de 29X29 codons.
Légende:La conformation moyenne des 6 protéines étudiées peut être représentée par les moyennes des aas calculées dans le tableau des diagrammes des aas. Pour chaque bactérie j'ai fait le diagramme "moyenne de l'aa" /"effectif de son aa correspodant"; La conformation moyenne des 6 protéines pour cette bactérie peut être alors représentée par les 3 paramètres de la droite de tendance de ce diagramme. À savoir:
R2: coefficient de détermination de la droite (ici multiplié par 100)
a: la pente de la droite (ici notée ax).
b: la constante de la droite.
Les 3 paramètres sont reportés tels quels en fonction du contenu en GC (%GC) des bactéries dans les diagrammes des chapitres suivants.
La conformation des gènes des 6 protéines est étudiée de la même manière qu'avec les aas, mais ici je considère les 64 codons d'après le tableau des diagrammes des codons.
Dans le chapitre des exemples qui suit sont représentés 12 tableaux de ces diagrammes.
Ce diagramme est l'équivalent de celui des aas car il réunit tout les codons. Les 2 diagrammes sont cependant très différents par la grande variance de R2 avec les codons, somme de 2 variances opposées que sont celle des triplets bbc,g et celle des bbt,a, et une très faible variance de R2 avec les aas, nécessaire au maintient des fonctions de ces 6 protéines.
Conformation des protéines par le nombre de codons bbc,g
Base de données des tRNAs [1], gtRNAdb. Pour vin amo ssm opr age fbt cad sbw mcac j'ai utilisé la base de données KEGG [2]: fournir les 3 lettres du génome dans organism. Puis cliquer successivement sur Assembly, Genome et RefSeq. Ctrl+F: tRNA-Arg . . .
Légende:
colonne tRNA/8: les 8 aas à 4 et 6 codons ayant 1 seul codon avec tRNA pour le carré à 4 codons (ct pour L par exemple). Pour réduire la notation sont indiqués en 1er les aas à 4 codons suivis de ceux à 6 codons. S'il y a un seul aa avec plus d'un codon à tRNA, cet aa est noté avec le signe −.
−G *: R n'a aucun tRNa pour les 4 codons cg (ceci pour *) et G a plus d'un codon à tRNA. Donc APTV ont 1 seul codon à tRNA et SL en ont plus de 1 pour leur carré.
−G SR*: L n'a aucun tRNa pour les 4 codons ct (ceci pour *) et G a plus d'un codon à tRNA. Donc APTV et SR ont 1 seul codon à tRNA pour leur carré.
5 SRL, tRNA/8: Les 5 aas à 4 codons et SRL ont 1 seul codon à tRNA.
Colonne >2: les 8 aas à 4 et 6 codons ayant plus de 2 codons à tRNA pour le carré à 4 codons (ct pour L par exemple). Pour réduire la notation sont indiqués en 1er les aas à 4 codons suivis de ceux à 6 codons. S'il y a un seul aa avec 2 codons à tRNA, cet aa est noté avec le signe −.
8: APTVG et SRL ont plus de 2 codons à tRNA.
T S: T et S ont plus de 2 codons à tRNA.
−V −S: APTG et RL ont plus de 2 codons à tRNA.
GT* SL: GSL ont plus de 2 codons à tRNA et T en a 4 (pour *).
Colonne 2: Les aas KEQ à 2 codons peuvent avoir les 2 codons avec tRNA. Les codons tta et ttg de L ont dans la majorité des cas un tRNA chacun, de même pour aga et agg de R. Pour S le codon agt n’a pratiquement jamais de tRNA alors que agc en a toujours. Donc S sera absent dans cette colonne.
3RL: KEQ et RL ont 2 codons à tRNA.
KRL: ces 3 aas ont 2 codons à tRNA.
W C I : Les codons tgg et tga, tgt et tgc, ata ont chacun un tRNA.
Les tRNAs des 111 bactéries
KEGG
%GC
tRNA
tRNA/8
>2
2
KEGG
%GC
tRNA
tRNA/8
>2
2
KEGG
%GC
tRNA
tRNA/8
>2
2
KEGG
%GC
tRNA
tRNA/8
>2
2
zin
13.5
25
−G SR*
0
0
lat
36.3
44
P
T SL
KQR
ype
47.6
70
0
G L
KQRL
ret
61.3
50
0
GPTSL
3R
crp
16.6
28
−G *
0
0
bbd
36.8
39
V
0
RL
amo
48.0
48
0
8
3RLW
sus
61.9
51
0
8
3RL
hcr
22.5
28
5 SRL
0
L
liv
37.1
67
AP
T S
RL
pgi
48.3
53
V
GPT L
KQRL
saci
62.3
68
0
8
3RLC
mcac
23.7
30
−T SRL
0
KL
hmr
37.5
48
0
8
3RL
mah
48.7
45
0
T SL
RL
smk
62.7
57
0
-V −R
3RL
ssdc
24.2
34
AP
L
KRL
tde
37.9
44
0
APTSL
3RL
ssm
49.0
48
0
8
3RL
dvl
63.0
68
0
−R
KQRL
sbw
25.1
35
AP
L
KRL
spi
38.3
63
APV
0
KRL
eal
49.7
85
0
GPTSL
QRL
ddr
63.4
48
0
−R
KQRL
uur
25.5
30
−G SL
0
KL
vpr
38.6
48
APV
G S
KRL
lfc
50.0
52
0
8
3RL
tai
63.8
50
0
8
3RL
ple
26.2
33
AP
S
0
chp
39.1
38
0
T SL
RL
eco
50.8
87
0
GPTSL
QRL
gau
64.3
48
0
−R
3RL
smf
26.3
39
5 SRL
0
KL
spl
39.1
143
0
0
RL
sbz
51.3
86
0
GPTSL
QRL
xcb
65.0
55
0
−R
3RL
fnc
27.1
47
−G SL
0
KRL
tsu
39.2
48
0
−V−S
3RL
bvs
51.7
62
V
GPTSL
3RL
rru
65.5
55
0
−R
3RL
bfl
27.4
37
AP
T SL
KRL
nis
39.7
45
0
T
RL
sty
52.1
79
0
GPTSL
QRL
dpt
66.2
46
0
−G−R
KQRL
cbl
28.3
81
APV
G
3RL
cmn
40.3
37
0
TSL
L
tpas
52.8
45
0
−G
3RL
pae
66.6
63
0
GPTSL
RL
rip
28.5
33
AP
0
RL
nse
41.1
33
AP
0
RL I
apt
53.0
57
0
−R
KQL
roa
67.4
52
0
−R
3RL
rpr
29.0
33
P
T
0
cta
41.3
37
0
TSL
L
caa
53.6
46
0
GPTSL
KRL
bmv
68.2
56
0
−R
KR
pub
29.7
32
AP L
0
L
hhd
41.8
67
P
0
RL
cgq
54.2
58
0
−A−R
3RL
tos
68.6
52
0
−R
3RL I
cad
29.9
81
APV
0
LW
gva
42.0
45
0
−P−R
3RL
dal
54.5
56
0
−R
3RL
vin
68.9
49
0
8
3RL
cje
30.6
43
P
0
RL
cbd
42.4
42
0
GPTSL
KERL
eno
55.1
83
0
GT L
QRL
age
69.5
81
0
8
3RL
pmh
31.1
40
0
T S
RL
bae
43.2
75
P
0
RL
mcu
55.4
46
0
−R
3RL
opr
70.0
46
0
−R
3RL
tme
31.4
50
0
8
3RL
aae
43.5
44
0
GPTSL
KRL
din
56.1
37
0
P L
RL
mts
70.3
46
0
−R
3RL
sep
32.1
59
APV
0
L
bsu
43.5
54
P
L
RL
say
56.8
53
0
8
3RL
sma
70.7
71
0
−R
3RL
hhl
32.5
44
0
0
RL
hth
44.0
44
0
−R
KRL
bmf1
57.2
55
0
−R
3RL
amd
71.3
52
0
−R
3RL
cff
33.3
41
P
0
KERL
lpl
44.5
73
V
GT*SL
3RL
kpn
57.5
86
0
GPTSL
QRL
sho
72.0
73
0
−R
3RL
ial
33.9
45
0
−V
3RL
pdi
45.1
82
0
GPTSL
3RL
aba
58.4
46
0
8
3RL
sgr
72.2
67
0
−R
3RL
ljf
34.5
55
AV R
GT*SL
3RL
ppoy
45.5
109
0
T SL
KL
dba
58.7
64
0
8
3RL
cmi
72.7
45
0
−R
3RL
dte
34.9
43
0
TSL
RL
tma
46.3
46
0
8
3RL
synd
59.1
46
0
−R
RL
salb
73.3
66
0
−R
3RL
lla
35.3
63
APV
TSL
KRL
sbn
46.3
105
0
L
RL
pgd
59.6
60
0
−A−R
RL
ksk
74.2
78
0
−R
3RL
axl
35.7
55
P
0
L
fbt
46.5
47
V
L
RL
pac
60.0
45
0
−R
3RL
ade
74.9
49
0
8
3RL
thl
36.0
62
AV
GT SL
KRL
tli
47.1
48
0
8
3RL
bla
60.5
52
0
−R
3RL
Tableau non formaté: voir tableur
Récapitulatif
Nombre de bactéries (sur 111) ayant au moins un tRNA par codon
Légende: Décompte du 10.04.19 des 101 bactéries sur 111 de la liste des bactéries étudiées ici. Dix génomes n'ont pu être décomptés (génome, gènes atg): age 5 amo 3 cad 9 cbl 7 fbt 3 opr 3 salb 6 sbw 3 ssm 4 vin 3.
Méthode: Prendre le nom latin dans KEGG avec le code à 3 lettres de KEGG[1].C'est seulement à l'affichage des tableaux VF5 de gtRNAdb[2] que l'on peut avoir les effectifs de fMet et Met sous la forme de fMet/Met de la ligne Met, et ceux de Ile (anti codon cat) de la ligne Ile.
Bactéries sans Ile (anti codon cat) ni Ile (anti codon tat): sur les 9 bactéries sans Ile (anti codon cat) une a ile (anti codon tat), c'est nse. Les 8 autres se répartissent en 3 n'ayant qu'un gène Met (ssdc saci dpt) et 5 avec 2 gènes Met (ple rpr tme ial tma). Si on admet que les 5 derniers ont une erreur sur les 2 gènes Met et que ceux-ci sont en réalité Ile plus Met, alors il reste 3 génomes n’ayant pas du tout de gènes tRNA pouvant coder Ile. Est-ce que ce sont des symbiotes ou des erreus? Pourtant saci avec 62% GC et dpt avec 66% ne semblent pas être des symbiotes comme ssdc avec 24%. Voir le tableau détaillé des génomes.
Distribution des gènes de tRNAs du codon atg
occur.
fMet
Met
Ile
0
0
0
9
1
55
78
85
2
19
22
6
3
15
1
1
4
8
5
1
6
1
7
1
9
1
genèse
101
101
92
dup %
95
24
9
Comptes des solitaires des tRNAs des 111 bactéries
La procédure utilisée ici pour 111 bactéries est la même que j'ai utilisée pour les 4032 bactéries de la base gtRNAdb: un tRNA est dit solitaire pour un carré donné (ctx), s'il ne contient qu'un seul type (ctt), les autres (ctc cta ctg) étant nuls. Pour les 4032 bactéries je cherchais les occurrences *ctt*, *ctt;ctt*, . . . .. Ici pour le nom ctt je teste la condition ctt>0 et (ctc=0 cta=0 ctg=0) pour une bactérie donnée. Ce qui donne dans calc pour la bactérie zin (ligne 12) les codonss "ctt ctc cta ctg" (colonnes DC12 DD12 DE12 DF12). La cellule DC12 correspond à la ligne zin et à la colonne ctt du tableau des décomptes détaillés ci-dessus.
4 codons: calculs pour les 4 codons non nuls d'un carré et 0 s'il n'y a aucun tRNA. Les 4 sont testés pour ctx cgx acx, et seulement 3 pour tcx ccx gtx gcx ggx.
2 codons: calculs sur 2 codons supposés lus par un seul tRNA. ctt,ctc,11,01: respectivement, seul le codon ctt ou ctc a plus d'un tRNA, ctt et ctc ont chacun 1 seul tRNA, autre combinaison. La colonne avec (*) correspond au cas où les 2 codons n'ont pas de tRNA parmi le décompte "autre combinaison". Ces tests sont faits pour ctt.c cta.g tta.g aga.g cgt.c cga.g act.c aca.g tca.g cca.g gca.g gta.g gga.g tga.g aaa.g caa.g gaa.g
Les xxt ne sont pas présentés sauf ctt cgt act, car ils n’ont pas de tRNA (voir tableau).
Donc il n’y a pas de résultat pour tct cct gtt gct ggt;
II 4032. Nombre de bactéries à tRNAs solitaires de 4 codons. Total requête.
ttt
3948
tct
3945
tat
3934
tgt
3947
c
15
c
2
c
3930
c
12
a
0
a
85
a
−
a
0
g
2
g
0
g
−
g
17
ctt
3942
cct
3941
cat
3948
cgt
106*
c
7
c
3
c
5
c
1
a
98
a
1173
a
6
a
7
g
0
g
1
g
2
g
7
att
3949
act
3946
aat
3949
agt
3944
c
2
c
2
c
2
c
1
a
0
a
152
a
5
a
0
g
81
g
3
g
1
g
0
gtt
3943
gct
3934
gat
3949
ggt
3948
c
8
c
32
c
5
c
9
a
724
a
877
a
8
a
66
g
1
g
7
g
1
g
0
III 4032. Nombre de bactéries à tRNAs solitaires des codons a,g. Total requête.
tt
−
tc
−
ta
−
tg
−
sag
3933
sag
3943
sag
−
sag
3934
a
96
a
1493
a
−
a
15
g
190
g
22
g
−
g
2629
ct
−
cc
−
ca
−
cg
−
sag
3935
sag
3939
sag
3943
sag
3833
a
692
a
1813
a
2130
a
539
g
30
g
5
g
18
g
3026
at
−
ac
−
aa
−
ag
−
sag
3947
sag
3944
sag
3941
sag
3928
a
0
a
1288
a
1899
a
780
g
3947
g
13
g
9
g
10
gt
−
gc
−
ga
−
gg
−
sag
3935
sag
3902
sag
3928
sag
3939
a
2724
a
2721
a
2808
a
1699
g
2
g
11
g
5
g
11
II 111. Nombre de bactéries à tRNAs solitaires des carrés à 4 codons.
ttt
111
tct
111
tat
111
tgt
110
c
0
c
0
c
0
c
0
a
0
a
6
a
−
a
−
g
0
g
0
g
−
g
1
ctt
111
cct
111
cat
111
cgt
4*
c
0
c
0
c
0
c
1
a
6
a
29
a
2
a
0
g
0
g
0
g
0
g
0
att
111
act
111
aat
111
agt
111
c
0
c
0
c
0
c
0
a
0
a
6
a
0
a
0
g
0
g
0
g
0
g
0
gtt
111
gct
111
gat
111
ggt
111
c
0
c
0
c
0
c
0
a
20
a
23
a
0
a
3
g
0
g
0
g
0
g
0
III 111. Nombre de bactéries à tRNAs solitaires des codons a,g.
ttt
−
tct
111
cg
110
tgt
−
sag
111
sag
111
sct
110
sag
110
a
4
a
34
t
100
a
0
g
3
g
0
c
10
g
77
ctt
110
cct
111
cat
−
cgt
110
sag
110
sag
111
sag
111
sag
105
a
27
a
44
a
50
a
15
g
0
g
0
g
0
g
70
ctt
111
act
111
aat
−
agt
−
sct
104
sag
111
sag
111
sag
111
t
5
a
29
a
37
a
16
c
99
g
0
g
1
g
0
gtt
111
gct
111
gat
−
ggt
111
sag
111
sag
111
sag
111
sag
111
a
65
a
62
a
61
a
44
g
0
g
0
g
0
g
0
IV 4032. Pourcentage des bactéries à tRNAs solitaires.
tt
tc
ta
tg
%4
−
2.2
−
−
1a1g
2804
2114
−
1238
%2
7
38
−
67
ct
cc
ca
cg
%4
2.7
29.9
−
3.1
1a1g
962
1911
996
222
%2
18
46
54
93
at
ac
aa
ag
%4
2.1
4.0
−
−
1a1g
0
2166
1155
2579
%2
100
33
48
20
gt
gc
ga
gg
%4
18.6
23.3
−
1.9
1a1g
1051
562
602
1973
%2
69
70
72
43
ct
cg
ac
−
%4
2.7
3.1
4.0
−
1t1c
8
10
41
−
%2
99
99
98
−
IV 111. Pourcentage des bactéries à tRNAs solitaires.
tt
tc
ta
tg
%4
−
5,4
−
−
1a1g
87
68
0
29
%2
6
31
100
70
ct
cc
ca
cg
%4
5,5
26.1
−
4,5
1a1g
63
63
41
18
%2
25
40
45
81
at
ac
aa
ag
%4
0
5,4
−
−
1a1g
0
72
47
85
%2
99
26
34
14
gt
gc
ga
gg
%4
18.0
20.7
−
2,7
1a1g
37
30
28
54
%2
59
56
55
40
ct
cg
ac
−
%4
−
−
−
−
1t1c
0
0
1
−
%2
100
100
91
−
Compléments
Nombre de bactéries à tRNAs solitaires des codons c,t.
4032 sct t c 111 sct t c
ac 3775 41 3682 ac 111 2 99
cg 3932 3614 307 cg 110 100 10
ct 3834 323 3502 ct 104 5 99
Tableaux non formatés:voir tableur
tRNAs des 111 bactéries: Diagramme des solitaires APV
codons des PDNA rapportés à 6 555, moyenne du total des aas des DRNA par bactérie. La moyenne correspondante des PDNA 6 391 est donnée pour indication.
Corrélation entre les différences “dna-prot” (%) de 2 codons ayant les 2 1ères bases en commun. Données pour manipulation. Voir le tableau formaté dans l'article
Les protéines, notamment les tRNA synthases et les protéines de maintenance de l'ADN, différencient les codons. Ainsi il existe plusieurs tRNA pour Gly et la maintenance de l'ADN est à l'origine de la différence en contenu GC et différencie entre la paire GC et la paire AT. L'objet de ce chapitre est d'éliminer l'influence des protéines en comparant dans le même génome la différence entre 2 codons dans le lot des gènes prot et le lot dna. Si la différence est statistiquement significative entre les 2 lots, alors il n'y a que la séquence des gènes qui peut en être la cause.
ok :SI (ecart <0,0,1), différence statiquement significative.
gaa :effectif du codon gaa d’après le résultat direct (nombre entier). voir la compilation totale des codons pour prot dans total numérique et pour dna dans compilations des codons.
gat :effectif du codon gat d’après le résultat direct (nombre entier). idem
(*) :bactérie éliminée pour les diagrammes: Eprot ou Edna supérieur à 21.