En raison de limitations techniques, la typographie souhaitable du titre, « Annexe : génomes synthèse Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse », n'a pu être restituée correctement ci-dessus.
Les six types sont: les solitaires, les multiples, les duplicata, avant 5s, après 5s >3, après 5s <4, avant 16s et après 16s. En abrégé, respectivement, 1aa >1aa dup -5s +5s >3, 5s <4 (ou 1-3aas), -16s +16s.
Ce sont ceux des bacilli plus ceux des clostridia parce qu'ils sont nombreux et réduits à 2 clades, donc homogènes. Tenericutes en possèdent 2 fois 11. Les arcchées en possèdent aussi, mais seulement 1 de 6aas. Voir les études plus détaillées dans les fiches qui ne concernent que les blocs à rRNA.
Légende:
- Cyan pour les valeurs faibles, total 19 pour 21 tRNAs.
- Jaune pour les valeurs fortes et en gras les plus fortes, total 474 pour 14 tRNAs
- blanc pour les valeurs intermédiaires, gca et atc le sont aussi, total 236 pour 16 tRNAs.
- Le rouge pour l'emplacement des +16s occupés, gca et atc.
- Les encadrés sont les emplacements des 1-3aas des +5s de alpha + gamma.
- Le -16s de 33 aas est compté ici comme un +5s long (inversion).
Le groupe de référence: voir la référence. Ici les intermédiaires sont remplacés par le vert au lieu du blanc. La colonne +5s représente la référence (729) plus ceux des tenericutes (22, 2*11) ce qui ne change pas l'ordre de son classement: atgijf ttc tta gta aaa tca aca gca gac.
Légende:
- carré ccc, c'est ctc gtc ccc gcc
- g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
Synthèse des 44 génomes. Caractérisation de chaque tRNA par les 4 processus: +5s 1aa >1aa duplication
Caractérisation par les effectifs
g1
+5s
1aa
>1aa
dup
t1
+5s
1aa
>1aa
dup
+5s
1aa
>1aa
dup
+5s
1aa
>1aa
dup
a atgi
14
30
7
2
a tct
tat
atgf
31
30
36
30
b att
i act
3
aat
agt
1
c ctt
4
3
2
e cct
cat
cgc
d gtt
m gct
gat
ggt
e ttc
28
21
35
9
b tcc
10
37
6
2
tac
26
7
44
28
tgc
17
16
38
4
f atc
15
4
7
2
j acc
9
18
22
5
aac
38
28
35
22
agc
15
18
34
g ctc
4
30
15
2
f ccc
2
28
1
cac
20
14
34
11
cgt
30
15
19
49
h gtc
5
19
11
28
n gcc
1
16
14
25
gac
41
14
54
13
ggc
38
17
59
43
i tta
24
18
31
2
c tca
19
36
12
4
taa
tga
9
j ata
1
1
0
k aca
33
19
43
7
aaa
41
17
44
25
aga
15
29
21
2
k cta
20
21
32
8
g cca
33
20
39
4
caa
29
19
37
12
cga
3
7
l gta
51
13
54
26
o gca
17
4
7
gaa
42
15
52
25
gga
25
15
45
6
m ttg
7
34
8
2
d tcg
2
26
5
tag
tgg
12
31
13
2
n atgj
23
15
39
6
l acg
2
28
5
aag
18
12
16
agg
31
1
o ctg
9
20
16
28
h ccg
1
15
4
8
cag
9
14
10
cgg
24
10
p gtg
10
5
8
p gcg
13
5
3
gag
1
9
5
12
ggg
1
20
6
Caractérisation par la relativité des 4 processus: chaque processus est rapporté à 1000 tRNAs.
Notes: Dans le tableau ci-dessus de la caractérisation des tRNAs rapportée à 1000 pour chaque type, 2ème tableau, les nombres en gras commencent à partir de 26 et sont au nombre de 64. Ce sont les plus élevés, ils incluent les nombres non gras des +5s colorés en jaune. On peut les diviser en
- forts (les jaunes sans gras de la référence) de 26 à 37 au nombre de 32.
- très forts (les gras jaunes de la références) de 39/1000 et plus, au nombre de 32
- Les valeurs les plus faibles seraient inférieures à 10/1000 et sont au nombre de 68 dont 23 zéros. Les tRNAs ata et agt ne sont pas pris en compte (*). Le reste est divisé en
- moyen faibles de 10 à 16 au nombre de 33, et en
- moyen forts de 18 à 25 au nombre de 31.
- Les nombres en gras du 1er tableau sont ceux de la référence (+5s) relativisés pour les duplications qui ont un total 50% inférieur à la référence. Les ruptures des types rapportés à 1000 tRNAs confirment et harmonisent le 1er tableau.
- g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
Note: Ces 2 processus ont été comptabilisés sur de plus grands effectifs dans les fiches mémoires par clade. La comparaison des effectifs avec ceux des annexes montrent qu'ils sont semblables statistiquement. Voir la synthèse des +16s et des 1-3aas.
Distribution des +16s et des 1-3aas des fiches mémoires, avec la référence +5s.
Classement des tRNAs rapportés à 1000 par processus
Classement avec les processus +5s et >1aa.
tRNA
+5s
1aa
>1aa
dup
1-3aas
+16s
atgf
41
33
34
61
234
1
aac
51
31
33
45
99
-
I
gaa
56
16
50
51
10
97
gac
55
15
52
26
234
-
gta
68
14
52
53
7
5
aaa
55
19
42
51
23
4
ggc
51
19
56
87
16
-
tac
35
8
42
57
7
-
II
aca
44
21
41
14
1
-
cca
44
22
37
8
1
2
caa
39
21
35
24
1
-
ttc
37
23
33
18
29
-
gga
33
16
43
12
16
-
tta
32
20
30
4
7
-
atgj
31
16
37
12
1
-
cta
27
23
31
16
-
-
cac
27
15
32
22
3
-
III
tgc
23
18
36
8
10
-
agc
20
20
32
0
1
-
IV
cgt
40
16
18
99
5
-
V
gca
23
4
7
0
19
447
atc
20
4
7
4
4
442
VI
acc
12
20
21
10
111
-
tgg
16
34
12
4
106
-
Classement avec les processus 1aa et dup
tRNA
+5s
1aa
>1aa
dup
1-3aas
+16s
tca
25
39
11
8
7
-
aga
20
32
20
4
1
-
atgi
19
33
7
4
20
-
tcc
13
41
6
4
3
-
ttg
9
37
8
4
-
-
ctc
5
33
14
4
3
-
I
ccc
3
31
1
0
-
-
tcg
3
29
5
0
-
-
acg
3
31
5
0
1
-
agg
0
34
1
0
-
-
cgg
0
26
10
0
3
-
ggg
1
22
6
0
3
-
II
ctg
12
22
15
57
1
-
gtc
7
21
11
57
-
-
gcc
1
18
13
51
-
4
aag
0
20
11
32
-
-
gag
1
10
5
24
-
-
cag
0
10
13
20
-
-
ccg
1
16
4
16
-
-
gtg
0
11
5
16
1
-
gcg
0
14
5
6
-
-
III
cga
0
3
7
0
-
-
ata
0
1
1
0
-
-
tga
0
10
0
0
-
-
IV
ctt
0
4
3
4
-
-
act
0
3
0
0
-
-
agt
0
1
0
0
-
-
Les intercalaires entre cds d'un génome
Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
Méthode de prélèvement
Afficher le NCBI et relever taille et date
Copier dans txt et rechercher join( et résoudre ses adresses en adresses uniques
copier dans un calc temporaire pour faciliter les sélecitions début ou fin
select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) tRNA précédent.
select ctrl+Maj+fin et supprimer
se posirionner au début ctrl+début et rechercher (ctrl+H) ‘ CDS ‘ suivant sans les cotes
mettre le curseur loin à droite et effacer le début, ctrl+Maj+début.
Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille
sans séléction remplacer CDS gene rRNA tRNA en ajoutant (;)
rechercher tRNA; suivant et ajouter (;) aux gènes restants, ncRNA misc regulatory. Vérifier s’il n’y a pas d’autres entre CDS; et gene; .
suprimer la ligne où le gène est ‘source’.
sélect tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire à de la première colonne avec les (;)
Sélect la colonne contenant les adresses, ctrl+H et enlever les blancs ( <)> et lexpression régulière [:alph:] .
remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.
sur la colonne à gauche des adresses en colonne numéroter en séquence gene puis CDS puis le reste 1 puis formule cellule de 1, + 1. Couper la formule et select la plage, coller et couper coller format.
sauvegarder le tout dans le calc de travail. Copier les 4 dernières colonnes dans le calc temporaire nettoyé.
dans le temporaire, trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse
A ce moment gene et CDS sont dans ce sens pour la même adresse.
Dans le cas où la 1ère adresse est identique à celle du gène et que les 2 2èmes adresses sont différentes, dans le cas où le CDS n’existe pas, les 2 différences entre 2 lignes succesives pour les 2 1ères adresses et les 2 2èmes adresses, sur la ligne gene, seront différentes. Les différences sur la ligne suivante seront différentes en général.
En triant sur les 2 différences tous les gene avec 0 et 0 sur leur ligne sont à suprimer.
On supprime les 2 colonnes des différences et on trie le reste sur 1ère et 2ème adresse. On calcule les intercalaires toujours: écriture de la formule, la couper, ctrl+Maj+fin, réduire à la colonne et coller puis couper et coller format.
on colorie les CDS de la colonne des gènes. Les gènes différents apparaissent en clair
Sur la colonne de gauche du pavé deb à côté du CDS du début et fin à côté du CDS de fin encadrant le gène en clair
deb-fin
- Trier en 1er sur la colonne deb-fin et en 2ème la colonne CDS, copier les lignes avec deb et fin et les sauvegarder plus loin.
- Suprimer du pavé principal les lignes deb.
- Copier les lignes en clair qui se trouvent à la fin du pave et les coller sous les lignes du pavé deb-fin sauvegardé.
- Trier le reste du pavé sur adresse1 et 2 et le positionner en haut de la feuille. C’est le pavé du travail qui suit.