Recherche:Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse

Une page de Wikiversité.
Aller à la navigation Aller à la recherche
génomes synthèse
Image logo représentative de la faculté
Annexe 11
Recherche : Les clusters de gènes tRNA et rRNA chez les procaryotes
Précédent :archeo
Suivant :Atableur
Icon falscher Titel.svg
En raison de limitations techniques, la typographie souhaitable du titre, « Annexe : génomes synthèse
Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse
 », n'a pu être restituée correctement ci-dessus.



Les blocs à tRNA[modifier | modifier le wikicode]

Les cds dans les blocs à tRNA[modifier | modifier le wikicode]

  • Lien tableur: cds
  • Légende:
fréquences intercalaires	fréquences cds en aa	
autour du cds				
	9				2
10	20			50	20
50	21			100	9
90	21			150	10
130	21			200	4
170	5			250	5
210	6			300	3
250	2			350	8
290	8			400	9
	113				70
génomes. Les cds dans les blocs à tRNA
génome sens adresse nom cds aa intercal
gamma autres rien
eal comp 2042057..2043241 tuf1 395 117
comp 2043359..2043431 acc gga tac aca
eco comp 1287087..1287176 tpr 30 67
comp 1287244..1287328 tac tac
4175754..4175829 acc aca tac gga 114
4175944..4177128 tufb 395
ecoN comp 2192566..2192655 tcg 93
2192749..2193546 DgsA 266 100
2193647..2193722 aac
comp 2236186..2236261 aac 4
2236266..2237909 YeeO 548 100
2238010..2238085 aac
amed comp 3913378..3913454 tgg 52
comp 3913507..3914691 cds 395 171
comp 3914863..3914937 gga
alpha
rpm comp 659042..659116 gtc 155
comp 659272..660159 hydrolase 296 106
comp 660266..660340 gtc
comp 2114823..2114899 aga 55
comp 2114955..2115251 ETC 96 71
comp 2115323..2115399 cca
2632171..2632246 gcc 166
< 2632413..2632965 transposase 184 -41
2632925..2633473 hp 183 30
comp 2633504..2633579 aca 93
comp 2633673..2634200 transferase 176 271
comp 2634472..2634561 tcg
2863981..2864056 aca 15
2864072..2864317 DUF2829 82 8
2864326..2864401 aaa
rru 1934224..1934300 cca 63
1934364..1934663 ETC 100 12
1934676..1934752 aga
comp 3124836..3125033 translocase 66 151
comp 3125185..3125260 tgg 343
comp 3125604..3126794 ef tu 397 93
comp 3126888..3126961 gga
comp 3126989..3127074 tac 37
3127112..3128158 RlmB 349 57
3128216..3128291 aca 127
3128419..3128652 hp 78
3378495..3378569 acc 237
3378807..3379370 hp 188 234
oan comp 2040234..2040453 hp 73 91
2040545..2040629 tac
2040654..2040727 gga 6
comp 2040734..2040916 hp 61 -50
2040867..2042042 ef Tu 392 65
2042108..2042183 tgg 420
2042604..2042804 translocase 67
comp 2697238..2697314 aga 123
comp 2697438..2697743 ETC 102 156
comp 2697900..2697976 cca
abq comp 748703..749161 hp 153 38
comp 749200..749275 aca 91
comp 749367..750221 RlmB 285 144
750366..750451 tac
750512..750585 gga 81
750667..751857 ef Tu 397 153
752011..752086 tgg 69
752156..752353 Translocase 66
872533..872608 atgi 5
comp 872614..873093 GNAT 160 134
comp 873228..873304 cgt
1354014..1354091 cca 49
1354141..1354437 ETC 99 10
1354448..1354524 aga
abs comp 1500772..1501110 P-II 113 338
1501449..1501524 cac
1501634..1501709 cac 129
1501839..1503305 epimerase 489 106
1503412..1504977 Manolyl CoA 522 173
1505151..1505235 cta 91
1505327..1506661 trigger factor 445
1808815..1808892 cca 49
1808942..1809238 ETC 99 10
1809249..1809325 aga
2293805..2293881 cgt 137
2294019..2294495 GNAT 159 5
comp 2294501..2294576 atgi
comp 2418203..2418400 translocase 66 69
comp 2418470..2418545 tgg 152
comp 2418698..2419888 ef Tu 397 81
comp 2419970..2420043 gga
comp 2420104..2420189 tac 144
2420334..2421188 RlmB 285 91
2421280..2421355 aca 137
2421493..2423187 integrase 565
agr 1532381..1532455 gaa 121
1532577..1532818 P-hp 81 89
1532908..1532982 gaa
1770727..1772280 integrase 518 91
comp 1772372..1772448 cca 265
1772714..1773019 ETC 102 51
1773071..1773147 aga 7
comp 1773155..1773892 DUF429 246
aua 2368353..2368429 cca 43
2368473..2368778 cds 102 36
2368815..2368890 aga
comp 2641950..2642023 tgc 153
comp < 2642177..2642443 cds 89 296
2642740..2642814 aac
beta néant
delta néant
bacilli autres rien
pmq 20252..21532 cds 427 47
21580..21666 tca 140
21807..22157 hp 117 17
22175..22357 hp 61 23
22381..22524 hp 48 86
comp 22611..22796 hp 62 138
comp 22935..25265 replicase 777 156
25422..26165 hp 248 220
comp 26386..26460 cgg 183
26644..27168 replicase 175
clostridia autres rien
hmo comp 105958..106044 ctg 321
comp 106366..106929 cds 188 241
comp 107171..107246 aca
1172120..1172196 agg 181
1172378..1172812 cds 145 62
1172875..1172966 tcg
1764087..1764161 ggc 92
comp 1764254..1764493 cds 80 72
1764566..1764641 tgc
comp 2496451..2496527 gtc
comp 2496532..2496609 atgj 175
2496785..2497120 cds 112 217
comp 2497338..2497420 ctc
*** Suivent 5 tRNAs comp ***
comp 2497882..2497958 gtg -10
comp 2497949..2498185 cds 79 66
2498252..2498328 ccg
actino autres rien
ase 1520472..1520544 aac 315
1520860..1522122 cds 421 236
1522359..1522432 atg
comp 4901908..4901981 gcg 19
comp 4902001..4902321 cds 107 23
comp 4902345..4902417 gac
*** 7 tRNAs ggc cds cag 20 tRNAs ***
6400506..6400577 ggc 25
6400603..6401055 cds 151 35
6401091..6401163 cag
bacteroide fps rien
myr comp 719769..719842 tgg 60
comp 719903..721090 cds 396 58
comp 721149..721220 acc
omp 1929840..1929925 tta 147
comp 1930073..1930444 cds 124 108
comp 1930553..1930638 tta
comp 2208797..2208872 atgf 106
comp 2208979..2209605 cds 209 147
comp 2209753..2209829 atgj
cyano npu rien
pmg comp 435678..435751 gac 149
comp 435901..436095 cds 65 35
comp 436131..436203 tgg
tenericutes
abra comp 1540706..1540780 tgg 47
comp 1540828..1541754 cds 309 137
1541892..1541967 cac
apal comp 205299..205373 tgg 73
comp 205447..206382 cds 312 133
206516..206591 cac
comp 1457388..1457463 gac 40
comp 1457504..1458355 cds 284 154
comp 1458510..1458585 ttc
*** 10 tRNAs 5s23s ***
archeo mfi mfe rien
mja 862590..862661 cga 41
862703..863392 cds 230 86
863479..863555 aca
*** 3 tRNAs 5s gac ***
mba 4618540..4618617 gaa 351
4618969..4619190 hp 74 377
4619568..4619645 gaa

Les totaux des génomes par type[modifier | modifier le wikicode]

  • Les six types sont: les solitaires, les multiples, les duplicata, avant 5s, après 5s >3, après 5s <4, avant 16s et après 16s. En abrégé, respectivement, 1aa >1aa dup -5s +5s >3, 5s <4 (ou 1-3aas), -16s +16s.
  • Note: le tableau de contrôle est dans le tableur
  • Lien tableur: Les totaux des génomes par type

Les totaux des types[modifier | modifier le wikicode]

Les totaux des types
actino >1aa 1aa -5s +5s -16s +16s duplica 1-3aas total
total 1047 912 13 751 11 304 493 135 3666
  • Note: le -16s long de 33 est compté dans les +5s >3.

La référence +5s >3[modifier | modifier le wikicode]

  • Lien tableur: La référence +5s >3
  • Ce sont ceux des bacilli plus ceux des clostridia parce qu'ils sont nombreux et réduits à 2 clades, donc homogènes. Tenericutes en possèdent 2 fois 11. Les arcchées en possèdent aussi, mais seulement 1 de 6aas. Voir les études plus détaillées dans les fiches qui ne concernent que les blocs à rRNA.
  • Légende:
    - Cyan pour les valeurs faibles, total 19 pour 21 tRNAs.
    - Jaune pour les valeurs fortes et en gras les plus fortes, total 474 pour 14 tRNAs
    - blanc pour les valeurs intermédiaires, gca et atc le sont aussi, total 236 pour 16 tRNAs.
    - Le rouge pour l'emplacement des +16s occupés, gca et atc.
    - Les encadrés sont les emplacements des 1-3aas des +5s de alpha + gamma.
    - Le -16s de 33 aas est compté ici comme un +5s long (inversion).
Bacilli + clostridia. Les +5s >3 de référence.
g1    t1          
atgi 12 tct tat atgf 29
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 26 tcc 10 tac 26 tgc 17
atc 15 acc 9 aac 38 agc 15
ctc 4 ccc 2 cac 20 cgc 30
gtc 5 gcc 1 gac 39 ggc 38
tta 22 tca 17 taa tga
ata aca 31 aaa 39 aga 15
cta 20 cca 33 caa 29 cga
gta 49 gca 15 gaa 42 gga 25
ttg 7 tcg 2 tag tgg 12
atgj 21 acg 2 aag agg
ctg 9 ccg 1 cag cgg
gtg gcg gag 1 ggg 1
5s-bc inter min max total
total 236 19 474 729

totaux par rapport au groupe de référence[modifier | modifier le wikicode]

bacts. Comparaison avec la référence
tRNAs blocs tRNAs blocs rRNAs
bacts 1aa >1aa dup +5s 1-3aas autres total
21 faible 317 124 114 19 2 7 583
16 moyen 345 327 80 246 43 253 1294
14 fort 250 596 299 486 90 68 1789
912 1047 493 751 135 328 3666
10 g+cga 151 68 57 7 283
2 agg+cgg 55 11 12 1 79
4 carre ccc 93 41 55 1 7 197
5 autres 18 4 2 24
317 124 114 19 2 7 583
total tRNAs ‰
bacts 1aa >1aa dup +5s 1-3aas autres bacts ‰ ref.‰
21 faible 86 34 31 5 1 2 159 26
16 moyen 94 89 22 67 12 69 353 324
14 fort 68 163 82 133 25 19 488 650
249 286 134 205 37 89 3666 729
10 g+cgg 41 19 16 2 77 10
2 agg+cga 15 3 3 0.3 22
4 carre ccc 25 11 15 0.3 2 54 16
5 autres 5 1.1 0.5 7
86 34 31 5 0.5 2 159
blocs tRNAs ‰ total colonne %
bacts 1aa >1aa dup total ref.‰ 1aa >1aa dup
21 faible 129 51 46 226 26 35 12 23
16 moyen 141 133 33 307 324 38 31 16
14 fort 102 243 122 467 650 27 57 61
372 427 201 2452 729 912 1047 493
10 g+cgg 62 28 23 113 10 48 55 50
2 agg+cga 22 4 27 17 9
4 carre ccc 38 17 22 77 16 29 33 48
5 autres 7 2 0.8 10 6 3 2
129 51 46 226 317 124 114

Caractérisation des tRNAs[modifier | modifier le wikicode]

Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication[modifier | modifier le wikicode]

  • Lien tableur: Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication
  • Le groupe de référence: voir la référence. Ici les intermédiaires sont remplacés par le vert au lieu du blanc. La colonne +5s représente la référence (729) plus ceux des tenericutes (22, 2*11) ce qui ne change pas l'ordre de son classement: atgijf ttc tta gta aaa tca aca gca gac.
  • Légende:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
Synthèse des 44 génomes. Caractérisation de chaque tRNA par les 4 processus: +5s 1aa >1aa duplication
Caractérisation par les effectifs
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 14 30 7 2 tct tat atgf 31 30 36 30
att act 3 aat agt 1
ctt 4 3 2 cct cat cgc
gtt gct gat ggt
ttc 28 21 35 9 tcc 10 37 6 2 tac 26 7 44 28 tgc 17 16 38 4
atc 15 4 7 2 acc 9 18 22 5 aac 38 28 35 22 agc 15 18 34
ctc 4 30 15 2 ccc 2 28 1 cac 20 14 34 11 cgt 30 15 19 49
gtc 5 19 11 28 gcc 1 16 14 25 gac 41 14 54 13 ggc 38 17 59 43
tta 24 18 31 2 tca 19 36 12 4 taa tga 9
ata 1 1 0 aca 33 19 43 7 aaa 41 17 44 25 aga 15 29 21 2
cta 20 21 32 8 cca 33 20 39 4 caa 29 19 37 12 cga 3 7
gta 51 13 54 26 gca 17 4 7 gaa 42 15 52 25 gga 25 15 45 6
ttg 7 34 8 2 tcg 2 26 5 tag tgg 12 31 13 2
atgj 23 15 39 6 acg 2 28 5 aag 18 12 16 agg 31 1
ctg 9 20 16 28 ccg 1 15 4 8 cag 9 14 10 cgg 24 10
gtg 10 5 8 gcg 13 5 3 gag 1 9 5 12 ggg 1 20 6
Caractérisation par la relativité des 4 processus: chaque processus est rapporté à 1000 tRNAs.
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 19 33 7 4 tct tat atgf 41 33 34 61
att act 0 3 0 0 aat agt *1
ctt 0 4 3 4 cct cat cgc
gtt gct gat ggt
ttc 37 23 33 18 tcc 13 41 6 4 tac 35 8 42 57 tgc 23 18 36 8
atc 20 4 7 4 acc 12 20 21 10 aac 51 31 33 45 agc 20 20 32 0
ctc 5 33 14 4 ccc 3 31 1 0 cac 27 15 32 22 cgt 40 16 18 99
gtc 7 21 11 57 gcc 1 18 13 51 gac 55 15 52 26 ggc 51 19 56 87
tta 32 20 30 4 tca 25 39 11 8 taa tga 0 10 0 0
ata *1 *1 aca 44 21 41 14 aaa 55 19 42 51 aga 20 32 20 4
cta 27 23 31 16 cca 44 22 37 8 caa 39 21 35 24 cga 0 3 7 0
gta 68 14 52 53 gca 23 4 7 0 gaa 56 16 50 51 gga 33 16 43 12
ttg 9 37 8 4 tcg 3 29 5 0 tag tgg 16 34 12 4
atgj 31 16 37 12 acg 3 31 5 0 aag 0 20 11 32 agg 0 34 1 0
ctg 12 22 15 57 ccg 1 16 4 16 cag 0 10 13 20 cgg 0 26 10 0
gtg 0 11 5 16 gcg 0 14 5 6 gag 1 10 5 24 ggg 1 22 6 0

Construction du tableau avec les sous-totaux[modifier | modifier le wikicode]

Définition des classes pour les 4 types[modifier | modifier le wikicode]

  • Notes: Dans le tableau ci-dessus de la caractérisation des tRNAs rapportée à 1000 pour chaque type, 2ème tableau, les nombres en gras commencent à partir de 26 et sont au nombre de 64. Ce sont les plus élevés, ils incluent les nombres non gras des +5s colorés en jaune. On peut les diviser en
    - forts (les jaunes sans gras de la référence) de 26 à 37 au nombre de 32.
    - très forts (les gras jaunes de la références) de 39/1000 et plus, au nombre de 32
    - Les valeurs les plus faibles seraient inférieures à 10/1000 et sont au nombre de 68 dont 23 zéros. Les tRNAs ata et agt ne sont pas pris en compte (*). Le reste est divisé en
    - moyen faibles de 10 à 16 au nombre de 33, et en
    - moyen forts de 18 à 25 au nombre de 31.
    - Les nombres en gras du 1er tableau sont ceux de la référence (+5s) relativisés pour les duplications qui ont un total 50% inférieur à la référence. Les ruptures des types rapportés à 1000 tRNAs confirment et harmonisent le 1er tableau.
    - NB.SI, fonction calc utilisée.
0	23		16	9		32	5		48	0	
1	6		17	0		33	6		49	0	
2	0		18	4		34	3		50	1	
3	6		19	3		35	2		51	5	
4	13		20	9		36	1		52	2	
5	6		21	4		37	4		53	1	
6	3		22	4		38	0		54	0	
7	5		23	4		39	2		55	2	
8	5		24	2		40	1		56	2	
9	1		25	1		41	3		57	3	
10	5		26	2		42	2		61	1	
11	4		27	2		43	1		68	1	
12	5		28	0		44	2		87	1	
13	3		29	1		45	1		99	1	
14	4		30	1		46	0				
15	3		31	5		47	0				
	92			51			33			20	196

Les processus +16s -16s -5s 1-3aas[modifier | modifier le wikicode]

Récapitulatifs[modifier | modifier le wikicode]

  • D'après les distributions des totaux: liens

gama alpha baci clos bact actino cyano tener

  • Légendes: alpha* pour alpha+beta+delta, btc pour bacteroide tenericutes cyano
+16s	gca	atc	aaa	gta	gcc	gaa	total
gama	29	23	8	8	2	33	103
clos	26	11			5		42
afn	2	2					4
baci	16	15					31
alpha*	37	43					80
b t c	21	23					44
actino	0	0	0	0	0	0	0
total	131	117	8	8	7	33	304
total 1-3aas					
	alpha	gama	baci	clos	tener
atgf	23		2	2	
gac		23	2	1	
aac			4	7	6
acc		9	1	1	
tgg		8		1	
tca		4			
gaa		1		2	
tcc			1		
total	23	45	10	14	6
autres				37	
-16s	2gga 2tac aac agc atc cgt gca tca tcc		
-5s	3aca 5gga 5aac

Les processus +16s -16s 1-3aas -5s comparés à la référence[modifier | modifier le wikicode]

Distribution des totaux 1-3aas +16s -16s -5s.
Total 1-3aas
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
baci clos clos alpha tener gama total
10 47 4 23 6 45 135
Total 1-3aas avec la référence +5s
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac 0 cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
inter max min total
43 90 2 135
Total +16s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc tac tgc
atc 117 acc aac agc
ctc ccc cac cgc
gtc gcc 7 gac ggc
tta tca taa tga
ata aca aaa 8 aga
cta cca caa cga
gta 8 gca 131 gaa 33 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
248 49 7 304
Total -16s -5s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc 1 tac 2 tgc
atc 1 acc aac 6 agc 1
ctc ccc cac cgc 1
gtc gcc gac ggc
tta tca 1 taa tga
ata aca 3 aaa aga
cta cca caa cga
gta gca 1 gaa gga 7
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
5 19 0 24

Les processus +16s et 1-3aas des fiches mémoires[modifier | modifier le wikicode]

  • Lien tableur: Les processus +16s et 1-3aas des fiches mémoires
  • Le groupe de référence: voir la référence
  • Légende:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
  • Note: Ces 2 processus ont été comptabilisés sur de plus grands effectifs dans les fiches mémoires par clade. La comparaison des effectifs avec ceux des annexes montrent qu'ils sont semblables statistiquement. Voir la synthèse des +16s et des 1-3aas.
Distribution des +16s et des 1-3aas des fiches mémoires, avec la référence +5s.
Effectifs des +16s
g1    t1       
atgi cds 121 16s 1039 atgf 2
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 1235 acc aac agc
ctc ccc cac cgt
gtc gcc 11 gac ggc
tta tca taa tga
ata aca aaa 11 aga
cta cca 4 caa cga
gta 13 gca 1249 gaa 272 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
2484 302 11 2797
Les +16s rapportés à 1000 tRNAs.
g1    t1       
atgi tct tat atgf 1
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 442 acc aac agc
ctc ccc cac cgt
gtc gcc 4 gac ggc
tta tca taa tga
ata aca aaa 4 aga
cta cca 1 caa cga
gta 5 gca 447 gaa 97 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
888 108 4 1000
Effectifs des 1-3aas
g1    t1       
atgi 15 tct tat atgf 172
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 21 tcc 2 tac 12 tgc 7
atc 3 acc 82 aac 73 agc 1
ctc 2 ccc cac 2 cgt 4
gtc gcc gac 172 ggc 12
tta 5 tca 5 taa tga
ata aca 1 aaa 17 aga 1
cta cca 1 caa 1 cga
gta 5 gca 14 gaa 7 gga 12
ttg tcg tag tgg 78
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 2
gtg 1 gcg gag ggg 2
inter max min total
218 510 8 736
Les 1-3aas rapportés à 1000 tRNAs.
g1    t1       
atgi 20 tct tat atgf 234
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 29 tcc 3 tac 16 tgc 10
atc 4 acc 111 aac 99 agc 1
ctc 3 ccc cac 3 cgt 5
gtc gcc gac 234 ggc 16
tta 7 tca 7 taa tga
ata aca 1 aaa 23 aga 1
cta cca 1 caa 1 cga
gta 7 gca 19 gaa 10 gga 16
ttg tcg tag tgg 106
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 3
gtg 1 gcg gag ggg 3
inter max min total
296 693 11 1000

Classement des tRNAs avec les 8 processus[modifier | modifier le wikicode]

Classement des tRNAs rapportés à 1000 par processus
Classement avec les processus +5s et >1aa.
tRNA +5s 1aa >1aa dup 1-3aas +16s
atgf 41 33 34 61 234 1
aac 51 31 33 45 99 -
I
gaa 56 16 50 51 10 97
gac 55 15 52 26 234 -
gta 68 14 52 53 7 5
aaa 55 19 42 51 23 4
ggc 51 19 56 87 16 -
tac 35 8 42 57 7 -
II
aca 44 21 41 14 1 -
cca 44 22 37 8 1 2
caa 39 21 35 24 1 -
ttc 37 23 33 18 29 -
gga 33 16 43 12 16 -
tta 32 20 30 4 7 -
atgj 31 16 37 12 1 -
cta 27 23 31 16 - -
cac 27 15 32 22 3 -
III
tgc 23 18 36 8 10 -
agc 20 20 32 0 1 -
IV
cgt 40 16 18 99 5 -
V
gca 23 4 7 0 19 447
atc 20 4 7 4 4 442
VI
acc 12 20 21 10 111 -
tgg 16 34 12 4 106 -
Classement avec les processus 1aa et dup
tRNA +5s 1aa >1aa dup 1-3aas +16s
tca 25 39 11 8 7 -
aga 20 32 20 4 1 -
atgi 19 33 7 4 20 -
tcc 13 41 6 4 3 -
ttg 9 37 8 4 - -
ctc 5 33 14 4 3 -
I
ccc 3 31 1 0 - -
tcg 3 29 5 0 - -
acg 3 31 5 0 1 -
agg 0 34 1 0 - -
cgg 0 26 10 0 3 -
ggg 1 22 6 0 3 -
II
ctg 12 22 15 57 1 -
gtc 7 21 11 57 - -
gcc 1 18 13 51 - 4
aag 0 20 11 32 - -
gag 1 10 5 24 - -
cag 0 10 13 20 - -
ccg 1 16 4 16 - -
gtg 0 11 5 16 1 -
gcg 0 14 5 6 - -
III
cga 0 3 7 0 - -
ata 0 1 1 0 - -
tga 0 10 0 0 - -
IV
ctt 0 4 3 4 - -
act 0 3 0 0 - -
agt 0 1 0 0 - -

Les intercalaires entre cds d'un génome[modifier | modifier le wikicode]

  • Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.

Méthode de prélèvement[modifier | modifier le wikicode]

  1. Afficher le NCBI et relever taille et date
  2. Copier dans txt et rechercher join( et résoudre ses adresses en adresses uniques
  3. copier dans un calc temporaire pour faciliter les sélecitions début ou fin
  4. select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) tRNA précédent.
  5. select ctrl+Maj+fin et supprimer
  6. se posirionner au début ctrl+début et rechercher (ctrl+H) ‘ CDS ‘ suivant sans les cotes
  7. mettre le curseur loin à droite et effacer le début, ctrl+Maj+début.
  8. Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille
  9. sans séléction remplacer CDS gene rRNA tRNA en ajoutant (;)
  10. rechercher tRNA; suivant et ajouter (;) aux gènes restants, ncRNA misc regulatory. Vérifier s’il n’y a pas d’autres entre CDS; et gene; .
  11. suprimer la ligne où le gène est ‘source’.
  12. sélect tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire à de la première colonne avec les (;)
  13. Sélect la colonne contenant les adresses, ctrl+H et enlever les blancs ( <)> et lexpression régulière [:alph:] .
  14. remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée. Pour la discontinuité complement, non complement, ajouter une colonne à gauche contenant comp à la même adresse.
  15. sur la colonne à gauche des adresses en colonne numéroter en séquence gene puis CDS puis le reste 1 puis formule cellule de 1, + 1. Couper la formule et select la plage, coller et couper coller format.
  16. sauvegarder le tout dans le calc de travail. Copier les 4 dernières colonnes dans le calc temporaire nettoyé.
  17. dans le temporaire, trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse
  18. A ce moment gene et CDS sont dans ce sens pour la même adresse.
  19. Dans le cas où la 1ère adresse est identique à celle du gène et que les 2 2èmes adresses sont différentes, dans le cas où le CDS n’existe pas, les 2 différences entre 2 lignes succesives pour les 2 1ères adresses et les 2 2èmes adresses, sur la ligne gene, seront différentes. Les différences sur la ligne suivante seront différentes en général.
  20. En triant sur les 2 différences tous les gene avec 0 et 0 sur leur ligne sont à suprimer.
  21. On supprime les 2 colonnes des différences et on trie le reste sur 1ère et 2ème adresse. On calcule les intercalaires toujours: écriture de la formule, la couper, ctrl+Maj+fin, réduire à la colonne et coller puis couper et coller format.
  22. on colorie les CDS de la colonne des gènes. Les gènes différents apparaissent en clair
  23. Sur la colonne de gauche du pavé deb à côté du CDS du début et fin à côté du CDS de fin encadrant le gène en clair
  24. deb-fin
    - Trier en 1er sur la colonne deb-fin et en 2ème la colonne CDS, copier les lignes avec deb et fin et les sauvegarder plus loin.
    - Suprimer du pavé principal les lignes deb.
    - Copier les lignes en clair qui se trouvent à la fin du pave et les coller sous les lignes du pavé deb-fin sauvegardé.
    - Trier le reste du pavé sur adresse1 et 2 et le positionner en haut de la feuille. C’est le pavé du travail qui suit.
  • Méthode des décomptes des intercalaires négatifs et autres pour chaque génome:
    1. C'est celle appliquée pour l'étude de toutes les fréquences détaillée auparavant.
    2. Cependant j'ai ajouté une colonne "comp" à gauche (point 14) et après avoir épuré tout, comme pour les fréquences, j'ai trié tous les intercalaires, cds ou non, sur la 1ère adresse.
    3. Ensuite je sélectionne la colonne des intercalaires et je recherche toutes les cellules ayant le signe moins -, colorer en jaune.
    4. Je colorie les négatifs discontinus en vert grâce à comp. A ce stade j'ai 4 colonnes, "comp" pour les discontinuités, les gènes dont les CDS sont colorés en cyan, les adresses et enfin les intercalaires dont les négatifs continus sont jaunes et les discontinus en vert. En plus quand c'est nécessaire et quand le négatif ne correspond pas à un CDS je colorie ce moins en bleu foncé.
    5. Une fois les couleurs vérifiées, je copie les 4 colonnes dans un temporaire et je trie sur les intercalaires. J'ajoute une 5ème colonne à droite où je marque 0 pour les négatifs discontinus, et 1 pour les négatifs non CDS. En triant sur la 5ème colonne, croissant, j'obtiens d'abord les discontinus négatifs puis les négatifs non CDS et enfin les continus négatifs.
    6. Sur ces plages j'applique la fonction "fréquence" de calc.
    7. Pour les autres gènes je ne traite que les discontinuité et non la négativité des intercalaires donc en partant des 4 colonnes initiales triées sur l'adresse. Je colorie tRNA en orange et "gene" (cas de eco) en rouge.
      - Je traite la discontinuité générale en ne comptant que le 1er comp d'un bloc même si celui-ci est réduit à l'unité. Le décompte est fait sur une colonne colorée en jaune en marquant le nombre 1. Le total de la colonne représente la moitié des discontinuités (txc/2 dans le tableau).
      - Pour les intercalaires tRNA-CDS et ceux des autres gènes (comprenant les autres tRNAs) je crée 2 colonnes à droite et à gauche de la jaune, 2 pour tRNA-CDS c et x, 2 pour autres c et x, notés respectivement tc tx ac ax. Les décomptes se font comme pour la colonne jaune mais chaque colonne représente son total et non la moitié. L'intercalaire entre CDS et tRNA ou autre est compté pour ces derniers et non pour le CDS.

Fréquences des intercalaires cds-cds[modifier | modifier le wikicode]

  • Lien tableur: cds-cds
  • Légende: Ce tableau est la synthèse des tableaux "génome les fréquences" dans le chapitre des intercalaires entre cds pour chaque génome. Exemple rtb.
  1. génomes1: gen pour génome, n-cds pour total des cds du NCBI, inter% pour le rapport du total des intercalaires positifs sur la longueur du génome, moy pour moyenne de l'intervalle 0-200, rap pour le rapport multiplié par 100 de la somme des fréquences 101-370 sur celle de 0-100 (colonnes 200+370 et 100 du tableau génomes3), a37 b37 R2 les paramètres de la droite de détermination du diagramme du total des fréquences de 26 à 370 par pas de 5, a37 la pente, obtenue en multipliant par 100 la valeur du diagramme, b37 la constante et R2 le coefficient de détermination.
  2. génomes2 et 3: cds pour nombre total des intercalaires entre cds, les fréquences en <0 négatif, 100 entre 0-100, 200 entre 101-200, 300 entre 201-370, 600 entre 371-600, max au-delà de 600.
  • Notes: Ces 3 tableaux servent à comparer les 21 génomes entre eux. Je n'ai pas déterminé les intercalaires cds-cds des 30 autres génomes des annexes. Les fréquences des intercalaires cds-cds me permet de savoir si les intercalaires tRNA-cds des relevés dans les tableaux "génome opérons" leur sont différents. Exemple rtb. Les diagrammes faits sur une grande plage des fréquences ne permet d'obtenir qu'une courbe de détermination de fonction puissance, très difficile à manipuler. La plage de fréquences 26-370 avec un pas de 5 est plus caractéristique de chaque génome et permet d'obtenir une droite comme courbe de détermination avec un R2 souvent supérieur à 0.60.
    - Le diagramme du total des intercalaires cds-cds, cds en fonction de la pente de ces droites a37, donne une courbe de détermination à R2 confortable de 0.72 pour les 21 génomes et 0.93 pour 18 génomes, mba cbei pmq ayant des pentes très faibles par rapport à la taille de leur génome. La connaissance de cds, du total des intercalaires cds-cds permet alors de connaître la pente du diagramme 2-370 qui caractérise le génome. Sans calculer le nombre cds du total des intercalaires cds-cds il est possible de calculer quasiment avec la même précision la pente 26-370 du génome avec seulement le nombre de cds donné par NCBI n-cds, car celui-ci ne diffère du nombre total des intercalaires cds-cds, que par un cds par bloc de gènes non codant. Voir ci-dessous les fonctions de gauche.
    - Le diagramme de la constante des droites, b37 en fonction de la pente de ces droites a37, voir ci-dessous les fonctions de droite, montre aussi que les 3 génomes mba cbei pmq ont des constantes b37 beaucoup plus élevées que les 18 génomes restants.
n-cds	fonction de a37							b37	fonction de a37
n-cds	f(x)= 166x+750  R2=0.724					b37	f(x)= 3.536x+3.449  R2=0.928
cds	f(x)= 165x+710  R2=0.720					b37.18	f(x)= 3.504x+0.504  R2=0.983
n-cds18	f(x)= 171x+298  R2=0.934						
cds18	f(x)= 170x+260  R2=0.935						
génomes. Les intercalaires cds-cds.
génomes1. Synthèse des fréquences
gen n-cds inter% moy rap a37 b37 R2
pub 1,343 3.0 37 14 5.93 17.15 63
rtb 828 20.2 85 109 3.05 11.85 58
rru 3,854 9.9 78 89 18.99 71.15 91
eco 4,285 9.1 72 76 20.08 74.15 88
spl 4,269 14.1 82 105 17.06 72.54 76
bsu 4,325 9.5 72 64 29.29 96.38 81
pmq 7,258 13.8 88 130 28.46 126.75 90
cbn 2,521 11.3 71 79 14.59 53.49 82
cbei 5,665 17.9 83 136 14.71 79.19 83
ase 8,256 11.5 76 79 43.46 155.74 88
blo 1,824 10.6 88 116 9.53 36.46 78
myr 3,611 12.2 67 63 19.62 69.35 84
pmg 1,839 8.5 55 35 11.99 37.52 76
abra 1,712 7.2 65 57 8.52 28.44 82
cvi 4,345 9.5 74 67 26.5 89.98 78
ade 4,506 8.5 70 66 25.6 87.68 90
ant 3,119 6.0 56 38 16.12 51.22 81
afn 2,093 9.5 66 75 8.68 33.73 77
scc 1,847 8.8 69 72 8.68 31.86 82
mja 1,768 9.1 64 53 9.96 33.76 80
mba 3,995 26.7 85 154 5.54 38.77 46
rang x1 000
faible 1350-2500 3-7 37-55 14-64 3-6 12-17 46-63
moyen 3100-4500 8.5 -11.5 64-72 66-109 9-17 28-74 76-84
fort 5700-8300 12-27 78-88 116-154 19-43 79-156 88-91
effectif 9 9 3 3 12 6 3 11 7 7 10 4 3 10 8 2 13 6 3 13 5
génomes2. Les relevées des fréquences
cds <0 100 200 370 600 max
1307 473 722 85 19 7 1
793 102 248 187 84 52 120
3786 683 1546 835 535 139 48
4024 738 1769 781 572 142 32
4213 426 1579 887 776 378 167
4215 608 2116 944 412 117 18
7223 795 2479 1691 1520 506 232
2491 176 1212 566 394 117 26
5622 400 1788 1188 1240 713 293
8197 1652 3299 1568 1047 399 232
1772 228 661 483 281 85 34
3555 302 1780 681 440 202 150
1800 253 1104 267 120 42 14
1667 417 757 311 121 42 19
4282 756 1984 873 455 147 67
4464 815 2097 919 464 124 45
3095 762 1651 474 150 33 25
2039 307 935 401 304 69 23
1805 347 793 327 241 78 19
1730 219 956 340 166 37 12
3943 329 900 600 782 643 689
génomes3. fréquences pour 1000 intercalaires
gen <0 100 200 370 600 max
pub 362 552 65 15 5 1
rtb 129 313 236 106 66 151
rru 180 408 221 141 37 13
eco 183 439 194 142 35 8
spl 101 375 211 184 90 40
bsu 144 502 224 98 28 4
pmq 110 343 234 210 70 32
cbn 71 487 227 158 47 10
cbei 71 318 211 221 127 52
ase 202 402 191 128 49 28
blo 129 373 273 159 48 19
myr 85 501 192 124 57 42
pmg 141 613 148 67 23 8
abra 250 454 187 73 25 11
cvi 177 463 204 106 34 16
ade 183 470 206 104 28 10
ant 246 533 153 48 11 8
afn 151 459 197 149 34 11
scc 192 439 181 134 43 11
mja 127 553 197 96 21 7
mba 83 228 152 198 163 175
rang
faible 70-100 230-375 65-150 15-70 5-25 4-15
moyen 110-180 400-500 180-210 100-150 30-60 20-50
fort 190-360 530-610 220-270 160-220 70-160 150-175
effectif 5 11 5 6 11 4 4 11 6 4 11 6 5 11 5 13 6 2

Classement des génomes cds-cds[modifier | modifier le wikicode]

  1. colonnes de gauche: gen pour génome, n-cds pour total des cds du NCBI en millions arrondis de pbs, in% pour le rapport du total des intercalaires positifs sur la longueur du génome, moy pour moyenne de l'intervalle 0-200, rap pour le rapport multiplié par 100 de la somme des fréquences 101-370 sur celle de 0-100 (colonnes 200+370 et 100) et R2 coefficient de détermination de la droite de détermination du diagramme du total des fréquences de 26 à 370 par pas de 5.
  2. colonnes de droite: les fréquences pour 1000 intercalaires: <0 négatif, 100 entre 0-100, 200 entre 101-200, 300 entre 201-370, 600 entre 371-600, max au-delà de 600.
  3. génomes en jaune, mba pmq cbei, sont en dehors de la droite de détermination des diagrammes n-cds/pentes a37 et b37/pentes a37.
  • Notes: Les nombres des rangs sont du tableau des fréquences. Les rangs forts sont en gras, les rangs faibles en italique et les rangs moyens ne sont pas représentés sauf quand ils sont soulignés.
cds-cds. Classement des génomes cds-cds
gen n-cds in% moy rap R2 <0 100 200 370 600 max
pub 1m 3 37 14 63    362 552 65 15 5 1
ant 3m 6 56 38 246 533 153 48 11 8
pmg 2m 8.5 55 35 613 148 67 23 8
abra 2m 7 65 57 250 73 25 11
mja 2m 53 553 21 7
fin rang faible 7.2 56 64 63 101 375 153 73 25 16
rang moyen 8.5 64 66 76 110 402 181 96 28 -
11.5 72 109 84 183 502 211 149 57 -
rru 4M 78 91 221 13
bsu 4M 64 224 4
eco 4M 88 8
cvi 4M 16
ade 4M 90 10
cbn 2m 71 227 158 10
afn 2m 11
scc 2m 192 11
ase 8M 88 202 28
début rang fort 12.2 78 116 88 192 533 221 158 66 19
mba 4M 27 85 154 46 83 228 152 163 175
cbei 6M 18 83 136 71 318 221 127 52
pmq 7M 14 88 130 90 343 234 210 70 32
spl 4M 14 82 105 101 375 184 90 40
myr 4M 12 63 85 42
rtb 1m 20 85 109 58 313 236 66 151
blo 2m 88 116 373 273 159 19

Les intercalaires tRNA-cds[modifier | modifier le wikicode]

tRNA-cds calculs[modifier | modifier le wikicode]
  • Exemple de calcul sur mja: voir la note "Calculs" dans mja intercalaires rRNA
  • Calculs: Comme les intercalaires négatifs sont absents dans les intercalaires tRNA-cds, les taux (proba), des intercalaires entre cds, sont calculés sur le total 0-200 + reste.
    - Je montre ici que les intercalaires deb et fin d'un doublet deb-fin suivent les probabilités des intercalaires entre cds et donc que, sur le total des doublets deb-fin (label tRNAs dans le tableau), deb et fin sont indépendants et ne définissent pas leur orientation. Les doublets deb-fin suivent une loi multinomiale avec les 3 variables aléatoires petit-petit de probabilité p2, petit-grand de probabilité 2pq et grand-grand de probabilité q2, p et q étant les probabilités respectivement des petits (<201) et des grands (>200) intercalaires entre cds.
    - Après la réorientation que j'ai faite ci-dessus (voir le chapitre ("génome"_intercalaires_rRNA) de chaque génome) les doublets petit-petit apparaissent quand je trie sur grand (signalé par grand*) et les doublets petit-petit plus les doublets grand-petit apparaissent quand je trie sur petit (signalé par petit*).
    - Dans le tableau des calculs j'ai indiqué les valeurs attendues et trouvées (effect) des doublets petit-petit + grand-petit (petit) et des doublets petit-petit (grand) avec leur écartype de 2σ.
    - La variance d'une variable aléatoire selon la loi multinomiale [1] est égale à np(1-p) où p est sa probabilité et n le nombre de tests. Littéralement la variance des doublets "grand" est np2(1-p2) et des doublets "petit" est n(p2+2pq)(1-p2-2pq) et en sachant que la somme des probabilités des 3 variables est égale à l'unité la variance des doublets "petit" est nq2(1-q2). Dans le tableau les valeurs de ces variances sont sous leur écriture littérale, varq pour "petit" et varp pour "grand".
archeo	cds total	total	<0	0-200	reste	cds≥0	bornes	p	q		tRNAs
mja cds-cds	1 768	1 730	219	1296	215	1511	petit	0,858	0,142		21
mja cds %			127	858	142		19,284	p2	2pq	1-q2	q2
mja tRNA		42		29	13		21,866	0,736	0,244	0,980	0,020
											
calculs	proba	effect	attendu	plage	2σ			grand	varq	   varp		attendus	
petit	0,858	19	20,6	19 – 22	1,3			11,407	nq2(1-q2)  np2(1-p2)	petit	grand
grand	0,142	10	15,4	11 – 19	4,0			19,491	0,417	   4,084	20,575	15,449

comparaison cds-cds et tRNA-cds[modifier | modifier le wikicode]

  • Lien tableur: comparaison cds-cds et tRNA-cds
  • Légende:
    1. Intervalles de confiance
      - p petit grand tRNAs <0, voir les calculs.
      - gen pour génome, inf et sup pour borne inférieure et supérieure de l'intervalle de confiance, cds total des cds relevé dans NCBI.
      - Les couleurs: en jaune, les 2 valeurs (petit et grand) relevées sont à l'intérieur de l'intervalle de confiance. Donc les intercalaires tRNAs-cds suivent ceux des cds-cds (p); cyan, les valeurs relevées sont à l'extérieur de l'intervalle de confiance. Les 22 cyan sont inférieures à la borne inf. Cela veut dire que dans plus de la moitié des cas les intercalaires tRNAs cds sont supérieurs à 200 pbs. Trois cyan sont très proches de la borne inf et sont soulignés.
      -Note: pour pub le calcul a été fait pour les intercalaires <101 pbs tellement que le reste est très faible.
    2. Moyennes
      - pet grd, moyenne des colonnes petit grand, voir les calculs et les intercalaires tRNA-cds comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. La moyenne de tRNA-cds est faite sur les 2 colonnes , petit et grand.
      - fréquence, cds-cds ADN, voir "génome"_frequences (exemple abra pour le total des fréquences des intercalaires cds-cds et ADN pour le total des intercalaires positifs en pbs).
      - grd%= 100*(grd-cds)/cds   pet%=100*(cds-pet)/pet   taux=(grd-pet)/cds; diff=(tRNA-cds)-(cds-cds).
      - Notes:
      + Les moyennes des tRNA-cds sont toutes supérieures aux cds, la différence, diff, est toujours nettement positive.
      + L'orientation des tRNA-cds, grand versus petit. J'ai fait la comparaison de ces 2 moyennes à celle de cds-cds, grd% et pet% en prenant soin de se débarrasser des signes moins. Les grd sont toujours très élevés, comme il se doit, et les pet sont aussi plus petits de cds-cds sauf pour 2 cas (spl et bsu) qui sont faiblement plus grands (-18% et -15%) et 5 proches de l'égalité (pet% inférieur à 7%); sinon 7 sont nettement petits (pet% supérieur à 40%) et 7 moyens (entre 16 et 40%).
      + Le taux de l'orientation: la différence grand-pet est comparée à la moyenne cds-cds dans leur rapport. Ce taux est proche de l'unité, plus ou moins une moyenne cds-cds. Deux cas, abra et rtb, font 2 moyennes cds-cds.
      + Ce tableau est à comparer à la rareté des petits tRNA-cds.
tRNAs-cds. Comparaison des intercalaires cds-cds et tRNAs-cds.
tRNAs-cds1. Intervalles de confiance.
caractéristiques petit grand
gen 0-200, p cds tRNAs petit grand <0  inf sup inf sup
abra 0,854 1712 40 27 13 -8.71 -6.14 -2.37 5.57
ant 0,911 3119 32 16 10 -0,84 0,58 0,27 6,28
mja 0,858 1768 42 19 10 0,28 2,87 1,41 9,49
pmg 0,886 1839 66 31 20 1 -0,69 1,86 0,49 9,78
pub 0,866 1343 50 25 17 -1,78 0,88 -2,60 6,07
ade 0,827 4506 68 30 21 0,98 4,97 -3,20 7,65
afn 0,771 2093 52 26 17 -3,63 0,91 -6,54 3,48
ase 0,744 8256 100 39 17 1 3,31 10,25 3,14 17,06
bsu 0,848 4325 26 11 8 0,62 2,78 -1,88 4,59
cbn 0,768 2521 34 13 8 1,22 4,95 -2,03 6,08
cvi 0,810 4345 78 38 20 -2,73 1,92 -0,33 11,54
eco 0,773 4285 56 20 7 4,22 8,90 4,54 14,92
rru 0,767 3854 80 39 15 -4,03 1,70 2,33 14,78
spl 0,651 4269 60 19 5 1 2,95 9,99 1,97 12,62
blo 0,741 1824 78 27 11 3 3,58 9,59 2,79 14,73
cbei 0,570 5665 40 13 5 -0,17 6,77 -2,69 5,68
mba 0,415 3995 88 21 5 1 1,06 13,51 -2,54 7,36
myr 0,757 3611 78 35 18 1 -2,16 3,66 -2,35 9,85
pmq 0,649 7258 32 15 5 -3,61 1,66 -2,22 5,68
rtb 0,630 828 56 18 5 2,52 9,80 0,92 11,27
scc 0,768 1847 66 27 9 1,64 6,82 4,82 16,12
tRNAs-cds2. Moyennes
fréquence moyenne pourcentage
gen cds-cds ADN cds-cds tRNA-cds diff grd pet grd% pet% taux
abra 1250 135857 109 224 115 358 91 229 20 2,5
ant 2333 192251 82 126 44 184 68 123 21 1,4
mja 1511 151580 100 148 48 203 94 102 7 1,1
pmg 1547 139122 90 128 38 196 61 118 47 1,5
pub 834 39179 47 51 4 86 16 83 201 1,5
ade 3649 428947 118 164 46 225 102 92 16 1,1
afn 1732 220467 127 144 17 199 89 56 43 0,9
ase 6545 1063558 162 239 76 346 130 113 25 1,3
bsu 3607 401590 111 188 77 241 135 116 -18 0,9
cbn 2315 313764 136 181 45 234 127 73 7 0,8
cvi 3526 452650 128 178 50 270 86 111 49 1,4
eco 3286 421229 128 228 100 326 129 154 -1,0 1,5
rru 3103 429144 138 176 38 247 106 78 30 1,0
spl 3787 730981 193 358 165 484 228 151 -15 1,3
blo 1544 240201 156 227 71 292 155 88 0,2 0,9
cbei 5223 1159420 222 262 40 346 178 56 25 0,8
mba 3614 1292909 358 437 79 618 252 73 42 1,0
myr 3253 507186 156 173 17 247 96 59 63 1,0
pmq 6428 1202544 187 201 14 275 127 47 47 0,8
rtb 691 224467 325 551 226 854 248 163 31 1,9
scc 1458 195310 134 217 83 293 141 118 -5 1,1

Les intercalaires tRNAs-cds sans cds-cds[modifier | modifier le wikicode]

  • Lien tableur: Les intercalaires tRNAs-cds sans cds-cds. Les résultats, les génomes et le mode calcul sont dans le tableur seulement. Voir aussi le détail des calculs.
  • Légende: Les génomes sans cds-cds de la colonne vha sont comparés aux génomes avec cds-cds (p) de l'en-tête. pub est à refaire parce que sont p est calculé sur 0-100 et non 0-200 pour tous les autres. La classe3 est celle de pmq cbei mba myr, voir le classement.
tRNAs-cds2. Comparaison des intercalaires tRNAs-cds avec ou sans cds-cds. Intervalles de confiance OK.
<201 sans - pub afn cvi pmq myr mba cbei total ok classe 3
p 0,866 0,771 0,810 0,649 0,757 0,415 0,570
genome cds 1 343 2 093 4 345 7 258 3 611 3 995 5 665
vha 5 432 * * * * * ok ok 2 "
amed 4 285 * * * ok * * ok 2 "
ecoN 5 157 * * * * * ok * 1 "
rpm 3 484 * ok * ok ok * * 3
oan 4 900 * * * *- * * ok 1 "
abq 6 576 * * * ok * * ok 2 "
abs 6 817 * * * ok ok * ok 3 "
agr 5 159 * * * *- * * ok 1 "
aua 4 721 * * * * * ok ok 2 "
rpl 850 * * * * * ok ok 2 "
ppm 5 384 * * * * * ok ok 2 "
lbu 1 838 * ok ok ok ok * ok 5
ban 5 700 * *- * ok *- ok ok 3 "
psor 3 368 *- ok ok ok ok *- ok 5
cdc 3 614 * ok *- ok ok ok ok 5
hmo 2 707 * *- * ok ok * ok 3 "
fps 2 478 *- ok ok ok ok * * 4
npu 7 484 * * * * * * ok 1 "
apal 1 453 ok ok ok ok ok * * 5
mfi 3 381 * * * ok * ok ok 3 "
mfe 2 374 * * * * * ok * 1 "
total ok 1 6 4 12 8 9 16

Les intercalaires en continu-discontinu[modifier | modifier le wikicode]

comparaison continu-discontinu[modifier | modifier le wikicode]
  • Lien tableur: comparaison continu-discontinu
  • Légende:
    - Tableau tRNA-cds01, les intercalaires tRNA-cds positifs: Ils sont comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. Les intercalaires inférieurs à 201 sont reportés dans les colonnes deb, fin (début et fin d'une transition continue cds-tRNA, complement ou non) et les colonnes deb'-fin' (changement de sens entre cds et tRNAs, direct-complement ou complement-direct). La colonne total est la somme de tous les intercalaires, les >200 aussi.
    - Tableau tRNA-cds01, les intercalaires cds-cds négatifs, l'ensemble: 3 colonnes sont extraites du tableau des fréquences cds-cds (exemple abra, cds le total des intercalaires cds-cds, <0 (continu + discontinu) le total des négatifs et r32 correspondant au reste du label fréquence-1. Deux colonnes sont des rapports extraits du tableau des détails tRNA-cds02, comp'% (discontinu sur les négatifs) et min% (200*différence/somme, en valeur absolue, de min-min').
    - Tableau tRNA-cds02, détail des cds-cds négatifs: Les effectifs sont tirés du tableur au paragraphe intercalaires négatifs de chaque génome exemple abra. Pour les continus con et les discontinus comp' j'ai mis 3 colonnes total, le minimum (min' pour comp') et le reste des effectifs après la fréquence (-50), r50. Pour les continus seulement, car con1 des comp' est toujours nul, j'ai ajouté 2 colonnes, les effectifs de la fréquence (-1), con1, et ceux de la fréquence (-4), con4.
  • Note: erreur sur eco, intercalaire 233 (voir eco intercalaires tRNA). corrigé ici.
tRNAs-cds0. Comparaison continu-discontinu des intercalaires des tRNA-cds positifs et des cds-cds négatifs.
tRNAs-cds01. Détail des tRNA-cds et l'ensemble des cds-cds négatifs.
détail tRNA-cds positifs ensemble cds-cds négatifs
gen deb fin deb’ fin’ total cds <0 r32 r32% comp’% min%
abra 7 12 5 4 41 1 667 417 20 4,8 1,4 117
ade 20 16 7 9 69 4 464 815 40 4,9 11,9 6
afn 20 17 2 5 53 2 039 307 21 6,8 1,3 31
ant 11 12 4 1 34 3 095 762 17 2,2 10,9 11
ase 18 16 12 12 101 8 197 1 652 128 7,7 19,3 1
blo 15 15 5 6 78 1 772 228 8 3,5 7,0 17
bsu 3 5 7 5 28 4 215 608 52 8,7 4,9 182
cbei 9 5 4 1 47 5 622 400 24 6,0 2,8 59
cbn 12 12 2 2 40 2 491 176 6 3,4 4,5 54
cvi 22 20 7 9 78 4 282 756 26 3,4 8,2 5
eco 10 11 5 7 65 4 024 738 55 7,5 12,3 107
mba 9 8 7 4 90 3 943 329 26 7,9 5,5 23
mja 6 15 8 1 43 1 730 219 17 7,8 24,2 29
myr 18 15 12 10 79 3 555 302 12 4,0 6,6 37
pmg 16 17 13 8 67 1 800 253 12 4,7 36,0 3
pmq 8 11 2 5 42 7 223 795 52 6,5 4,3 45
pub 13 14 11 11 50 1 307 473 14 3,0 19,0 41
rru 15 18 10 11 83 3 786 683 32 4,7 10,1 12
rtb 9 12 0 2 56 793 102 7 6,9 2,9 35
scc 13 8 11 5 67 1 805 347 14 4,0 7,8 47
spl 9 9 4 3 62 4 213 426 10 2,3 2,8 61
total 263 268 138 121 1 273 72 023 10 788 593 5,5 10,6
tRNAs-cds02. Détail des cds-cds négatifs.
con cds-cds négatifs continus comp’ cds-cds négatifs discontinus
gen total min con1 con4 c1/c4 r50 r50% total min’ r50 r50%
abra 411 -92 68 142 0,48 13 3,2 6 -24 0
ade 718 -109 70 540 0,13 10 1,4 97 -116 14 14,4
afn 303 -113 38 129 0,29 9 3,0 4 -83 1 25,0
ant 679 -71 164 221 0,74 6 0,9 83 -79 1 1,2
ase 1333 -119 168 892 0,19 32 2,4 319 -120 49 15,4
blo 212 -86 52 109 0,48 2 0,9 16 -102 2 12,5
bsu 578 -7 616 72 233 0,31 17 2,9 30 -361 7 23,3
cbei 389 -110 71 82 0,87 4 1,0 11 -60 1 9,1
cbn 168 -47 34 28 1,21 0 8 -27 0
cvi 694 -97 118 377 0,31 4 0,6 62 -102 6 9,7
eco 647 -2 400 163 261 0,62 22 3,4 91 -723 11 12,1
mba 311 -59 33 119 0,28 7 2,3 18 -74 2 11,1
mja 166 -83 25 52 0,48 7 4,2 53 -62 0
myr 282 -47 71 60 1,18 0 20 -68 1 5,0
pmg 162 -65 36 72 0,50 2 1,2 91 -67 2 2,2
pmq 761 -119 80 387 0,21 17 2,2 34 -75 4 11,8
pub 383 -65 152 81 1,88 3 0,8 90 -43 0
rru 614 -137 81 396 0,20 13 2,1 69 -122 7 10,1
rtb 99 -50 10 33 0,30 0 3 -35 0
scc 320 -74 39 156 0,25 6 1,9 27 -120 1 3,7
spl 414 -98 126 136 0,93 5 1,2 12 -52 1 8,3
total 9 644 1 671 4 506 0,37 179 1,9 1 144 110 9,6
Notes, comparaison continu-discontinu[modifier | modifier le wikicode]
  • Les intercalaires tRNA-cds: tableau tRNA-cds01
    - Pour les intercalaires positifs les totaux deb et fin sont à égalité de même que les deb' et les fin' (notation des intercalaires tRNA, par exemple abra). Cependant les deb-fin sont 2 fois plus nombreux que les deb'-fin' car les plages des adresses direct ou complement sont très étendues, sous-tendues par l'architecture globale du chromosome et la discontinuité ne concerne que le passage d'une plage à l'autre. Dans les intercalaires négatifs, qui sont rares, ce sont les discontinus qui prennent l'avantage comme si la discontinuité ajoutée à la difficulté de réparation due aux appariements des tRNAs provoquait le chevauchement, il y a 2 continus contre 6 discontinus négatifs (voir 1er petit tableau parmi ceux qui suivent). C'est ce résultat partiel qui m’a poussé à étudier les intercalaires cds-cds négatifs.
    - Les intercalaires tRNA-cds négatifs, 8/1272 soit 0.6%, sont rares alors que les négatifs représentent environ 15% (10 788/72 023) des intercalaires cds-cds. Je les ai comparés à la rareté des tRNA-cds nuls: il semblerait que ceux-ci soient aussi rares, 4/1272 soit 0.3% (voir le 2ème petit tableau parmi ceux qui suivent). Mais les nuls sont aussi très faibles chez les cds-cds. Le décompte des nuls des 21 génomes avec cds donne 510 nuls pour 72 023 intercalaires cds-cds, soit 0,7% (voir "génome" les fréquences: exemple abra) et la comparaison des nuls/négatifs des cds-cds pour 8 génomes donne 210/24482 soit 0.9%, et en plus le rapport comp'/con égale à 39/171 soit 0.23 est du même ordre de grandeur et même 2 fois plus élevé que celui des cds-cds négatifs de 0.11 = 346/3035 (Les effectifs des nuls sont obtenus en même temps que les relevés des négatifs, mais seulement pour ces 8 génomes. Les effectifs des négatifs sont extraits du tableau tRNA-cds02).

Fin cds01

tRNA-cds intercalaires négatifs
gen 	deb 	fin 	deb’ 	fin’ 	total 
mba	-	-	-12	-	1
spl	-	-	-23	-	1
myr	-	-	-38	-	1
pmg	-30	-	-	-	1
ase	-	-	-	-12	1
blo	-17	-	-39	-8	3

tRNA-cds intercalaires nuls
mba	-	1	-	-	1
pmg	-	-	1	-	1
pub	-	-	2	-	2
total	-	1	3	-	4

cds-cds intercalaires nuls/négatifs
nuls 	-	-	<0	-	-
gen	con	comp’	con	comp’	cds
myr	14	4	282	20	3 555
pmg	34	12	162	91	1 800
pmq	26	5	761	34	7 223
pub	58	13	383	90	1 307
rru	11	2	614	69	3 786
rtb	4	1	99	3	793
scc	7	1	320	27	1 805
spl	17	1	414	12	4 213
total	171	39	3035	346	24 482
  • Les intercalaires cds-cds négatifs: tableau tRNA-cds01 partie de droite pour les caractéristiques de l'ensemble des négatifs et tableau tRNA-cds02 pour les détails.
    1. Les intercalaires négatifs tRNAs-cds sont très rares par rapport aux cds-cds négatifs
      - Suite à la constatation de la quasi absence des intercalaires négatifs chez les tRNA-cds (note du début) j'ai entamé l'étude détaillée des cds-cds, positifs-négatifs, continus-discontinus. J'ai regroupé le tout dans le tableau récapitulatif des taux discontinu/continu, dans le tableau par classe génomique et dans le tableau des cds-cds positifs-négatifs.
      + Les intercalaires cds-cds négatifs S-: Le taux Sx-% des discontinus négatifs varie beaucoup d'un génome à l'autre et suit le classement par génome basé notamment sur le taux de négativité, S-%. Cependant la corrélation n'est pas totale puisque abra a le taux parmi les plus faibles, 1.4%, alors qu'il a un taux élevé de négativité de 25%; de même pour afn de la classe moyenne (II) a respectivement 1.3% et 15%. La classe I regroupe donc 4 forts en Sx-% et 1 génome très faible, la classe II est un mélange de 4 forts de 3 moyens et de 2 faibles et la classe III 2 faibles et 5 moyens. La classe III est l'opposée de la classe I puisqu'elle regroupe aussi les plus faibles taux S-%. Au total les Sx- sont 10 fois plus faibles que les Sc- varient fortement avec un écart supérieur à 50% par rapport à la moyenne.
      + Les intercalaires cds-cds positifs S+: Le taux Sx+% par contre est très homogène avec un écart de seulement de 10% par rapport à la moyenne. Au total les Sx+ ne sont que 3 fois plus faibles que les continus Sc+.
      + Les intercalaires tRNA-cds positifs R+: Ils se comportent exactement comme les S+, le taux Rx+% est homogène avec un écart de 20% par rapport à la moyenne et il y a 3 fois plus de continus que de discontinus. Cependant leur moyenne de 37% est supérieure de 20% à la moyenne des Sx+% de 31%.
      - Les tRNAs-cds négatifs pour 43 génomes restent très rares, 0.7%, mais le rapport c- / x- tend vers l'unité, 9/10. Si les cds-cds négatifs sont beaucoup plus abondants que les tRNA-cds négatifs, 15% contre 0.7%, ce sont surtout les Sc- qui les représentent. En ramenant au total des S, les Sx- ne représentent que 1144/72023 soit 1.6% et en ramenant au total des R, les Rx- représentent 10/2688 soit 0.4% et donc les Sx- sont peu fréquents mais sont 4 fois plus abondants que les Rx- dans leur catégories respectives.
      - Les intercalaires tRNA-tRNA discontinus positifs x+ (1% pour 50 génomes et 1745 intercalaires) sont aussi rares que les tRNA-cds négatifs et les x- sont quasi inexistants, 1 seul cas et d'une seule paire de base. En plus sur 18 intercalaires discontinus relevés 5 sont tellement grands (supérieurs à 400 pbs) qu'ils résulteraient plutôt d'un remaniement du chromosome que d'une propriété des blocs à tRNAs seuls, 9 entre 130 et 290 pbs et 4 entre 50 et 90 pbs. Voir le tableur du même lien.
      - Les intercalaires discontinus dans les blocs à rRNAs sont inexistants pour 50 génomes et 1984 intercalaires.
      - Les intercalaires positifs de 1 à 40 pbs:
      + La comparaison des tRNA-cds aux cds-cds (tRNA-cds1), avec intervalle de confiance, m'a montré que les 1ers ont un comportement propre aux tRNA et surtout que la fréquence attendue des "petit" était inférieure à la borne inférieure de l'intervalle. Cela veut dire que les petits intervalles sont moins fréquents que les grands, relativement aux cds-cds. Ceci m'a poussé à comparer les moyennes des cds-cds et des tRNA-cds dans le sous tableau tRNA-cds2 (même lien). Et effectivement les moyennes des tRNA-cds sont toujours et nettement supérieures à celles des cds-cds (colonne diff). De même les grands intercalaires (grd%) sont encore plus grands que la moyenne cds-cds et les petits intercalaires (pet%) plus petits (14 génomes) qu'elle, ou égaux (4) et pour 3 génomes légèrement supérieurs (bsu spl scc).
      + Ce résultat va dans le même sens que la faible fréquence des tRNA-cds négatifs et donc de l'orientation des blocs à tRNAs seuls, sans rRNA. Aussi j'ai comparé les fréquences des petits intercalaires positifs cds-cds (S) et tRNA-cds (R) de 1 à 40 pbs. Les R sont au moins 3 fois plus faibles que les S (colonne taux) pour 13 génomes et 7 ont si peu de R (0 1 2) que leur taux doit être supérieur à 3. Un seul génome pub a un taux proche de l'unité, mais son taux approche 3 quand je compare les 10 plus petits intercalaires. J'ai calculé aussi le taux des R40 discontinus R40x% sur le total R40, il est du même ordre de grandeur que celui des Sx+% et Rx+% calculés sur la totalité des intercalaires, 26% contre respectivement 31 et 37 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser.
      - En conclusion:
      • Les intercalaires tRNA-tRNA, à l’intérieur des blocs à tRNA, avec rRNA ou non, sont toujours continus. Ils peuvent être discontinus dans les blocs sans rRNA, jusqu'à 1%, sous la forme positive Rx+ seule et sont souvent très longs. Ceci suggèrent qu'ils sont plutôt le résultat des remaniements du chromosome que du processus de la formation du bloc.
      • Les intercalaires tRNA-cds, en contact avec les gènes protéiques, orientent les blocs à tRNAs seuls. L'orientation n'est pas définie par la disposition des tRNA dans le bloc comme le font les rRNAs dans les blocs les contenant, mais par la difficulté (faible fréquence) à réaliser des intercalaires courts d'un côté et la facilité à en réaliser des longs de l'autre côté (forte fréquence). La différence avec les blocs à rRNA, comme je le montrerai plus loin, c'est que le côté long varie peu en longueur pour ceux-ci alors qu'il est très variable pour les blocs sans rRNA.
    2. Comparaison entre les intercalaires cds-cds négatifs continus et discontinus:
      - Comparaison avec les positifs: quand on voit les minima des négatifs on a l'impression que leur étendue est très grande, mais en fait les négatifs ont des intercalaires inférieures à 32 pbs dans 95% des cas alors que les positifs ne dépassent pas les 27% dans la plage 1-40 pbs. Voir ici les comparaisons positifs-négatifs dans le 1er sous-tableau. Les négatifs supérieurs à 140 pbs ne représentent que 0.2% du total, 21/10788, et ne concernent que 2 génomes dans mon étude de 21, bsu et eco. Voir en fin de chapitre la liste des intercalaires négatifs supérieurs à 140 pbs.
      - Comparaison entre continus et discontinus: Maintenant, quand on voit les minima des négatifs entre continus et discontinus (voir la comparaison dans les colonnes min et min' dans le 2ème sous-tableau et leurs taux dans le 1er sous-tableau ainsi que leur liste en fin de chapitre), on a l'impression qu'ils sont similaires, 9 de plus de 360 pbs chez les continus et 5 chez les discontinus. Et même les négatifs seraient plus fréquents puisque le rapport c-/x- est de 2 alors qu'il est de 10 pour le total des négatifs. Or des recouvrements longs pour les discontinus me posaient problème: à l'instar d'un tRNA où son complément n'est pas un tRNA à cause de la dissymétrie des tRNAs, je pensais que le complément d'un cds ne pouvait être que rarement un cds et que s'il y avait recouvrement il ne pourrait être que court. C'est ce qui expliquerait par ailleurs la rareté des discontinus.
      - Aussi j'ai étudié les recouvrements réels chez les continus et les discontinus. Ce qui en ressort c'est que les intercalaires longs ont un recouvrement total et les courts ont un recouvrement partiel. Et ceci que les intercalaires soient continus ou non. Et il y a ainsi 2 intercalaires discontinus à recouvrement total long, 297 et 486 pbs, et un 3ème discontinu partiel de 210 pbs. Sur 6 discontinus les autres ont un recouvrement inférieur à 75 pbs. Le taux des recouvrements longs pour les discontinus parait donc très élevé, 33 à 50%. Mais sur les 10788 de négatifs ils sont extrêmement rares 2 à 3 pour 10 000 intercalaires. On pourrait suggérer que ce sont des accidents dus aux remaniements du chromosome mais l'étude des fréquences de tous les négatifs qui suit montre que le processus sous-tendu par les intercalaires continus s'apparente au processus de traduction et de transcription basé sur une périodicité de 3 bases ou triplet qui défini les aas, et que le processus sous-tendus par les intercalaires discontinus s'apparente au processus de réparation qui ne concerne que les propriétés physiques de l'ADN double brin mais qui néanmoins fait apparaître une périodicité de 3 paires de bases différente de celle ces continus.
    3. Les fréquences des intercalaires négatifs cds-cds, c- et x-
      - Les c- reproduisent dans l'ADN le processus traductionnel des triplets mais décalés.
      - Les x- mettent en évidence 2 processus de réparation, un qui reproduit partiellement le processus traductionnel des triplets auquel se superpose le 2ème par des triplets décalés
  • Les intercalaires cds-cds négatifs inférieurs à -140
Les intercalaires cds-cds négatifs inférieurs à -140 pbs: continu, le chevauchement se fait sur le même brin et comp' pour discontinu, le chevauchement se fait sur 2 brins.
continu		continu		comp’
eco		bsu		eco
-2400		-7616		-723
-2130		-500		-530
-1295		-492		-527
-897		-164		-436
-729		-154		-210
-448		-143		-
-242		-		bsu
-212		-		-361
-153		-		-
Discussion, comparaison continu-discontinu[modifier | modifier le wikicode]
Rareté des tRNA-cds négatifs et petits positifs[modifier | modifier le wikicode]
  • Lien tableur: Rareté des tRNA-cds négatifs et petits positifs.
  • Légende:
    1. Les tRNA-cds négatifs: Les décomptes et la dénomination du tRNA sont faits à partir des "génome"-opérons quand ils ont des cds sinon à partir de "génome"-autres-intercalaires. Aux 21 génomes étudiés avec les discontinuités (comp') s'ajoute 22 autres génomes avec un total de 11 intercalaires négatifs. Ces derniers sont en gras et le total de tRNA-cds négatifs, 1407 pbs, est reporté dans le tableur (lien ci-dessus). Le taux des négatifs passe donc à 19 pour un total de 2688 intercalaires (1407 plus ceux des 21 génomes, 1281), soit 0.7%, 2 fois plus faible que les discontinus positifs entre tRNA dans les blocs sans rRNA.
      - Note: le rapport c-/x- maintenant est proche de l'unité, 9c- / 10x- pour 43 génomes. Ce rapport et la rareté des tRNA-cds négatif suggèrent que le processus est aléatoire avec une probabilité de 0.5.
      - tga*, cette adresse n'apparaît pas dans spl opérons du 30.6.19 mais apparaît dans fréquences de spl du 24.9.20 dont est issu spl-autres-intercalaires.
      - blo*, dans blo opérons il n'y a pas de cds. Voir dans blo autres intercalaires qui est du 15.10.20 (voir blo-fréquences) alors que blo-opérons est du 30.6.19.
    2. Les tRNA-cds positifs: les génomes gen pointent sur les intercalaires des tRNA-cds des 21 étudiés pour les discontinuités.
      - S40% voir les intercalaires cds-cds 1-40 colonne 1-40% du 1er tableau, pourcentage des Sx+ sur le total, (100*Sx+ / S+).
      - total, total des tRNA-cds du génome reporté dans l'encadré au-dessus de son tableau.
      - R40 est le total des intercalaires positifs de 1 à 40 pbs des 2 parties du tableau de chaque génome (gen): continu pour Rc+ et comp' ou discontinu pour Rx+. Le pourcentage du total des Rx+, Rx+%, égale à (100*Rx+ / R+), est le même que celui des Sx+% et Rx+% calculés sur le total, soit 100*33/129 = 25,6 contre respectivement 31 et 36 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser. En effet quand je compare les moyennes (tableau tRNA-cds2) des intercalaires positifs des cds-cds à celles des tRNA-cds ces dernières sont toujours et nettement plus élevées que les 1ères. Et quand j'oriente les blocs de tRNA sans rRNA les grands sont donc normalement tous plus élevés que cds-cds mais pour les petits 7 génomes à égalité ou presque (spl et bsu), 7 sont nettement plus petits ( différence supérieure à 40%) 7 moyennement petits (différence de 16 à 40%).
      - R40%, pourcentage des 1-40 par rapport au total des tRNA-cds;   taux, S40% / R40%.
      - Note:
      + les taux de cbn et bsu sont calculés avec R40=1. Quand j'enlève pub le taux du total passe à 3.6 au lieu de 2.9 et le pourcentage à 7.5 pour un cumulé de 1213 et un R40 total de 91.
      + Ce tableau est à comparer aux moyennes des tRNA-cds.
génomes. Rareté des tRNA-cds négatifs et des petits positifs
génomes. Les tRNA-cds négatifs
genome adresse tRNA inter
Intercalaire continu nc
vha chrII 1842556 ctc -36
amed 779541 caa -21
oan 1945985 aag -38
oan 34057 gcc -40
ppm plasm 7953 gac -24
hmo 2497882 gtg -10
mfi 314088 caa -1
pmg 1600898 gta -30
blo* 207388 tgg -17
Intercalaire discontinu xc comp’
rpm 1941413 agc -30
oan 1639492 atgj -44
aua 1350534 cgt -30
npu 3439846 gca -19
mba 1315521 cgc -12
spl 552630 tga* -23
myr 1926118 tta -38
ase 1249593 aag -12
blo* 440078 aac -39
blo* 1424907 gag -8
total 19
génomes. Les poisitifs de 1 à 40
gen S40% total R40 R40% taux Rc+ Rx+
abra 37,3 41 2 4,9 7,6 2
ade 32,6 69 8 11,6 2,8 7 1
afn 35,8 53 4 7,5 4,7 4
ant 45,1 34 5 14,7 3,1 3 2
ase 23,9 100 14 14,0 1,7 11 3
blo 19,1 75 1 1,3 14,4 1
bsu 34,6 28 0 0 9,7
cbei 19,0 47 3 6,4 3,0 1 2
cbn 29,3 40 0 0 11,7
cvi 26,9 78 8 10,3 2,6 8
eco 29,1 65 4 6,2 4,7 1 3
mba 13,3 88 4 4,5 2,9 2 2
mja 39,4 43 5 11,6 3,4 5
myr 30,8 78 7 9,0 3,4 5 2
pmg 42,9 65 11 16,9 2,5 8 3
pmq 19,1 42 1 2,4 8,0 1
pub 59,6 48 27 56,3 1,1 18 9
rru 26,1 83 3 3,6 7,2 1 2
rtb 20,3 56 6 10,7 1,9 6
scc 31,0 67 4 6,0 5,2 2 2
spl 20,0 61 1 1,6 12,2 1
total 27,1 1261 118 9,4 2,9 86 32
Les cds-cds positif-négatif[modifier | modifier le wikicode]
  • Lien tableur: Les cds-cds positif-négatif
  • Légende:
    1. Les intercalaires cds-cds positifs de 1 à 40: Les liens des génomes gen pointent sur les fréquences des intercalaires cds-cds.
      - <0%: intercalaires négatifs / total des intercalaires cds-cds, extrait du sous-tableau génomes3. De même total est extrait du sous-tableau génomes2.
      - <1 reste: sont extraits du tableau des fréquences de chaque génome (lien dans la colonne gen de gauche) et concernent la colonne frequence1. <1 est la somme des fréquences (-1) et (0), et reste est à la fin de la colonne. Leur somme est soustraite du total pour donner le total des intercalaires positifs (>0).
      - >0: total des intercalaires positifs, égale à total - <1.
      - 1-40 et 1-40%: 1-40, le total des intercalaires positifs de 1 à 40 est égale à >0 - reste et son taux, 1-40%, à 1-40 / >0.
      - 1-32%: taux des négatifs de -1 à -32, extrait du tableau tRNA-cds02, après avoir retranché la colonne reste32% de 100%.
      - Note: Tous les taux calculés pour chaque génome (lien à la colonne gen) sont faits par rapport au total des intercalaires cds-cds. Dans le tableau tRNA-cds02 reste32% est calculé par rapport au total des négatifs seuls. Pour ne pas refaire tous les calculs des intercalaires positifs de 1 à 32 la comparaison de 1-40% à 1-32% me paraît pertinente puisque leur différence est très forte, que la différence des effectifs est très faible (40 contre 32) et que leurs calculs sont faits de la même façon, par rapports à leur totaux.
    2. Les intercalaires continu-discontinu: voir ici la méthode de ces décomptes.
      - S R a pour intercalaires cds-cds, tRNA-cds, autres
      - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S. Attention SC- de eco est à corriger, 644 au lieu de 647.
      - total, total de tous les gènes
      - tx/2, total des comp (complement) correspondant à une discontinuité xc, c'est à dire le 1er comp d'une suite de comp, cette suite pouvant être réduite à l'unité. Chacun de ces comp correspond à 2 intercalaires discontinus, d'où (Sc+) = total - (tx/2)*2 - ac - (Rc+) et (Sc-) = (tx/2)*2 - ax - (Rx+).
    3. tRNA-cds positifs: mêmes notations que précédemment. Les liens des génomes gen pointent sur les intercalaires tRNA-cds.
      - attention correction pour eco, 37 28 et non 37 27. corrigée ici.
génomes. Les intercalaires cds-cds, comparaison positif négatif.
génomes. Les intercalaires cds-cds positifs de 1 à 40
gen <0 % <1 reste total 1-40 >0 1-40% 1-32%
abra 25 430 776 1667 461 1237 37 95
ade 18 844 2440 4464 1180 3620 33 95
afn 15 318 1105 2039 616 1721 36 93
ant 25 827 1246 3095 1022 2268 45 98
ase 20 1687 4956 8197 1554 6510 24 92
blo 13 231 1246 1772 295 1541 19 97
bsu 14 636 2342 4216 1238 3580 35 91
cbei 7 419 4214 5622 989 5203 19 94
cbn 7 187 1628 2491 676 2304 29 97
cvi 18 771 2566 4282 945 3511 27 97
eco 18 767 2310 4024 947 3257 29 93
mba 8 351 3113 3943 479 3592 13 92
mja 13 240 903 1730 587 1490 39 92
myr 9 320 2239 3555 996 3235 31 96
pmg 14 298 857 1800 645 1502 43 95
pmq 11 826 5173 7223 1224 6397 19 94
pub 36 544 308 1307 455 763 60 97
rru 18 696 2285 3786 805 3090 26 95
rtb 13 107 547 793 139 686 20 93
scc 19 355 1001 1805 449 1450 31 96
spl 10 444 3017 4213 752 3769 20 98
total 16454 60726 27 94.5
écart 27±7 95±3
génomes. Les intercalaires cds-cds, continu - discontinu
total t x/2 ac ax ax% Sc- Sx- Sx-% Sc+ Sx+ Sx+% S- %
1795 147 82 5 6 411 6 1,4 977 273 22 25
4569 722 35 5 13 718 97 11,9 2325 1320 36 18
2192 187 86 11 11 303 4 1,3 1386 349 20 15
3190 366 56 5 8 679 83 10,9 1694 639 27 25
8380 1548 72 9 11 1333 319 19,3 3819 2726 42 20
1900 277 37 8 18 212 16 7,0 1044 502 32 13
4537 592 250 46 16 578 30 4,9 2513 1092 30 14
5813 622 134 8 6 389 11 2,8 4011 1213 23 7
2636 283 96 5 5 168 8 4,5 1776 543 23 7
4487 613 105 23 18 694 62 8,2 2410 1115 32 18
4700 704 398 213 35 647 91 12,3 2210 1076 33 18
4071 654 26 10 28 311 18 5,5 2378 1237 34 8
1828 269 36 20 36 166 53 24,2 1063 447 30 13
3754 522 110 11 9 282 20 6,6 2270 981 30 8
1884 364 10 7 41 162 91 36,0 942 604 39 14
7479 975 206 8 4 761 34 4,3 4535 1893 29 11
1386 182 16 13 45 383 90 19,0 595 239 29 36
3946 550 52 25 33 614 69 10,1 2131 972 31 18
868 106 12 4 25 99 3 2,9 505 189 27 13
1909 264 33 7 18 320 27 7,8 993 462 32 19
4466 680 171 20 11 414 12 2,8 2482 1304 34 10
75790 10627 2023 463 19 9644 1144 10,6 42059 19176 31 15
19±10 10±6 31±4 15±5
tRNA-cds positifs
gen Rc+ Rx+ Rx%
abra 31 10 24
ade 47 22 32
afn 43 10 19
ant 29 5 15
ase* 60 41 41
blo* 52 26 33
bsu 12 16 57
cbei 35 12 26
cbn 30 10 25
cvi 52 26 33
eco 37 28 43
mba* 48 42 47
mja 25 18 42
myr* 48 31 39
pmg* 41 26 39
pmq 27 15 36
pub 28 22 44
rru 49 34 41
rtb 40 16 29
scc 35 32 48
spl* 39 23 37
total 808 465 37
écart 37±7
Récapitulatif des taux discontinu/continu[modifier | modifier le wikicode]
  • Lien tableur: Récapitulatif des taux discontinu/continu.
  • Légende: >0, intercalaires positifs zéro compris. <0, intercalaires négatifs
    - S R a pour intercalaires cds-cds, tRNA-cds, autres
    - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S
    - Liens: S RS t1,  Scx- RS t2,  Scx+ S+ t2,  acx a t2,  Rcx R+ t3  et  R-. (t1 t2 t3 pour les sous-tableaux des liens).
    - Voir les tRNA-cds négatifs, Rcx-, dans Notes.
  • Note: Les autres intercalaires contiennent ceux des tRNA-tRNA qui ne produisent pas de discontinuités. En enlevant ces intercalaires, environ 500 (spl 133, bsu 60, pmq 138, cbn 22, cbei 140) j'arrive à un rapport ax% de 463/1500 soit 31%, celui de Sx+%. En plus eco contient 129 pseudo-gènes comptés dans autres intercalaires et qui se comportent comme les cds S+. Donc sans eco et les tRNAs le reste doit avoir un rapport ax% semblable à celui des Sx%.
Récapitulatif continu - discontinu
>0 <0 total taux <0
tRNA-cds tRNA-cds
Rc+ Rx+ Rx+ % Rc- Rx- Rx- % R- %
808 465 36,5 2 6 75 1 281 0,6
cds-cds cds-cds
Sc+ Sx+ Sx+ % Sc- Sx- Sx- % S- %
42 059 19 176 31,32 9 644 1 144 10,6 72 023 15,0
ac ax ax% intercal a% Sx%
2 023 463 18,6 75 790 3,3 75 790 28,2
Les taux de discontinus par classe génomique[modifier | modifier le wikicode]
génomes. Les taux de discontinus par classe génomique
gen Sx-% Sx+% S-% Rx+% ax%
I
abra 1,4 22 25 24 6
ant 10,9 27 25 15 8
mja 24,2 30 13 42 36
pmg 36,0 39 14 39 41
pub 19,0 29 36 44 45
II
ade 11,9 36 18 32 13
afn 1,3 20 15 19 11
ase 19,3 42 20 41 11
bsu 4,9 30 14 57 16
cbn 4,5 23 7 25 5
cvi 8,2 32 18 33 18
eco 12,3 33 18 43 35
rru 10,1 31 18 41 33
spl 2,8 34 10 37 11
III
blo 7,0 32 13 33 18
cbei 2,8 23 7 26 6
mba 5,5 34 8 47 28
myr 6,6 30 8 39 9
pmq 4,3 29 11 36 4
rtb 2,9 27 13 29 25
scc 7,8 32 19 48 18
total 10,6 31 15 37 19
écart 10±6 31±4 15±5 37±7 19±10
Les fréquences des intercalaires négatifs cds-cds[modifier | modifier le wikicode]
Les fréquences des intercalaires négatifs cds-cds. Tableau[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Voir aussi les détails à la suite du tableau dans le tableur
  • Légende: inter, intercalaire; comp', pour discontinu.
    - nc, nombre de continus; nc%, proportion par rapport au total des continus; pc%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des continus.
    - xc, nombre de discontinus; xc%, proportion par rapport au total des discontinus; px%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des discontinus.
    - Le 1er pas de 3 intercalaires comprend les fréquences, inter, 6 7 8. Le rapport des continus est alors pc%=(5 + 140)/950=0.2. Pour les discontinus px%=(34+18)/46=1.1.
    - diff différence entre la fréquence 6 et 7.
cds-cds. Les fréquences des intercalaires négatifs cds-cds
continu comp’
inter nc nc% pc% nx nx% px% diff
-1 1 671 17,3 0 0
-2 4 0,0 40 3,5
-3 5 0,1 0 0
-4 4 506 46,7 0,4 387 33,8 0,1
-5 9 0,1 3 0,3
-6 4 0,0 35 3,1 17
-7 140 1,5 18 1,6
-8 949 9,8 0,2 47 4,1 1,1
-9 3 0,0 25 2,2 16
-10 95 1,0 9 0,8
-11 502 5,2 0,2 48 4,2 0,7
-12 4 0,0 21 1,8 8
-13 96 1,0 13 1,1
-14 330 3,4 0,3 44 3,8 0,8
-15 3 0,0 23 2,0 10
-16 58 0,6 13 1,1
-17 238 2,5 0,3 39 3,4 0,9
-18 5 0,1 13 1,1 2
-19 44 0,5 11 1,0
-20 164 1,7 0,3 22 1,9 1,1
-21 0 0,0 11 1,0 3
-22 22 0,2 8 0,7
-23 110 1,1 0,2 17 1,5 1,1
-24 2 0,0 18 1,6 8
-25 35 0,4 10 0,9
-26 102 1,1 0,4 20 1,7 1,4
-27 3 0,0 5 0,4 -2
-28 20 0,2 7 0,6
-29 61 0,6 0,4 10 0,9 1,2
-30 1 0,0 4 0,4 -2
-31 18 0,2 6 0,5
-32 48 0,5 0,4 15 1,3 0,7
-33 0 0 3 0,3 -3
-34 16 0,2 6 0,5
-35 37 0,4 0,4 17 1,5 0,5
-36 0 0 3 0,3 0
-37 9 0,1 3 0,3
-38 31 0,3 0,3 12 1,0 0,5
-39 1 0,0 2 0,2 -4
-40 6 0,1 6 0,5
-41 34 0,4 0,2 8 0,7 1,0
-42 0 0 4 0,3 -2
-43 16 0,2 6 0,5
-44 25 0,3 0,6 3 0,3 3,3
-45 0 0 2 0,2 -1
-46 5 0,1 3 0,3
-47 11 0,1 0,5 4 0,3 1,3
-48 0 0 2 0,2 -2
-49 11 0,1 4 0,3
-50 11 0,1 1,0 4 0,3 1,5
reste 179 1,9 110 9,6
total 9 644 1144
  • Notes:
    - Exception pour les discontinus: si les continus ont des pas avec les 2 1ères fréquences toujours très faibles par rapport à la 3ème fréquence, chez les discontinus les 2 1ères sont toujours plus faibles que la 3ème mais leur somme peut être supérieure à elle, ce qui donne des px% supérieurs à l'unité et un seul cas (fréquence 44) où la 3ème n'est pas la plus grande. Le dernier pas des continus, 48 49 50, 49 et 50 sont égaux.
    - Les fréquences 1 2 3 4 5: Les 2 lots continu et comp' ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 34% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement pour les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec le 1er pas (17% contre 10%) et la fréquence 2 est quasiment nulle et portée par un seul génome, bsu (effectif de 4 en gras); la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec le 1er pas avec un effectif de 40 contre 47.
    - Les restes après la fréquence 50: D'après la 1ère note la progression des continus est plus rapide que celle des comp' ce qui fait que les restes sont 5 fois plus élevés chez les comp' 9,6% contre 1.9% pour les continu. Mais la progression s'annule presque au-delà de la fréquence 100, voir le tableau des caractéristiques globales de ces 2 lots (tRNA-cds02 les colonnes des minima).
    - Chez les discontinus une seconde périodicité apparaît avec les -8 (modulo 3): les 3 1ères sont constantes entre 44 et 48 puis 39, suivent 3 autres de 17 à 22 puis 10, suivent 3 autres de 12 à 17 puis 8 et enfin la queue qui diminue lentement avec des 3 et 4, dépassant rarement 7 (voir la suite dans -80).
    - Les courbes de progression de chaque fréquence modulo 3 sont des exponentielles.
  • périodicité supérieure des discontinus, modulo 9.
-6	35 25 21	-7	18 9 13		-8	47 48 44	-8	47 48 44   39
-15	23 13 11	-16	13 11 8		-17	39 22 17	-20	22 17 20   10
-24	18 5 4		-25	10 5 4		-26	20 10 15	-32	15 17 12
-33	3 3 2		-34	3 3 6		-35	17 12 8		-41	8 3 4
-42	4 2 2		-43	6 3 4		-44	3 4 6		-50	6 3 5
-51	3 1 1		-52	1 2 3		-53	3 5 7		-59	7 2 6
-60	1 1 1		-61	1 1 3		-62	2 6 3		-68	3 1 3
-69	2 2 1		-70	1 1 0		-71	1 3 0		-77	0 2 ?
-78	0 ? ?		-79	2 ? ?		-80	2 ? ?		-86	-

Les fréquences des intercalaires négatifs cds-cds. Diagrammes[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Diagrammes.
  • Légende:
    - droite exp p4 coefficient de détermination R2 de la courbe de tendance, respectivement, d'une droite, de la fonction exponentielle, du polynôme de d° 4.
    - Paramètre des courbes, -a pente b constante pour la droite; -x exposant multiplié par 1000, x' constante pour l'exponentiel; w constante du polynôme.
    - fréquence: 6 6' 6" pour les fréquences -6 modulo 3; 7 7' 7" pour -7 modulo 3; et 8 8' 8" pour -8 modulo 3. Les diagrammes sont faits avec la valeur absolue de la fréquence.
    - abscisse modulo 3, abscisse 1: abscisse des diagrammes pour modulo 3 de fréquence ci-dessus, et abscisse modulo 1 de 1 à 15 pour les fréquences jusqu'à 50 et de 1 à 25 pour les fréquences jusqu'à 80. -x1 et x'1 pour l'exponentielle en abscisse1, à comparer avec les exponentielles des génomes.
    - moyennes: pour m e m/e respectivement moyenne écart type et leur rapport des fréquences modulo 3.
    - continu 50 et discontinu 50 80, diagrammes pour les cds-cds continus jusqu'à la fréquence 50 et les cds-cds discontinus jusqu'aux fréquences 50 et 80.
  • Note: Les fréquences des continus 8 et 7 progressent rapidement par rapport aux discontinus qui s'étalent sur une plus grande plage. Aussi les diagrammes sur 80 fréquences améliorent les paramètres des courbes des discontinus. En effet les R2 des droites 6" et 8" sont nettement inférieures à ceux de leurs exponentielles avec les facteurs x1 élevés quoiqu'ils aient diminués par rapport à la série -50. Par contre pour 7" les R2 des 2 courbes sont identiques ce qui milite pour une courbe de tendance linéaire quoique le facteur -x1 et le m/e soient supérieurs à ceux des génomes en discontinu.
cds-cds. Diagrammes des fréquences des intercalaires négatifs cds-cds
R2 abscisses modulo 3 abscisses 1 moyennes
fréquence droite exp p4 -a b -x x’ w -x1 x’1 m e m/e
continu 50
6 644 648 670 0,1 5 44 6 3 131 5,3 1,73 1,79 0,97
7 739 867 970 2,6 112 71 178 248 213 134 39,4 40,6 0,97
8 609 973 988 14,8 606 99 1356 2623 296 839 176,9 254,8 0,69
discontinu 50
6’ 813 897 923 0,7 31 74 52 48 221 41,6 11,4 10,6 1,08
7’ 760 774 799 0,3 16 35 19 23 104 16,6 8,2 4,2 1,95
8’ 856 893 935 1,1 53 64 95 44 193 69,1 20,7 16,0 1,29
discontinu 80
6” 655 830 941 0,4 22 51 30 46 154 25,8 7,36 9,6 0,77
7” 799 802 884 0,2 14 39 20 20 117 17,3 5,52 4,7 1,18
8” 729 847 944 0,6 39 48 63 75 143 49,7 13,76 15,1 0,91
Les intercalaires négatifs cds-cds, recouvrements[modifier | modifier le wikicode]
  • Lien tableur: Les intercalaires négatifs cds-cds, recouvrements.
  • Légende:
    - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
    - Les opérations:
    + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
    + shift, différence entre les extrémités des 2 cds, add22-add12. Quand le shift est nul (à droite ou à gauche) il est coloré en jaune.
    + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si le shift est nul (à droite ou à gauche) le recouvrement d'un des 2 cds est total.
  • Note:
    - Donc la longueur du recouvrement ne peut pas être supérieure à l'intercalaire.
    - Tous les longs intercalaires ont un recouvrement total. Sur les 21 intercalaires de longueur supérieure à 140 pbs, 17 ont un recouvrement total dont 16 ont des intercalaires supérieurs à 212 pbs et 4 ont un recouvrement partiel avec des intercalaires inférieurs à 210 pbs. J'ai étudié plusieurs cds-cds négatifs de plus en plus courts, inférieurs à 140 pbs, que je n'ai pas représentés ici, et à part le -127 de bsu tous se sont révélés des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
    - Les continus ont de longs recouvrements allant jusqu'à 2400 et ne descendent pas en dessous de 140. 9 sur 15 génomes ont plus de 200 pbs de recouvrement.
    - Les discontinus, à l'inverse, ne dépassent pas les 500 pbs de recouvrement et 5 sur 8 sont en dessous de 100 pbs. 3 sur 8 génomes ont plus de 200 pbs.
cds-cds0. Les intercalaires cds-cds négatifs, les recouvrements.
cds-cds01. Recouvrements chez bsu
intercal add1 add2 shift couvre
intercalaire continu
-7616 387744 398495 -7475 141
390880 391020
-500 3717238 3717825 -20 480
3717326 3717805
-492 2909520 2910011 735 492
2909520 2910746
-164 1252815 1253021 52 164
1252858 1253073
-154 2466721 2467953 209 154
2467800 2468162
-143 1916663 1917097 205 143
1916955 1917302
intercalaire discontinu
-361 2601528 2603339 -64 297
2602979 2603275
-127 3666841 3667059 -43 84
3666933 3667016
-93 2652993 2653463 1410 93
2653371 2654873
cds-cds02. Recouvrements chez eco
intercal add1 add2 shift couvre
intercalaire continu
-2400 164730 167264 0 2400
164865 167264
-2130 2731600 2733729 444 2130
2731600 2734173
-1295 492092 493386 637 1295
492092 494023
-897 4577958 4578854 483 897
4577958 4579337
-729 1179520 1180359 0 729
1179631 1180359
-448 1639030 1639527 -193 255
1639080 1639334
-242 578107 578568 -59 183
578327 578509
-212 508875 511379 0 212
511168 511379
-153 16751 16903 57 153
16751 16960
intercalaire discontinu
-723 3111128 3111988 -663 60
3111266 3111325
-530 3838248 3839171 -470 60
3838642 3838701
-527 10643 11356 -41 486
10830 11315
-436 3796948 3798207 -361 75
3797772 3797846
-210 3993739 3994059 276 210
3993850 3994335
Classement des génomes par les fréquences des cds-cds négatifs discontinus[modifier | modifier le wikicode]
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs discontinus.
  • Légende:
    - couleurs,
    + Les colonnes en jaunes: rouge pour les rapports non significatifs, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes et soulignées pour les extrêmes.
    + Le classement, ordre décroissant de x6 x7 x8: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 x7.
    - clde, ordre des génomes en 9 forts et 12 faibles par rapport à x‰. Ils sont séparés par la ligne très grasse.
    - r80, total des effectifs des fréquences négatives supérieures à 80.
    - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
    - "6 "7 "8, somme des effectifs des fréquences -6 -7 -8 modulo 3 jusqu'à -80.
    - "p pour périodique, somme des 3 modulo 3, "6 "7 "8
    - "80, somme des effectifs de ("5 "6 "7 "8)
    - cds, total des intercalaires cds-cds décomptés pour un génome, gen.
    -x5, % par rapport au total ("80 + r80).
    - x6 x7 x8, pourcentage d'un modulo 3 par rapport au total "p des 3 modulo 3, "6 "7 "8.
    - x‰, pour 1000 cds-cds, somme de "80 et r80 divisée par la colonne cds
cds-cds-x. Intercalaires négatifs discontinus. Classement
clde gen r80 “6 “7 “8 “p x6 x7 x8 x‰ cds “5 x5 “80
1 pub 0 17 3 24 44 39 7 55 68,9 1307 46 51 90
2 pmg 0 16 7 31 54 30 13 57 50,6 1800 37 41 91
3 ase 17 42 47 111 200 21 24 56 38,9 8197 102 32 302
4 mja 0 18 3 7 28 64 11 25 30,6 1730 25 47 53
5 ant 0 20 5 18 43 47 12 42 26,8 3095 40 48 83
6 eco 10 13 6 18 37 35 16 49 22,6 4024 44 48 81
7 ade 8 4 17 35 56 7 30 62 21,7 4464 33 34 89
8 rru 4 6 12 21 39 15 31 54 18,2 3786 26 38 65
9 cvi 1 6 15 17 38 16 39 45 14,5 4282 23 37 61
10 scc 1 9 3 11 23 39 13 48 15,0 1805 3 11 26
11 blo 2 1 3 7 11 9 27 64 9,0 1772 3 19 14
12 bsu 4 5 6 5 16 31 38 31 7,1 4215 10 33 26
13 myr 0 5 1 5 11 45 9 45 5,6 3555 9 45 20
14 pmq 0 8 3 12 23 35 13 52 4,7 7223 11 32 34
15 mba 0 2 3 9 14 14 21 64 4,6 3943 4 22 18
16 rtb 0 0 0 2 2 0 0 100 3,8 793 1 33 3
17 abra 0 3 0 2 5 60 0 40 3,6 1667 1 17 6
18 cbn 0 5 0 3 8 63 0 38 3,2 2491 0 0 8
19 spl 0 1 1 3 5 20 20 60 2,8 4213 7 58 12
20 cbei 0 2 2 3 7 29 29 43 2,0 5622 4 36 11
21 afn 1 1 1 0 2 50 50 0 2,0 2039 1 25 3
total 48 184 138 344 666 28 21 52 15,9 72023 430 38 1096
  • Note: Le tableau est construit à partir du tableau détaillé dans le tableur ainsi que les restes des cds-cds négatifs.
    - Classement: Le classement est fait suivant l'ordre décroissant de x6 x7 x8. Il y a ainsi 3 catégories: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 avec x7 quelconque. Chaque catégorie est divisée en x‰ fort, faible et rouge ou incetain. Ainsi le classement indique la couleur, l'ordre, l'effectif de la sous-catégorie et la fourchette du taux de x6.
    - Les forts x‰: Le taux de négatifs discontinus x‰ dépasse pour 8/9 le taux du total, 15.9 et le 9ème fait 14.5‰; 4 taux sont les plus élevés des 21, dépassant les 30‰. Le total de cds ne les impacte pas, il y a 5 grands cds pour 4 petits (inférieurs à 3100). Le taux des fréquences 1-5 varie peu et est très élevé, entre 32 et 51%. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds.
    1. bleu ordre x6 x8, deux, 47-64:   mja 31‰   1730  ant 27‰   3095
    2. v.clair ordre x8 x6 x7, trois, 30-39:   pub 69‰   1 307   pmg 51‰   1 800   eco 23‰   4 024
    3. v.foncé ordre x8 x7 x6, quatre, 7-21:   ase 31‰   8 197   ade 22‰   4 464   rru 18‰   3 786   cvi 15‰   4 282
    - Les faibles x‰: Le taux de négatifs discontinus x‰ ne dépasse pas 7‰ pour 10/12 d'entre eux; blo fait 9‰ et seul scc égale celui du fort cvi; j'ai gardé scc parmi les faibles à cause du faible taux des fréquences 1-5. Le total de cds ne les impacte pas, il y a 6 grands cds pour 6 petits (inférieurs à 2 500). Le taux des fréquences 1-5 varie beaucoup, est impacté par le total de cds; les 6 taux 1-5 les plus petits ont un cds inférieur à 2500; tandis que 5 grands ont un cds supérieur à 3555 et rtb est ambigu du à sa faiblesse en cds. Le taux des "6 par rapport au total des "p n'est impacté ni par le total cds ni par le taux des 1-5. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
    1. v.clair ordre x8 x6 x7, trois, 35-45:   scc 15‰   1 805-11   myr 6‰   3 555-45   pmq 5‰   7 223-32
    2. v.foncé ordre x8 x7 x6, cinq, 9-31:   blo 9‰   1 772-19   mba 5‰   3 943-22   spl 3‰   4 213-58   cbei 2‰   5 622-36   bsu 7‰   4 215-33
    - Les rouges ou incertains, en x‰: Les effectifs sont très faibles d'où les ?. Leurs cds ne dépassent pas 2500. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
    1. bleu ordre x6 x8, trois, 50-63:   afn 2‰   2 039-?   abra 4‰   1 667-17   cbn 3‰   2 491-0
    2. v.clair ordre x8 x6 x7, un ?, 0:   rtb 4‰   793-?
  • Coefficient de détermination, moyenne et corrélation des taux des périodiques par rapport au total des cds-cds. Les colonnes ‰. sont à faire d'après le tableau des discontinus, "6/cds par exemple pour x6‰., et d'après le tableau des continus pour (c7‰.), avant calcul. Ainsi le coefficient de détermination R2 est nettement à l'avantage d'une exponentielle chez les discontinus avec une différence minimale de 74 points pour (x7‰.); la fonction exponentielle est très prononcée avec une constante de l'exposant a, b*exp(-ax), proche de 0.2 et la constante b inférieure à 14.3. Les variances très élevées des taux vont dans le même sens avec des rapports moyenne/écartype, m/e, inférieurs à l'unité. Chez les continus l'avantage vers la linéarité est très prononcé en comparaison avec les discontinus: R2 linéaire supérieur à celui de l'exponentielle pour c7‰ et c5‰ avec le coefficient a 4 fois inférieur pour c7‰ (b 20 fois plus grand) et 2 fois inférieur pour c5‰ (b 100 fois plus grand); pour c8‰ et c‰ très grande ressemblance avec x8‰ et x‰ pour le R2 mais les coefficients a et b sont analogues à ceux de c7‰ et c5‰ militant plutôt pour la linéarité car plus a tend vers zéro plus l'exponentielle tend vers 1+ax [2]; enfin les très faibles variances des taux, m/e entre 1.7 et 3.9 vont dans le même sens. On retrouve ces comportements de l'exponentielle avec les fréquences des intercalaires où -x1 et x'1 correspondent à -a et b avec les mêmes abscisses que les génomes après tri (suite de 1 à 15 ou 25). Cependant le classement des continus en fonction de c‰ (voir cds-cds-cx) avait montré au moins 4 groupes dont un plateau et 2 pentes de progression élevées, une de 7 et l'autre de 37 (voir note) et apparemment cette hétérogénéité est supportée par les c5‰ (pas de classe avec un intrus) et c8‰ (une seule avec blo comme intrus) mais pas par c7‰ (les 4 classes ont au moins un intrus, dans l'ordre, cbei mja (ade eco) abra ). Enfin les fortes corrélations entre 2 colonnes de taux des discontinus et celles très faibles entre les taux des continus confirment respectivement leur parentés à la fonction exponentielle et à la fonction linéaire.
		discontinu					continu			
		x6‰.	x7‰. 	x8‰. 	x5‰. 	x‰. 		c7‰. 	c8‰. 	c5‰. 	c‰. 
moyenne		31,3	16,5	49,3	67,5	169,6		85,2	431,6	863,8	1409,2
écart		36,9	15,8	52,9	87,0	179,4		22,1	248,7	423,9	594,2
m/e		0,8	1,0	0,9	0,8	0,9		3,9	1,7	2,0	2,4
R2 progrès										
droite		743	876	743	685	772		974	789	967	890
exponentiel	980	950	974	976	987		968	938	956	966
a		0,196	0,179	0,170	0,213	0,176		0,042	0,080	0,089	0,065
b		1,87	1,40	4,59	2,97	14,28		52	157	285	64
corrélation, pour coefficient de détermination de 2 colonnes.										
5-6	5-7	5-8	6-7	6-8	7-8			5-7	5-8	7-8	
80	27	76	15	58	54			5	18	15	

Classement des génomes par les fréquences des cds-cds négatifs continus[modifier | modifier le wikicode]
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs continus.
  • Légende: voir le tableau des détails dans le tableur ainsi que les restes des cds-cds négatifs.
    1. Les continus
    - couleurs des continus, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, gras pour très faibles et soulignées pour les extrêmes.
    1. - c5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs continus.
      - c‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - cont, total des continus négatifs
      - r50, reste des continus après la fréquence -50.
      - "6 "7 "8, somme des effectifs continus des fréquences -6 -7 -8 modulo 3 jusqu'à -50.
      - "p, somme de "6 "7 "8
      - c7 en % somme des effectifs continus de la fréquence -7 modulo3 jusqu'à -50, sur la somme des mêmes sommes -6 -7 -8 modulo 3.
      - c1/c4, en %, rapport de la fréquence -1 sur la fréquence -4 des négatifs continus, tiré du tableau comparaison continu-discontinu
    2. Les discontinus voir leur chapitre
      - c‰ c5‰ c7‰ c8‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - x5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs discontinus.
      - x‰, pour 1000 cds-cds, total des intercalaires négatifs discontinus divisé par cds (total des cds-cds). Pour x5 et x‰ les couleurs sont celles des continus avec le rouge pour les effectifs peu significatifs.
      - x6 en %, somme des effectifs des discontinus de la fréquence -6 modulo 3 jusqu'à -80, sur la somme des mêmes sommes -6 -7 -8 modulo 3. Les couleurs des 3 classes de discontinus basés sur x6, sont dans l'ordre décroissant, bleu (x6 x8 x7), vert clair (x8 x6 x7) et vert foncé (x8 x7 x6).
cds-cds. Intercalaires négatifs. Classements
cds-cds-c. Intercalaires négatifs continus. Classement
gen r50 cont “6 “7 “8 “p c8 c7 c5 c‰ cds
cbn 0 168 23 83 106 78 21,7 37 67 2 491
cbei 4 389 32 200 232 86 13,8 39 69 5 622
mba 7 311 7 34 109 143 76 23,8 52 79 3 943
myr 0 282 22 127 149 85 14,8 47 79 3 555
pmg 2 162 10 42 52 81 19,2 67 90 1 800
mja 7 166 1 17 62 80 78 21,3 48 96 1 730
spl 5 414 30 117 147 80 20,4 63 98 4 213
pmq 17 761 1 46 228 275 83 16,7 62 105 7 223
blo 2 212 1 11 37 49 76 22,4 76 120 1 772
rtb 0 99 9 47 56 84 16,1 43 125 793
bsu 17 578 43 209 252 83 17,1 53 137 4 215
afn 9 303 2 20 105 127 83 15,7 55 149 2 039
eco 22 647 2 47 152 201 76 23,4 66 161 4 024
ade 10 718 25 73 98 74 25,5 85 161 4 464
cvi 4 694 1 39 155 195 79 20,0 71 162 4 282
rru 13 614 26 98 124 79 21,0 78 162 3 786
ase 32 1333 7 77 156 233 67 33,0 80 163 8 197
scc 6 320 1 22 96 119 81 18,5 61 177 1 805
ant 6 679 1 33 252 286 88 11,5 57 219 3 095
abra 13 411 11 175 186 94 5,9 52 247 1 667
pub 3 383 2 14 130 146 89 9,6 61 293 1 307
total 179 9 644 26 591 2653 3270 81 18,1 64 134 72 023
cds-cds-cx. Intercalaires négatifs. Classement
gen c5‰ c7‰ c8‰ c‰ c1/c4 cds x6 x5 x‰
cbn 25 9,2 33 67 121 2 491 63 0 3,2
cbei 27 5,7 36 69 87 5 622 29 36 2,0
myr 37 6,2 36 79 118 3555 45 45 5,6
mba 39 8,6 28 79 28 3943 14 22 4,6
pmg 60 5,6 23 90 50 1 800 30 41 50,6
mja 46 9,8 36 96 48 1 730 64 47 30,6
spl 62 7,1 28 98 93 4213 20 58 2,8
pmq 65 6,4 32 105 21 7 223 35 32 4,7
blo 91 6,2 21 120 48 1 772 9 19 9
rtb 54 11,3 59 125 30 793 0 33 3,8
bsu 73 10,2 50 137 31 4215 31 33 7,1
afn 82 9,8 51 149 29 2 039 50 25 2,0
eco 105 11,7 37 161 62 4024 35 48 22,6
ade 137 5,6 16 161 13 4464 7 34 21,7
cvi 116 9,1 36 162 31 4282 16 37 14,5
rru 126 6,9 26 162 20 3786 15 38 18,2
ase 129 9,4 19 163 19 8 197 21 32 38,9
scc 108 12,2 53 177 25 1 805 39 11 15,0
ant 125 10,7 81 219 74 3095 47 48 26,8
abra 127 6,6 105 247 48 1 667 60 17 3,6
pub 179 10,7 99 293 188 1 307 39 51 68,9
total 86 8,2 37 134 37 72023 28 38 15,9
  • Note: voir la note des discontinus seuls. Ici les couleurs ont été harmonisées pour le tri et pour comparer rapidement 2 génomes: jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, en gras pour très faibles et soulignées pour les extrêmes.
    - Les négatifs continus se distinguent des discontinus par 3 points essentiels:
    1. Le taux des intercalaires, voir le petit tableau en bas de cette note.
      - c‰: La courbe de détermination des négatifs continus triés est une droite à forte pente de 9. Elle a un palier à pente nul de 5 génomes avec un taux de 160 ‰. Ce palier sépare une queue de 12 génomes avec une droite de pente 7 (R2 99), d'une tête de 4 génomes de pente 37 (R2 97). Les cds ne semblent pas impacter ce taux, la queue a 6 faibles cds contre 6 forts, le palier est un palier aussi pour 4 cds moyens et le 5ème fort extrême, la tête de la courbe a un cds moyen pour 3 faibles. Les c5 impactent différemment les 3 parties, les 4 1ers c‰ de la queue semblent être corrélés positivement aux c5 alors que la tête est corrélée négativement, le palier est aussi un palier c5 et les 8 génomes restant ne semblent pas être corrélés entre eux.
      - x‰: La courbe de détermination des négatifs discontinus triés est une exponentielle nette et régulière. J'ai détaillé ses fréquences dans le chapitre précédent. La fonction exponentielle dénote la difficulté physique d’établir la discontinuité entre 2 cds, on passe d'un état vibratoire à l'autre en les chevauchant. Les intercalaires négatifs continus répondent, eux, à une logique fonctionnelle, le chevauchement ne peut pas être à l'identique (0 modulo 3) sinon on tombe dans les domaines protéiques communs à plusieurs gènes et qui ont un rôle fonctionnel; le chevauchement doit être décalé (-1 -2 modulo 3) et c'est pour cela qu'on n'a que rarement des -6 modulo 3 ("6).
    2. Les intercalaires de -1 à -5: voir le petit tableau en bas de cette note et les fréquences périodiques. Ces intercalaires ont une moyenne de 60% et 33% par rapport au total respectivement des continus et des discontinus négatifs, avec des écarts identiques faibles. Ceci s'explique par la difficulté des discontinus à s'ancrer avec une seule paire de bases, ils n'ont aucun intercalaire de ce genre, alors qu'il y en a 17% chez les continus (le rapport c1/c4 ne concerne donc que les continus et varie beaucoup d'un génome à l'autre). Par contre les discontinus ont un taux de fréquence -2 équivalent à celui de -8 comme s'ils initialisaient cette périodicité, alors que les continus malgré qu'ils soient 10 fois plus nombreux n'en présentent que 4 et pour le seul génome bsu.
    3. Les intercalaires périodiques - 6 -7 -8 modulo 3
      - "6 continu (voir le tableur): cas de ase et mba avec 7 occurrences chacun: ase 1 pour 9 12 24 27 30 et 2 pour 15; mba 1 pour 9 27 et 5 pour 18. Au total les continus ont 26 occurrences jusqu'à -50 et 5 sur les 179 restants avec eco (66 75) ase (51 57) et mba (51) pour les occurrences inférieures à 140. Pour les discontinus, les 6 modulo 3 apparaissent régulièrement, ainsi pour ase il y a 7 au-delà de -80 jusqu'à une occurrence de -120 soit 40 aas! De même pour eco 2 occurrences après -80, 102 129 avant les plus grands; de même bsu a une occurrence à 93, mais ade qui a 9 au-delà de -80 n'en a pas. Jusqu'à -50 il y a 171 discontinus et 13 de -51 à -80.
      - Les rapports entre les périodiques "6 "7 "8: Chez les continus ils sont complémentaires puisque "6 est quasi nul (26 contre 171 chez les discontinus). Ils sont très homogènes (m/e de 3.2 et 14 respectivement et un R2 de 91) avec une pente de progression de 0.89 contre 2.15 et 2.70 pour les discontinus. Ces pentes fortes et leur faible homogénéité (m/e 1.7 1.4 2.6 pour "6 "7 "8 respectivement et un R2 des "8 de 79) rapprochent les discontinus des courbes exponentielles en pourcentage du total.
      - Les pourcentages par rapport au total des cds: Dans cette comparaison on retrouve l'homogénéité des continus avec un m/e entre 1.7 et 3.9 et l'hétérogénéité des discontinus avec un m/e inférieur à 1.0. Par contre les courbes de tendance de progression des discontinus sont nettement exponentielles (R2 de la droite très inférieur à celui de l'exponentielle sauf pour x7‰) alors que celles des continus sont nettement linéaires (R2 de la droite supérieur ou presque égale à celui de l'exponentielle). Cette tendance à l'exponentielle explique la corrélation forte, comparaison entre 2 à 2 colonnes, chez les discontinus (80 76 58 54 27 15) et très faible chez les continus (5 15 18) où la corrélation entre ces derniers est réduite à leurs différences de pente. Il ne faut confondre l'exponentielle des fréquences qui est fonction de la longueur des recouvrements valable pour les continus et les discontinus, des tendances des génomes qui reflètent chez les continus la facilité à établir le recouvrement et sa difficulté chez les discontinus.
    - Le classement des continus voir en bas du chapitre: Les classes sont ordonnées sur le taux par rapport au total c‰. Il est suivi de /pas pour l'écart entre 2 taux successifs, ça correspond à la pente que j'ai signalé au paragraphe ci-dessus c‰. On remarque le palier de 5 génomes avec un /pas de 1. Il y a ainsi 5 classes dont 4 sont quasiment des paliers et la dernière avec une pente très forte. Les colonnes c5 et c7 présentent une plage avec éventuellement une exception après la virgule. Cette exception ne s'écarte réellement de l'homogénéité que dans 2 cas sur 5 pour c5 dans les classes 3 (43-55,76) et 5 (6-12,18). Cette écart est du à l'hétérogénéité du c1/c4. La colonne cds montre clairement que les cds n'impactent pas l'homogénéité d'une classe tant l'écart dans une classe est très grand. Le classement des 21 génomes en continu et discontinu (2ème tableau) montre la différence entre les 2 types de négatifs: dans chaque classe de continus il y a au moins 2 classes de discontinus sur les 3, v.clair v.foncé et bleu. Le palier de 5 en continus a 4 v.foncés et 1 v.clair, ce qui confirme sa grande homogénéité en plus de ses 4 cds.
    - Les caractéristiques communes aux continu-discontinu: Voir le récapitulatif en fin de chapitre.
    + Ces 2 types d'intercalaires ont en commun la périodicité modulo 3 des occurrences -6 -7 -8, les occurrences uniques -3 -4 -5 et les taux de ces occurrences cumulées pour -8 (respectivement continu discontinu 28 32 %), pour -4 (respectivement continu discontinu 47 34 %) et enfin -3 et -5 qui sont quasiment nulles.
    + Ils diffèrent par les taux des occurrences cumulées des -6 d'un facteur 50 (respectivement continu discontinu 0.3 17 %), des occurrences cumulées -7 d'un facteur 2 (respectivement continu discontinu 6.8 13 %), des occurrences -1 (respectivement continu discontinu 17 0 %) et des occurrences -2 (respectivement continu discontinu 0 3.5 %) et enfin ils diffèrent par les totaux des effectifs d'un facteur 10 (respectivement continu discontinu 9644 1144).
    + Une caractéristique commune entre les 2 types d'intercalaires apparaît après une analyse approfondie de la corrélation entre -7 et -8: Le taux moyen en % des continus, c7, ("7)/("7+"8) et celui des discontinus, x7, ("7)/("6+"7+"8) sont équivalents 18.6% contre 19.2%. Certes les c7 sont plus beaucoup plus homogènes (m/e de 3.2) que les x7 (m/e de 1.4) mais ceci est du au fait que les taux individuels en (‰.) par rapport au total des cds des c7 ont une progression linéaire alors que les x7 ont une progression exponentielle. Et la corrélation entre les taux individuels x7-x8 est forte avec un coefficient de détermination de 0.54. C'est comme si, quelque soit la longueur de l'intercalaire, le taux "7/"8 était toujours le même. Ce rapport commun aux 2 types d'intercalaires renforce l'idée que la périodicité commune aux deux est un processus lié aux propriétés physiques de l'ADN et non aux fonctionnalités des 2 cds. Les corrélations fortes chez les discontinus, 5-6 (0.80) 5-8 (0.76) 6-8 (0.58) vont aussi dans ce sens grâce aux coefficients de détermination de leurs courbes exponentielles de progression listés dans le même tableau. Chez les continus les corrélations sont très faibles parce que leurs moyennes sont très homogènes ou autrement dit leurs taux sont presque constants. Ce qui va toujours dans le même sens de la propriété physique de l'ADN pour 2 processus différents, un linéaire pour les continus et l'autre exponentiel pour les discontinus.
  • Les taux entre périodiques: Les calculs sont faits à partir du tableau des continus. Comme c7 et c8 sont complémentaires ils ont même ecartype, même pente et même R2. Avec une moyenne de 81.5 (100-18.5) c8 obtient donc un m/e de 14.
	c5	c7	c‰	x5	x6	x7	x8	x‰ 
moyenne	59,5	18,5	140,9	33,7	31,9	19,2	49,0	17,0
écart	13,4	5,8	59,4	14,2	18,6	13,7	18,9	17,9
m/e	4,4	3,2	2,4	2,4	1,7	1,4	2,6	0,9
pente	2,14	0,88	9,03	2,22	2,97	2,15	2,70	x0,18
cste	35,96	8,84	41,53	9,3	-0,83	-4,45	19,30	1,43
R2	98	91	89	93	98	95	79	99
			pal 5	pal 5				expo
  • Les classes des continus
classe			c‰ /pas		c5		c7		cds

cbn cbei mba myr:  	67-79 /3	37-52		14-24		2 491 - 5 622

pmg mja spl pmq:	90-105 /4	62-67,48	17-21		1 730 - 7 223

blo rtb bsu afn: 	120-149 /7	43-55,76	16-22		  793 - 4 215

eco ade rru cvi ase:	160-163 /1	71-85,66	20-25,33	3 786 - 8 197

scc ant abra pub: 	177-293 /29	52-61		6-12,18		1 307 - 3 095
  • Récapitulatif continus discontinus: Les compilations sont tirées des -50 des continus, des -80 des discontinus et les occurrences négatives supérieures à 140 dans les restes. Période: "6 "7 "8 pour les -6 -7 -8 modulo 3; 1,2 pour -1 des continus, -2 des discontinus; 4 pour -4; et 2,3,5 pour -2 des continus, -3 et -5 pour les 2 types; reste pour les occurrences négatives supérieures à 140.
période	cont	%	discont	%
“6	31	0,3	198	17
“7	659	6,8	150	13
“8	2 743	28	361	32
1,2	1 671	17	40	3,5
4	4 506	47	387	34
2,3,5	18	0,2	3	0,3
reste	16	0,2	5	0,4
total	9 644	100,0	1 144	100,0

Les intercalaires tRNA-cds synthèse[modifier | modifier le wikicode]

  1. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir cheminement de ma réflexion dans la genèse des gènes de tRNA et la référence à E.Coli.
  2. Une autre idée c'est que les cds-rRna-cds sont orientés, est-ce que c'est le cas des cds-tRNA-cds aussi? Il ne faut pas oublié que les tRNAs s'auto apparient ce qui crée des contraintes lors de la gestion de l'ADN: réplication transcription réparation recombinaison et insertion des éléments mobiles contenant des tRNAs.
  3. Revoir les méthodes de prélèvement dans les génomes (autres intercalaires).
  4. Comparer les intercalaires cds-cds aux tRNA-cds
  • Les intercalaires tRNA-cds, récapitulatif.
    - Quand j'ai commencé à étudier les tRNAs (voir le cheminement ci-dessus) je listais séquentiellement juste les blocs de tRNAs avec ou sans rRNA, sans les cds bordant ces blocs.
    - Les caractéristiques des blocs à rRNAs m'ont poussé augmenter de plus en plus le nombre de génomes à étudier et du coup j'ai commencé à trouver des cds à l'intérieur de ces blocs. Mais souvent c'était de petites protéines hypothétiques. Le lien avec l'opéron d'E.coli associant une protéine et un tRNA devenait évident. La 1ère question qui s'est imposée à moi, alors, est: est-ce que les gènes protéiques ne seraient pas créées dans ces blocs lors des remaniements chromosomiques? De nombreux remaniements des blocs à rRNAs me sont apparus quand j'ai trouvé 2 génomes très proches dont l'un des 2 présente de nombreux blocs identiques avec l'autre, mais cassés et souvent les séquences de tRNAs sont conservées. Ceci me confortait dans mon hypothèse de genèse. Et les tRNAs peuvent, aussi, intervenir dans ce processus puisqu'ils peuvent créer des contraintes comme les rRNAs puisqu'ils peuvent s'auto apparier. Aussi j'ai commencé à border mes blocs de tRNAs avec ou sans rRNAs avec leurs cds.
    - Du coup, étant donné que les blocs à rRNA sont orientés dans le sens 16s-23s-5s, qu'ils soient en direct ou en complément, j'ai pu constater rapidement que les intercalaires cds-16s étaient quasiment, tout le temps, plus grands que les intercalaires avec le cds dans 5s-aas-cds, où aas désigne l'absence ou la présence d'un ou plusieurs gènes de tRNAs.
    - Comme les blocs à tRNAs, seuls, présentaient aussi cette dissymétrie des intercalaires avec les 2 cds, les bordant, se posait aussi la question de leur orientation. Mais on ne peut pas décider de cette orientation puisqu'il n'y a pas de repère interne au bloc comme pour les blocs avec les 3 rRNAs.
    - Au début j'ai commencé à faire la moyenne de ces intercalaires et à établir leurs fréquences pour chaque génome. Puis j'ai fait de même avec les petits intercalaires en supposant que l'orientation allait du grand au petit comme pour les blocs à rRNAs. C'est ainsi que j'ai créé la colonne cds pour les 2 intercalaires confondus et la colonne cdsd des petits seulement, pour cds dirigé.
    - Quand j'ai voulu synthétiser les résultats de ces intercalaires avec les moyennes je trouvait de grandes variations entre les génomes. Ces intercalaires semblaient dépendre des génomes, donc de leurs processus de gestion de l'ADN, et du coup l'orientation que je supposait n'avait plus de sens. Il fallait à tout prix comparer ces intercalaires à tout les autres et notamment les plus nombreux, les intercalaires cds-cds.
    - La comparaison consiste à calculer la probabilité d'obtenir un doublet de cds de la forme cds-tRNAs-cds, de longueur donnée avec le taux de cette longueur dans l’ensemble des intercalaires cds-cds d'un génome donné. Si les tRNAs n’avaient aucune influence sur ces intercalaires, les différences calculées avec le taux du génome ne devraient pas être significatives ou autrement dit leur distribution avec les tRNAs serait la même qu'entre les cds-cds seuls. Dans le cas contraire je m'attendais à ce que les probabilités calculées privilégient les petits intercalaires. Le résultat montre par contre que les différences sont significatives mais privilégie les grands intercalaires. Cependant quand on calcule les moyennes des cds-cds on trouve qu'elles sont inférieures à celles des tRNA-cds, les 2 bords confondus. Si on réoriente les blocs de l'intercalaire le plus grand au plus petit, les grands sont encore plus grands que la moyenne des cds-cds et les petits sont plus petits que cette dernière. C'est là où l'hypothèse de l'orientation des blocs à tRNAs seuls reste plausible. La difficulté des tRNAs à établir un intercalaire petit avec un cds apparaît aussi quand on compare le taux de ces petits dans la tranche de 1 à 40 paires de bases entre blocs de tRNAs seuls et l'ensemble des cds-cds. De même les tRNA-cds négatifs sont très rares comparés cds-cds négatifs et montrent aussi la difficulté des tRNAs à établir ces intercalaires.
    - Les fréquences des intercalaires négatives: Ceci concerne le recouvrement de 2 cds en continu ou en discontinu. La périodicité ternaire des petits intercalaires inférieurs à 80 paires de bases met en exergue l'état vibratoire des 2 cds en recouvrement.
  • Les tRNA-cds, synthèse

Les intercalaires cds-rRNA[modifier | modifier le wikicode]

Les intercalaires tRNA-tRNA[modifier | modifier le wikicode]

Intercalaires entre tRNA et rRNA en continu discontinu[modifier | modifier le wikicode]

  • Lien tableur: Intercalaires entre tRNA et rRNA en continu discontinu.
  • Légende
    - c x + - % pour continu, discontinu, positif, négatif, x+/total ou nombre de génomes à x+ et c- sur le total.
    note: c-, 1 seul continu négatif, son intercalaire est d'une paire de base seulement (-1)
    - type:
    tRNA, intercalaires entre tRNAs dans un bloc sans rRNA;
    t-rRNA, intercalaires entre tRNAs à l'extérieur d'un bloc rRNA
    rRNA, intercalaires rRNA-rRNA et tRNA-rRNA d'un bloc rRNA
    aa interne, tRNA-tRNA interne d'un bloc rRNA
    4*: Ces 4 intercalaires x+ sont dus au grand nombre de remaniement des blocs rRNA du génome cdc8. 23s' et 16s' sont des rRNA fonctionnels mais tronqués.
tRNA. Intercalaires entre tRNA et rRNA en continu discontinu
tRNA1. Les totaux de 50 génomes
type total c+ x+ c- x- x+%
tRNA 1745 1714 19 1 0 1,1
t-rRNA 814 810 4* 0 0
rRNA 1043 1043 0 0 0
aa interne 127 127 0 0 0
genomes 50 50 13 26
4* cdc8 aaa-5s 23s’-16s 16s’-16s’ 16s-5s
adresse 4229303 4229975 4189696 4179150
tRNA2. discontinus
gen x+ gen x+
ase 1 -
ksk 1 vpb 1
mja 2 rtb 2
mba 1 rpl 2
mfe 1 agr 2
fps 1 aua 4
npu c- lbu 1