Recherche:Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse

Une page de Wikiversité.
Aller à la navigation Aller à la recherche
génomes synthèse
Image logo représentative de la faculté
Annexe 11
Recherche : Les clusters de gènes tRNA et rRNA chez les procaryotes
Précédent :archeo
Suivant :Atableur
Icon falscher Titel.svg
En raison de limitations techniques, la typographie souhaitable du titre, « Annexe : génomes synthèse
Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse
 », n'a pu être restituée correctement ci-dessus.



Les blocs à tRNA[modifier | modifier le wikicode]

Les cds dans les blocs à tRNA[modifier | modifier le wikicode]

  • Lien tableur: cds
  • Légende:
fréquences intercalaires	fréquences cds en aa	
autour du cds				
	9				2
10	20			50	20
50	21			100	9
90	21			150	10
130	21			200	4
170	5			250	5
210	6			300	3
250	2			350	8
290	8			400	9
	113				70
génomes. Les cds dans les blocs à tRNA
génome sens adresse nom cds aa intercal
gamma autres rien
eal comp 2042057..2043241 tuf1 395 117
comp 2043359..2043431 acc gga tac aca
eco comp 1287087..1287176 tpr 30 67
comp 1287244..1287328 tac tac
4175754..4175829 acc aca tac gga 114
4175944..4177128 tufb 395
ecoN comp 2192566..2192655 tcg 93
2192749..2193546 DgsA 266 100
2193647..2193722 aac
comp 2236186..2236261 aac 4
2236266..2237909 YeeO 548 100
2238010..2238085 aac
amed comp 3913378..3913454 tgg 52
comp 3913507..3914691 cds 395 171
comp 3914863..3914937 gga
alpha
rpm comp 659042..659116 gtc 155
comp 659272..660159 hydrolase 296 106
comp 660266..660340 gtc
comp 2114823..2114899 aga 55
comp 2114955..2115251 ETC 96 71
comp 2115323..2115399 cca
2632171..2632246 gcc 166
< 2632413..2632965 transposase 184 -41
2632925..2633473 hp 183 30
comp 2633504..2633579 aca 93
comp 2633673..2634200 transferase 176 271
comp 2634472..2634561 tcg
2863981..2864056 aca 15
2864072..2864317 DUF2829 82 8
2864326..2864401 aaa
rru 1934224..1934300 cca 63
1934364..1934663 ETC 100 12
1934676..1934752 aga
comp 3124836..3125033 translocase 66 151
comp 3125185..3125260 tgg 343
comp 3125604..3126794 ef tu 397 93
comp 3126888..3126961 gga
comp 3126989..3127074 tac 37
3127112..3128158 RlmB 349 57
3128216..3128291 aca 127
3128419..3128652 hp 78
3378495..3378569 acc 237
3378807..3379370 hp 188 234
oan comp 2040234..2040453 hp 73 91
2040545..2040629 tac
2040654..2040727 gga 6
comp 2040734..2040916 hp 61 -50
2040867..2042042 ef Tu 392 65
2042108..2042183 tgg 420
2042604..2042804 translocase 67
comp 2697238..2697314 aga 123
comp 2697438..2697743 ETC 102 156
comp 2697900..2697976 cca
abq comp 748703..749161 hp 153 38
comp 749200..749275 aca 91
comp 749367..750221 RlmB 285 144
750366..750451 tac
750512..750585 gga 81
750667..751857 ef Tu 397 153
752011..752086 tgg 69
752156..752353 Translocase 66
872533..872608 atgi 5
comp 872614..873093 GNAT 160 134
comp 873228..873304 cgt
1354014..1354091 cca 49
1354141..1354437 ETC 99 10
1354448..1354524 aga
abs comp 1500772..1501110 P-II 113 338
1501449..1501524 cac
1501634..1501709 cac 129
1501839..1503305 epimerase 489 106
1503412..1504977 Manolyl CoA 522 173
1505151..1505235 cta 91
1505327..1506661 trigger factor 445
1808815..1808892 cca 49
1808942..1809238 ETC 99 10
1809249..1809325 aga
2293805..2293881 cgt 137
2294019..2294495 GNAT 159 5
comp 2294501..2294576 atgi
comp 2418203..2418400 translocase 66 69
comp 2418470..2418545 tgg 152
comp 2418698..2419888 ef Tu 397 81
comp 2419970..2420043 gga
comp 2420104..2420189 tac 144
2420334..2421188 RlmB 285 91
2421280..2421355 aca 137
2421493..2423187 integrase 565
agr 1532381..1532455 gaa 121
1532577..1532818 P-hp 81 89
1532908..1532982 gaa
1770727..1772280 integrase 518 91
comp 1772372..1772448 cca 265
1772714..1773019 ETC 102 51
1773071..1773147 aga 7
comp 1773155..1773892 DUF429 246
aua 2368353..2368429 cca 43
2368473..2368778 cds 102 36
2368815..2368890 aga
comp 2641950..2642023 tgc 153
comp < 2642177..2642443 cds 89 296
2642740..2642814 aac
beta néant
delta néant
bacilli autres rien
pmq 20252..21532 cds 427 47
21580..21666 tca 140
21807..22157 hp 117 17
22175..22357 hp 61 23
22381..22524 hp 48 86
comp 22611..22796 hp 62 138
comp 22935..25265 replicase 777 156
25422..26165 hp 248 220
comp 26386..26460 cgg 183
26644..27168 replicase 175
clostridia autres rien
hmo comp 105958..106044 ctg 321
comp 106366..106929 cds 188 241
comp 107171..107246 aca
1172120..1172196 agg 181
1172378..1172812 cds 145 62
1172875..1172966 tcg
1764087..1764161 ggc 92
comp 1764254..1764493 cds 80 72
1764566..1764641 tgc
comp 2496451..2496527 gtc
comp 2496532..2496609 atgj 175
2496785..2497120 cds 112 217
comp 2497338..2497420 ctc
*** Suivent 5 tRNAs comp ***
comp 2497882..2497958 gtg -10
comp 2497949..2498185 cds 79 66
2498252..2498328 ccg
actino autres rien
ase 1520472..1520544 aac 315
1520860..1522122 cds 421 236
1522359..1522432 atg
comp 4901908..4901981 gcg 19
comp 4902001..4902321 cds 107 23
comp 4902345..4902417 gac
*** 7 tRNAs ggc cds cag 20 tRNAs ***
6400506..6400577 ggc 25
6400603..6401055 cds 151 35
6401091..6401163 cag
bacteroide fps rien
myr comp 719769..719842 tgg 60
comp 719903..721090 cds 396 58
comp 721149..721220 acc
omp 1929840..1929925 tta 147
comp 1930073..1930444 cds 124 108
comp 1930553..1930638 tta
comp 2208797..2208872 atgf 106
comp 2208979..2209605 cds 209 147
comp 2209753..2209829 atgj
cyano npu rien
pmg comp 435678..435751 gac 149
comp 435901..436095 cds 65 35
comp 436131..436203 tgg
tenericutes
abra comp 1540706..1540780 tgg 47
comp 1540828..1541754 cds 309 137
1541892..1541967 cac
apal comp 205299..205373 tgg 73
comp 205447..206382 cds 312 133
206516..206591 cac
comp 1457388..1457463 gac 40
comp 1457504..1458355 cds 284 154
comp 1458510..1458585 ttc
*** 10 tRNAs 5s23s ***
archeo mfi mfe rien
mja 862590..862661 cga 41
862703..863392 cds 230 86
863479..863555 aca
*** 3 tRNAs 5s gac ***
mba 4618540..4618617 gaa 351
4618969..4619190 hp 74 377
4619568..4619645 gaa

Les totaux des génomes par type[modifier | modifier le wikicode]

  • Les six types sont: les solitaires, les multiples, les duplicata, avant 5s, après 5s >3, après 5s <4, avant 16s et après 16s. En abrégé, respectivement, 1aa >1aa dup -5s +5s >3, 5s <4 (ou 1-3aas), -16s +16s.
  • Note: le tableau de contrôle est dans le tableur
  • Lien tableur: Les totaux des génomes par type

Les totaux des types[modifier | modifier le wikicode]

Les totaux des types
actino >1aa 1aa -5s +5s -16s +16s duplica 1-3aas total
total 1047 912 13 751 11 304 493 135 3666
  • Note: le -16s long de 33 est compté dans les +5s >3.

La référence +5s >3[modifier | modifier le wikicode]

  • Lien tableur: La référence +5s >3
  • Ce sont ceux des bacilli plus ceux des clostridia parce qu'ils sont nombreux et réduits à 2 clades, donc homogènes. Tenericutes en possèdent 2 fois 11. Les arcchées en possèdent aussi, mais seulement 1 de 6aas. Voir les études plus détaillées dans les fiches qui ne concernent que les blocs à rRNA.
  • Légende:
    - Cyan pour les valeurs faibles, total 19 pour 21 tRNAs.
    - Jaune pour les valeurs fortes et en gras les plus fortes, total 474 pour 14 tRNAs
    - blanc pour les valeurs intermédiaires, gca et atc le sont aussi, total 236 pour 16 tRNAs.
    - Le rouge pour l'emplacement des +16s occupés, gca et atc.
    - Les encadrés sont les emplacements des 1-3aas des +5s de alpha + gamma.
    - Le -16s de 33 aas est compté ici comme un +5s long (inversion).
Bacilli + clostridia. Les +5s >3 de référence.
g1    t1          
atgi 12 tct tat atgf 29
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 26 tcc 10 tac 26 tgc 17
atc 15 acc 9 aac 38 agc 15
ctc 4 ccc 2 cac 20 cgc 30
gtc 5 gcc 1 gac 39 ggc 38
tta 22 tca 17 taa tga
ata aca 31 aaa 39 aga 15
cta 20 cca 33 caa 29 cga
gta 49 gca 15 gaa 42 gga 25
ttg 7 tcg 2 tag tgg 12
atgj 21 acg 2 aag agg
ctg 9 ccg 1 cag cgg
gtg gcg gag 1 ggg 1
5s-bc inter min max total
total 236 19 474 729

totaux par rapport au groupe de référence[modifier | modifier le wikicode]

bacts. Comparaison avec la référence
tRNAs blocs tRNAs blocs rRNAs
bacts 1aa >1aa dup +5s 1-3aas autres total
21 faible 317 124 114 19 2 7 583
16 moyen 345 327 80 246 43 253 1294
14 fort 250 596 299 486 90 68 1789
912 1047 493 751 135 328 3666
10 g+cga 151 68 57 7 283
2 agg+cgg 55 11 12 1 79
4 carre ccc 93 41 55 1 7 197
5 autres 18 4 2 24
317 124 114 19 2 7 583
total tRNAs ‰
bacts 1aa >1aa dup +5s 1-3aas autres bacts ‰ ref.‰
21 faible 86 34 31 5 1 2 159 26
16 moyen 94 89 22 67 12 69 353 324
14 fort 68 163 82 133 25 19 488 650
249 286 134 205 37 89 3666 729
10 g+cgg 41 19 16 2 77 10
2 agg+cga 15 3 3 0.3 22
4 carre ccc 25 11 15 0.3 2 54 16
5 autres 5 1.1 0.5 7
86 34 31 5 0.5 2 159
blocs tRNAs ‰ total colonne %
bacts 1aa >1aa dup total ref.‰ 1aa >1aa dup
21 faible 129 51 46 226 26 35 12 23
16 moyen 141 133 33 307 324 38 31 16
14 fort 102 243 122 467 650 27 57 61
372 427 201 2452 729 912 1047 493
10 g+cgg 62 28 23 113 10 48 55 50
2 agg+cga 22 4 27 17 9
4 carre ccc 38 17 22 77 16 29 33 48
5 autres 7 2 0.8 10 6 3 2
129 51 46 226 317 124 114

Caractérisation des tRNAs[modifier | modifier le wikicode]

Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication[modifier | modifier le wikicode]

  • Lien tableur: Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication
  • Le groupe de référence: voir la référence. Ici les intermédiaires sont remplacés par le vert au lieu du blanc. La colonne +5s représente la référence (729) plus ceux des tenericutes (22, 2*11) ce qui ne change pas l'ordre de son classement: atgijf ttc tta gta aaa tca aca gca gac.
  • Légende:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
Synthèse des 44 génomes. Caractérisation de chaque tRNA par les 4 processus: +5s 1aa >1aa duplication
Caractérisation par les effectifs
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 14 30 7 2 tct tat atgf 31 30 36 30
att act 3 aat agt 1
ctt 4 3 2 cct cat cgc
gtt gct gat ggt
ttc 28 21 35 9 tcc 10 37 6 2 tac 26 7 44 28 tgc 17 16 38 4
atc 15 4 7 2 acc 9 18 22 5 aac 38 28 35 22 agc 15 18 34
ctc 4 30 15 2 ccc 2 28 1 cac 20 14 34 11 cgt 30 15 19 49
gtc 5 19 11 28 gcc 1 16 14 25 gac 41 14 54 13 ggc 38 17 59 43
tta 24 18 31 2 tca 19 36 12 4 taa tga 9
ata 1 1 0 aca 33 19 43 7 aaa 41 17 44 25 aga 15 29 21 2
cta 20 21 32 8 cca 33 20 39 4 caa 29 19 37 12 cga 3 7
gta 51 13 54 26 gca 17 4 7 gaa 42 15 52 25 gga 25 15 45 6
ttg 7 34 8 2 tcg 2 26 5 tag tgg 12 31 13 2
atgj 23 15 39 6 acg 2 28 5 aag 18 12 16 agg 31 1
ctg 9 20 16 28 ccg 1 15 4 8 cag 9 14 10 cgg 24 10
gtg 10 5 8 gcg 13 5 3 gag 1 9 5 12 ggg 1 20 6
Caractérisation par la relativité des 4 processus: chaque processus est rapporté à 1000 tRNAs.
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 19 33 7 4 tct tat atgf 41 33 34 61
att act 0 3 0 0 aat agt *1
ctt 0 4 3 4 cct cat cgc
gtt gct gat ggt
ttc 37 23 33 18 tcc 13 41 6 4 tac 35 8 42 57 tgc 23 18 36 8
atc 20 4 7 4 acc 12 20 21 10 aac 51 31 33 45 agc 20 20 32 0
ctc 5 33 14 4 ccc 3 31 1 0 cac 27 15 32 22 cgt 40 16 18 99
gtc 7 21 11 57 gcc 1 18 13 51 gac 55 15 52 26 ggc 51 19 56 87
tta 32 20 30 4 tca 25 39 11 8 taa tga 0 10 0 0
ata *1 *1 aca 44 21 41 14 aaa 55 19 42 51 aga 20 32 20 4
cta 27 23 31 16 cca 44 22 37 8 caa 39 21 35 24 cga 0 3 7 0
gta 68 14 52 53 gca 23 4 7 0 gaa 56 16 50 51 gga 33 16 43 12
ttg 9 37 8 4 tcg 3 29 5 0 tag tgg 16 34 12 4
atgj 31 16 37 12 acg 3 31 5 0 aag 0 20 11 32 agg 0 34 1 0
ctg 12 22 15 57 ccg 1 16 4 16 cag 0 10 13 20 cgg 0 26 10 0
gtg 0 11 5 16 gcg 0 14 5 6 gag 1 10 5 24 ggg 1 22 6 0

Construction du tableau avec les sous-totaux[modifier | modifier le wikicode]

Définition des classes pour les 4 types[modifier | modifier le wikicode]

  • Notes: Dans le tableau ci-dessus de la caractérisation des tRNAs rapportée à 1000 pour chaque type, 2ème tableau, les nombres en gras commencent à partir de 26 et sont au nombre de 64. Ce sont les plus élevés, ils incluent les nombres non gras des +5s colorés en jaune. On peut les diviser en
    - forts (les jaunes sans gras de la référence) de 26 à 37 au nombre de 32.
    - très forts (les gras jaunes de la références) de 39/1000 et plus, au nombre de 32
    - Les valeurs les plus faibles seraient inférieures à 10/1000 et sont au nombre de 68 dont 23 zéros. Les tRNAs ata et agt ne sont pas pris en compte (*). Le reste est divisé en
    - moyen faibles de 10 à 16 au nombre de 33, et en
    - moyen forts de 18 à 25 au nombre de 31.
    - Les nombres en gras du 1er tableau sont ceux de la référence (+5s) relativisés pour les duplications qui ont un total 50% inférieur à la référence. Les ruptures des types rapportés à 1000 tRNAs confirment et harmonisent le 1er tableau.
    - NB.SI, fonction calc utilisée.
0	23		16	9		32	5		48	0	
1	6		17	0		33	6		49	0	
2	0		18	4		34	3		50	1	
3	6		19	3		35	2		51	5	
4	13		20	9		36	1		52	2	
5	6		21	4		37	4		53	1	
6	3		22	4		38	0		54	0	
7	5		23	4		39	2		55	2	
8	5		24	2		40	1		56	2	
9	1		25	1		41	3		57	3	
10	5		26	2		42	2		61	1	
11	4		27	2		43	1		68	1	
12	5		28	0		44	2		87	1	
13	3		29	1		45	1		99	1	
14	4		30	1		46	0				
15	3		31	5		47	0				
	92			51			33			20	196

Les processus +16s -16s -5s 1-3aas[modifier | modifier le wikicode]

Récapitulatifs[modifier | modifier le wikicode]

  • D'après les distributions des totaux: liens

gama alpha baci clos bact actino cyano tener

  • Légendes: alpha* pour alpha+beta+delta, btc pour bacteroide tenericutes cyano
+16s	gca	atc	aaa	gta	gcc	gaa	total
gama	29	23	8	8	2	33	103
clos	26	11			5		42
afn	2	2					4
baci	16	15					31
alpha*	37	43					80
b t c	21	23					44
actino	0	0	0	0	0	0	0
total	131	117	8	8	7	33	304
total 1-3aas					
	alpha	gama	baci	clos	tener
atgf	23		2	2	
gac		23	2	1	
aac			4	7	6
acc		9	1	1	
tgg		8		1	
tca		4			
gaa		1		2	
tcc			1		
total	23	45	10	14	6
autres				37	
-16s	2gga 2tac aac agc atc cgt gca tca tcc		
-5s	3aca 5gga 5aac

Les processus +16s -16s 1-3aas -5s comparés à la référence[modifier | modifier le wikicode]

Distribution des totaux 1-3aas +16s -16s -5s.
Total 1-3aas
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
baci clos clos alpha tener gama total
10 47 4 23 6 45 135
Total 1-3aas avec la référence +5s
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac 0 cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
inter max min total
43 90 2 135
Total +16s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc tac tgc
atc 117 acc aac agc
ctc ccc cac cgc
gtc gcc 7 gac ggc
tta tca taa tga
ata aca aaa 8 aga
cta cca caa cga
gta 8 gca 131 gaa 33 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
248 49 7 304
Total -16s -5s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc 1 tac 2 tgc
atc 1 acc aac 6 agc 1
ctc ccc cac cgc 1
gtc gcc gac ggc
tta tca 1 taa tga
ata aca 3 aaa aga
cta cca caa cga
gta gca 1 gaa gga 7
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
5 19 0 24

Les processus +16s et 1-3aas des fiches mémoires[modifier | modifier le wikicode]

  • Lien tableur: Les processus +16s et 1-3aas des fiches mémoires
  • Le groupe de référence: voir la référence
  • Légende:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
  • Note: Ces 2 processus ont été comptabilisés sur de plus grands effectifs dans les fiches mémoires par clade. La comparaison des effectifs avec ceux des annexes montrent qu'ils sont semblables statistiquement. Voir la synthèse des +16s et des 1-3aas.
Distribution des +16s et des 1-3aas des fiches mémoires, avec la référence +5s.
Effectifs des +16s
g1    t1       
atgi cds 121 16s 1039 atgf 2
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 1235 acc aac agc
ctc ccc cac cgt
gtc gcc 11 gac ggc
tta tca taa tga
ata aca aaa 11 aga
cta cca 4 caa cga
gta 13 gca 1249 gaa 272 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
2484 302 11 2797
Les +16s rapportés à 1000 tRNAs.
g1    t1       
atgi tct tat atgf 1
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 442 acc aac agc
ctc ccc cac cgt
gtc gcc 4 gac ggc
tta tca taa tga
ata aca aaa 4 aga
cta cca 1 caa cga
gta 5 gca 447 gaa 97 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
888 108 4 1000
Effectifs des 1-3aas
g1    t1       
atgi 15 tct tat atgf 172
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 21 tcc 2 tac 12 tgc 7
atc 3 acc 82 aac 73 agc 1
ctc 2 ccc cac 2 cgt 4
gtc gcc gac 172 ggc 12
tta 5 tca 5 taa tga
ata aca 1 aaa 17 aga 1
cta cca 1 caa 1 cga
gta 5 gca 14 gaa 7 gga 12
ttg tcg tag tgg 78
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 2
gtg 1 gcg gag ggg 2
inter max min total
218 510 8 736
Les 1-3aas rapportés à 1000 tRNAs.
g1    t1       
atgi 20 tct tat atgf 234
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 29 tcc 3 tac 16 tgc 10
atc 4 acc 111 aac 99 agc 1
ctc 3 ccc cac 3 cgt 5
gtc gcc gac 234 ggc 16
tta 7 tca 7 taa tga
ata aca 1 aaa 23 aga 1
cta cca 1 caa 1 cga
gta 7 gca 19 gaa 10 gga 16
ttg tcg tag tgg 106
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 3
gtg 1 gcg gag ggg 3
inter max min total
296 693 11 1000

Classement des tRNAs avec les 8 processus[modifier | modifier le wikicode]

Classement des tRNAs rapportés à 1000 par processus
Classement avec les processus +5s et >1aa.
tRNA +5s 1aa >1aa dup 1-3aas +16s
atgf 41 33 34 61 234 1
aac 51 31 33 45 99 -
I
gaa 56 16 50 51 10 97
gac 55 15 52 26 234 -
gta 68 14 52 53 7 5
aaa 55 19 42 51 23 4
ggc 51 19 56 87 16 -
tac 35 8 42 57 7 -
II
aca 44 21 41 14 1 -
cca 44 22 37 8 1 2
caa 39 21 35 24 1 -
ttc 37 23 33 18 29 -
gga 33 16 43 12 16 -
tta 32 20 30 4 7 -
atgj 31 16 37 12 1 -
cta 27 23 31 16 - -
cac 27 15 32 22 3 -
III
tgc 23 18 36 8 10 -
agc 20 20 32 0 1 -
IV
cgt 40 16 18 99 5 -
V
gca 23 4 7 0 19 447
atc 20 4 7 4 4 442
VI
acc 12 20 21 10 111 -
tgg 16 34 12 4 106 -
Classement avec les processus 1aa et dup
tRNA +5s 1aa >1aa dup 1-3aas +16s
tca 25 39 11 8 7 -
aga 20 32 20 4 1 -
atgi 19 33 7 4 20 -
tcc 13 41 6 4 3 -
ttg 9 37 8 4 - -
ctc 5 33 14 4 3 -
I
ccc 3 31 1 0 - -
tcg 3 29 5 0 - -
acg 3 31 5 0 1 -
agg 0 34 1 0 - -
cgg 0 26 10 0 3 -
ggg 1 22 6 0 3 -
II
ctg 12 22 15 57 1 -
gtc 7 21 11 57 - -
gcc 1 18 13 51 - 4
aag 0 20 11 32 - -
gag 1 10 5 24 - -
cag 0 10 13 20 - -
ccg 1 16 4 16 - -
gtg 0 11 5 16 1 -
gcg 0 14 5 6 - -
III
cga 0 3 7 0 - -
ata 0 1 1 0 - -
tga 0 10 0 0 - -
IV
ctt 0 4 3 4 - -
act 0 3 0 0 - -
agt 0 1 0 0 - -

Les intercalaires dans les genome.cumuls[modifier | modifier le wikicode]

  • Lien tableur: Les intercalaires dans les genome.cumuls
  • Récapitulatif des chapitres cumuls
  • - ne sont pris en compte que les moyennes en excluant quelques valeurs extrêmes (sans jaunes)
  • - Les 2 dernières colonnes cdsa et cdsa300 sont en aas.
  • fréquences des intercalaires tRNA-tRNA avec ou sans rRNA et des tRNA-cds
tRNA-tRNA			tRNA-cds	
	avec	sans			cds
20	19	19		50	1
30	7	6		100	1
40	2	10		150	8
50		4		200	17
60		7		250	6
70		0		300	1
80		2		350	1
86	3			total	35
138		3			
total	31	51		pub	50
				pmg	93
rru		119		oan	258
aua		131		cbei	350
oan		138			
cvi	86				
rru	66				
agr	59				

Les intercalaires entre cds d'un génome[modifier | modifier le wikicode]

  • Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.

Méthode de prélèvement[modifier | modifier le wikicode]

  1. Afficher le NCBI et relever taille et date
  2. Copier dans txt et rechercher join( et résoudre ses adresses en adresses uniques
  3. copier dans un calc temporaire pour faciliter les sélecitions début ou fin
  4. select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) tRNA précédent.
  5. select ctrl+Maj+fin et supprimer
  6. se posirionner au début ctrl+début et rechercher (ctrl+H) ‘ CDS ‘ suivant sans les cotes
  7. mettre le curseur loin à droite et effacer le début, ctrl+Maj+début.
  8. Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille. Les résultats suivants sont sous forme de tableur avec la séparation §:
    • Artb rtb pub abra mja pmg blo scc afn
    • Acbn cbn ant myr rru mba
    • Aspl spl cvi bsu ade eco
    • Apmq pmq cbei ase
  9. sans séléction remplacer CDS gene rRNA tRNA en ajoutant (;)
  10. rechercher tRNA; suivant et ajouter (;) aux gènes restants, ncRNA misc regulatory. Vérifier s’il n’y a pas d’autres entre CDS; et gene; .
  11. suprimer la ligne où le gène est ‘source’.
  12. sélect tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire à de la première colonne avec les (;)
  13. Sélect la colonne contenant les adresses, ctrl+H et enlever les blancs ( <)> et lexpression régulière [:alph:] .
  14. remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée. Pour la discontinuité complement, non complement, ajouter une colonne à gauche contenant comp à la même adresse.
  15. sur la colonne à gauche des adresses en colonne numéroter en séquence gene puis CDS puis le reste 1 puis formule cellule de 1, + 1. Couper la formule et select la plage, coller et couper coller format.
  16. sauvegarder le tout dans le calc de travail. Copier les 4 dernières colonnes dans le calc temporaire nettoyé.
  17. dans le temporaire, trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse
  18. A ce moment gene et CDS sont dans ce sens pour la même adresse.
  19. Dans le cas où la 1ère adresse est identique à celle du gène et que les 2 2èmes adresses sont différentes, dans le cas où le CDS n’existe pas, les 2 différences entre 2 lignes succesives pour les 2 1ères adresses et les 2 2èmes adresses, sur la ligne gene, seront différentes. Les différences sur la ligne suivante seront différentes en général.
  20. En triant sur les 2 différences tous les gene avec 0 et 0 sur leur ligne sont à suprimer.
  21. On supprime les 2 colonnes des différences et on trie le reste sur 1ère et 2ème adresse. On calcule les intercalaires toujours: écriture de la formule, la couper, ctrl+Maj+fin, réduire à la colonne et coller puis couper et coller format.
  22. on colorie les CDS de la colonne des gènes. Les gènes différents apparaissent en clair
  23. Sur la colonne de gauche du pavé deb à côté du CDS du début et fin à côté du CDS de fin encadrant le gène en clair
  24. deb-fin
    - Trier en 1er sur la colonne deb-fin et en 2ème la colonne CDS, copier les lignes avec deb et fin et les sauvegarder plus loin.
    - Suprimer du pavé principal les lignes deb.
    - Copier les lignes en clair qui se trouvent à la fin du pave et les coller sous les lignes du pavé deb-fin sauvegardé.
    - Trier le reste du pavé sur adresse1 et 2 et le positionner en haut de la feuille. C’est le pavé du travail qui suit.
  • Méthode des décomptes des intercalaires négatifs et autres pour chaque génome:
    1. C'est celle appliquée pour l'étude de toutes les fréquences détaillée auparavant.
    2. Cependant j'ai ajouté une colonne "comp" à gauche (point 14) et après avoir épuré tout, comme pour les fréquences, j'ai trié tous les intercalaires, cds ou non, sur la 1ère adresse.
    3. Ensuite je sélectionne la colonne des intercalaires et je recherche toutes les cellules ayant le signe moins -, colorer en jaune.
    4. Je colorie les négatifs discontinus en vert grâce à comp. A ce stade j'ai 4 colonnes, "comp" pour les discontinuités, les gènes dont les CDS sont colorés en cyan, les adresses et enfin les intercalaires dont les négatifs continus sont jaunes et les discontinus en vert. En plus quand c'est nécessaire et quand le négatif ne correspond pas à un CDS je colorie ce moins en bleu foncé.
    5. Une fois les couleurs vérifiées, je copie les 4 colonnes dans un temporaire et je trie sur les intercalaires. J'ajoute une 5ème colonne à droite où je marque 0 pour les négatifs discontinus, et 1 pour les négatifs non CDS. En triant sur la 5ème colonne, croissant, j'obtiens d'abord les discontinus négatifs puis les négatifs non CDS et enfin les continus négatifs.
    6. Sur ces plages j'applique la fonction "fréquence" de calc.
    7. Pour les autres gènes je ne traite que les discontinuité et non la négativité des intercalaires donc en partant des 4 colonnes initiales triées sur l'adresse. Je colorie tRNA en orange et "gene" (cas de eco) en rouge.
      - Je traite la discontinuité générale en ne comptant que le 1er comp d'un bloc même si celui-ci est réduit à l'unité. Le décompte est fait sur une colonne colorée en jaune en marquant le nombre 1. Le total de la colonne représente la moitié des discontinuités (txc/2 dans le tableau).
      - Pour les intercalaires tRNA-CDS et ceux des autres gènes (comprenant les autres tRNAs) je crée 2 colonnes à droite et à gauche de la jaune, 2 pour tRNA-CDS c et x, 2 pour autres c et x, notés respectivement tc tx ac ax. Les décomptes se font comme pour la colonne jaune mais chaque colonne représente son total et non la moitié. L'intercalaire entre CDS et tRNA ou autre est compté pour ces derniers et non pour le CDS.

Fréquences des intercalaires cds-cds, courbes puissance[modifier | modifier le wikicode]

  • Lien tableur: puissance
  • Légende: Ce tableau est la synthèse des tableaux "génome les fréquences" dans le chapitre des intercalaires entre cds pour chaque génome. Exemple rtb. Récapitulatif des fréquences par génome, les courbes puissance:
    - gen pour génome, cds pour total des intercalaires cds-cds;
    - Puissance 600, courbe puissance avec des fréquences de 10 en 10 jusqu'à 600 pbs, colonnes frequence6 à partir de la fréquence 0; K6 sa constante et -a6 son exposant; R2 son déterminant; K6 ‰, constante rapportée à 1 000 cds.
    - Puissance 1200, courbe puissance avec des fréquences de 10 en 10 jusqu'à 1 200 pbs, colonnes frequencez à partir de la fréquence 0; K12 sa constante et -a12 son exposant; R2 son déterminant;
    - P1200-P600, comparaison des courbes précédentes avec K12/K6 et a% pour 100*(a12-a6)/a12
    - rang Les rangs forts sont jaune, les rangs faibles en cyan et les rangs moyens en blanc.
    - Le sous-tableau, Puissance. Synthèse des fréquences cds-cds. Ordre classe, fait référence au tableau Classement des génomes cds-cds
    - Le sous-tableau, Puissance. Synthèse des fréquences cds-cds. Ordre pente a37, fait référence au tableau des pentes a37
Puissance. Synthèse des fréquences cds-cds.
Puissance. Synthèse des fréquences cds-cds. Ordre classe
Puissance 600 Puissance 1200 P1200-P600
gen cds K6 - a6 R2 K6 ‰    K12 - a12 R2 k12/k6 a%
pub 1,307 19,910 1.63 89 15,233
ant 3,095 158,387 1.80 85 51,175
abra 1,667 17,186 1.41 81 10,310
pmg 1,800 48,983 1.62 85 27,213
mja 1,730 25,564 1.45 81 14,777
fin rang faible 1.00 2,121 5.0 1
rang moyen 1.18 4,599 9.9 16
1.33 12,201 17.6 31
rru 3,786 46,193 1.40 73 12,201 157,774 1.66 79 3.4 16
eco 4,024 64,507 1.46 74 16,031
cvi 4,282 5,941 1.42 79 1,387 272,330 1.76 85 45.8 19
ade 4,464 83,541 1.51 81 18,714 344,171 1.81 86 4.1 17
bsu 4,216 110,979 1.58 79 26,323
cbn 2,491 24,707 1.33 74 9,919
afn 2,039 16,580 1.32 74 8,131
ase 8,197 38,168 1.20 82 4,656 537,079 1.74 84 14.1 31
scc 1,805 13,461 1.30 77 7,458
Début rang fort 1.40 14,777 30.0 39
rtb 793 1,117 0.97 68 1,409 1,119 0.98 75 1.0 1
spl 4,213 6,234 0.93 79 1,480 109,920 1.52 79 17.6 39
pmq 7,223 15,320 1.00 72 2,121 459,123 1.70 80 30.0 41
cbei 5,623 3,288 0.73 79 585 111,913 1.45 75 34.0 50
blo 1,772 8,149 1.18 71 4,599
myr 3,555 19,289 1.22 87 5,426 97,139 1.55 87 5.0 21
mba 3,943 561 0.47 80 142 5,558 0.93 71 9.9 49
Puissance. Synthèse des fréquences cds-cds. Ordre pente a37
Puissance 600 Puissance 1200 P1200-P600
gen cds K6 - a6 R2 K6 ‰    K12 - a12 R2 k12/k6 a%
pub 1 307 19 910 1,63 89 15 233
rtb 793 1 117 0,97 68 1 409 1 119 0,98 75 1,0 1
rru 3 786 46 193 1,40 73 12 201 157 774 1,66 79 3,4 16
eco 4 024 64 507 1,46 74 16 031
spl 4 213 6 234 0,93 79 1 480 109 920 1,52 79 17,6 39
bsu 4 216 110 979 1,58 79 26 323
pmq 7 223 15 320 1,00 72 2 121 459 123 1,70 80 30,0 41
cbn 2 491 24 707 1,33 74 9 919
cbei 5 623 3 288 0,73 79 585 111 913 1,45 75 34,0 50
ase 8 197 38 168 1,20 82 4 656 537 079 1,74 84 14,1 31
blo 1 772 8 149 1,18 71 4 599
myr 3 555 19 289 1,22 87 5 426 97 139 1,55 87 5,0 21
pmg 1 800 48 983 1,62 85 27 213
abra 1 667 17 186 1,41 81 10 310
cvi 4 282 5 941 1,42 79 1 387 272 330 1,76 85 45,8 19
ade 4 464 83 541 1,51 81 18 714 344 171 1,81 86 4,1 17
ant 3 095 158 387 1,80 85 51 175
afn 2 039 16 580 1,32 74 8 131
scc 1 805 13 461 1,30 77 7 458
mja 1 730 25 564 1,45 81 14 777
mba 3 943 561 0,47 80 142 5 558 0,93 71 9,9 49

Fréquences des intercalaires cds-cds[modifier | modifier le wikicode]

  • Lien tableur: cds-cds
  • Légende: Ce tableau est la synthèse des tableaux "génome les fréquences" dans le chapitre des intercalaires entre cds pour chaque génome. Exemple rtb. Récapitulatif des fréquences par génome:
  1. génomes1: gen pour génome, n-cds pour total des cds du NCBI, inter% pour le rapport du total des intercalaires positifs sur la longueur du génome, moy pour moyenne de l'intervalle 0-200, rap pour le rapport multiplié par 100 de la somme des fréquences 101-370 sur celle de 0-100 (colonnes 200+370 et 100 du tableau génomes3), a37 b37 R2 les paramètres de la droite de détermination du diagramme du total des fréquences de 26 à 370 par pas de 5, a37 la pente négative, obtenue en multipliant par 100 la valeur du diagramme, b37 la constante et R2 le coefficient de détermination multiplié par 100.
  2. génomes2 et 3: cds pour nombre total des intercalaires entre cds, les fréquences en <0 négatif, 100 entre 0-100, 200 entre 101-200, 300 entre 201-370, 600 entre 371-600, max au-delà de 600, freq5 total des intercalaires de la colonne frequence5. J'ai utilisé la borne 200 comme limite des petits intercalaires tRNA-tRNA dans les 1ers relevés des annexes ( voir par exemple cumuls rtb). J'ai conservé cette borne pour les cds-cds car elle me semblait largement inférieure aux intercalaires souvent rencontrées et supérieures à 500 pbs. Les bornes 100 et 600 m'ont été suggérées par le génome pub très excentrique. Et la borne 370 s'est imposée par les diagrammes des fréquences comme je l'ai dit ci-dessus.
  3. Les couleurs: basées sur la colonne a37, jaune 3-6, cyan 9-12, rouge 15-17, blanc 19-21, vert 26-29 et 43. Les génomes sont regroupés en clade si possible: alpha gama bacillis clostridia actino archées
  4. rang: 3 lignes, faible moyen fort. Chaque colonne est divisée par ces 3 rangs en plages et les valeurs remarquables sont en gras.
  5. effectifs: Pour chaque colonne sont reportés les effectifs des 3 rangs dans l'ordre, faible moyen fort.
  • Notes: Ces 3 tableaux servent à comparer les 21 génomes entre eux. Je n'ai pas déterminé les intercalaires cds-cds des 30 autres génomes des annexes. Les fréquences des intercalaires cds-cds me permet de savoir si les intercalaires tRNA-cds des relevés dans les tableaux "génome opérons" leur sont différents. Exemple rtb. Les diagrammes faits sur une grande plage des fréquences ne permet d'obtenir qu'une courbe de détermination de fonction puissance, très difficile à manipuler. La plage de fréquences 26-370 avec un pas de 5 est plus caractéristique de chaque génome et permet d'obtenir une droite comme courbe de détermination avec un R2 supérieur à 0.75 pour 18 d'entre eux et 0.46 0.58 0.63 pour, respectivement, mba rtb pub.
    - Le diagramme du total des intercalaires cds-cds, cds en fonction de la pente de ces droites a37, donne une courbe de détermination à R2 confortable de 0.72 pour les 21 génomes et 0.93 pour 18 génomes, mba cbei pmq ayant des pentes très faibles par rapport à la taille de leur génome (calc pour a37 calculé dans le petit tableau ci-dessous). La connaissance de cds, du total des intercalaires cds-cds permet alors de connaître la pente du diagramme 26-370 qui caractérise le génome. Sans calculer le nombre cds du total des intercalaires cds-cds il est possible de calculer quasiment avec la même précision la pente 26-370 du génome avec seulement le nombre de cds donné par NCBI n-cds, car celui-ci ne diffère du nombre total des intercalaires cds-cds, que par un cds par bloc de gènes non codant. Voir ci-dessous les fonctions de gauche. Il est donc possible de calculer la pente a37 des 30 autres génomes des annexes.
    - Le diagramme de la constante des droites, b37 en fonction de la pente de ces droites a37, voir ci-dessous les fonctions de droite, montre aussi que les 3 génomes mba cbei pmq ont des constantes b37 beaucoup plus élevées que les 18 génomes restants.
n-cds	fonction de a37							b37	fonction de a37
n-cds	f(x)= 166x+750  R2=0.724					b37	f(x)= 3.536x+3.449  R2=0.928
cds	f(x)= 165x+710  R2=0.720					b37.18	f(x)= 3.504x+0.504  R2=0.983
n-cds18	f(x)= 171x+298  R2=0.934						
cds18	f(x)= 170x+260  R2=0.935		

gen	x calc	a37	n-cds
cbei	29,61	14,71	5665
pmq	39,20	28,46	7258
mba	19,55	5,54	3995
ase	45,22	43,46	8256				
génomes. Les intercalaires cds-cds.
génomes1. Synthèse des fréquences
gen n-cds inter% moy rap a37 b37 R2
pub 1,343 3.0 37 14 5.93 17.15 63
rtb 828 20.2 85 109 3.05 11.85 58
rru 3,854 9.9 78 89 18.99 71.15 91
eco 4,285 9.1 72 76 20.08 74.15 88
spl 4,269 14.1 82 105 17.06 72.54 76
bsu 4,325 9.5 72 64 29.29 96.38 81
pmq 7,258 13.8 88 130 28.46 126.75 90
cbn 2,521 11.3 71 79 14.59 53.49 82
cbei 5,665 17.9 83 136 14.71 79.19 83
ase 8,256 11.5 76 79 43.46 155.74 88
blo 1,824 10.6 88 116 9.53 36.46 78
myr 3,611 12.2 67 63 19.62 69.35 84
pmg 1,839 8.5 55 35 11.99 37.52 76
abra 1,712 7.2 65 57 8.52 28.44 82
cvi 4,345 9.5 74 67 26.5 89.98 78
ade 4,506 8.5 70 66 25.6 87.68 90
ant 3,119 6.0 56 38 16.12 51.22 81
afn 2,093 9.5 66 75 8.68 33.73 77
scc 1,847 8.8 69 72 8.68 31.86 82
mja 1,768 9.1 64 53 9.96 33.76 80
mba 3,995 26.7 85 154 5.54 38.77 46
rang x1 000
faible 1350-2500 3-7 37-55 14-64 3-6 12-17 46-63
moyen 3100-4500 8.5 -11.5 64-72 66-109 9-17 28-74 76-84
fort 5700-8300 12-27 78-88 116-154 19-43 79-156 88-91
effectif 9 9 3 3 12 6 3 11 7 7 10 4 3 10 8 2 13 6 3 13 5
génomes2. Les relevées des fréquences
cds <0 100 200 370 600 max freq5
1307 473 722 85 19 7 1 365
793 102 248 187 84 52 120 396
3786 683 1546 835 535 139 48 2 289
4024 738 1769 781 572 142 32 2 346
4213 426 1579 887 776 378 167 2 651
4215 608 2116 944 412 117 18 2 608
7223 795 2479 1691 1520 506 232 4 818
2491 176 1212 566 394 117 26 1 678
5622 400 1788 1188 1240 713 293 3 434
8197 1652 3299 1568 1047 399 232 4 749
1772 228 661 483 281 85 34 1 201
3555 302 1780 681 440 202 150 2 078
1800 253 1104 267 120 42 14 935
1667 417 757 311 121 42 19 787
4282 756 1984 873 455 147 67 2 551
4464 815 2097 919 464 124 45 2 517
3095 762 1651 474 150 33 25 1 309
2039 307 935 401 304 69 23 1 129
1805 347 793 327 241 78 19 1 001
1730 219 956 340 166 37 12 955
3943 329 900 600 782 643 689 1 911
génomes3. fréquences pour 1000 intercalaires
gen <0 100 200 370 600 max freq5
pub 362 552 65 15 5 1 438
rtb 129 313 236 106 66 151 573
rru 180 408 221 141 37 13 738
eco 183 439 194 142 35 8 712
spl 101 375 211 184 90 40 700
bsu 144 502 224 98 28 4 723
pmq 110 343 234 210 70 32 750
cbn 71 487 227 158 47 10 725
cbei 71 318 211 221 127 52 658
ase 202 402 191 128 49 28 726
blo 129 373 273 159 48 19 778
myr 85 501 192 124 57 42 639
pmg 141 613 148 67 23 8 604
abra 250 454 187 73 25 11 630
cvi 177 463 204 106 34 16 723
ade 183 470 206 104 28 10 690
ant 246 533 153 48 11 8 561
afn 151 459 197 149 34 11 652
scc 192 439 181 134 43 11 687
mja 127 553 197 96 21 7 632
mba 83 228 152 198 163 175 529
rang
faible 70-100 230-375 65-150 15-70 5-25 4-15 438-604
moyen 110-180 400-500 180-210 100-150 30-60 20-50 630-712
fort 190-360 530-610 220-270 160-220 70-160 150-175 723-778
effectif 5 11 5 6 11 4 4 11 6 4 11 6 5 11 5 13 6 2 5 9 7

Classement des génomes cds-cds[modifier | modifier le wikicode]

  1. colonnes de gauche: gen pour génome, n-cds pour total des cds du NCBI en millions arrondis de pbs, in% pour le rapport du total des intercalaires positifs sur la longueur du génome, moy pour moyenne de l'intervalle 0-200, rap pour le rapport multiplié par 100 de la somme des fréquences 101-370 sur celle de 0-100 (colonnes 200+370 et 100), a37 et R2 pente négative et coefficient de détermination de la droite de détermination du diagramme du total des fréquences de 26 à 370 par pas de 5.
  2. colonnes de droite: les fréquences pour 1000 intercalaires: <0 négatif, 100 entre 0-100, 200 entre 101-200, 300 entre 201-370, 600 entre 371-600, max au-delà de 600.
  3. génomes en jaune, mba pmq cbei, sont en dehors de la droite de détermination des diagrammes n-cds/pentes a37 et b37/pentes a37.
  4. rang: Les nombres des rangs sont ceux du tableau des fréquences. Les rangs forts sont en gras, les rangs faibles en italique et les rangs moyens en vert ou en blanc quand ils sont soulignés.
  5. souligné: limite inférieure ou supérieure d'un rang incluse dans une colonne homogène d'un des 3 groupes de génomes homogènes.
  • Note: Les 3 groupes de génomes homogènes. Ne sont pas considérées les colonnes R2 n-cds et a37, soit 9 colonnes considérées au total. Les 3 colonnes exclues ont des caractéristiques globales qui regroupent les 9 colonnes considérées.
    1. Le groupe des faibles mais forts pour les colonnes <0 et 100. Ils ont 7 intrus sur 45 avec les 5 1ers génomes.
    2. Le groupe des moyens, moyens partout. Ils ont 4 intrus sur 81 pour les 9 génomes qui suivent.
    3. Le groupe des forts mais faibles pour <0 et 100 à l'inverse du groupe faible. Ils ont 10 intrus sur 63 avec les 7 derniers génomes.
    4. Le nombre d'intrus par colonne montre les colonnes les plus pertinentes: La colonne des négatifs (<0) est la moins pertinente avec 6 intrus, vient ensuite les 101-200 (200) avec 4 intrus.
      in% 1   moy 1    rap 1    <0 6    100 2    200 4    370 3    600 1    max 2
  • Moyenne et écart type de chaque groupe de génomes: Chacun des 3 groupes est homogène pour toutes ses colonne avec un m/e inférieur à 52 sauf pour II max 55 du à ase, III max 86 du à rtb-mba et III a37 57 du à rtb. En excluant ces valeurs extrêmes j'obtiens respectivement des 34 38 43 en m/e. Les m/e sont particulièrement élevés pour le groupe I, ceci est du à pub.
groupe	m-e	in%	moy	rap	a37		<0	100	200	370	600	max
I	moy5	6.7	55.4	39.4	10.5		225.2	541	150	59.8	17	7
	ecart5	2.4	11.2	17.0	3.8		95.5	57.2	52.0	30.3	8.6	3.7
	m/e	36	20	43	37		42	11	35	51	51	52
II	moy9	9.7	72.0	74.1	14.2		164.8	452.1	205.0	128.9	37.2	12.3
	ecart9	1	4	8	5.4		40	34	16	21	8	7
	m/e	10	5	11	38		24	7	8	17	20	55
III	moy7	16.6	82.6	116.1	11.6		101.1	350.1	215.6	171.7	88.7	73.0
	ecart7	5.6	7.2	28.9	6.6		22.8	82.9	38.1	43.8	41.9	62.7
	m/e	34	9	25	57		23	24	18	25	47	86
cds-cds. Classement des génomes cds-cds
gen n-cds in% moy rap a37 R2    <0 100 200 370 600 max
pub 1m 3 37 14 5.93 63 362 552 65 15 5 1
ant 3m 6 56 38 16.12 81 246 533 153 48 11 8
abra 2m 7 65 57 8.52 82 250 454 187 73 25 11
pmg 2m 8,5 55 35 11.99 76 141 613 148 67 23 8
mja 2m 9 64 53 9.96 80 127 553 197 96 21 7
fin rang faible 7,2 56 64 10 63 101 375 153 73 25 8
rang moyen 8.5 64 66 12 76 110 402 181 96 28 10
11.5 72 109 20 84 183 502 211 149 57 16
rru 4M 10 78 89 18.99 91 180 408 221 141 37 13
eco 4M 9 72 76 20.08 88 183 439 194 142 35 8
cvi 4M 9,5 74 67 26.50 78 177 463 204 106 34 16
ade 4M 8,5 70 66 25.60 90 183 470 206 104 28 10
bsu 4M 9,5 72 64 29.29 81 144 502 224 98 28 4
cbn 2m 11 71 79 14.59 82 71 487 227 158 47 10
afn 2m 9,5 66 75 8.68 77 151 459 197 149 34 11
ase 8M 11,5 76 79 43.46 88 202 402 191 128 49 28
scc 2m 9 69 72 8.68 82 192 439 181 134 43 11
Début rang fort 12,2 78 116 25.6 88 192 533 221 158 66 19
rtb 1m 20 85 109 3.05 58 129 313 236 106 66 151
spl 4M 14 82 105 17.06 76 101 375 211 184 90 40
pmq 7M 14 88 130 28.46 90 110 343 234 210 70 32
cbei 6M 18 83 136 14.71 83 71 318 211 221 127 52
blo 2m 11 88 116 9.53 78 129 373 273 159 48 19
myr 4M 12 67 63 19.62 84 85 501 192 124 57 42
mba 4M 27 85 154 5.54 46 83 228 152 198 163 175

Les intercalaires tRNA-cds[modifier | modifier le wikicode]

tRNA-cds calculs[modifier | modifier le wikicode]
  • Exemple de calcul sur mja: voir la note "Calculs" dans mja intercalaires rRNA
  • Calculs: Comme les intercalaires négatifs sont absents dans les intercalaires tRNA-cds, les taux (proba), des intercalaires entre cds, sont calculés sur le total 0-200 + reste.
    - Je montre ici que les intercalaires deb et fin d'un doublet deb-fin suivent les probabilités des intercalaires entre cds et donc que, sur le total des doublets deb-fin (label tRNAs dans le tableau), deb et fin sont indépendants et ne définissent pas leur orientation. Les doublets deb-fin suivent une loi multinomiale avec les 3 variables aléatoires petit-petit de probabilité p2, petit-grand de probabilité 2pq et grand-grand de probabilité q2, p et q étant les probabilités respectivement des petits (<201) et des grands (>200) intercalaires entre cds.
    - Après la réorientation que j'ai faite ci-dessus (voir le chapitre ("génome"_intercalaires_rRNA) de chaque génome) les doublets petit-petit apparaissent quand je trie sur grand (signalé par grand*) et les doublets petit-petit plus les doublets grand-petit apparaissent quand je trie sur petit (signalé par petit*).
    - Dans le tableau des calculs j'ai indiqué les valeurs attendues et trouvées (effect) des doublets petit-petit + grand-petit (petit) et des doublets petit-petit (grand) avec leur écartype de 2σ.
    - La variance d'une variable aléatoire selon la loi multinomiale [1] est égale à np(1-p) où p est sa probabilité et n le nombre de tests. Littéralement la variance des doublets "grand" est np2(1-p2) et des doublets "petit" est n(p2+2pq)(1-p2-2pq) et en sachant que la somme des probabilités des 3 variables est égale à l'unité la variance des doublets "petit" est nq2(1-q2). Dans le tableau les valeurs de ces variances sont sous leur écriture littérale, varq pour "petit" et varp pour "grand".
archeo	cds total	total	<0	0-200	reste	cds≥0	bornes	p	q		tRNAs
mja cds-cds	1 768	1 730	219	1296	215	1511	petit	0,858	0,142		21
mja cds %			127	858	142		19,284	p2	2pq	1-q2	q2
mja tRNA		42		29	13		21,866	0,736	0,244	0,980	0,020
											
calculs	proba	effect	attendu	plage	2σ			grand	varq	   varp		attendus	
petit	0,858	19	20,6	19 – 22	1,3			11,407	nq2(1-q2)  np2(1-p2)	petit	grand
grand	0,142	10	15,4	11 – 19	4,0			19,491	0,417	   4,084	20,575	15,449

comparaison cds-cds et tRNA-cds[modifier | modifier le wikicode]

  • Lien tableur: comparaison cds-cds et tRNA-cds
  • Légende:
    1. Intervalles de confiance
      - p petit grand tRNAs <0, voir les calculs.
      - gen pour génome, inf et sup pour borne inférieure et supérieure de l'intervalle de confiance, cds total des cds relevé dans NCBI.
      - Les couleurs: en jaune, les 2 valeurs (petit et grand) relevées sont à l'intérieur de l'intervalle de confiance. Donc les intercalaires tRNAs-cds suivent ceux des cds-cds (p); cyan, les valeurs relevées sont à l'extérieur de l'intervalle de confiance. Les 22 cyan sont inférieures à la borne inf. Cela veut dire que dans plus de la moitié des cas les intercalaires tRNAs cds sont supérieurs à 200 pbs. Trois cyan sont très proches de la borne inf et sont soulignés.
      -Note: pour pub le calcul a été fait pour les intercalaires <101 pbs tellement que le reste est très faible.
    2. Moyennes
      - pet grd, moyenne des colonnes petit grand, voir les calculs et les intercalaires tRNA-cds comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. La moyenne de tRNA-cds est faite sur les 2 colonnes , petit et grand.
      - fréquence, cds-cds ADN, voir "génome"_frequences (exemple abra pour le total des fréquences des intercalaires cds-cds et ADN pour le total des intercalaires positifs en pbs).
      - grd%= 100*(grd-cds)/cds   pet%=100*(cds-pet)/pet   taux=(grd-pet)/cds; diff=(tRNA-cds)-(cds-cds).
      - Notes:
      + Les moyennes des tRNA-cds sont toutes supérieures aux cds, la différence, diff, est toujours nettement positive.
      + L'orientation des tRNA-cds, grand versus petit. J'ai fait la comparaison de ces 2 moyennes à celle de cds-cds, grd% et pet% en prenant soin de se débarrasser des signes moins. Les grd sont toujours très élevés, comme il se doit, et les pet sont aussi plus petits de cds-cds sauf pour 2 cas (spl et bsu) qui sont faiblement plus grands (-18% et -15%) et 5 proches de l'égalité (pet% inférieur à 7%); sinon 7 sont nettement petits (pet% supérieur à 40%) et 7 moyens (entre 16 et 40%).
      + Le taux de l'orientation: la différence grand-pet est comparée à la moyenne cds-cds dans leur rapport. Ce taux est proche de l'unité, plus ou moins une moyenne cds-cds. Deux cas, abra et rtb, font 2 moyennes cds-cds.
      + Ce tableau est à comparer à la rareté des petits tRNA-cds.
tRNAs-cds. Comparaison des intercalaires cds-cds et tRNAs-cds.
tRNAs-cds1. Intervalles de confiance.
caractéristiques petit grand
gen 0-200, p cds tRNAs petit grand <0  inf sup inf sup
abra 0,854 1712 40 27 13 -8.71 -6.14 -2.37 5.57
ant 0,911 3119 32 16 10 -0,84 0,58 0,27 6,28
mja 0,858 1768 42 19 10 0,28 2,87 1,41 9,49
pmg 0,886 1839 66 31 20 1 -0,69 1,86 0,49 9,78
pub 0,866 1343 50 25 17 -1,78 0,88 -2,60 6,07
ade 0,827 4506 68 30 21 0,98 4,97 -3,20 7,65
afn 0,771 2093 52 26 17 -3,63 0,91 -6,54 3,48
ase 0,744 8256 100 39 17 1 3,31 10,25 3,14 17,06
bsu 0,848 4325 26 11 8 0,62 2,78 -1,88 4,59
cbn 0,768 2521 34 13 8 1,22 4,95 -2,03 6,08
cvi 0,810 4345 78 38 20 -2,73 1,92 -0,33 11,54
eco 0,773 4285 56 20 7 4,22 8,90 4,54 14,92
rru 0,767 3854 80 39 15 -4,03 1,70 2,33 14,78
spl 0,651 4269 60 19 5 1 2,95 9,99 1,97 12,62
blo 0,741 1824 78 27 11 3 3,58 9,59 2,79 14,73
cbei 0,570 5665 40 13 5 -0,17 6,77 -2,69 5,68
mba 0,415 3995 88 21 5 1 1,06 13,51 -2,54 7,36
myr 0,757 3611 78 35 18 1 -2,16 3,66 -2,35 9,85
pmq 0,649 7258 32 15 5 -3,61 1,66 -2,22 5,68
rtb 0,630 828 56 18 5 2,52 9,80 0,92 11,27
scc 0,768 1847 66 27 9 1,64 6,82 4,82 16,12
tRNAs-cds2. Moyennes
fréquence moyenne pourcentage
gen cds-cds ADN cds-cds tRNA-cds diff grd pet grd% pet% taux
abra 1250 135857 109 224 115 358 91 229 20 2,5
ant 2333 192251 82 126 44 184 68 123 21 1,4
mja 1511 151580 100 148 48 203 94 102 7 1,1
pmg 1547 139122 90 128 38 196 61 118 47 1,5
pub 834 39179 47 51 4 86 16 83 201 1,5
ade 3649 428947 118 164 46 225 102 92 16 1,1
afn 1732 220467 127 144 17 199 89 56 43 0,9
ase 6545 1063558 162 239 76 346 130 113 25 1,3
bsu 3607 401590 111 188 77 241 135 116 -18 0,9
cbn 2315 313764 136 181 45 234 127 73 7 0,8
cvi 3526 452650 128 178 50 270 86 111 49 1,4
eco 3286 421229 128 228 100 326 129 154 -1,0 1,5
rru 3103 429144 138 176 38 247 106 78 30 1,0
spl 3787 730981 193 358 165 484 228 151 -15 1,3
blo 1544 240201 156 227 71 292 155 88 0,2 0,9
cbei 5223 1159420 222 262 40 346 178 56 25 0,8
mba 3614 1292909 358 437 79 618 252 73 42 1,0
myr 3253 507186 156 173 17 247 96 59 63 1,0
pmq 6428 1202544 187 201 14 275 127 47 47 0,8
rtb 691 224467 325 551 226 854 248 163 31 1,9
scc 1458 195310 134 217 83 293 141 118 -5 1,1

Les intercalaires tRNAs-cds sans cds-cds[modifier | modifier le wikicode]

  • Lien tableur: Les intercalaires tRNAs-cds sans cds-cds. Les résultats, les génomes et le mode calcul sont dans le tableur seulement. Voir aussi le détail des calculs.
  • Légende: Les génomes sans cds-cds de la colonne vha sont comparés aux génomes avec cds-cds (p) de l'en-tête. pub est à refaire parce que sont p est calculé sur 0-100 et non 0-200 pour tous les autres. La classe3 est celle de pmq cbei mba myr, voir le classement.
tRNAs-cds2. Comparaison des intercalaires tRNAs-cds avec ou sans cds-cds. Intervalles de confiance OK.
<201 sans - pub afn cvi pmq myr mba cbei total ok classe 3
p 0,866 0,771 0,810 0,649 0,757 0,415 0,570
genome cds 1 343 2 093 4 345 7 258 3 611 3 995 5 665
vha 5 432 * * * * * ok ok 2 "
amed 4 285 * * * ok * * ok 2 "
ecoN 5 157 * * * * * ok * 1 "
rpm 3 484 * ok * ok ok * * 3
oan 4 900 * * * *- * * ok 1 "
abq 6 576 * * * ok * * ok 2 "
abs 6 817 * * * ok ok * ok 3 "
agr 5 159 * * * *- * * ok 1 "
aua 4 721 * * * * * ok ok 2 "
rpl 850 * * * * * ok ok 2 "
ppm 5 384 * * * * * ok ok 2 "
lbu 1 838 * ok ok ok ok * ok 5
ban 5 700 * *- * ok *- ok ok 3 "
psor 3 368 *- ok ok ok ok *- ok 5
cdc 3 614 * ok *- ok ok ok ok 5
hmo 2 707 * *- * ok ok * ok 3 "
fps 2 478 *- ok ok ok ok * * 4
npu 7 484 * * * * * * ok 1 "
apal 1 453 ok ok ok ok ok * * 5
mfi 3 381 * * * ok * ok ok 3 "
mfe 2 374 * * * * * ok * 1 "
total ok 1 6 4 12 8 9 16

Les intercalaires en continu-discontinu[modifier | modifier le wikicode]

comparaison continu-discontinu[modifier | modifier le wikicode]
  • Lien tableur: comparaison continu-discontinu
  • Légende:
    - Tableau tRNA-cds01, les intercalaires tRNA-cds positifs: Ils sont comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. Les intercalaires inférieurs à 201 sont reportés dans les colonnes deb, fin (début et fin d'une transition continue cds-tRNA, complement ou non) et les colonnes deb'-fin' (changement de sens entre cds et tRNAs, direct-complement ou complement-direct). La colonne total est la somme de tous les intercalaires, les >200 aussi.
    - Tableau tRNA-cds01, les intercalaires cds-cds négatifs, l'ensemble: 3 colonnes sont extraites du tableau des fréquences cds-cds (exemple abra, cds le total des intercalaires cds-cds, <0 (continu + discontinu) le total des négatifs et r32 correspondant au reste du label fréquence-1. Deux colonnes sont des rapports extraits du tableau des détails tRNA-cds02, comp'% (discontinu sur les négatifs) et min% (200*différence/somme, en valeur absolue, de min-min').
    - Tableau tRNA-cds02, détail des cds-cds négatifs: Les effectifs sont tirés du tableur au paragraphe intercalaires négatifs de chaque génome exemple abra. Pour les continus con et les discontinus comp' j'ai mis 3 colonnes total, le minimum (min' pour comp') et le reste des effectifs après la fréquence (-50), r50. Pour les continus seulement, car con1 des comp' est toujours nul, j'ai ajouté 2 colonnes, les effectifs de la fréquence (-1), con1, et ceux de la fréquence (-4), con4.
  • Note: erreur sur eco, intercalaire 233 (voir eco intercalaires tRNA). corrigé ici.
tRNAs-cds0. Comparaison continu-discontinu des intercalaires des tRNA-cds positifs et des cds-cds négatifs.
tRNAs-cds01. Détail des tRNA-cds et l'ensemble des cds-cds négatifs.
détail tRNA-cds positifs ensemble cds-cds négatifs
gen deb fin deb’ fin’ total cds <0 r32 r32% comp’% min%
abra 7 12 5 4 41 1 667 417 20 4,8 1,4 117
ade 20 16 7 9 69 4 464 815 40 4,9 11,9 6
afn 20 17 2 5 53 2 039 307 21 6,8 1,3 31
ant 11 12 4 1 34 3 095 762 17 2,2 10,9 11
ase 18 16 12 12 101 8 197 1 652 128 7,7 19,3 1
blo 15 15 5 6 78 1 772 228 8 3,5 7,0 17
bsu 3 5 7 5 28 4 215 608 52 8,7 4,9 182
cbei 9 5 4 1 47 5 622 400 24 6,0 2,8 59
cbn 12 12 2 2 40 2 491 176 6 3,4 4,5 54
cvi 22 20 7 9 78 4 282 756 26 3,4 8,2 5
eco 10 11 5 7 65 4 024 738 55 7,5 12,3 107
mba 9 8 7 4 90 3 943 329 26 7,9 5,5 23
mja 6 15 8 1 43 1 730 219 17 7,8 24,2 29
myr 18 15 12 10 79 3 555 302 12 4,0 6,6 37
pmg 16 17 13 8 67 1 800 253 12 4,7 36,0 3
pmq 8 11 2 5 42 7 223 795 52 6,5 4,3 45
pub 13 14 11 11 50 1 307 473 14 3,0 19,0 41
rru 15 18 10 11 83 3 786 683 32 4,7 10,1 12
rtb 9 12 0 2 56 793 102 7 6,9 2,9 35
scc 13 8 11 5 67 1 805 347 14 4,0 7,8 47
spl 9 9 4 3 62 4 213 426 10 2,3 2,8 61
total 263 268 138 121 1 273 72 023 10 788 593 5,5 10,6
tRNAs-cds02. Détail des cds-cds négatifs.
con cds-cds négatifs continus comp’ cds-cds négatifs discontinus
gen total min con1 con4 c1/c4 r50 r50% total min’ r50 r50%
abra 411 -92 68 142 0,48 13 3,2 6 -24 0
ade 718 -109 70 540 0,13 10 1,4 97 -116 14 14,4
afn 303 -113 38 129 0,29 9 3,0 4 -83 1 25,0
ant 679 -71 164 221 0,74 6 0,9 83 -79 1 1,2
ase 1333 -119 168 892 0,19 32 2,4 319 -120 49 15,4
blo 212 -86 52 109 0,48 2 0,9 16 -102 2 12,5
bsu 578 -7 616 72 233 0,31 17 2,9 30 -361 7 23,3
cbei 389 -110 71 82 0,87 4 1,0 11 -60 1 9,1
cbn 168 -47 34 28 1,21 0 8 -27 0
cvi 694 -97 118 377 0,31 4 0,6 62 -102 6 9,7
eco 647 -2 400 163 261 0,62 22 3,4 91 -723 11 12,1
mba 311 -59 33 119 0,28 7 2,3 18 -74 2 11,1
mja 166 -83 25 52 0,48 7 4,2 53 -62 0
myr 282 -47 71 60 1,18 0 20 -68 1 5,0
pmg 162 -65 36 72 0,50 2 1,2 91 -67 2 2,2
pmq 761 -119 80 387 0,21 17 2,2 34 -75 4 11,8
pub 383 -65 152 81 1,88 3 0,8 90 -43 0
rru 614 -137 81 396 0,20 13 2,1 69 -122 7 10,1
rtb 99 -50 10 33 0,30 0 3 -35 0
scc 320 -74 39 156 0,25 6 1,9 27 -120 1 3,7
spl 414 -98 126 136 0,93 5 1,2 12 -52 1 8,3
total 9 644 1 671 4 506 0,37 179 1,9 1 144 110 9,6
Notes, comparaison continu-discontinu[modifier | modifier le wikicode]
  • Les intercalaires tRNA-cds: tableau tRNA-cds01
    - Pour les intercalaires positifs les totaux deb et fin sont à égalité de même que les deb' et les fin' (notation des intercalaires tRNA, par exemple abra). Cependant les deb-fin sont 2 fois plus nombreux que les deb'-fin' car les plages des adresses direct ou complement sont très étendues, sous-tendues par l'architecture globale du chromosome et la discontinuité ne concerne que le passage d'une plage à l'autre. Dans les intercalaires négatifs, qui sont rares, ce sont les discontinus qui prennent l'avantage comme si la discontinuité ajoutée à la difficulté de réparation due aux appariements des tRNAs provoquait le chevauchement, il y a 2 continus contre 6 discontinus négatifs (voir 1er petit tableau parmi ceux qui suivent). C'est ce résultat partiel qui m’a poussé à étudier les intercalaires cds-cds négatifs.
    - Les intercalaires tRNA-cds négatifs, 8/1273 soit 0.6%, sont rares alors que les négatifs représentent environ 15% (10 788/72 023) des intercalaires cds-cds. Je les ai comparés à la rareté des tRNA-cds nuls: il semblerait que ceux-ci soient aussi rares, 4/1273 soit 0.3% (voir le 2ème petit tableau parmi ceux qui suivent). Mais les nuls sont aussi très faibles chez les cds-cds. Le décompte des nuls des 21 génomes avec cds donne 510 nuls pour 72 023 intercalaires cds-cds, soit 0,7% (voir "génome" les fréquences: exemple abra) et la comparaison des nuls/négatifs des cds-cds pour 8 génomes donne 210/24482 soit 0.9%, et en plus le rapport comp'/con égale à 39/171 soit 0.23 est du même ordre de grandeur et même 2 fois plus élevé que celui des cds-cds négatifs de 0.11 = 346/3035 (Les effectifs des nuls sont obtenus en même temps que les relevés des négatifs, mais seulement pour ces 8 génomes. Les effectifs des négatifs sont extraits du tableau tRNA-cds02).

Fin cds01

tRNA-cds intercalaires négatifs
gen 	deb 	fin 	deb’ 	fin’ 	total 
mba	-	-	-12	-	1
spl	-	-	-23	-	1
myr	-	-	-38	-	1
pmg	-30	-	-	-	1
ase	-	-	-	-12	1
blo	-17	-	-39	-8	3

tRNA-cds intercalaires nuls
mba	-	1	-	-	1
pmg	-	-	1	-	1
pub	-	-	2	-	2
total	-	1	3	-	4

cds-cds intercalaires nuls/négatifs
nuls 	-	-	<0	-	-
gen	con	comp’	con	comp’	cds
myr	14	4	282	20	3 555
pmg	34	12	162	91	1 800
pmq	26	5	761	34	7 223
pub	58	13	383	90	1 307
rru	11	2	614	69	3 786
rtb	4	1	99	3	793
scc	7	1	320	27	1 805
spl	17	1	414	12	4 213
total	171	39	3035	346	24 482
  • Les intercalaires cds-cds négatifs: tableau tRNA-cds01 partie de droite pour les caractéristiques de l'ensemble des négatifs et tableau tRNA-cds02 pour les détails.
    1. Les intercalaires négatifs tRNAs-cds sont très rares par rapport aux cds-cds négatifs
      - Suite à la constatation de la quasi absence des intercalaires négatifs chez les tRNA-cds (note du début) j'ai entamé l'étude détaillée des cds-cds, positifs-négatifs, continus-discontinus. J'ai regroupé le tout dans le tableau récapitulatif des taux discontinu/continu, dans le tableau par classe génomique et dans le tableau des cds-cds positifs-négatifs.
      + Les intercalaires cds-cds négatifs S-: Le taux Sx-% des discontinus négatifs varie beaucoup d'un génome à l'autre et suit le classement par génome basé notamment sur le taux de négativité, S-%. Cependant la corrélation n'est pas totale puisque abra a le taux parmi les plus faibles, 1.4%, alors qu'il a un taux élevé de négativité de 25%; de même pour afn de la classe moyenne (II) a respectivement 1.3% et 15%. La classe I regroupe donc 4 forts en Sx-% et 1 génome très faible, la classe II est un mélange de 4 forts de 3 moyens et de 2 faibles et la classe III 2 faibles et 5 moyens. La classe III est l'opposée de la classe I puisqu'elle regroupe aussi les plus faibles taux S-%. Au total les Sx- sont 10 fois plus faibles que les Sc- varient fortement avec un écart supérieur à 50% par rapport à la moyenne.
      + Les intercalaires cds-cds positifs S+: Le taux Sx+% par contre est très homogène avec un écart de seulement de 10% par rapport à la moyenne. Au total les Sx+ ne sont que 3 fois plus faibles que les continus Sc+.
      + Les intercalaires tRNA-cds positifs R+: Ils se comportent exactement comme les S+, le taux Rx+% est homogène avec un écart de 20% par rapport à la moyenne et il y a 3 fois plus de continus que de discontinus. Cependant leur moyenne de 37% est supérieure de 20% à la moyenne des Sx+% de 31%.
      - Les tRNAs-cds négatifs pour 43 génomes restent très rares, 0.7%, mais le rapport c- / x- tend vers l'unité, 9/10. Si les cds-cds négatifs sont beaucoup plus abondants que les tRNA-cds négatifs, 15% contre 0.7%, ce sont surtout les Sc- qui les représentent. En ramenant au total des S, les Sx- ne représentent que 1144/72023 soit 1.6% et en ramenant au total des R, les Rx- représentent 10/2688 soit 0.4% et donc les Sx- sont peu fréquents mais sont 4 fois plus abondants que les Rx- dans leur catégories respectives.
      - Les intercalaires tRNA-tRNA discontinus positifs x+ (1% pour 50 génomes et 1745 intercalaires) sont aussi rares que les tRNA-cds négatifs et les x- sont quasi inexistants, 1 seul cas et d'une seule paire de base. En plus sur 18 intercalaires discontinus relevés 5 sont tellement grands (supérieurs à 400 pbs) qu'ils résulteraient plutôt d'un remaniement du chromosome que d'une propriété des blocs à tRNAs seuls, 9 entre 130 et 290 pbs et 4 entre 50 et 90 pbs. Voir le tableur du même lien.
      - Les intercalaires discontinus dans les blocs à rRNAs sont inexistants pour 50 génomes et 1984 intercalaires.
      - Les intercalaires positifs de 1 à 40 pbs:
      + La comparaison des tRNA-cds aux cds-cds (tRNA-cds1), avec intervalle de confiance, m'a montré que les 1ers ont un comportement propre aux tRNA et surtout que la fréquence attendue des "petit" était inférieure à la borne inférieure de l'intervalle. Cela veut dire que les petits intervalles sont moins fréquents que les grands, relativement aux cds-cds. Ceci m'a poussé à comparer les moyennes des cds-cds et des tRNA-cds dans le sous tableau tRNA-cds2 (même lien). Et effectivement les moyennes des tRNA-cds sont toujours et nettement supérieures à celles des cds-cds (colonne diff). De même les grands intercalaires (grd%) sont encore plus grands que la moyenne cds-cds et les petits intercalaires (pet%) plus petits (14 génomes) qu'elle, ou égaux (4) et pour 3 génomes légèrement supérieurs (bsu spl scc).
      + Ce résultat va dans le même sens que la faible fréquence des tRNA-cds négatifs et donc de l'orientation des blocs à tRNAs seuls, sans rRNA. Aussi j'ai comparé les fréquences des petits intercalaires positifs cds-cds (S) et tRNA-cds (R) de 1 à 40 pbs. Les R sont au moins 3 fois plus faibles que les S (colonne taux) pour 13 génomes et 7 ont si peu de R (0 1 2) que leur taux doit être supérieur à 3. Un seul génome pub a un taux proche de l'unité, mais son taux approche 3 quand je compare les 10 plus petits intercalaires. J'ai calculé aussi le taux des R40 discontinus R40x% sur le total R40, il est du même ordre de grandeur que celui des Sx+% et Rx+% calculés sur la totalité des intercalaires, 26% contre respectivement 31 et 37 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser.
      - En conclusion:
      • Les intercalaires tRNA-tRNA, à l’intérieur des blocs à tRNA, avec rRNA ou non, sont toujours continus. Ils peuvent être discontinus dans les blocs sans rRNA, jusqu'à 1%, sous la forme positive Rx+ seule et sont souvent très longs. Ceci suggèrent qu'ils sont plutôt le résultat des remaniements du chromosome que du processus de la formation du bloc.
      • Les intercalaires tRNA-cds, en contact avec les gènes protéiques, orientent les blocs à tRNAs seuls. L'orientation n'est pas définie par la disposition des tRNA dans le bloc comme le font les rRNAs dans les blocs les contenant, mais par la difficulté (faible fréquence) à réaliser des intercalaires courts d'un côté et la facilité à en réaliser des longs de l'autre côté (forte fréquence). La différence avec les blocs à rRNA, comme je le montrerai plus loin, c'est que le côté long varie peu en longueur pour ceux-ci alors qu'il est très variable pour les blocs sans rRNA.
    2. Comparaison entre les intercalaires cds-cds négatifs continus et discontinus:
      - Comparaison avec les positifs: quand on voit les minima des négatifs on a l'impression que leur étendue est très grande, mais en fait les négatifs ont des intercalaires inférieures à 32 pbs dans 95% des cas alors que les positifs ne dépassent pas les 27% dans la plage 1-40 pbs. Voir ici les comparaisons positifs-négatifs dans le 1er sous-tableau. Les négatifs supérieurs à 140 pbs ne représentent que 0.2% du total, 21/10788, et ne concernent que 2 génomes dans mon étude de 21, bsu et eco. Voir en fin de chapitre la liste des intercalaires négatifs supérieurs à 140 pbs.
      - Comparaison entre continus et discontinus: Maintenant, quand on voit les minima des négatifs entre continus et discontinus (voir la comparaison dans les colonnes min et min' dans le 2ème sous-tableau et leurs taux dans le 1er sous-tableau ainsi que leur liste en fin de chapitre), on a l'impression qu'ils sont similaires, 9 de plus de 360 pbs chez les continus et 5 chez les discontinus. Et même les négatifs seraient plus fréquents puisque le rapport c-/x- est de 2 alors qu'il est de 10 pour le total des négatifs. Or des recouvrements longs pour les discontinus me posaient problème: à l'instar d'un tRNA où son complément n'est pas un tRNA à cause de la dissymétrie des tRNAs, je pensais que le complément d'un cds ne pouvait être que rarement un cds et que s'il y avait recouvrement il ne pourrait être que court. C'est ce qui expliquerait par ailleurs la rareté des discontinus.
      - Aussi j'ai étudié les recouvrements réels chez les continus et les discontinus. Ce qui en ressort c'est que les intercalaires longs ont un recouvrement total et les courts ont un recouvrement partiel. Et ceci que les intercalaires soient continus ou non. Et il y a ainsi 2 intercalaires discontinus à recouvrement total long, 297 et 486 pbs, et un 3ème discontinu partiel de 210 pbs. Sur 6 discontinus les autres ont un recouvrement inférieur à 75 pbs. Le taux des recouvrements longs pour les discontinus parait donc très élevé, 33 à 50%. Mais sur les 10788 de négatifs ils sont extrêmement rares 2 à 3 pour 10 000 intercalaires. On pourrait suggérer que ce sont des accidents dus aux remaniements du chromosome mais l'étude des fréquences de tous les négatifs qui suit montre que le processus sous-tendu par les intercalaires continus s'apparente au processus de traduction et de transcription basé sur une périodicité de 3 bases ou triplet qui défini les aas, et que le processus sous-tendus par les intercalaires discontinus s'apparente au processus de réparation qui ne concerne que les propriétés physiques de l'ADN double brin mais qui néanmoins fait apparaître une périodicité de 3 paires de bases différente de celle ces continus.
    3. Les fréquences des intercalaires négatifs cds-cds, c- et x-
      - Les c- reproduisent dans l'ADN le processus traductionnel des triplets mais décalés.
      - Les x- mettent en évidence 2 processus de réparation, un qui reproduit partiellement le processus traductionnel des triplets auquel se superpose le 2ème par des triplets décalés
  • Les intercalaires cds-cds négatifs inférieurs à -140
Les intercalaires cds-cds négatifs inférieurs à -140 pbs: continu, le chevauchement se fait sur le même brin et comp' pour discontinu, le chevauchement se fait sur 2 brins.
continu		continu		comp’
eco		bsu		eco
-2400		-7616		-723
-2130		-500		-530
-1295		-492		-527
-897		-164		-436
-729		-154		-210
-448		-143		-
-242		-		bsu
-212		-		-361
-153		-		-
Discussion, comparaison continu-discontinu[modifier | modifier le wikicode]
Rareté des tRNA-cds négatifs et petits positifs[modifier | modifier le wikicode]
  • Lien tableur: Rareté des tRNA-cds négatifs et petits positifs.
  • Légende:
    1. Les tRNA-cds négatifs: Les décomptes et la dénomination du tRNA sont faits à partir des "génome"-opérons quand ils ont des cds sinon à partir de "génome"-autres-intercalaires. Aux 21 génomes étudiés avec les discontinuités (comp') s'ajoute 22 autres génomes avec un total de 11 intercalaires négatifs. Ces derniers sont en gras et le total de tRNA-cds négatifs, 1407 pbs, est reporté dans le tableur (lien ci-dessus). Le taux des négatifs passe donc à 19 pour un total de 2688 intercalaires (1407 plus ceux des 21 génomes, 1281), soit 0.7%, 2 fois plus faible que les discontinus positifs entre tRNA dans les blocs sans rRNA.
      - Note: le rapport c-/x- maintenant est proche de l'unité, 9c- / 10x- pour 43 génomes. Voir les 1ères estimations avec les 21 génomes.Ce rapport et la rareté des tRNA-cds négatif suggèrent que le processus est aléatoire avec une probabilité de 0.5.
      - tga*, cette adresse n'apparaît pas dans spl opérons du 30.6.19 mais apparaît dans fréquences de spl du 24.9.20 dont est issu spl-autres-intercalaires.
      - blo*, dans blo opérons il n'y a pas de cds. Voir dans blo autres intercalaires qui est du 15.10.20 (voir blo-fréquences) alors que blo-opérons est du 30.6.19.
    2. Les tRNA-cds positifs: les génomes gen pointent sur les intercalaires des tRNA-cds des 21 étudiés pour les discontinuités.
      - S40% voir les intercalaires cds-cds 1-40 colonne 1-40% du 1er tableau, pourcentage des Sx+ sur le total, (100*Sx+ / S+).
      - total, total des tRNA-cds du génome reporté dans l'encadré au-dessus de son tableau.
      - R40 est le total des intercalaires positifs de 1 à 40 pbs des 2 parties du tableau de chaque génome (gen): continu pour Rc+ et comp' ou discontinu pour Rx+. Le pourcentage du total des Rx+, Rx+%, égale à (100*Rx+ / R+), est le même que celui des Sx+% et Rx+% calculés sur le total, soit 100*33/129 = 25,6 contre respectivement 31 et 36 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser. En effet quand je compare les moyennes (tableau tRNA-cds2) des intercalaires positifs des cds-cds à celles des tRNA-cds ces dernières sont toujours et nettement plus élevées que les 1ères. Et quand j'oriente les blocs de tRNA sans rRNA les grands sont donc normalement tous plus élevés que cds-cds mais pour les petits 7 génomes à égalité ou presque (spl et bsu), 7 sont nettement plus petits ( différence supérieure à 40%) 7 moyennement petits (différence de 16 à 40%).
      - R40%, pourcentage des 1-40 par rapport au total des tRNA-cds;   taux, S40% / R40%.
      - Note:
      + les taux de cbn et bsu sont calculés avec R40=1. Quand j'enlève pub le taux du total passe à 3.6 au lieu de 2.9 et le pourcentage à 7.5 pour un cumulé de 1213 et un R40 total de 91.
      + Ce tableau est à comparer aux moyennes des tRNA-cds.
génomes. Rareté des tRNA-cds négatifs et des petits positifs
génomes. Les tRNA-cds négatifs
genome adresse tRNA inter
Intercalaire continu nc
vha chrII 1842556 ctc -36
amed 779541 caa -21
oan 1945985 aag -38
oan 34057 gcc -40
ppm plasm 7953 gac -24
hmo 2497882 gtg -10
mfi 314088 caa -1
pmg 1600898 gta -30
blo* 207388 tgg -17
Intercalaire discontinu xc comp’
rpm 1941413 agc -30
oan 1639492 atgj -44
aua 1350534 cgt -30
npu 3439846 gca -19
mba 1315521 cgc -12
spl 552630 tga* -23
myr 1926118 tta -38
ase 1249593 aag -12
blo* 440078 aac -39
blo* 1424907 gag -8
total 19
génomes. Les poisitifs de 1 à 40
gen S40% total R40 R40% taux Rc+ Rx+
abra 37,3 41 2 4,9 7,6 2
ade 32,6 69 8 11,6 2,8 7 1
afn 35,8 53 4 7,5 4,7 4
ant 45,1 34 5 14,7 3,1 3 2
ase 23,9 100 14 14,0 1,7 11 3
blo 19,1 75 1 1,3 14,4 1
bsu 34,6 28 0 0 9,7
cbei 19,0 47 3 6,4 3,0 1 2
cbn 29,3 40 0 0 11,7
cvi 26,9 78 8 10,3 2,6 8
eco 29,1 65 4 6,2 4,7 1 3
mba 13,3 88 4 4,5 2,9 2 2
mja 39,4 43 5 11,6 3,4 5
myr 30,8 78 7 9,0 3,4 5 2
pmg 42,9 65 11 16,9 2,5 8 3
pmq 19,1 42 1 2,4 8,0 1
pub 59,6 48 27 56,3 1,1 18 9
rru 26,1 83 3 3,6 7,2 1 2
rtb 20,3 56 6 10,7 1,9 6
scc 31,0 67 4 6,0 5,2 2 2
spl 20,0 61 1 1,6 12,2 1
total 27,1 1261 118 9,4 2,9 86 32
Les cds-cds positif-négatif[modifier | modifier le wikicode]
  • Lien tableur: Les cds-cds positif-négatif
  • Légende:
    1. Les intercalaires cds-cds positifs de 1 à 40: Les liens des génomes gen pointent sur les fréquences des intercalaires cds-cds.
      - <0%: intercalaires négatifs / total des intercalaires cds-cds, extrait du sous-tableau génomes3. De même total est extrait du sous-tableau génomes2.
      - <1 reste: sont extraits du tableau des fréquences de chaque génome (lien dans la colonne gen de gauche) et concernent la colonne frequence1. <1 est la somme des fréquences (-1) et (0), et reste est à la fin de la colonne. Leur somme est soustraite du total pour donner le total des intercalaires positifs (>0).
      - >0: total des intercalaires positifs, égale à total - <1.
      - 1-40 et 1-40%: 1-40, le total des intercalaires positifs de 1 à 40 est égale à >0 - reste et son taux, 1-40%, à 1-40 / >0.
      - 1-32%: taux des négatifs de -1 à -32, extrait du tableau tRNA-cds02, après avoir retranché la colonne reste32% de 100%.
      - Note: Tous les taux calculés pour chaque génome (lien à la colonne gen) sont faits par rapport au total des intercalaires cds-cds. Dans le tableau tRNA-cds02 reste32% est calculé par rapport au total des négatifs seuls. Pour ne pas refaire tous les calculs des intercalaires positifs de 1 à 32 la comparaison de 1-40% à 1-32% me paraît pertinente puisque leur différence est très forte, que la différence des effectifs est très faible (40 contre 32) et que leurs calculs sont faits de la même façon, par rapports à leur totaux.
    2. Les intercalaires continu-discontinu: voir ici la méthode de ces décomptes.
      - S R a pour intercalaires cds-cds, tRNA-cds, autres
      - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S. Attention SC- de eco est à corriger, 644 au lieu de 647.
      - total, total de tous les gènes
      - tx/2, total des comp (complement) correspondant à une discontinuité xc, c'est à dire le 1er comp d'une suite de comp, cette suite pouvant être réduite à l'unité. Chacun de ces comp correspond à 2 intercalaires discontinus, d'où (Sc+) = total - (tx/2)*2 - ac - (Sc-) - (Rc+) et (Sx+) = (tx/2)*2 - ax - (Sx-) - (Rx+).
    3. tRNA-cds positifs: mêmes notations que précédemment. Les liens des génomes gen pointent sur les intercalaires tRNA-cds. Les génomes avec * (ase*) ont des R- contenus dans les R+ pour retrouver les totaux de tRNA-cds01 précédents.
      - attention correction pour eco, 37 28 et non 37 27. corrigée ici.
génomes. Les intercalaires cds-cds, comparaison positif négatif.
génomes. Les intercalaires cds-cds positifs de 1 à 40
gen <0 % <1 reste total 1-40 >0 1-40% 1-32%
abra 25 430 776 1667 461 1237 37 95
ade 18 844 2440 4464 1180 3620 33 95
afn 15 318 1105 2039 616 1721 36 93
ant 25 827 1246 3095 1022 2268 45 98
ase 20 1687 4956 8197 1554 6510 24 92
blo 13 231 1246 1772 295 1541 19 97
bsu 14 636 2342 4216 1238 3580 35 91
cbei 7 419 4214 5622 989 5203 19 94
cbn 7 187 1628 2491 676 2304 29 97
cvi 18 771 2566 4282 945 3511 27 97
eco 18 767 2310 4024 947 3257 29 93
mba 8 351 3113 3943 479 3592 13 92
mja 13 240 903 1730 587 1490 39 92
myr 9 320 2239 3555 996 3235 31 96
pmg 14 298 857 1800 645 1502 43 95
pmq 11 826 5173 7223 1224 6397 19 94
pub 36 544 308 1307 455 763 60 97
rru 18 696 2285 3786 805 3090 26 95
rtb 13 107 547 793 139 686 20 93
scc 19 355 1001 1805 449 1450 31 96
spl 10 444 3017 4213 752 3769 20 98
total 16454 60726 27 94.5
écart 27±7 95±3
génomes. Les intercalaires cds-cds, continu - discontinu
total t x/2 ac ax ax% Sc- Sx- Sx-% Sc+ Sx+ Sx+% S- %
1795 147 82 5 6 411 6 1,4 977 273 22 25
4569 722 35 5 13 718 97 11,9 2325 1320 36 18
2192 187 86 11 11 303 4 1,3 1386 349 20 15
3190 366 56 5 8 679 83 10,9 1694 639 27 25
8380 1548 72 9 11 1333 319 19,3 3819 2726 42 20
1900 277 37 8 18 212 16 7,0 1044 502 32 13
4537 592 250 46 16 578 30 4,9 2513 1092 30 14
5813 622 134 8 6 389 11 2,8 4011 1213 23 7
2636 283 96 5 5 168 8 4,5 1776 543 23 7
4487 613 105 23 18 694 62 8,2 2410 1115 32 18
4700 704 398 213 35 647 91 12,3 2210 1076 33 18
4071 654 26 10 28 311 18 5,5 2378 1237 34 8
1828 269 36 20 36 166 53 24,2 1063 447 30 13
3754 522 110 11 9 282 20 6,6 2270 981 30 8
1884 364 10 7 41 162 91 36,0 942 604 39 14
7479 975 206 8 4 761 34 4,3 4535 1893 29 11
1386 182 16 13 45 383 90 19,0 595 239 29 36
3946 550 52 25 33 614 69 10,1 2131 972 31 18
868 106 12 4 25 99 3 2,9 505 189 27 13
1909 264 33 7 18 320 27 7,8 993 462 32 19
4466 680 171 20 11 414 12 2,8 2482 1304 34 10
75790 10627 2023 463 19 9644 1144 10,6 42059 19176 31 15
19±10 10±6 31±4 15±5
tRNA-cds positifs
gen Rc+ Rx+ Rx%
abra 31 10 24
ade 47 22 32
afn 43 10 19
ant 29 5 15
ase* 60 41 41
blo* 52 26 33
bsu 12 16 57
cbei 35 12 26
cbn 30 10 25
cvi 52 26 33
eco 37 28 43
mba* 48 42 47
mja 25 18 42
myr* 48 31 39
pmg* 41 26 39
pmq 27 15 36
pub 28 22 44
rru 49 34 41
rtb 40 16 29
scc 35 32 48
spl* 39 23 37
total 808 465 37
écart 37±7
Récapitulatif des taux discontinu/continu[modifier | modifier le wikicode]
  • Lien tableur: Récapitulatif des taux discontinu/continu.
  • Légende: >0, intercalaires positifs zéro compris. <0, intercalaires négatifs
    - S R a pour intercalaires cds-cds, tRNA-cds, autres
    - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S
    - Liens: S RS t1,  Scx- RS t2,  Scx+ S+ t2,  acx a t2,  Rcx R+ t3  et  R-. (t1 t2 t3 pour les sous-tableaux des liens).
    - Voir les tRNA-cds négatifs, Rcx-, dans Notes.
  • Note: Les autres intercalaires contiennent ceux des tRNA-tRNA qui ne produisent pas de discontinuités. En enlevant ces intercalaires, environ 500 (spl 133, bsu 60, pmq 138, cbn 22, cbei 140) j'arrive à un rapport ax% de 463/1500 soit 31%, celui de Sx+%. En plus eco contient 129 pseudo-gènes comptés dans autres intercalaires et qui se comportent comme les cds S+. Donc sans eco et les tRNAs le reste doit avoir un rapport ax% semblable à celui des Sx%.
Récapitulatif continu - discontinu
>0 <0 total taux <0
tRNA-cds tRNA-cds
Rc+ Rx+ Rx+ % Rc- Rx- Rx- % R- %
808 465 36,5 2 6 75 1 281 0,6
cds-cds cds-cds
Sc+ Sx+ Sx+ % Sc- Sx- Sx- % S- %
42 059 19 176 31,32 9 644 1 144 10,6 72 023 15,0
ac ax ax% intercal a% Sx%
2 023 463 18,6 75 790 3,3 75 790 28,2
Les taux de discontinus par classe génomique[modifier | modifier le wikicode]
génomes. Les taux de discontinus par classe génomique
gen Sx-% Sx+% S-% Rx+% ax%
I
abra 1,4 22 25 24 6
ant 10,9 27 25 15 8
mja 24,2 30 13 42 36
pmg 36,0 39 14 39 41
pub 19,0 29 36 44 45
II
ade 11,9 36 18 32 13
afn 1,3 20 15 19 11
ase 19,3 42 20 41 11
bsu 4,9 30 14 57 16
cbn 4,5 23 7 25 5
cvi 8,2 32 18 33 18
eco 12,3 33 18 43 35
rru 10,1 31 18 41 33
spl 2,8 34 10 37 11
III
blo 7,0 32 13 33 18
cbei 2,8 23 7 26 6
mba 5,5 34 8 47 28
myr 6,6 30 8 39 9
pmq 4,3 29 11 36 4
rtb 2,9 27 13 29 25
scc 7,8 32 19 48 18
total 10,6 31 15 37 19
écart 10±6 31±4 15±5 37±7 19±10
Les fréquences des intercalaires négatifs cds-cds[modifier | modifier le wikicode]
Les fréquences des intercalaires négatifs cds-cds. Tableau[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Voir aussi les détails à la suite du tableau dans le tableur.
  • Légende: inter, intercalaire; comp', pour discontinu.
    - nc, nombre de continus; nc%, proportion par rapport au total des continus; pc%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des continus.
    - xc, nombre de discontinus; xc%, proportion par rapport au total des discontinus; px%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des discontinus.
    - Le 1er pas de 3 intercalaires comprend les fréquences, inter, 6 7 8. Le rapport des continus est alors pc%=(5 + 140)/950=0.2. Pour les discontinus px%=(34+18)/46=1.1.
    - diff différence entre la fréquence 6 et 7.
cds-cds. Les fréquences des intercalaires négatifs cds-cds
continu comp’
inter nc nc% pc% nx nx% px% diff
-1 1671 17.4 0 0
-2 4 0.0 40 3.3
-3 5 0.1 0 0
-4 4476 46.5 0.38 410 33.5 0.10
-5 9 0.1 3 0.2
-6 4 0.0 35 2.9 16
-7 139 1.4 19 1.6
-8 945 9.8 0.15 51 4.2 1.06
-9 3 0.0 25 2.0 14
-10 93 1.0 11 0.9
-11 498 5.2 0.19 52 4.3 0.69
-12 2 0.0 23 1.9 8
-13 94 1.0 15 1.2
-14 329 3.4 0.29 45 3.7 0.84
-15 1 0.0 25 2.0 12
-16 58 0.6 13 1.1
-17 235 2.4 0.25 42 3.4 0.90
-18 5 0.1 13 1.1 1
-19 43 0.4 12 1.0
-20 162 1.7 0.30 24 2.0 1.04
-21 0 0 11 0.9 3
-22 22 0.2 8 0.7
-23 107 1.1 0.21 20 1.6 0.95
-24 1 0.0 19 1.6 8
-25 34 0.4 11 0.9
-26 101 1.1 0.35 21 1.7 1.43
-27 2 0.0 6 0.5 -2
-28 19 0.2 8 0.7
-29 61 0.6 0.34 10 0.8 1.40
-30 0 0 5 0.4 -3
-31 16 0.2 8 0.7
-32 45 0.5 0.36 18 1.5 0.72
-33 0 0 3 0.2 -4
-34 15 0.2 7 0.6
-35 35 0.4 0.43 19 1.6 0.53
-36 0 0 3 0.2 0
-37 9 0.1 3 0.2
-38 31 0.3 0.29 12 1.0 0.50
-39 0 0 3 0.2 -4
-40 5 0.1 7 0.6
-41 34 0.4 0.15 8 0.7 1.25
-42 0 0 4 0.3 -2
-43 16 0.2 6 0.5
-44 24 0.2 0.67 4 0.3 2.50
-45 0 0 2 0.2 -1
-46 5 0.1 3 0.2
-47 11 0.1 0.45 4 0.3 1.25
-48 0 0 2 0.2 -2
-49 11 0.1 4 0.3
-50 9 0.1 1.22 6 0.5 1.00
reste 230 2.4 120 9.8
total 9619 100.0 1223 100.0
  • Notes:
    - Exception pour les discontinus: si les continus ont des pas avec les 2 1ères fréquences toujours très faibles par rapport à la 3ème fréquence, chez les discontinus les 2 1ères sont toujours plus faibles que la 3ème mais leur somme peut être supérieure à elle, ce qui donne des px% supérieurs à l'unité et un seul cas (fréquence 44) où la 3ème n'est pas la plus grande. Le dernier pas des continus, 48 49 50, 49 et 50 sont égaux.
    - Les fréquences 1 2 3 4 5: Les 2 lots continu et comp' ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 34% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement pour les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec le 1er pas (17% contre 10%) et la fréquence 2 est quasiment nulle et portée par un seul génome, bsu (effectif de 4 en gras); la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec le 1er pas avec un effectif de 40 contre 47.
    - Les restes après la fréquence 50: D'après la 1ère note la progression des continus est plus rapide que celle des comp' ce qui fait que les restes sont 5 fois plus élevés chez les comp' 9,6% contre 1.9% pour les continu. Mais la progression s'annule presque au-delà de la fréquence 100, voir le tableau des caractéristiques globales de ces 2 lots (tRNA-cds02 les colonnes des minima).
    - Chez les discontinus une seconde périodicité apparaît avec les -8 (modulo 3): les 3 1ères sont constantes entre 44 et 48 puis 39, suivent 3 autres de 17 à 22 puis 10, suivent 3 autres de 12 à 17 puis 8 et enfin la queue qui diminue lentement avec des 3 et 4, dépassant rarement 7 (voir la suite dans -80).
    - Les courbes de progression de chaque fréquence modulo 3 sont des exponentielles.
  • périodicité supérieure des discontinus, modulo 9.
-6	35 25 23	-7	19 11 15	-8	51 52 45	-8	51 52 45   42
-15	25 13 11	-16	13 12 8		-17	42 24 20	-20	24 20 21   10
-24	19 6 5		-25	11 8 8		-26	21 10 18	-32	18 19 12
-33	3 3 3		-34	7 3 7		-35	19 12 8		-41	8 4 4
-42	4 2 2		-43	6 3 4		-44	4 4 6		-50	6 3 5
-51	5 1 2		-52	1 2 5		-53	4 5 7		-59	7 3 6
-60	1 1 1		-61	2 1 4		-62	3 6 3		-68	3 1 3
-69	2 2 1		-70	1 1 0		-71	1 3 0		-77	0 2 ?
-78	0 ? ?		-79	2 ? ?		-80	2 ? ?		-86	-
Les fréquences des intercalaires négatifs cds-cds. Diagrammes[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Diagrammes. Voir aussi les détails à la suite du tableau dans le tableur.
  • Légende:
    - droite exp p4 coefficient de détermination R2 de la courbe de tendance, respectivement, d'une droite, de la fonction exponentielle, du polynôme de d° 4.
    - Paramètre des courbes, -a pente b constante pour la droite; -x exposant multiplié par 1000, x' constante pour l'exponentiel; w constante du polynôme.
    - fréquence: 6 6' 6" pour les fréquences -6 modulo 3; 7 7' 7" pour -7 modulo 3; et 8 8' 8" pour -8 modulo 3. Les diagrammes sont faits avec la valeur absolue de la fréquence.
    - abscisse modulo 3, abscisse 1: abscisse des diagrammes pour modulo 3 de fréquence ci-dessus, et abscisse modulo 1 de 1 à 15 pour les fréquences jusqu'à 50 et de 1 à 25 pour les fréquences jusqu'à 80. -x1 et x'1 pour l'exponentielle en abscisse1, à comparer avec les exponentielles des génomes.
    - moyennes: pour m e m/e respectivement moyenne écart type et leur rapport des fréquences modulo 3.
    - continu 50 et discontinu 50 80, diagrammes pour les cds-cds continus jusqu'à la fréquence 50 et les cds-cds discontinus jusqu'aux fréquences 50 et 80.
  • Note: Les fréquences des continus 8 et 7 progressent rapidement par rapport aux discontinus qui s'étalent sur une plus grande plage. Aussi les diagrammes sur 80 fréquences améliorent les paramètres des courbes des discontinus. En effet les R2 des droites 6" et 8" sont nettement inférieures à ceux de leurs exponentielles avec les facteurs x1 élevés quoiqu'ils aient diminués par rapport à la série -50. Par contre pour 7" les R2 des 2 courbes sont identiques ce qui milite pour une courbe de tendance linéaire quoique le facteur -x1 et le m/e soient supérieurs à ceux des génomes en discontinu.
cds-cds. Diagrammes des fréquences des intercalaires négatifs cds-cds
R2 abscisses modulo 3 abscisses 1 moyennes
fréquence droite exp p4 -a b -x x’ w -x1 x’1 m e m/e
continu 50
6 537 190 585 0,1 4 36 4 6 107 3.5 1.2 1.66 0.72
7 735 855 971 2,6 111 72 176 245 215 132 38.6 40.2 0.96
8 608 973 987 14,8 603 100 1389 2611 301 841 175.1 253.9 0.69
discontinu 50
6’ 820 912 913 0.7 32 72 54 45 217 43 11.9 10.8 1.11
7’ 806 779 835 0.3 17 36 22 26 109 19 9.0 4.5 1.99
8’ 857 888 933 1.2 56 61 97 56 184 71 22.4 17.0 1.32
discontinu 80
6” 667 834 931 0.4 23 51 32 45 152 28 7.8 9.76 0.80
7” 806 769 887 0.2 15 38 22 21 115 19 6.2 5.04 1.22
8” 739 874 949 0.6 42 48 70 80 144 55 14.8 16.14 0.92
Les intercalaires négatifs cds-cds, recouvrements[modifier | modifier le wikicode]
  • Lien tableur: Les intercalaires négatifs cds-cds, recouvrements.
  • Légende:
    - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
    - Les opérations:
    + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
    + shift, différence entre les extrémités des 2 cds, add22-add12. Quand le shift est nul (à droite ou à gauche) il est coloré en jaune.
    + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si le shift est nul (à droite ou à gauche) le recouvrement d'un des 2 cds est total.
  • Note:
    - Donc la longueur du recouvrement ne peut pas être supérieure à l'intercalaire.
    - Tous les longs intercalaires ont un recouvrement total. Sur les 21 intercalaires de longueur supérieure à 140 pbs, 17 ont un recouvrement total dont 16 ont des intercalaires supérieurs à 212 pbs et 4 ont un recouvrement partiel avec des intercalaires inférieurs à 210 pbs. J'ai étudié plusieurs cds-cds négatifs de plus en plus courts, inférieurs à 140 pbs, que je n'ai pas représentés ici, et à part le -127 de bsu tous se sont révélés des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
    - Les continus ont de longs recouvrements allant jusqu'à 2400 et ne descendent pas en dessous de 140. 9 sur 15 génomes ont plus de 200 pbs de recouvrement.
    - Les discontinus, à l'inverse, ne dépassent pas les 500 pbs de recouvrement et 5 sur 8 sont en dessous de 100 pbs. 3 sur 8 génomes ont plus de 200 pbs.
cds-cds0. Les intercalaires cds-cds négatifs, les recouvrements.
cds-cds01. Recouvrements chez bsu
intercal add1 add2 shift couvre
intercalaire continu
-7616 387744 398495 -7475 141
390880 391020
-500 3717238 3717825 -20 480
3717326 3717805
-492 2909520 2910011 735 492
2909520 2910746
-164 1252815 1253021 52 164
1252858 1253073
-154 2466721 2467953 209 154
2467800 2468162
-143 1916663 1917097 205 143
1916955 1917302
intercalaire discontinu
-361 2601528 2603339 -64 297
2602979 2603275
-127 3666841 3667059 -43 84
3666933 3667016
-93 2652993 2653463 1410 93
2653371 2654873
cds-cds02. Recouvrements chez eco
intercal add1 add2 shift couvre
intercalaire continu
-2400 164730 167264 0 2400
164865 167264
-2130 2731600 2733729 444 2130
2731600 2734173
-1295 492092 493386 637 1295
492092 494023
-897 4577958 4578854 483 897
4577958 4579337
-729 1179520 1180359 0 729
1179631 1180359
-448 1639030 1639527 -193 255
1639080 1639334
-242 578107 578568 -59 183
578327 578509
-212 508875 511379 0 212
511168 511379
-153 16751 16903 57 153
16751 16960
intercalaire discontinu
-723 3111128 3111988 -663 60
3111266 3111325
-530 3838248 3839171 -470 60
3838642 3838701
-527 10643 11356 -41 486
10830 11315
-436 3796948 3798207 -361 75
3797772 3797846
-210 3993739 3994059 276 210
3993850 3994335
Classement des génomes par les fréquences des cds-cds négatifs discontinus[modifier | modifier le wikicode]
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs discontinus.
  • Légende:
    - couleurs,
    + Les colonnes en jaunes: rouge pour les rapports non significatifs, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes et soulignées pour les extrêmes.
    + Le classement, ordre décroissant de x6 x7 x8: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 x7.
    - clde, ordre des génomes en 9 forts et 12 faibles par rapport à x‰. Ils sont séparés par la ligne très grasse.
    - r80, total des effectifs des fréquences négatives supérieures à 80.
    - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
    - "6 "7 "8, somme des effectifs des fréquences -6 -7 -8 modulo 3 jusqu'à -80.
    - "p pour périodique, somme des 3 modulo 3, "6 "7 "8
    - "80, somme des effectifs de ("5 "6 "7 "8)
    - cds, total des intercalaires cds-cds décomptés pour un génome, gen.
    -x5, % par rapport au total ("80 + r80).
    - x6 x7 x8, pourcentage d'un modulo 3 par rapport au total "p des 3 modulo 3, "6 "7 "8.
    - x‰, pour 1000 cds-cds, somme de "80 et r80 divisée par la colonne cds
cds-cds-x. Intercalaires négatifs discontinus. Classement
clde gen r80 “6 “7 “8 “p x6 x7 x8 x‰ cds “5 x5 “80
1 pub 0 17 3 25 45 38 7 56 70.4 1307 47 51 92
2 pmg 0 16 9 30 55 29 16 55 48.9 1800 33 38 88
3 ase 17 48 55 123 226 21 24 54 42.9 8197 109 31 335
4 mja 0 19 3 8 30 63 10 27 32.4 1730 26 46 56
5 ant 0 20 5 18 43 47 12 42 26.8 3095 40 48 83
6 eco 10 15 6 18 39 38 15 46 23.4 4024 45 48 84
7 ade 9 4 17 36 57 7 30 63 22.8 4464 36 35 93
8 rru 5 6 13 22 41 15 32 54 19.5 3786 28 38 69
9 cvi 1 7 16 20 43 16 37 47 16.1 4282 25 36 68
10 scc 1 9 3 12 24 38 13 50 15.5 1805 3 11 27
11 blo 2 1 4 8 13 8 31 62 10.2 1772 3 17 16
12 bsu 4 5 7 5 17 29 41 29 8.3 4215 14 40 31
13 myr 0 5 1 5 11 45 9 45 5.6 3555 9 45 20
14 pmq 1 8 5 14 27 30 19 52 5.8 7223 14 33 41
15 mba 0 3 3 10 16 19 19 63 5.6 3943 6 27 22
16 rtb 0 0 0 3 3 0 0 100 5.0 793 1 25 4
17 abra 0 3 0 3 6 50 0 50 4.8 1667 2 25 8
18 cbn 0 5 0 4 9 56 0 44 3.6 2491 0 0 9
19 spl 0 1 1 3 5 20 20 60 2.8 4213 7 58 12
20 cbei 0 2 2 3 7 29 29 43 2.0 5622 4 36 11
21 afn 1 1 1 0 2 50 50 0 2.0 2039 1 25 3
total 51 195 154 370 719 27 21 51 17.0 72023 453 37 1172
  • Note: Le tableau est construit à partir du tableau détaillé dans le tableur ainsi que les restes des cds-cds négatifs (14.8.21).
    - Classement: Le classement est fait suivant l'ordre décroissant de x6 x7 x8. Il y a ainsi 3 catégories: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 avec x7 quelconque. Chaque catégorie est divisée en x‰ fort, faible et rouge ou incetain. Ainsi le classement indique la couleur, l'ordre, l'effectif de la sous-catégorie et la fourchette du taux de x6.
    - Les forts x‰: Le taux de négatifs discontinus x‰ dépasse pour 8/9 le taux du total, 17.0 et le 9ème fait 16.1‰; 4 taux sont les plus élevés des 21, dépassant les 30‰. Le total de cds ne les impacte pas, il y a 5 grands cds pour 4 petits (inférieurs à 3100). Le taux des fréquences 1-5 varie peu et est très élevé, entre 31 et 51%. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds.
    1. bleu ordre x6 x8, deux, 47-64:   mja 32‰   1730  ant 27‰   3095
    2. v.clair ordre x8 x6 x7, trois, 29-38:   pub 70‰   1 307   pmg 49‰   1 800   eco 23‰   4 024
    3. v.foncé ordre x8 x7 x6, quatre, 7-21:   ase 43‰   8 197   ade 23‰   4 464   rru 19‰   3 786   cvi 16‰   4 282
    - Les faibles x‰: Le taux de négatifs discontinus x‰ ne dépasse pas 7‰ pour 10/12 d'entre eux; blo fait 10‰ et seul scc égale celui du fort cvi; j'ai gardé scc parmi les faibles à cause du faible taux des fréquences 1-5. Le total de cds ne les impacte pas, il y a 6 grands cds pour 6 petits (inférieurs à 2 500). Le taux des fréquences 1-5 varie beaucoup, est impacté par le total de cds; les 6 taux 1-5 les plus petits ont un cds inférieur à 2500; tandis que 5 grands ont un cds supérieur à 3555 et rtb est ambigu du à sa faiblesse en cds. Le taux des "6 par rapport au total des "p n'est impacté ni par le total cds ni par le taux des 1-5. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
    1. v.clair ordre x8 x6 x7, trois, 30-45:   scc 15‰   1 805-11   myr 6‰   3 555-45   pmq 6‰   7 223-33
    2. v.foncé ordre x8 x7 x6, cinq, 8-29:   blo 10‰   1 772-17   mba 6‰   3 943-27   spl 3‰   4 213-58   cbei 2‰   5 622-36   bsu 8‰   4 215-40
    - Les rouges ou incertains, en x‰: Les effectifs sont très faibles d'où les ? pour zéro. Leurs cds ne dépassent pas 2500. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par l'effectif des 1-5.
    1. bleu ordre x6 x8, trois, 50-56:   afn 2‰   2 039-1   abra 5‰   1 667-2   cbn 4‰   2 491-?
    2. v.clair ordre x8 x6 x7, un ?, 0:   rtb 5‰   793-1
  • Coefficient de détermination, moyenne et corrélation des taux des périodiques par rapport au total des cds-cds. Les colonnes ‰. sont à faire d'après le tableau des discontinus, "6/cds par exemple pour x6‰., et d'après le tableau des continus pour (c7‰.), avant calcul. Ainsi le coefficient de détermination R2 est nettement à l'avantage d'une exponentielle chez les discontinus avec une différence minimale de 74 points pour (x7‰.); la fonction exponentielle est très prononcée avec une constante de l'exposant a, b*exp(-ax), proche de 0.2 et la constante b inférieure à 14.3. Les variances très élevées des taux vont dans le même sens avec des rapports moyenne/écartype, m/e, inférieurs à l'unité. Chez les continus l'avantage vers la linéarité est très prononcé en comparaison avec les discontinus: R2 linéaire supérieur à celui de l'exponentielle pour c7‰ et c5‰ avec le coefficient a 4 fois inférieur pour c7‰ (b 20 fois plus grand) et 2 fois inférieur pour c5‰ (b 100 fois plus grand); pour c8‰ et c‰ très grande ressemblance avec x8‰ et x‰ pour le R2 mais les coefficients a et b sont analogues à ceux de c7‰ et c5‰ militant plutôt pour la linéarité car plus a tend vers zéro plus l'exponentielle tend vers 1+ax [2]; enfin les très faibles variances des taux, m/e entre 1.7 et 3.9 vont dans le même sens. On retrouve ces comportements de l'exponentielle avec les fréquences des intercalaires où -x1 et x'1 correspondent à -a et b avec les mêmes abscisses que les génomes après tri (suite de 1 à 15 ou 25). Cependant le classement des continus en fonction de c‰ (voir cds-cds-cx) avait montré au moins 4 groupes dont un plateau et 2 pentes de progression élevées, une de 7 et l'autre de 37 (voir note) et apparemment cette hétérogénéité est supportée par les c5‰ (pas de classe avec un intrus) et c8‰ (une seule avec blo comme intrus) mais pas par c7‰ (les 4 classes ont au moins un intrus, dans l'ordre, cbei mja (ade eco) abra ). Enfin les fortes corrélations entre 2 colonnes de taux des discontinus et celles très faibles entre les taux des continus confirment respectivement leur parentés à la fonction exponentielle et à la fonction linéaire.
14.8.21		discontinu					continu				
		x6‰.	x7‰. 	x8‰. 	x5‰. 	x‰. 		c7‰. 	c8‰. 	c5‰. 	c‰. 
moyenne		32.4	18.2	52.8	69.5	178.3		84.2	427.9	859.9	1398.9
écart		37.6	18.2	53.8	86.6	181.3		22.4	248.2	422.8	592.4
m/e		0.9	1.0	1.0	0.8	1.0		3,9	1,7	2,0	2,4
R2 progrès											
droite		687	753	850	758	783		978	793	967	888
exponentiel	969	980	956	961	986		975	941	957	967
a		0.195	0.183	0.165	0.212	0.171		0.043	0.081	0.089	0.065
b		1.98	1.44	5.37	3.75	16.4		50	153	283	629
corrélation, pour coefficient de détermination de 2 colonnes.											
5-6	5-7	5-8	6-7	6-8	7-8			5-7	5-8	7-8	
788	244	728	154	569	555			37	176	177	
Classement des génomes par les fréquences des cds-cds négatifs continus[modifier | modifier le wikicode]
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs continus.
  • Légende: voir le tableau des détails dans le tableur ainsi que les restes des cds-cds négatifs.
    1. Les continus
    - couleurs des continus, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, gras pour très faibles et soulignées pour les extrêmes.
    1. - c5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs continus.
      - c‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - cont, total des continus négatifs
      - r50, reste des continus après la fréquence -50.
      - "6 "7 "8, somme des effectifs continus des fréquences -6 -7 -8 modulo 3 jusqu'à -50.
      - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
      - "p, somme de "6 "7 "8
      - c7 en % somme des effectifs continus de la fréquence -7 modulo3 jusqu'à -50, sur la somme des mêmes sommes -6 -7 -8 modulo 3.
      - c1/c4, en %, rapport de la fréquence -1 sur la fréquence -4 des négatifs continus, tiré du tableau comparaison continu-discontinu
    2. Les discontinus voir leur chapitre
      - c‰ c5‰ c7‰ c8‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - x5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs discontinus.
      - x‰, pour 1000 cds-cds, total des intercalaires négatifs discontinus divisé par cds (total des cds-cds). Pour x5 et x‰ les couleurs sont celles des continus avec le rouge pour les effectifs peu significatifs.
      - x6 en %, somme des effectifs des discontinus de la fréquence -6 modulo 3 jusqu'à -80, sur la somme des mêmes sommes -6 -7 -8 modulo 3. Les couleurs des 3 classes de discontinus basés sur x6, sont dans l'ordre décroissant, bleu (x6 x8 x7), vert clair (x8 x6 x7) et vert foncé (x8 x7 x6).
cds-cds. Intercalaires négatifs. Classements
cds-cds-c. Intercalaires négatifs continus. Classement
gen r50 cont “6 “7 “8 “p c8 c7 “5 c5 c‰ cds
cbn 0 167 23 82 105 78 21.9 62 37 67 2 491
cbei 4 389 32 200 232 86 13.8 153 39 69 5 622
mba 6 307 7 34 108 149 77 22.8 152 50 78 3 943
myr 0 282 22 127 149 85 14.8 133 47 79 3 555
pmg 2 158 10 41 51 80 19.6 105 66 88 1 800
mja 6 163 17 62 79 79 21.5 78 48 94 1 730
spl 5 414 30 117 147 80 20.4 262 63 98 4 213
pmq 16 753 1 44 226 271 84 16.2 466 62 104 7 223
blo 2 210 1 10 36 47 79 21.3 161 77 119 1 772
rtb 0 98 9 46 55 84 16.4 43 44 124 793
bsu 17 573 42 209 251 83 16.7 305 53 136 4 215
afn 9 303 2 20 105 127 84 15.7 167 55 149 2 039
ase 28 1300 3 70 145 218 68 32.1 1054 81 158.6 8 197
ade 9 713 25 72 97 74 25.8 607 85 159.7 4 464
eco 22 644 47 152 199 76 23.6 423 66 160.0 4 024
cvi 4 687 38 152 190 80 20.0 493 72 160.4 4 282
rru 11 609 26 97 123 79 21.1 475 78 160.9 3 786
scc 6 319 1 22 95 118 81 18.6 195 61 177 1 805
ant 6 679 1 33 252 286 89 11.5 387 57 219 3 095
abra 13 409 11 174 185 94 5.9 211 52 245 1 667
pub 3 381 2 14 129 145 90 9.7 233 61 292 1 307
total 169 9558 18 579 2627 3224 82 18.0 6165 64 134 72 023
cds-cds-cx. Intercalaires négatifs. Classement
gen c5‰ c7‰ c8‰ c‰ c1/c4 cds x6 x5 x‰
cbn 25 9.2 33 67 121 2 491 56 0 3.6
cbei 27 5.7 36 69 87 5 622 29 36 2.0
mba 39 8.6 27 78 28 3555 19 27 5.6
myr 37 6.2 36 79 118 3943 45 45 5.6
pmg 58 5.6 23 88 52 1 800 29 38 48.9
mja 45 9.8 36 94 49 1 730 63 46 32.4
spl 62 7.1 28 98 93 4213 20 58 2.8
pmq 65 6.1 31 104 21 7 223 30 33 5.8
blo 91 5.6 20 119 48 1 772 8 17 10.2
rtb 54 11.3 58 124 30 793 0 25 5.0
bsu 72 10.0 50 136 31 4215 29 40 8.3
afn 82 9.8 51 149 29 2 039 50 25 2.0
ase 129 8.5 18 158.6 19 8 197 21 31 42.9
ade 136 5.6 16 159.7 13 4464 7 35 22.8
eco 105 11.7 38 160.0 63 4024 38 48 23.4
cvi 115 8.9 35 160.4 31 3786 16 36 16.1
rru 125 6.9 26 160.9 21 4282 15 38 19.5
scc 108 12.2 53 177 25 1 805 38 11 15.5
ant 125 10.7 81 219 74 3095 47 48 26.8
abra 127 6.6 104 245 48 1 667 50 25 4.8
pub 178 10.7 99 292 190 1 307 38 51 70.4
total 86 8.0 36 134 37 72023 27 37 17.0
  • Note: voir la note des discontinus seuls. Ici les couleurs ont été harmonisées pour le tri et pour comparer rapidement 2 génomes: jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, en gras pour très faibles et soulignées pour les extrêmes.
    - Les négatifs continus se distinguent des discontinus par 3 points essentiels:
    1. Le taux des intercalaires, voir le petit tableau en bas de cette note.
      - c‰: La courbe de détermination des négatifs continus triés est une droite à forte pente de 9. Elle a un palier à pente nul de 5 génomes avec un taux de 160 ‰. Ce palier sépare une queue de 12 génomes avec une droite de pente 7 (R2 99), d'une tête de 4 génomes de pente 37 (R2 97). Les cds ne semblent pas impacter ce taux, la queue a 6 faibles cds contre 6 forts, le palier est un palier aussi pour 4 cds moyens et le 5ème fort extrême, la tête de la courbe a un cds moyen pour 3 faibles. Les c5 impactent différemment les 3 parties, les 4 1ers c‰ de la queue semblent être corrélés positivement aux c5 alors que la tête est corrélée négativement, le palier est aussi un palier c5 et les 8 génomes restant ne semblent pas être corrélés entre eux.
      - x‰: La courbe de détermination des négatifs discontinus triés est une exponentielle nette et régulière. J'ai détaillé ses fréquences dans le chapitre précédent. La fonction exponentielle dénote la difficulté physique d’établir la discontinuité entre 2 cds, on passe d'un état vibratoire à l'autre en les chevauchant. Les intercalaires négatifs continus répondent, eux, à une logique fonctionnelle, le chevauchement ne peut pas être à l'identique (0 modulo 3) sinon on tombe dans les domaines protéiques communs à plusieurs gènes et qui ont un rôle fonctionnel; le chevauchement doit être décalé (-1 -2 modulo 3) et c'est pour cela qu'on n'a que rarement des -6 modulo 3 ("6).
    2. Les intercalaires de -1 à -5: voir le petit tableau en bas de cette note et les fréquences périodiques. Ces intercalaires ont une moyenne de 60% et 33% par rapport au total respectivement des continus et des discontinus négatifs, avec des écarts identiques faibles. Ceci s'explique par la difficulté des discontinus à s'ancrer avec une seule paire de bases, ils n'ont aucun intercalaire de ce genre, alors qu'il y en a 17% chez les continus (le rapport c1/c4 ne concerne donc que les continus et varie beaucoup d'un génome à l'autre). Par contre les discontinus ont un taux de fréquence -2 équivalent à celui de -8 comme s'ils initialisaient cette périodicité, alors que les continus malgré qu'ils soient 10 fois plus nombreux n'en présentent que 4 et pour le seul génome bsu.
    3. Les intercalaires périodiques - 6 -7 -8 modulo 3
      - "6 continu (voir le tableur): cas de mba avec 7 occurrences 1 pour 9 27 et 5 pour 18. Au total les continus ont 26 occurrences jusqu'à -50 et 5 sur les 179 restants avec eco (66 75) ase (51 57) et mba (51) pour les occurrences inférieures à 140. Pour les discontinus, les 6 modulo 3 apparaissent régulièrement, ainsi pour ase il y a 7 au-delà de -80 jusqu'à une occurrence de -120 soit 40 aas! De même pour eco 2 occurrences après -80, 102 129 avant les plus grands; de même bsu a une occurrence à 93, mais ade qui a 9 au-delà de -80 n'en a pas. Jusqu'à -50 il y a 171 discontinus et 13 de -51 à -80.
      - Les rapports entre les périodiques "6 "7 "8: Chez les continus ils sont complémentaires puisque "6 est quasi nul (26 contre 171 chez les discontinus). Ils sont très homogènes (m/e de 3.2 et 14 respectivement et un R2 de 91) avec une pente de progression de 0.89 contre 2.15 et 2.70 pour les discontinus. Ces pentes fortes et leur faible homogénéité (m/e 1.7 1.4 2.6 pour "6 "7 "8 respectivement et un R2 des "8 de 79) rapprochent les discontinus des courbes exponentielles en pourcentage du total.
      - Les pourcentages par rapport au total des cds: Dans cette comparaison on retrouve l'homogénéité des continus avec un m/e entre 1.7 et 3.9 et l'hétérogénéité des discontinus avec un m/e inférieur à 1.0. Par contre les courbes de tendance de progression des discontinus sont nettement exponentielles (R2 de la droite très inférieur à celui de l'exponentielle sauf pour x7‰) alors que celles des continus sont nettement linéaires (R2 de la droite supérieur ou presque égale à celui de l'exponentielle). Cette tendance à l'exponentielle explique la corrélation forte, comparaison entre 2 à 2 colonnes, chez les discontinus (80 76 58 54 27 15) et très faible chez les continus (5 15 18) où la corrélation entre ces derniers est réduite à leurs différences de pente. Il ne faut confondre l'exponentielle des fréquences qui est fonction de la longueur des recouvrements valable pour les continus et les discontinus, des tendances des génomes qui reflètent chez les continus la facilité à établir le recouvrement et sa difficulté chez les discontinus.
    - Le classement des continus voir en bas du chapitre: Les classes sont ordonnées sur le taux par rapport au total c‰. Il est suivi de /pas pour l'écart entre 2 taux successifs, ça correspond à la pente que j'ai signalé au paragraphe ci-dessus c‰. On remarque le palier de 5 génomes avec un /pas de 1. Il y a ainsi 5 classes dont 4 sont quasiment des paliers et la dernière avec une pente très forte. Les colonnes c5 et c7 présentent une plage avec éventuellement une exception après la virgule. Cette exception ne s'écarte réellement de l'homogénéité que dans 2 cas sur 5 pour c5 dans les classes 3 (43-55,76) et 5 (6-12,18). Cette écart est du à l'hétérogénéité du c1/c4. La colonne cds montre clairement que les cds n'impactent pas l'homogénéité d'une classe tant l'écart dans une classe est très grand. Le classement des 21 génomes en continu et discontinu (2ème tableau) montre la différence entre les 2 types de négatifs: dans chaque classe de continus il y a au moins 2 classes de discontinus sur les 3, v.clair v.foncé et bleu. Le palier de 5 en continus a 4 v.foncés et 1 v.clair, ce qui confirme sa grande homogénéité en plus de ses 4 cds.
    - Les caractéristiques communes aux continu-discontinu: Voir le récapitulatif en fin de chapitre.
    + Ces 2 types d'intercalaires ont en commun la périodicité modulo 3 des occurrences -6 -7 -8, les occurrences uniques -3 -4 -5 et les taux de ces occurrences cumulées pour -8 (respectivement continu discontinu 28 32 %), pour -4 (respectivement continu discontinu 47 34 %) et enfin -3 et -5 qui sont quasiment nulles.
    + Ils diffèrent par les taux des occurrences cumulées des -6 d'un facteur 50 (respectivement continu discontinu 0.3 17 %), des occurrences cumulées -7 d'un facteur 2 (respectivement continu discontinu 6.8 13 %), des occurrences -1 (respectivement continu discontinu 17 0 %) et des occurrences -2 (respectivement continu discontinu 0 3.5 %) et enfin ils diffèrent par les totaux des effectifs d'un facteur 10 (respectivement continu discontinu 9644 1144).
    + Une caractéristique commune entre les 2 types d'intercalaires apparaît après une analyse approfondie de la corrélation entre -7 et -8: Le taux moyen en % des continus, c7, ("7)/("7+"8) et celui des discontinus, x7, ("7)/("6+"7+"8) sont équivalents 18.6% contre 19.2%. Certes les c7 sont plus beaucoup plus homogènes (m/e de 3.2) que les x7 (m/e de 1.4) mais ceci est du au fait que les taux individuels en (‰.) par rapport au total des cds des c7 ont une progression linéaire alors que les x7 ont une progression exponentielle. Et la corrélation entre les taux individuels x7-x8 est forte avec un coefficient de détermination de 0.54. C'est comme si, quelque soit la longueur de l'intercalaire, le taux "7/"8 était toujours le même. Ce rapport commun aux 2 types d'intercalaires renforce l'idée que la périodicité commune aux deux est un processus lié aux propriétés physiques de l'ADN et non aux fonctionnalités des 2 cds. Les corrélations fortes chez les discontinus, 5-6 (0.80) 5-8 (0.76) 6-8 (0.58) vont aussi dans ce sens grâce aux coefficients de détermination de leurs courbes exponentielles de progression listés dans le même tableau. Chez les continus les corrélations sont très faibles parce que leurs moyennes sont très homogènes ou autrement dit leurs taux sont presque constants. Ce qui va toujours dans le même sens de la propriété physique de l'ADN pour 2 processus différents, un linéaire pour les continus et l'autre exponentiel pour les discontinus.
  • Les taux entre périodiques: Les calculs sont faits à partir du tableau des continus. Comme c7 et c8 sont complémentaires ils ont même ecartype, même pente et même R2. Avec une moyenne de 81.5 (100-18.5) c8 obtient donc un m/e de 14.
14.8.21	c5	c7	c‰	x5	x6	x7	x8	x‰ 
moyenne	59,7	18,6	140,9	34,0	30,8	19,6	49,6	17,8
ecart	13,4	5,9	59,5	14,0	17,2	13,9	18,5	18,1
m/e	4,4	3,2	2,4	2,4	1,8	1,4	2,7	1,0
a	2,16	0,88	9	2,17	2,74	2,19	2,55	x0,17
b	35,9	8,82	40,91	10,17	0,62	-4,47	21,46	1,64
r2	98	91	89	92	98	96	74	99
			pal 5	pal 5				expo
  • Les classes des continus,14.8.21
classe				c‰ /pas			c5		c7		cds
					
cbn cbei mba myr:  		67-79 /3		37-50		14-23		2 491 - 5 622
					
pmg mja spl pmq:		88-104 /4		62-66,48	16-21		1 730 - 7 223
					
blo rtb bsu afn: 		119-149 /7		44-55,77	16-21		 793 - 4 215
					
eco ade rru cvi ase:		159-161 /1		72-85,66	20-26,32	3 786 - 8 197
					
scc ant abra pub: 		177-292 /29		52-61		6-12,19		1 307 - 3 095
  • Récapitulatif continus discontinus du 14.8.21: Les compilations sont tirées des -50 des continus, des -80 des discontinus et les occurrences négatives supérieures à 130 dans les restes. Période: "6 "7 "8 pour les -6 -7 -8 modulo 3; 1,2 pour -1 -2; 4 pour -4; et 3,5 pour -3 et -5; reste pour les occurrences négatives supérieures à 130.
période	cont	%	discont	%
6	20	0.21	209	17.09
7	644	6.74	166	13.57
8	2714	28.4	389	31.8
reste	15	0.16	6	0.49
1	1671	17.5	0	0
2	4	0.04	40	3.27
3,5	14	0.15	3	0.25
4	4476	46.8	410	33.5
total	9558	100	1223	100
Les fréquences des intercalaires positifs cds-cds[modifier | modifier le wikicode]
Les fréquences des intercalaires positifs cds-cds. Diagrammes 400[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Diagrammes 400.
  • Légende:
    - gen: pour génome. Le 1er tableau cds-cds.1 pointe sur le génome au chapitre "gen intercalaires positifs S+". Le lien au tableur de ce dernier se trouvent les effectifs, dont eff de ces diagrammes 400 représente le total de la fréquence 1 à 400 (cds-cds.1 et 2), de 31 à 400 (cds-cds.3 et 4) et de n1 à 400 (cds-cds.5 et 6). Dans les tableaux cds-cds.5 et 6 le n1 est en relation avec la colonne +40: pour x2 cela correspond à n1=51 soit diagramme de 51 à 400, pour x3 à 61, pour x4 à 71. Le préfixe x dans x3 correspond aux diagrammes des discontinus et le préfixe c dans c3 aux continus.
    - Pour les autres symboles, sauf m50x m50c f3°, et la construction des courbes voir la légende de cvi.
    - m50x: Les polynômes Sx+ présentent soit un maximum soit un minimum à l'abscisse 50 (ou bien les proches 40 60). Dans certains cas il n'y en a pas et je l'ai signalé par sans p. Pour scc le voisinage de l'abscisse 50 est en dents de scie, je l'ai représenté par scie.
    - m50c: comme m50x mais ce sont tous des minima.
    - f3°: c'est la forme de la courbe du polynôme. Quand le coefficient de la variable x3 est négatif (colonne -7) la courbe a la forme d'un S majuscule, d'abord concave ensuite convexe, ces coefficients sont en gras sauf pour le tableau cds-cds2 où ils sont tous négatifs. Quand ce coefficient est positif la forme est un tilde (t), convexe puis concave. Certaines formes sont suivies d'un signe moins pour signaler que l'abscisse du point d'inflexion est négatif ou très proche de zéro (cbei myr dans le tableau cds-cds4).
    - f3°, les couleurs:
    + entre cds-cds1 et 3 certaines formes sont maintenues et les autres changent. Les tildes t maintenus sont en jaune et les S en gras aussi.
    + dans cds-cds4 j'ai coloré en rouge les tildes très proches d'une droite (R2' faible en cyan), en bleu les tildes francs (R2' élevé) avec une bonne courbure (rtb bsu abra) et en vert les courbes avec un point d'inflexion négatif. Il ne reste que 7 formes S franches avec un R2' élevé.
cds-cds. Intercalaires positifs. Diagrammes 400, Polynomes de d°3.
cds-cds.1 Intercalaires positifs discontinus, Sx+ de 1 à 400.
gen m50x -7 -5 R2 flex x+ R2’ eff f3°
rru min 50 -13 90 818 231 20 874 S
rtb sans p 45 -332 496 246 191 118 t
pub max 40 -57 490 856 287 248 219 S
cvi min 40 29 -174 611 200 30 1008 t
ade min 50 -20 145 782 242 39 1229 S
ant min 50 -25 209 680 279 70 601 S
eco max 50 21 -146 537 232 42 1008 t
spl min 50 47 -333 611 236 336 1071 t
bsu max 40 -6.4 69 458 359 18 1028 S
pmq sans p 31 -282 878 303 813 1613 t
cbn max 50 16 -109 454 227 27 489 t
cbei sans p 32 -258 712 269 708 946 t
afn max 40 29 -227 486 261 183 328 t
ase min 40 19 -108 872 189 25 2398 t
blo sans p 33 -233 728 235 138 448 t
mja min 50 -16 150 660 313 78 406 S
mba sans p 4.9 -71 350 483 348 705 t
myr max 50 33 -213 708 215 68 828 t
pmg min 40 -67 515 607 256 79 559 S
abra max 50 53 -314 734 197 96 256 t
scc scie 30 -200 690 222 71 416 t
cds-cds.2 Intercalaires positifs continus, Sc+ de 1 à 400.
gen m50c -7 -5 R2 flex c+ R2’ eff f3°
rru 50 -34 275 878 270 139 2056 S
rtb 50 -36 279 569 258 82 402 S
pub 50 -235 1726 559 245 337 538 S
cvi 50 -44 372 852 282 203 2320 S
ade 50 -61 489 843 267 232 2242 S
ant 40 -135 1021 664 252 306 1616 S
eco 50 -68 522 824 256 258 2450 S
spl 50 -47 363 806 257 192 2215 S
bsu 50 -41 352 791 286 169 2441 S
pmq 70 -29 228 946 262 139 4170 S
cbn 50 -50 394 855 263 203 1701 S
cbei 50 -46 338 779 245 213 3399 S
afn 50 -95 713 721 250 197 1322 S
ase 50 -43 352 910 273 216 3558 S
blo 40 -5.7 69 868 404 41 993 S
mja 50 -94 719 856 255 319 1047 S
mba 50 -50 359 823 239 287 1651 S
myr 50 -94 717 742 254 290 2081 S
pmg 60 -107 844 869 263 368 895 S
abra 60 -99 750 702 253 277 934 S
scc 60 -86 660 830 256 331 961 S
cds-cds.3 Intercalaires positifs discontinus, Sx+ de 31 à 400.
gen +40 -7 -5 R2 flex x+ R2’ eff f3°
rru 12 -97 833 269 36 726 t
rtb 33 -261 621 264 281 112 t
pub -49 439 924 299 258 150 S
cvi x4 19 -98 663 172 24 895 t
ade x2 32 -228 874 238 67 958 t
ant 60 -400 785 222 112 432 t
eco x3 -20 154 742 257 36 943 S
spl x3 29 -198 633 228 49 1031 t
bsu x2 -69 518 554 250 121 884 S
pmq 53 -442 932 278 707 1561 t
cbn -36 262 705 243 76 457 S
cbei 40 -316 658 263 529 921 t
afn -0.3 -15 541 -1667 12 313 S-
ase x2 22 -129 881 195 32 2072 t
blo 36 -250 753 231 66 408 t
mja 47 -300 711 213 88 309 t
mba 4.7 -70 265 496 241 673 t
myr x3-c3 -11 101 882 306 42 769 S
pmg 23 -124 774 180 48 377 t
abra 0.7 65 852 -3095 102 232 t-
scc 34 -233 723 228 53 367 t
cds-cds.4 Intercalaires positifs continus, Sc+ de 31 à 400.
gen +40 -7 -5 R2 flex c+ R2’ eff f3°
rru 13 -61 957 156 41 1509 t
rtb 70 -478 788 228 190 284 t
pub -47 399 947 283 363 201 S
cvi 5.3 22 915 -138 107 1621 t-
ade 2.5 38 957 -507 103 1490 t-
ant c3 4.8 28 888 -194 142 833 t-
eco 1.8 22 948 -407 67 1650 t-
spl 10.3 -50 915 162 30 1618 t
bsu 22 -108 942 164 80 1627 t
pmq -13 111 937 285 51 3264 S
cbn 8.8 -32 932 121 41 1171 t
cbei -13 15 935 38 8 2571 S-
afn 9.5 -42 904 147 45 790 t
ase -18 182 976 337 149 2619 S
blo 28 -174 897 207 36 786 t
mja -6.2 87 964 468 105 623 S
mba -17 123 783 241 67 1297 S
myr x3-c3 7.8 -12 897 51 86 1265 t-
pmg -35 327 973 311 286 510 S
abra 21 -104 912 165 85 548 t
scc -17 162 949 318 162 622 S
cds-cds.5 Intercalaires positifs discontinus, Sx+ de n1 à 400.
gen +40 -7 -5 R2 flex x+ R2’ eff f3°
eco x3 36 -275 815 255 84 751 t
spl x3 -26 216 860 277 77 947 S
bsu x2 48 -359 861 249 167 645 t
ase x2 -9 106 972 393 67 1908 S
cvi x4 -9 101 838 374 37 672 S
ade x2 9 -53 946 196 7 903 t
ant c3 39 -239 802 204 55 382 t
myr x3-c3 -30 247 878 274 67 634 S
cds-cds.6 Intercalaires positifs continus, Sc+ de n1 à 400.
gen +40 -7 -5 R2 flex c+ R2’ eff f3°
eco x3 -12 127 963 353 98 1339 S
spl x3 -5 70 924 467 58 1377 S
bsu x2 12 -29 955 81 103 1422 t-
ase x2 -24 224 975 311 158 2215 S
cvi x4 -22 231 953 350 181 1145 S
ade x2 -10 133 969 443 135 1273 S
ant c3 -39 359 971 307 277 644 S
myr x3-c3 -25 240 960 320 183 1044 S
Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40.
  • Diagrammes:   propro1bacbac1pr-bc1totalLes données.
  • Légende:
    - ase: mini3, tous les modulos 3 de 6 à 33 sont des minina locaux.
    - pub: Sa courbe de tendance est comme celle du diagramme Sc+ 400, un polynôme de d° 3 avec un R2 de 899 et un coefficient de la variable x3 de -0.0039 donc de forme S.
    - Les polynômes de d° 15: sont propres aux fc40 et présentent un creux brutal à l'abscisse 7 environ, min1 et de coordonnée min, suivi d'un sommet élevé d'abscisse max1 et de coordonnée max. La pente entre ces 2 points varie peu d'un génome à l'autre avec une moyenne de 7.8 et un écart de 2.4 (m/e=3.2). Sont écartés de cette moyenne blo rtb et pub. Le génome ant présente un max très élevé, ramené à l'abscisse 10 au lieu de 9 son ordonnée baisse à 48 au lieu de 88 pour l'abscisse 9 et la pente devient moyenne comme pour les autres génomes à 11.3. L'autre versant du creux est aussi abrupt de pente pente0, avec un sommet élevé d'abscisse mx1 et de coordonnée mx.
    - type: c'est le type de courbe de tendance, pro ou pr pour proteobacteria, bac ou bc pour les bacilli et les clostridia.
    - R2: coefficient de détermination de la courbe de tendance.
cds-cds.2 Intercalaires cds-cds positifs continus. Diagrammes 40
Sc+ 40 Diagrammes polynôme de d° 15 Pourcentage des tranches de 7 fréquences Effectif des tranches de 7 fréquences
gen R2 min1 max1 min max pente mx1 mx pente0 diagr type gen 1-7 8-14 15-21 22-28 29-35 1-7 8-14 15-21 22-28 29-35 total
rtb 721 5 8 2 7 1.7 4 13 -10.7 131 pr1 rtb 39 27 18 10 6 48 33 22 13 8 124
pub 981 6 8 13 13 0 2 58 -11.0 367 pr2 pub 63 17 8 6 6 223 61 27 21 20 352
rru 882 7 11 11 34 5.8 4 43 -11.3 630 pro1 rru 32 28 13 15 11 191 167 78 86 66 588
cvi 897 6 10 13 50 9.3 1 58 -9.0 815 pro cvi 30 30 17 11 11 230 232 133 80 86 761
ade 929 5 9 19 51 8.0 2 63 -14.7 876 pro ade 30 32 15 12 11 247 267 122 95 93 824
ant 923 7 9 14 88 37.0 1 109 -15.8 836 pro ant 37 39 14 5 6 297 316 112 40 45 810
eco 894 5 9 13 61 12.0 2 54 -13.7 902 pro eco 27 35 17 12 8 232 295 146 103 71 847
spl 881 6 10 13 33 5.0 2 53 -10.0 683 pro1 spl 30 31 15 13 11 193 202 94 86 73 648
bsu 897 8 12 7 53 11.5 1 41 -4.9 935 bac bsu 22 25 28 15 11 189 220 245 128 96 878
pmq 758 9 14 10 45 7.0 1 52 -5.3 1155 bac1 pmq 25 19 22 18 17 255 192 224 181 177 1029
cbn 891 8 12 9 32 5.8 1 37 -4.0 620 bac1 cbn 23 24 23 18 12 134 136 133 101 67 571
cbei 873 7 12 8 51 8.6 1 55 -7.8 954 bac cbei 22 27 25 15 11 194 242 220 138 101 895
afn 829 7 12 5 46 8.2 1 38 -5.5 580 bac afn 25 30 26 13 7 138 167 143 71 37 556
ase 827 6 10 28 67 9.8 1 60 -6.4 1165 bac-a ase 29 28 15 12 16 307 298 158 131 166 1060
blo 636 7 10 4 11 2.3 2 15 -2.2 241 bc1 blo 28 23 22 17 10 62 52 50 37 23 224
mja 670 6 9 4 32 9.3 4 32 -14.0 474 pro-a mja 23 31 22 13 10 104 143 102 61 45 455
mba 732 7 10 4 19 5.0 2 31 -5.4 428 bac1-a mba 32 22 20 13 12 124 87 79 50 48 388
myr 922 7 12 23 46 4.6 2 78 -11.0 899 pro1-a myr 42 25 16 11 7 355 213 133 93 61 855
pmg 776 7 9 10 27 8.5 2 27 -3.4 449 bac-b pmg 35 25 16 12 11 146 105 65 50 46 412
abra 895 7 12 4 33 5.8 1 58 -9.0 420 pro1 abra 41 30 14 10 6 165 119 56 39 24 403
scc 855 6 9 4 20 5.3 1 31 -5.4 389 bac1-b scc 31 30 18 13 8 113 110 66 46 29 364
Les fréquences des intercalaires cds-cds positifs discontinus. Diagrammes 40[modifier | modifier le wikicode]
Poly 3	-	-4	-4	-	-
fx40	R2	x3	x2	flex	f3°
rru	253	3	-289	32	t
cvi	499	3	-108	12	t
ade	443	4	-337	28	t
ant	574	-2	167	28	S
eco	646	202	-7426	18	Cc
bsu	789	7	-231	11	S
ase	315	71	-5211	37	Cc
mja	467	-4	313	26	S
pmg	831	-10	808	27	S
cds-cds.1 Intercalaires cds-cds positifs discontinus, Diagrammes 40
gen poly3 mod3 tot diagr note
rru 253 5 12 175
rtb 8
pub 88
cvi 499 8 11 130
ade 443 8 11 304
ant 574 1 9 186
eco 647 6 11 129 parabole
spl 69
bsu 789 5 9 302 croit
pmq 68
cbn 56
cbei 35
afn 36
ase 315 10 17 389 P15 611
blo 54
mja 467 4 12 113
mba 51
myr 97
pmg 831 5 7 196 décroit
abra 41
scc 60

Les intercalaires tRNA-cds synthèse[modifier | modifier le wikicode]

  1. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir cheminement de ma réflexion dans la genèse des gènes de tRNA et la référence à E.Coli dans Notes.
  2. Une autre idée c'est que les cds-rRna-cds sont orientés, est-ce que c'est le cas des cds-tRNA-cds aussi? Il ne faut pas oublié que les tRNAs s'auto apparient ce qui crée des contraintes lors de la gestion de l'ADN: réplication transcription réparation recombinaison et insertion des éléments mobiles contenant des tRNAs.
Les intercalaires tRNA-cds, dans les cumuls des génomes[modifier | modifier le wikicode]
- Exemple de vha
- Quand j'ai commencé à étudier les tRNAs (voir le cheminement ci-dessus) je listais séquentiellement juste les blocs de tRNAs avec ou sans rRNA, sans les cds bordant ces blocs.
- Les caractéristiques des blocs à rRNAs m'ont poussé augmenter de plus en plus le nombre de génomes à étudier et du coup j'ai commencé à trouver des cds à l'intérieur de ces blocs. Mais souvent c'était de petites protéines hypothétiques. Le lien avec l'opéron d'E.coli associant une protéine et un tRNA devenait évident. La 1ère question qui s'est imposée à moi, alors, est: est-ce que les gènes protéiques ne seraient pas créées dans ces blocs lors des remaniements chromosomiques? De nombreux remaniements des blocs à rRNAs me sont apparus quand j'ai trouvé 2 génomes très proches dont l'un des 2 présente de nombreux blocs identiques avec l'autre, mais cassés et souvent les séquences de tRNAs sont conservées. Ceci me confortait dans mon hypothèse de genèse. Et les tRNAs peuvent, aussi, intervenir dans ce processus puisqu'ils peuvent créer des contraintes comme les rRNAs puisqu'ils peuvent s'auto apparier. Aussi j'ai commencé à border mes blocs de tRNAs, avec ou sans rRNAs avec 2 cds.
- Du coup, étant donné que les blocs à rRNA sont orientés dans le sens 16s-23s-5s, qu'ils soient en direct ou en complément, j'ai pu constater rapidement que les intercalaires cds-16s étaient quasiment, tout le temps, plus grands que les intercalaires avec le cds dans 5s-aas-cds, où aas désigne l'absence ou la présence d'un ou plusieurs gènes de tRNAs.
- Comme les blocs à tRNAs, seuls, présentaient aussi cette dissymétrie des intercalaires avec les 2 cds, les bordant, se posait aussi la question de leur orientation. Mais on ne peut pas décider de cette orientation puisqu'il n'y a pas de repère interne au bloc comme pour les blocs avec les 3 rRNAs.
- Au début j'ai commencé à faire la moyenne de ces intercalaires et à établir leurs fréquences pour chaque génome. Puis j'ai fait de même avec les petits intercalaires en supposant que l'orientation allait du grand au petit comme pour les blocs à rRNAs. C'est ainsi que j'ai créé la colonne cds pour les 2 intercalaires confondus et la colonne cdsd des petits seulement, pour cds dirigé. A l'époque je ne prenais pas en compte les négatifs, ne distinguais pas les continus des discontinus et les tRNA-cds des rRNA-cds. Voici l'exemple de vha.
- Quand j'ai voulu synthétiser les résultats de ces intercalaires avec les moyennes je trouvais de grandes variations entre les génomes (voir ici le récapitulatif des 51 génomes). Ces intercalaires semblaient dépendre des génomes, donc de leurs processus de gestion de l'ADN, et du coup l'orientation que je supposait n'avait plus de sens. Il fallait à tout prix comparer ces intercalaires à tout autre intercalaire et notamment les plus nombreux, les intercalaires cds-cds.
Les intercalaires tRNA-cds, récapitulatif[modifier | modifier le wikicode]
Les méthodes de prélèvement dans NCBI[modifier | modifier le wikicode]

Le lien du texte NCBI avec sa date est indiqué dans chaque "génome.fréquences". J'applique la méthode sur ce texte pour ne laisser qu'une ligne par gène, ce qui correspond à l'étape 8 de cette méthode. J'ai sauvegardé ces textes épurés dans les annexes Artb génomes (rtb pub abra mja pmg blo scc afn), Acbn génomes (cbn ant myr rru mba), Aspl génomes (spl cvi bsu ade eco), Apmq génomes (pmq cbei ase).

  1. - méthode initiale: méthode sans tenir des compléménts. Ce sont les 1ers tableaux,
  2. - méthode des discontinus, méthode avec les compléments. Elle est utilisée dans tous les autres tableaux ainsi que pour la comparaison cds-cds / tRNA-cds.
  3. - méthode pour tout intercalaire: autres, cds-cds et tRNAs-cds (+ - c x). Le tableau de la méthode. Les tableaux contenant les autres intercalaires (ac ax):
Les intercalaires cds-cds[modifier | modifier le wikicode]
Classement des génomes, périodicité et recouvrement chez les négatifs.
  1. - Les fréquences par génome: intercalaires positifs et négatifs, continu-discontinu confondus
    • Exemple rtb après traitement par la méthode initiale, jusqu'à l'étape 24. Ce tableau "genome les fréquences" contient
      + La date du NCBi se trouve à la fin de la légende,
      + Sous tableau des plages des intercalaires (leurs historiques sont dans la légende 2 du tableau des fréquences) avec leurs effectifs, pourcentages, moyennes et variances. Ce sous-tableau contient aussi la taille du chromosome en pbs (ADN) et le total et pourcentage des intercalaires cds-cds positifs, indiquant les espaces inutilisés.
      + 3 colonnes de fréquences avec leurs 3 colonnes des effectifs par fréquence. Ces fréquences m'ont permis d'apprécier leurs courbes et notamment j'ai repéré la tranche de fréquences 26-370 (fréquence5) qui caractérise par une droite le génome et non par une courbe puissance. En utilisant le tableur on peut reproduire la droite et les puissances jusqu'à la fréquence 600 (fréquence6) ou 1200 (fréquencez) suivant l'importance du génome. Une colonne de pourcentage est accolée à frequence6 qui reprend ceux du sous-tableau, et j'y ait ajouté le pourcentage des intercalaires de 1 à 100 qui est utilisé pour le classement des génomes qui suivent.
      + 2 colonnes des fréquences unité avec leurs 2 colonnes des effectifs. Fréquence-1 m'a permis de repérer la périodicité ternaire des négatifs et la fréquence1 dont j'ai cherché la périodicité mais paraît plutôt apériodique, elle me servira plus tard pour comparer ces effectifs à ceux des tRNA-cds positifs dans la même gamme.
      + 2 colonnes d'adresses avec leurs intercalaires, pour les extrêmes des positifs et des négatifs. Les négatifs comportent une colonne de discontinuité (comp). Ils m'ont permis d'aborder les recouvrements de 2 cds étudiés plus en détail dans le chapitre suivant des discontinuités. Pour compléter toutes les adresses j'ai ajouté une colonne, fréquencef, qui fait le lien entre les extrêmes positifs et les fréquences de frequencez ou frequence6.
    • Les droites des diagrammes fréquence5: Pendant la construction des tableaux des fréquences de chaque génome, comme indiqué ci-dessus, j'ai fait les diagrammes frequence6 et il m'est apparu rapidement que je pouvais les diviser la courbe de tendance, proche d'une hyperbole, en 3 parties distinctes: la gamme de 0 à 30 de pente très élevée et proche de la branche de l'hyperbole, la gamme de 30 à 370 très accidentée ressemblant plutôt à une droite qu'au milieu de l'hyperbole, et enfin la gamme à partir de 370 jusqu'à 600 de pente très faible et proche de la branche de l'hyperbole. Comme cette dernière gamme peut être prolongée au-delà de 600 et même de 1200 pour certains génomes, la gamme du milieu existe pour tous les génomes, c'est une droite facile à comparer avec sa pente et pourrait contenir la plus part des séquences de contrôle et donc avoir un sens fonctionnel. Effectivement d'après le tableau des fréquences,
      + Les coefficients de détermination de ces droites sont très confortables puisque 18 sont supérieurs à 0.75 jusqu'à 0.91 et seulement 3 sont inférieurs à 0.64, 0.63 pour pub, 0.58 pour rtb et 0.46 pour mba.
      + Cinq clades à 2 génomes chacun ont souvent des pentes très proches. Le seul clade à 2 génomes avec les 2 pentes très différentes est celui des actinomycètes, ase pente 43 et blo pente 10. Trois clades ont les 2 pentes presque identiques, gamma 20 (eco spl), bacilli 29 (bsu pmq) et clostridia 15 (cbn cbei). Deux clades diffèrent légèrement pour leurs pentes, alpha rtb 3 et pub 6, archées mja 10 et mba 6.
      + Sur les 6 clades à 2 génomes un seul, gamma, a les 2 nombres de cds (n-cds) presque équivalents, les 5 autres ont des cds très dissymétriques. Ce qui pourrait laisser croire que la pente est indépendante de la taille du génome, en tout cas à l'intérieur de chaque clade.
      + Une seule discordance à ce schéma, dans le clade alpha, rru (pente 19) est très différent de pub (6) et rtb (3).
      + En considérant la totalité des 21 génomes la pente se révèle en fait proportionnelle à la taille du génome
      + Les courbes puissance
    • Le classement des génomes.
  2. - Les fréquences par génome: intercalaires négatifs continus et discontinus, symboles Sc- Sx- .
    • Caractéristiques et comparaison avec les tRNA-cds, Notes
    • Les recouvrements
    • La périodicité ternaire des petits intercalaires inférieurs à 80 paires de bases met en exergue l'état vibratoire des 2 cds en recouvrement.
  3. - Les fréquences par génome: intercalaires positifs continus et discontinus, symboles Sc+ Sx+ .
  4. - Récapitulation de tous les intercalaires
Comparaison intercalaires cds-cds et tRNA-cds[modifier | modifier le wikicode]
- La comparaison consiste à calculer la probabilité d'obtenir un doublet de cds de la forme cds-tRNAs-cds avec les taux de l’ensemble des intercalaires cds-cds d'un génome donné. Si les tRNAs n’avaient aucune influence sur ces intercalaires, les différences calculées avec le taux du génome ne devraient pas être significatives ou autrement dit leur distribution avec les tRNAs serait la même qu'entre les cds-cds seuls. Dans le cas contraire je m'attendais à ce que les probabilités calculées privilégient les petits intercalaires mais le résultat montre par contre que les différences sont significatives et qu'il privilégie les grands intercalaires. Cependant quand on calcule les moyennes des cds-cds on trouve qu'elles sont inférieures à celles des tRNA-cds, les 2 bords confondus. Si on réoriente les blocs de l'intercalaire le plus grand au plus petit, les grands sont encore plus grands que la moyenne des cds-cds et les petits sont plus petits qu'elle. C'est là où l'hypothèse de l'orientation des blocs à tRNAs seuls reste plausible. La difficulté d'un tRNA à établir un petit intercalaire avec un cds apparaît aussi quand on compare le taux de ces intercalaires de la tranche de 1 à 40 paires de bases, entre blocs de tRNAs seuls, et l'ensemble des cds-cds. De même les tRNA-cds négatifs sont très rares comparés aux cds-cds négatifs et montrent aussi la difficulté des tRNAs à établir des intercalaires négatifs.
Les tRNA-cds, synthèse[modifier | modifier le wikicode]

Les intercalaires cds-rRNA[modifier | modifier le wikicode]

Les intercalaires tRNA-tRNA[modifier | modifier le wikicode]

Intercalaires entre tRNA et rRNA en continu discontinu[modifier | modifier le wikicode]

  • Lien tableur: Intercalaires entre tRNA et rRNA en continu discontinu.
  • Légende
    - c x + - % pour continu, discontinu, positif, négatif, x+/total ou nombre de génomes à x+ et c- sur le total.
    note: c-, 1 seul continu négatif, son intercalaire est d'une paire de base seulement (-1)
    - type:
    tRNA, intercalaires entre tRNAs dans un bloc sans rRNA;
    t-rRNA, intercalaires entre tRNAs à l'extérieur d'un bloc rRNA
    rRNA, intercalaires rRNA-rRNA et tRNA-rRNA d'un bloc rRNA
    aa interne, tRNA-tRNA interne d'un bloc rRNA
    4*: Ces 4 intercalaires x+ sont dus au grand nombre de remaniements des blocs rRNA du génome cdc8. 23s' et 16s' sont des rRNA fonctionnels mais tronqués.
tRNA. Intercalaires entre tRNA et rRNA en continu discontinu
tRNA1. Les totaux de 50 génomes
type total c+ x+ c- x- x+%
tRNA 1745 1714 19 1 0 1,1
t-rRNA 814 810 4* 0 0
rRNA 1043 1043 0 0 0
aa interne 127 127 0 0 0
genomes 50 50 13 26
4* cdc8 aaa-5s 23s’-16s 16s’-16s’ 16s-5s
adresse 4229303 4229975 4189696 4179150
tRNA2. discontinus
gen x+ gen x+
ase 1 -
ksk 1 vpb 1
mja 2 rtb 2
mba 1 rpl 2
mfe 1 agr 2
fps 1 aua 4
npu c- lbu 1