Recherche:Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse

Une page de Wikiversité, la communauté pédagogique libre.
génomes synthèse
Image logo représentative de la faculté
Annexe 11
Recherche : Les clusters de gènes tRNA et rRNA chez les procaryotes
Précédent :archeo
Suivant :Atableur
En raison de limitations techniques, la typographie souhaitable du titre, « Annexe : génomes synthèse
Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse
 », n'a pu être restituée correctement ci-dessus.



Liste NCBI des 51 génomes sauvegardés[modifier | modifier le wikicode]

  • Lien tableur: Liste NCBI des 51 génomes sauvegardés
  • Liste de la pré-étude de 21 génomes sauvegardés avant la nouvelle méthode et avec les fréquences des intercalaires CDS-CDS des chapitres “génome, intercalaires entre CDS”.
NCBI.1 21 génomes
KEEG date NCBI longueur pb nom lien NCBI
Artb
rtb 7.12.20 1112957 bp Rickettsia typhi str. B9991CWPP NCBI [1]
pub 24.01.21 1308759 bp Candidatus Pelagibacter ubique HTCC1062 NCBI [2]
abra 13.12.20 1877792 bp Acholeplasma brassicae NCBI [3]
mja 09.04.20 1664970 bp Methanocaldococcus jannaschii DSM 2661 NCBI [4]
pmg 08.02.21 1641879 bp Prochlorococcus marinus str. MIT 9301 NCBI [5]
blo 25.10.20 2256640 bp Bifidobacterium longum NCC2705 NCBI [6]
scc 16.07.20 2227296 bp Sphaerochaeta coccoides DSM 17374 NCBI [7]
afn 30.08.20 2329769 bp Acidaminococcus fermentans DSM 20731 NCBI [8]
Acbn
cbn 31.01.14 2773157 bp Clostridium botulinum BKT015925 NCBI [9]
ant 24.09.20 3192235 bp Arcobacter nitrofigilis DSM 7299 NCBI [10]
myr 18.01.21 4155464 bp Myroides sp. A21 NCBI [11]
rru 10.03.20 4352825 pb Rhodospirillum rubrum ATCC 11170 NCBI [12]
mba 17.12.20 4837408 bp Methanosarcina barkeri str. Fusaro NCBI [13]
Aspl
spl 24.09.20 5174581 bp Shewanella pealeana ATCC 700345 NCBI [14]
cvi 25.12.20 4751080 bp Chromobacterium violaceum ATCC 12472 NCBI [15]
bsu 08.02.18 4215606 bp Bacillus subtilis subsp. subtilis str. 168 NCBI [16]
ade 16.07.20 5029329 bp Anaeromyxobacter dehalogenans 2CP-C NCBI [17]
eco 23.09.20 4641652 bp Escherichia coli str. K-12 substr. MG1655 NCBI [18]
Apmq
pmq 07.02.21 8739048 bp Paenibacillus mucilaginosus 3016 NCBI [19]
cbei 31.07.20 6485394 bp Clostridium beijerinckii strain NCIMB 14988 NCBI [20]
ase 17.12.20 9239851 bp Actinoplanes sp. SE50/110 NCBI [21]
  • Liste des 30 génomes en complément étudiés avec la méthode et sauvegardés après. Je les étudiés sommairement avant, en 2019, sans les fréquences des intercalaires CDS-CDS.
NCBI.2 30 génomes
KEEG date NCBI longueur pb nom lien NCBI
alpha
oan 1.8.21 2887297 bp Brucella anthropi ATCC 49188 chromosome 1 NCBI [22]
oan2 1.8.21 1895911 bp Brucella anthropi ATCC 49188 chromosome 2 NCBI [23]
rpm 12.3.21 3876289 bp Pararhodospirillum photometricum DSM 122 chromosome DSM 122 NCBI [24]
rpl 20.01.22 1109301 bp Rickettsia prowazekii str. Breinl NCBI [25]
abqp 26.4.22 1901707 pb Azospirillum brasilense strain Az39 plasmid AbAZ39_p1 NCBI [26]
abq 25.4.21 3064393 bp Azospirillum brasilense strain Az39 chromosome NCBI [27]
absp 11.4.22 1766028 bp Azospirillum baldaniorum plasmid AZOBR_p1 NCBI [28]
abs 25.4.21 3023440 bp Azospirillum baldaniorum NCBI [29]
auap 12.4.22 9393 bp Aureimonas sp. AU20 plasmid pAU20rrn NCBI [30]
aua 12.4.21 3742793 bp Aureimonas sp. AU20 chromosome NCBI [31]
gama
ecoN 11.5.21 5441200 pb Escherichia coli Nissle 1917 chromosome NCBI [32]
vpb1 20.02.22 3297305 bp Vibrio parahaemolyticus BB22OP chromosome 1 NCBI [33]
vpb2 20.02.22 1806219 bp Vibrio parahaemolyticus BB22OP chromosome 2 NCBI [34]
eal 28.2.14 4701875 bp Escherichia albertii KF1 NCBI [35]
vha1 12.12.21 3765351 bp Vibrio campbellii ATCC BAA-1116 chromosome I NCBI [36]
vha2 12.12.21 2204018 bp Vibrio campbellii ATCC BAA-1116 chromosome II NCBI [37]
alpha gama
eco 7.3.22 4641652 bp Escherichia coli str. K-12 substr. MG1655 NCBI [38]
amed 15.1.22 4777154 bp Aeromonas media WS chromosome NCBI [39]
agr l 19.4.21 2148289 bp Agrobacterium fabacearum chromosome linear NCBI [40]
agr c 24.4.22 2823930 bp Agrobacterium fabacearum chromosome circular NCBI [41]
bacilli
lmo 27.2.15 2944528 bp Listeria monocytogenes EGD-e NCBI [42]
lam 6.3.22 2078001 bp Lactobacillus amylovorus NCBI [43]
lbu 13.2.22 1856951 bp Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365 NCBI [44]
ban 21.1.22 5321900 bp Bacillus anthracis strain 2002013094 chromosome NCBI [45]
ppm 10.11.21 5728392 bp Paenibacillus polymyxa SC2 NCBI [46]
ppmp 10.11.21 510118 bp Paenibacillus polymyxa SC2, plasmid pSC2. NCBI [47]
clostridia
psor 8.1.18 3550458 bp Paeniclostridium sordellii strain AM370 chromosome NCBI [48]
cdc 6.2.22 4110554 bp Clostridioides difficile CD196 NCBI [49]
cdc8 6.2.22 4308325 bp Clostridioides difficile M68 NCBI [50]
cbc 14.4.15 3892029 bp Clostridium botulinum CDC_297 NCBI [51]
cle 19.3.21 4714237 bp Cellulosilyticum lentocellum DSM 5427 NCBI [52]
hmo 6.3.22 3075407 bp Heliomicrobium modesticaldum Ice1 NCBI [53]
actino
sma 20.4.21 9025608 bp Streptomyces avermitilis MA-4680 = NBRC 14893 NCBI [54]
ksk 15.12.21 8783278 bp Kitasatospora setae KM-6054 NCBI [55]
apal
npu 6.2.22 8234322 bp Nostoc punctiforme PCC 73102 NCBI [56]
apal 14.12.21 1554229 bp Alteracholeplasma palmae J233 NCBI [57]
mfe 11.12.21 3914091 bp Methanosarcina sp. WH1 chromosome NCBI [58]
mfi 25.9.19 2478074 bp Methanobacterium formicicum genome assembly DSM1535, chromosome : chrI NCBI [59]
fps 14.12.21 2860382 bp Flavobacterium psychrophilum JIP02/86 NCBI [60]

Les blocs à tRNA[modifier | modifier le wikicode]

Les cds dans les blocs à tRNA[modifier | modifier le wikicode]

  • Lien tableur: cds
  • Légende:
fréquences intercalaires	fréquences cds en aa	
autour du cds				
	9				2
10	20			50	20
50	21			100	9
90	21			150	10
130	21			200	4
170	5			250	5
210	6			300	3
250	2			350	8
290	8			400	9
	113				70
génomes. Les cds dans les blocs à tRNA
génome sens adresse nom cds aa intercal
gamma autres rien
eal comp 2042057..2043241 tuf1 395 117
comp 2043359..2043431 acc gga tac aca
eco comp 1287087..1287176 tpr 30 67
comp 1287244..1287328 tac tac
4175754..4175829 acc aca tac gga 114
4175944..4177128 tufb 395
ecoN comp 2192566..2192655 tcg 93
2192749..2193546 DgsA 266 100
2193647..2193722 aac
comp 2236186..2236261 aac 4
2236266..2237909 YeeO 548 100
2238010..2238085 aac
amed comp 3913378..3913454 tgg 52
comp 3913507..3914691 cds 395 171
comp 3914863..3914937 gga
alpha
rpm comp 659042..659116 gtc 155
comp 659272..660159 hydrolase 296 106
comp 660266..660340 gtc
comp 2114823..2114899 aga 55
comp 2114955..2115251 ETC 96 71
comp 2115323..2115399 cca
2632171..2632246 gcc 166
< 2632413..2632965 transposase 184 -41
2632925..2633473 hp 183 30
comp 2633504..2633579 aca 93
comp 2633673..2634200 transferase 176 271
comp 2634472..2634561 tcg
2863981..2864056 aca 15
2864072..2864317 DUF2829 82 8
2864326..2864401 aaa
rru 1934224..1934300 cca 63
1934364..1934663 ETC 100 12
1934676..1934752 aga
comp 3124836..3125033 translocase 66 151
comp 3125185..3125260 tgg 343
comp 3125604..3126794 ef tu 397 93
comp 3126888..3126961 gga
comp 3126989..3127074 tac 37
3127112..3128158 RlmB 349 57
3128216..3128291 aca 127
3128419..3128652 hp 78
3378495..3378569 acc 237
3378807..3379370 hp 188 234
oan comp 2040234..2040453 hp 73 91
2040545..2040629 tac
2040654..2040727 gga 6
comp 2040734..2040916 hp 61 -50
2040867..2042042 ef Tu 392 65
2042108..2042183 tgg 420
2042604..2042804 translocase 67
comp 2697238..2697314 aga 123
comp 2697438..2697743 ETC 102 156
comp 2697900..2697976 cca
abq comp 748703..749161 hp 153 38
comp 749200..749275 aca 91
comp 749367..750221 RlmB 285 144
750366..750451 tac
750512..750585 gga 81
750667..751857 ef Tu 397 153
752011..752086 tgg 69
752156..752353 Translocase 66
872533..872608 atgi 5
comp 872614..873093 GNAT 160 134
comp 873228..873304 cgt
1354014..1354091 cca 49
1354141..1354437 ETC 99 10
1354448..1354524 aga
abs comp 1500772..1501110 P-II 113 338
1501449..1501524 cac
1501634..1501709 cac 129
1501839..1503305 epimerase 489 106
1503412..1504977 Manolyl CoA 522 173
1505151..1505235 cta 91
1505327..1506661 trigger factor 445
1808815..1808892 cca 49
1808942..1809238 ETC 99 10
1809249..1809325 aga
2293805..2293881 cgt 137
2294019..2294495 GNAT 159 5
comp 2294501..2294576 atgi
comp 2418203..2418400 translocase 66 69
comp 2418470..2418545 tgg 152
comp 2418698..2419888 ef Tu 397 81
comp 2419970..2420043 gga
comp 2420104..2420189 tac 144
2420334..2421188 RlmB 285 91
2421280..2421355 aca 137
2421493..2423187 integrase 565
agr 1532381..1532455 gaa 121
1532577..1532818 P-hp 81 89
1532908..1532982 gaa
1770727..1772280 integrase 518 91
comp 1772372..1772448 cca 265
1772714..1773019 ETC 102 51
1773071..1773147 aga 7
comp 1773155..1773892 DUF429 246
aua 2368353..2368429 cca 43
2368473..2368778 cds 102 36
2368815..2368890 aga
comp 2641950..2642023 tgc 153
comp < 2642177..2642443 cds 89 296
2642740..2642814 aac
beta néant
delta néant
bacilli autres rien
pmq 20252..21532 cds 427 47
21580..21666 tca 140
21807..22157 hp 117 17
22175..22357 hp 61 23
22381..22524 hp 48 86
comp 22611..22796 hp 62 138
comp 22935..25265 replicase 777 156
25422..26165 hp 248 220
comp 26386..26460 cgg 183
26644..27168 replicase 175
clostridia autres rien
hmo comp 105958..106044 ctg 321
comp 106366..106929 cds 188 241
comp 107171..107246 aca
1172120..1172196 agg 181
1172378..1172812 cds 145 62
1172875..1172966 tcg
1764087..1764161 ggc 92
comp 1764254..1764493 cds 80 72
1764566..1764641 tgc
comp 2496451..2496527 gtc
comp 2496532..2496609 atgj 175
2496785..2497120 cds 112 217
comp 2497338..2497420 ctc
*** Suivent 5 tRNAs comp ***
comp 2497882..2497958 gtg -10
comp 2497949..2498185 cds 79 66
2498252..2498328 ccg
actino autres rien
ase 1520472..1520544 aac 315
1520860..1522122 cds 421 236
1522359..1522432 atg
comp 4901908..4901981 gcg 19
comp 4902001..4902321 cds 107 23
comp 4902345..4902417 gac
*** 7 tRNAs ggc cds cag 20 tRNAs ***
6400506..6400577 ggc 25
6400603..6401055 cds 151 35
6401091..6401163 cag
bacteroide fps rien
myr comp 719769..719842 tgg 60
comp 719903..721090 cds 396 58
comp 721149..721220 acc
omp 1929840..1929925 tta 147
comp 1930073..1930444 cds 124 108
comp 1930553..1930638 tta
comp 2208797..2208872 atgf 106
comp 2208979..2209605 cds 209 147
comp 2209753..2209829 atgj
cyano npu rien
pmg comp 435678..435751 gac 149
comp 435901..436095 cds 65 35
comp 436131..436203 tgg
tenericutes
abra comp 1540706..1540780 tgg 47
comp 1540828..1541754 cds 309 137
1541892..1541967 cac
apal comp 205299..205373 tgg 73
comp 205447..206382 cds 312 133
206516..206591 cac
comp 1457388..1457463 gac 40
comp 1457504..1458355 cds 284 154
comp 1458510..1458585 ttc
*** 10 tRNAs 5s23s ***
archeo mfi mfe rien
mja 862590..862661 cga 41
862703..863392 cds 230 86
863479..863555 aca
*** 3 tRNAs 5s gac ***
mba 4618540..4618617 gaa 351
4618969..4619190 hp 74 377
4619568..4619645 gaa

Les totaux des génomes par type[modifier | modifier le wikicode]

  • Les six types sont: les solitaires, les multiples, les duplicata, avant 5s, après 5s >3, après 5s <4, avant 16s et après 16s. En abrégé, respectivement, 1aa >1aa dup -5s +5s >3, 5s <4 (ou 1-3aas), -16s +16s.
  • Note : le tableau de contrôle est dans le tableur
  • Lien tableur : Les totaux des génomes par type

Les totaux des types[modifier | modifier le wikicode]

Les totaux des types
actino >1aa 1aa -5s +5s -16s +16s duplica 1-3aas total
total 1047 912 13 751 11 304 493 135 3666
  • Note: le -16s long de 33 est compté dans les +5s >3.

La référence +5s >3[modifier | modifier le wikicode]

  • Lien tableur : La référence +5s >3
  • Ce sont ceux des bacilli plus ceux des clostridia parce qu'ils sont nombreux et réduits à 2 clades, donc homogènes. Tenericutes en possèdent 2 fois 11. Les archées en possèdent aussi, mais seulement 1 de 6aas. Voir les études plus détaillées dans les fiches qui ne concernent que les blocs à rRNA.
  • Légende:
    - Cyan pour les valeurs faibles, total 19 pour 21 tRNAs.
    - Jaune pour les valeurs fortes et en gras les plus fortes, total 474 pour 14 tRNAs
    - blanc pour les valeurs intermédiaires, gca et atc le sont aussi, total 236 pour 16 tRNAs.
    - Le rouge pour l'emplacement des +16s occupés, gca et atc.
    - Les encadrés sont les emplacements des 1-3aas des +5s de alpha + gamma.
    - Le -16s de 33 aas est compté ici comme un +5s long (inversion).
Bacilli + clostridia. Les +5s >3 de référence.
g1    t1          
atgi 12 tct tat atgf 29
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 26 tcc 10 tac 26 tgc 17
atc 15 acc 9 aac 38 agc 15
ctc 4 ccc 2 cac 20 cgc 30
gtc 5 gcc 1 gac 39 ggc 38
tta 22 tca 17 taa tga
ata aca 31 aaa 39 aga 15
cta 20 cca 33 caa 29 cga
gta 49 gca 15 gaa 42 gga 25
ttg 7 tcg 2 tag tgg 12
atgj 21 acg 2 aag agg
ctg 9 ccg 1 cag cgg
gtg gcg gag 1 ggg 1
5s-bc inter min max total
total 236 19 474 729

totaux par rapport au groupe de référence[modifier | modifier le wikicode]

bacts. Comparaison avec la référence
tRNAs blocs tRNAs blocs rRNAs
bacts 1aa >1aa dup +5s 1-3aas autres total
21 faible 317 124 114 19 2 7 583
16 moyen 345 327 80 246 43 253 1294
14 fort 250 596 299 486 90 68 1789
912 1047 493 751 135 328 3666
10 g+cga 151 68 57 7 283
2 agg+cgg 55 11 12 1 79
4 carre ccc 93 41 55 1 7 197
5 autres 18 4 2 24
317 124 114 19 2 7 583
total tRNAs ‰
bacts 1aa >1aa dup +5s 1-3aas autres bacts ‰ ref.‰
21 faible 86 34 31 5 1 2 159 26
16 moyen 94 89 22 67 12 69 353 324
14 fort 68 163 82 133 25 19 488 650
249 286 134 205 37 89 3666 729
10 g+cgg 41 19 16 2 77 10
2 agg+cga 15 3 3 0.3 22
4 carre ccc 25 11 15 0.3 2 54 16
5 autres 5 1.1 0.5 7
86 34 31 5 0.5 2 159
blocs tRNAs ‰ total colonne %
bacts 1aa >1aa dup total ref.‰ 1aa >1aa dup
21 faible 129 51 46 226 26 35 12 23
16 moyen 141 133 33 307 324 38 31 16
14 fort 102 243 122 467 650 27 57 61
372 427 201 2452 729 912 1047 493
10 g+cgg 62 28 23 113 10 48 55 50
2 agg+cga 22 4 27 17 9
4 carre ccc 38 17 22 77 16 29 33 48
5 autres 7 2 0.8 10 6 3 2
129 51 46 226 317 124 114

Caractérisation des tRNAs[modifier | modifier le wikicode]

Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication[modifier | modifier le wikicode]

  • Lien tableur: Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication
  • Le groupe de référence: voir la référence. Ici les intermédiaires sont remplacés par le vert au lieu du blanc. La colonne +5s représente la référence (729) plus ceux des tenericutes (22, 2*11) ce qui ne change pas l'ordre de son classement: atgijf ttc tta gta aaa tca aca gca gac.
  • Légende:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
Synthèse des 44 génomes. Caractérisation de chaque tRNA par les 4 processus: +5s 1aa >1aa duplication
Caractérisation par les effectifs
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 14 30 7 2 tct tat atgf 31 30 36 30
att act 3 aat agt 1
ctt 4 3 2 cct cat cgc
gtt gct gat ggt
ttc 28 21 35 9 tcc 10 37 6 2 tac 26 7 44 28 tgc 17 16 38 4
atc 15 4 7 2 acc 9 18 22 5 aac 38 28 35 22 agc 15 18 34
ctc 4 30 15 2 ccc 2 28 1 cac 20 14 34 11 cgt 30 15 19 49
gtc 5 19 11 28 gcc 1 16 14 25 gac 41 14 54 13 ggc 38 17 59 43
tta 24 18 31 2 tca 19 36 12 4 taa tga 9
ata 1 1 0 aca 33 19 43 7 aaa 41 17 44 25 aga 15 29 21 2
cta 20 21 32 8 cca 33 20 39 4 caa 29 19 37 12 cga 3 7
gta 51 13 54 26 gca 17 4 7 gaa 42 15 52 25 gga 25 15 45 6
ttg 7 34 8 2 tcg 2 26 5 tag tgg 12 31 13 2
atgj 23 15 39 6 acg 2 28 5 aag 18 12 16 agg 31 1
ctg 9 20 16 28 ccg 1 15 4 8 cag 9 14 10 cgg 24 10
gtg 10 5 8 gcg 13 5 3 gag 1 9 5 12 ggg 1 20 6
Caractérisation par la relativité des 4 processus: chaque processus est rapporté à 1000 tRNAs.
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 19 33 7 4 tct tat atgf 41 33 34 61
att act 0 3 0 0 aat agt *1
ctt 0 4 3 4 cct cat cgc
gtt gct gat ggt
ttc 37 23 33 18 tcc 13 41 6 4 tac 35 8 42 57 tgc 23 18 36 8
atc 20 4 7 4 acc 12 20 21 10 aac 51 31 33 45 agc 20 20 32 0
ctc 5 33 14 4 ccc 3 31 1 0 cac 27 15 32 22 cgt 40 16 18 99
gtc 7 21 11 57 gcc 1 18 13 51 gac 55 15 52 26 ggc 51 19 56 87
tta 32 20 30 4 tca 25 39 11 8 taa tga 0 10 0 0
ata *1 *1 aca 44 21 41 14 aaa 55 19 42 51 aga 20 32 20 4
cta 27 23 31 16 cca 44 22 37 8 caa 39 21 35 24 cga 0 3 7 0
gta 68 14 52 53 gca 23 4 7 0 gaa 56 16 50 51 gga 33 16 43 12
ttg 9 37 8 4 tcg 3 29 5 0 tag tgg 16 34 12 4
atgj 31 16 37 12 acg 3 31 5 0 aag 0 20 11 32 agg 0 34 1 0
ctg 12 22 15 57 ccg 1 16 4 16 cag 0 10 13 20 cgg 0 26 10 0
gtg 0 11 5 16 gcg 0 14 5 6 gag 1 10 5 24 ggg 1 22 6 0

Construction du tableau avec les sous-totaux[modifier | modifier le wikicode]

Définition des classes pour les 4 types[modifier | modifier le wikicode]

  • Notes : Dans le tableau ci-dessus de la caractérisation des tRNAs rapportée à 1000 pour chaque type, 2ème tableau, les nombres en gras commencent à partir de 26 et sont au nombre de 64. Ce sont les plus élevés, ils incluent les nombres non gras des +5s colorés en jaune. On peut les diviser en
    - forts (les jaunes sans gras de la référence) de 26 à 37 au nombre de 32.
    - très forts (les gras jaunes de la références) de 39/1000 et plus, au nombre de 32
    - Les valeurs les plus faibles seraient inférieures à 10/1000 et sont au nombre de 68 dont 23 zéros. Les tRNAs ata et agt ne sont pas pris en compte (*). Le reste est divisé en
    - moyen faibles de 10 à 16 au nombre de 33, et en
    - moyen forts de 18 à 25 au nombre de 31.
    - Les nombres en gras du 1er tableau sont ceux de la référence (+5s) relativisés pour les duplications qui ont un total 50% inférieur à la référence. Les ruptures des types rapportés à 1000 tRNAs confirment et harmonisent le 1er tableau.
    - NB.SI, fonction calc utilisée.
0	23		16	9		32	5		48	0	
1	6		17	0		33	6		49	0	
2	0		18	4		34	3		50	1	
3	6		19	3		35	2		51	5	
4	13		20	9		36	1		52	2	
5	6		21	4		37	4		53	1	
6	3		22	4		38	0		54	0	
7	5		23	4		39	2		55	2	
8	5		24	2		40	1		56	2	
9	1		25	1		41	3		57	3	
10	5		26	2		42	2		61	1	
11	4		27	2		43	1		68	1	
12	5		28	0		44	2		87	1	
13	3		29	1		45	1		99	1	
14	4		30	1		46	0				
15	3		31	5		47	0				
	92			51			33			20	196

Les processus +16s -16s -5s 1-3aas[modifier | modifier le wikicode]

Récapitulatifs[modifier | modifier le wikicode]

  • D'après les distributions des totaux: liens

gama alpha baci clos bact actino cyano tener

  • Légendes : alpha* pour alpha+beta+delta, btc pour bacteroide tenericutes cyano
+16s	gca	atc	aaa	gta	gcc	gaa	total
gama	29	23	8	8	2	33	103
clos	26	11			5		42
afn	2	2					4
baci	16	15					31
alpha*	37	43					80
b t c	21	23					44
actino	0	0	0	0	0	0	0
total	131	117	8	8	7	33	304
total 1-3aas					
	alpha	gama	baci	clos	tener
atgf	23		2	2	
gac		23	2	1	
aac			4	7	6
acc		9	1	1	
tgg		8		1	
tca		4			
gaa		1		2	
tcc			1		
total	23	45	10	14	6
autres				37	
-16s	2gga 2tac aac agc atc cgt gca tca tcc		
-5s	3aca 5gga 5aac

Les processus +16s -16s 1-3aas -5s comparés à la référence[modifier | modifier le wikicode]

Distribution des totaux 1-3aas +16s -16s -5s.
Total 1-3aas
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
baci clos clos alpha tener gama total
10 47 4 23 6 45 135
Total 1-3aas avec la référence +5s
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac 0 cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
inter max min total
43 90 2 135
Total +16s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc tac tgc
atc 117 acc aac agc
ctc ccc cac cgc
gtc gcc 7 gac ggc
tta tca taa tga
ata aca aaa 8 aga
cta cca caa cga
gta 8 gca 131 gaa 33 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
248 49 7 304
Total -16s -5s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc 1 tac 2 tgc
atc 1 acc aac 6 agc 1
ctc ccc cac cgc 1
gtc gcc gac ggc
tta tca 1 taa tga
ata aca 3 aaa aga
cta cca caa cga
gta gca 1 gaa gga 7
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
5 19 0 24

Les processus +16s et 1-3aas des fiches mémoires[modifier | modifier le wikicode]

  • Lien tableur : Les processus +16s et 1-3aas des fiches mémoires
  • Le groupe de référence : voir la référence
  • Légend e:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
  • Note : Ces 2 processus ont été comptabilisés sur de plus grands effectifs dans les fiches mémoires par clade. La comparaison des effectifs avec ceux des annexes montrent qu'ils sont semblables statistiquement. Voir la synthèse des +16s et des 1-3aas.
Distribution des +16s et des 1-3aas des fiches mémoires, avec la référence +5s.
Effectifs des +16s
g1    t1       
atgi cds 121 16s 1039 atgf 2
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 1235 acc aac agc
ctc ccc cac cgt
gtc gcc 11 gac ggc
tta tca taa tga
ata aca aaa 11 aga
cta cca 4 caa cga
gta 13 gca 1249 gaa 272 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
2484 302 11 2797
Les +16s rapportés à 1000 tRNAs.
g1    t1       
atgi tct tat atgf 1
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 442 acc aac agc
ctc ccc cac cgt
gtc gcc 4 gac ggc
tta tca taa tga
ata aca aaa 4 aga
cta cca 1 caa cga
gta 5 gca 447 gaa 97 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
888 108 4 1000
Effectifs des 1-3aas
g1    t1       
atgi 15 tct tat atgf 172
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 21 tcc 2 tac 12 tgc 7
atc 3 acc 82 aac 73 agc 1
ctc 2 ccc cac 2 cgt 4
gtc gcc gac 172 ggc 12
tta 5 tca 5 taa tga
ata aca 1 aaa 17 aga 1
cta cca 1 caa 1 cga
gta 5 gca 14 gaa 7 gga 12
ttg tcg tag tgg 78
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 2
gtg 1 gcg gag ggg 2
inter max min total
218 510 8 736
Les 1-3aas rapportés à 1000 tRNAs.
g1    t1       
atgi 20 tct tat atgf 234
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 29 tcc 3 tac 16 tgc 10
atc 4 acc 111 aac 99 agc 1
ctc 3 ccc cac 3 cgt 5
gtc gcc gac 234 ggc 16
tta 7 tca 7 taa tga
ata aca 1 aaa 23 aga 1
cta cca 1 caa 1 cga
gta 7 gca 19 gaa 10 gga 16
ttg tcg tag tgg 106
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 3
gtg 1 gcg gag ggg 3
inter max min total
296 693 11 1000

Classement des tRNAs avec les 8 processus[modifier | modifier le wikicode]

Classement des tRNAs rapportés à 1000 par processus
Classement avec les processus +5s et >1aa.
tRNA +5s 1aa >1aa dup 1-3aas +16s
atgf 41 33 34 61 234 1
aac 51 31 33 45 99 -
I
gaa 56 16 50 51 10 97
gac 55 15 52 26 234 -
gta 68 14 52 53 7 5
aaa 55 19 42 51 23 4
ggc 51 19 56 87 16 -
tac 35 8 42 57 7 -
II
aca 44 21 41 14 1 -
cca 44 22 37 8 1 2
caa 39 21 35 24 1 -
ttc 37 23 33 18 29 -
gga 33 16 43 12 16 -
tta 32 20 30 4 7 -
atgj 31 16 37 12 1 -
cta 27 23 31 16 - -
cac 27 15 32 22 3 -
III
tgc 23 18 36 8 10 -
agc 20 20 32 0 1 -
IV
cgt 40 16 18 99 5 -
V
gca 23 4 7 0 19 447
atc 20 4 7 4 4 442
VI
acc 12 20 21 10 111 -
tgg 16 34 12 4 106 -
Classement avec les processus 1aa et dup
tRNA +5s 1aa >1aa dup 1-3aas +16s
tca 25 39 11 8 7 -
aga 20 32 20 4 1 -
atgi 19 33 7 4 20 -
tcc 13 41 6 4 3 -
ttg 9 37 8 4 - -
ctc 5 33 14 4 3 -
I
ccc 3 31 1 0 - -
tcg 3 29 5 0 - -
acg 3 31 5 0 1 -
agg 0 34 1 0 - -
cgg 0 26 10 0 3 -
ggg 1 22 6 0 3 -
II
ctg 12 22 15 57 1 -
gtc 7 21 11 57 - -
gcc 1 18 13 51 - 4
aag 0 20 11 32 - -
gag 1 10 5 24 - -
cag 0 10 13 20 - -
ccg 1 16 4 16 - -
gtg 0 11 5 16 1 -
gcg 0 14 5 6 - -
III
cga 0 3 7 0 - -
ata 0 1 1 0 - -
tga 0 10 0 0 - -
IV
ctt 0 4 3 4 - -
act 0 3 0 0 - -
agt 0 1 0 0 - -

Les intercalaires dans les genome.cumuls[modifier | modifier le wikicode]

  • Lien tableur : Les intercalaires dans les genome.cumuls
  • Récapitulatif des chapitres cumuls
  • - ne sont pris en compte que les moyennes en excluant quelques valeurs extrêmes (sans jaunes)
  • - Les 2 dernières colonnes cdsa et cdsa300 sont en aas.
  • fréquences des intercalaires tRNA-tRNA avec ou sans rRNA et des tRNA-cds
tRNA-tRNA			tRNA-cds	
	avec	sans			cds
20	19	19		50	1
30	7	6		100	1
40	2	10		150	8
50		4		200	17
60		7		250	6
70		0		300	1
80		2		350	1
86	3			total	35
138		3			
total	31	51		pub	50
				pmg	93
rru		119		oan	258
aua		131		cbei	350
oan		138			
cvi	86				
rru	66				
agr	59				

Les intercalaires entre cds d'un génome[modifier | modifier le wikicode]

  • Note : Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.

Méthode de prélèvement[modifier | modifier le wikicode]

  • Modèle de calculs avec mja NCBI [61] et eco NCBI [62], des intercalaires entre CDS, c+ c- x+ x-, et entre autres gènes.
*Modèle de calcul avec mja après suppression des commentaires dans NCBI
     repeat_region   378..2126
     gene            complement(2216..3343)
     CDS             complement(2216..3343)
     gene            complement(3340..4071)
     CDS             complement(3340..4071)
     gene            <4252..4566
     CDS             <4252..4566
     gene            4911..5381
     CDS             4911..5381
après mise en forme j'obtiens
	repeat_region  378..2126      intercalaire ax+ = 2216 - 2126 - 1 = 89  pbs	intercalaire type autre-cds discontinu
comp	CDS            2216..3343     intercalaire c-  = 3340 - 3343 - 1 = -4  pbs	intercalaire type cds-cds négatif continu
comp	CDS            3340..4071     intercalaire x+  = 4252 - 4071 - 1 = 182 pbs	intercalaire type cds-cds positif discontinu
	CDS            4252..4566     intercalaire c+  = 4911 - 4566 - 1 = 346 pbs	intercalaire type cds-cds positif continu
	CDS            4911..5381
		
* Modèle de calcul avec eco présentant 2 pseudo gènes où la ligne "gene" n'est pas suivie de la ligne "CDS"
comp	gene		238257..238736
comp	CDS		238257..238736
comp	gene		238746..239084		/pseudo
     	gene		239190..239378		/pseudo
comp	gene		239419..240189
comp	CDS		239419..240189
  • Traitement par lots
    - Sauvegarder le NCBI sans ses commentaires
    1. Afficher le NCBI et relever taille et date
    2. Copier dans un txt puis dans un calc temporaire pour faciliter les sélections début ou fin.
    3. Sélectionner la 1ère cellule puis select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) " tRNA " précédent.
    4. Descendre le curseur d'une cellule puis select ctrl+Maj+fin et supprimer.
    5. Se positionner au début ctrl+début et rechercher (ctrl+H) "CDS" suivant sans les cotes.
    6. Monter le curseur d'une cellule et puis le mettre loin à droite et effacer le début, ctrl+Maj+début.
    7. Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille en H9.
    8. Le fichier est alors sauvegardé dans un txt en remplaçant la tabulation par le caractère de séparation § (ctrl+H, remplacer \t par §). Au moment de la récupération ne doit exister qu'un seul caractère de séparation, ici le §. J'ai sauvegardé plusieurs génomes dans un même lien de wikipédia comme suit :
    - Formatage en 4 colonnes : complement gène adresse1 adresse2
    1. Retour au tableur. Rechercher "join(", résoudre ses adresses en adresses uniques et sauvegarder le join sur la même ligne.
    2. Sans sélection remplacer CDS gene rRNA tRNA en ajoutant (;)
    3. Rechercher tRNA; suivant, vérifier s’il n’y a pas d’autres gènes entre "CDS;" et "gene;" et les suffixer avec ";", comme ncRNA misc regulatory...
    4. Supprimer la ligne où le gène est ‘source’ puis tri croissant sur la colonne gène à partir de la ligne au-dessus de "source".
    5. Sélectionner tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire: à ce moment j'ai 3 colonnes, une contenant le nom du gène, CDS tRNA ..., à côté la colonne des adresses et à côté la note de join sauvegardée au 1er alinéa. Sauvegarder la note join dans le commentaire de la cellule correspondante de la colonne des gènes. Supprimer la note.
    6. Pour la discontinuité "complement-non complement", ajouter une colonne à gauche contenant comp pour les adresses avec "complement".
    7. Enlever les blancs dans le fichier, ctrl+H et remplacer " " par rien.
    8. Sélectionner la colonne contenant les adresses, ctrl+H et enlever les caractères ( <)> et les caractères alphabétiques avec l'expression régulière [:alpha:].
    9. Remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Il ne doit y avoir qu'un seul caractère de séparation qui est le ;.
    10. Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.
    - Traitement des pseudo gènes
    1. Sur la colonne à gauche de comp, numéroter en séquence gene puis CDS puis le reste : à la 1ère occurrence écrire 1 puis, à la 2ème, écrire la formule, cellule de la 1ère occurrence + 1. Couper la formule et select la plage, coller et couper coller format.
    2. Trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse. À ce moment gene et CDS sont dans ce sens pour la même adresse.
    3. Dans certains cas la ligne gene n'est pas suivie par sa ligne CDS. À droite de la colonne 2ème adresse je crée une colonne de formule, "1èrme e adresse de la ligne suivante - (moins) celle de la ligne de la formule". Pour un couple "gene CDS" qui se suivent la différence est nulle. Pour un couple "CDS gene" ou "gene gene" qui se suivent la différence n'est pas nulle. Ensuite je fais la même chose sur la colonne suivante mais pour les 2èrmes adresses. Couper les 1ères cellules des 2 dernières colonnes puis select ctrl+H+fin à partir de ces cellules coupées, coller et couper coller format.
    4. En triant sur les 2 dernières colonnes à droite, toutes les lignes "gene" avec 0 et 0 dans les 2 dernières colonnes sont à supprimer.
    5. Supprimer les 2 colonnes des différences ainsi que la 1ère colonne de numérotation.
    - Calcul des intercalaires
    1. Trier le reste sur 1ère et 2ème adresse. Calculer les intercalaires avec la formule, 1ère adresse de la ligne suivante moins 2èrme adresse de la ligne moins 1. Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
    2. Rechercher et colorer les CDS de la colonne des gènes, "ctrl+H CDS". Les gènes différents de CDS apparaissent en clair.
    - Marquage des intercalaires types
    1. Marquage des discontinus : Soit G9 la cellule de la colonne comp, G, et de ligne 9, que je vais tester dans une cellule L9 dont la colonne est libre.
      + Initialiser la cellule L9 avec la fonction =SI(G9=G10,1,0). Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
      + Sélectionner la colonne résultat et supprimer les 1 avec ctrl+H, remplacer 1 par rien. La colonne des discontinus doit être en 1er et l'écraser par la colonne des * (autres gènes ci-dessous) en ignorant les cellules vides (choix dans ctrl+v).
    2. Marquage des gènes autres que CDS:
      + On peut marquer les gènes différents de CDS dans la cellule M9 avec la fonction =SI en comparant le contenu de la cellule H9 à la cellule contenant, $CDS$: =SI(($CDS$=H9) et (H9=H10),0,2). Avec cette formule un CDS suivi d'un autre gène a pour résultat un 2 qui correspondra plus loin au deb (pour début du pavé clair).
      + Faire sur la colonne adjacente N9, la formule =SI(($CDS$=H9) et (H9=H8),0,3). Avec cette formule un CDS précédé d'un gène différent de CDS a pour résultat un 3 qui correspondra plus loin à fin (pour fin du pavé clair).
    3. Cadrage des types "autres gènes" par une colonne deb-fin:
      + Dans la cellule F9 tester les cellules H9 et M9, =SI(($CDS$=H9) et (M9=2),7,0). Un résultat 7 correspond au résultat 2 de la colonne L.
      + Dans la cellule E9 tester les cellules M9 et N9, =SI((M9=0) et (N9=3),9,0). Un résultat 9 correspond au résultat 3 de la colonne N.
      + Supprimer les 0 des colonnes E et F, couper coller la colonne E sur F en ignorant les cellules vides et remplacer 7 par deb et 9 par fin.
    4. Compléter la colonne des intercalaires types: Compléter la colonne L pour les types d'intercalaires x+ x- c+ c- et * pour discontinus positifs négatifs, continus positifs négatifs et autres intercalaires. Pour cela supprimer les 0 de la colonnes M et effacer la colonne N. Remplacer les 2 dans la colonne M par * et couper coller M sur L en ignorant les cellules vides.
    - Calcul de la fréquence des intercalaires:
    1. Le tri : En triant dans l'ordre croissant, la colonne de marquage puis la colonne des intercalaires, apparaissent les discontinus négatifs suivis des discontinus positifs. Je colorie, pour repérer les erreurs lors des contrôles, les x- en vert et les x+ en cyan. Pour les x- je remplace les 0 par des 1. Ainsi après les mêmes tris j'obtiens les 0 qui sont des x+ colorés en cyan, les x- colorés en vert, les * en clair, les c- que je colorie en jaune sans caractère sur la colonne de marquage et les c+ que je laisse en clair en clair, sans caractère sur la colonne de marquage.
    2. Les fréquences : sur ces plages j'applique la fonction "fréquence" de calc pour créer les diagrammes 400 et les diagrammes 40.
    - Traitement des "autres gènes":
    1. deb-fin : Plusieurs "autres gènes" peuvent être en une séquence longue comme pour les tRNA. Ces pavés sont encadrés la colonne deb-fin.
    2. Sur la totalité du génome, trier les colonnes F G H adresse1 adresse2 intercalaire type, en 1er sur la colonne deb-fin (F) et en 2ème la colonne CDS (H),
    3. Copier les lignes avec deb et fin en supprimant les intercalaires (K) des lignes "fin", et les sauvegarder plus loin.
    4. Copier les lignes en clair qui se trouvent à la fin du génome et les coller sous les lignes du pavé deb-fin sauvegardé. Trier ce pavé sur adresse 1 puis 2.
    5. Les tableaux deb-fin sont publiés dans les chapitres "autres intercalaires" de chaque génome.

Intergen51. Décompte des autres intercalaires[modifier | modifier le wikicode]

  • Image:  taas
  • Regroupement des intercalaires autres que CDS-CDS. Voir le tableur de amed autres intercalaires aas.
  • Formatage du tableur (voir l'image ci-dessus pour le formatage et les calculs): La colonne des gènes est colorée comme suite,
    - tRNA en jaune
    - rRNA en orange
    - CDS en cyane
    - gene en bleu (voir eco)
    - les gènes non RNA sont en clair (blanc): ncRNA misc regulatory repeat_region ....
  • Les intercalaires tRNA-CDS. Les regroupements des intercalaires continus (c) et des discontinus (x) séparément sont faits en six colonnes avec la fonction SI() de calc au format suivant
    deb fin
    tRNA
    deb c  deb x  fin c  fin x  deb-c  deb-x
    1. - où deb fin sont recherchés sur la 1ère colonne et tRNA sur la 2ème colonne
    2. - où l'intercalaire continu "deb c" est reporté avec AT3 de la colonne des intercalaires. La colonne des deb fin est AO, la colonne des tRNAs est AQ et la colonne des comps (discontinuités) est AP. La formule appliquée est SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,).
    3. - où l'intercalaire discontinu "deb x" est calculé avec la formule analogue SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,).
    4. - où l'intercalaire continu "fin c" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4=AP3),AT3,)
    5. - où l'intercalaire discontinu "fin x" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4<>AP3),AT3,).
    6. - deb-c et deb-x ont le label deb à l'intérieur d'un paquet "deb ...fin" sans le label fin correspondant. Leurs formules se trouvent à la fin de la série suivante qui regroupe les 6 formules
    deb c   SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,)
    deb x   SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,)
    fin c   SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
    fin x   SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
    deb-c   SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
    deb-x   SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
  • Les intercalaires contenant les rRNA et les intercalaires tRNA-tRNA: Peu nombreux mais très variés ils sont relevés manuellement.

Intergen51. Formatage des autres intercalaires[modifier | modifier le wikicode]

Lien tableur: Voir le tableur pour les données intercalaires de amed.

  • Légende:
    - Les décomptes sont faits pour chaque génome à partir de son tableau autres intercalaires aas, voir le chapitre précédent.
    - Les résultats sont ajoutés aux intercalaires CDS-CDS dans les données intercalaires de chaque génome.
    - Le tableau ci-dessous représente l'exemple de amed avec ses autres intercalaires plus le formatage des intercalaires CDS-CDS supérieurs à 400 pdbs pour les positifs (400-600 et sup 600).
    - De même les CDS-CDS inférieurs à -50 sont ajoutés à part dans 2 colonnes partiellement vides, CDS-CDS inf 50.
    - A la suite de inf 50, j'ai ajouté le décompte des non RNA et le total de tous les intercalaires positifs, total intercalaires, et leurs taux par rapport à la longueur des l'ADN de l'élément (donné par NCBI), ADN long.
    - A part les tRNA-CDS, j'ai ajouté une colonne (aa) pour le tRNA de l'intercalaire rRNA-tRNA, et les 2 tRNAs successifs de l'intercalaire tRNA-tRNA.
    - Les intercalaires tRNA-tRNA sont de 3 types: à l'intérieur du cluster rRNA (tRNA intra ou tRNA in), contigu au cluster (tRNA contig, non présenté ici) et enfin en dehors du cluster (tRNA hors ou tRNAh).
int51.2 Amed. Exemple du format des autres intercalaires.
tRNA CDS rRNA CDS rRNA bloc tRNA tRNA tRNA tRNA CDS-CDS 400-600 Sup 600
intercalaire intercalaire intercalaire intercalaire intercalaire frequence effectif long
c x c x c aa c aa c aa amed fx fc fx fc
47 244 CDS 16s 23s 5s tRNA tRNA hors bloc tRNA tRNA suite 400 1233 2273 602 602
252 64 518 516 2* 120 52 ttc 40 tta 410 5 6 609 605
103 363 424 596 2* 126 3 aca 35 tgc 420 8 7 612 608
116 195 432 627 2* 123 45 ttc ** ggc 430 5 3 616 609
190 556 469 626 127 ** aac 30 tac 440 6 6 645 613
881 203 599 481 124 71 ctg ** tac 450 7 6 646 613
177 132 516 122 46 ctg 104 gga 460 6 6 662 621
236 104 5s CDS 16s tRNA 46 ctg ** ggg 470 4 6 665 624
9 271 386 268 3* 72 atc 51 ctg 57 tgc 480 4 2 669 624
166 126 275 99 2* 274 gaa ** ctg ** ggc 490 1 1 674 631
235 121 164 2* 198 gaa 5 aac 32 tac 500 4 2 686 639
173 119 2* 224 gaa ** ttc 45 tac 510 4 3 700 642
131 75 tRNA 23s 29 ggc 25 cgt 530 2 1 733 660
226 248 3* 238 gca 38 ggc 25 cgt 540 6 4 740 668
301 133 252 gaa 25 ggc 26 cgt 550 5 3 744 681
460 380 3* 236 gaa 23 ggc 98 cgt 560 3 2 761 693
425 198 237 gaa ** ggc 4 cgt 570 2 1 803 695
181 126 238 gaa 28 gcc ** agc 580 2 2 887 703
83 142 5s tRNA 66 gcc 38 gga 590 1 1 907 709
83 369 98 gac 58 gcc ** tac 600 3 3 935 716
177 302 2* 106 acc 40 gcc 58 cca 28 41 938 722
146 263 98 gac ** gcc 20 ctg 1001 724
127 202 95 gac 91 ctc 49 cac 1018 724
163 258 tRNA 5s ** atgf ** cgg 1028 753
438 23 acc 8 cta 18 gta 1275 760
151 tRNA tRNA intra 38 atgj 34 aaa 1406 781
772 3* 10 atc 47 caa 18 gta 1663 794
170 ** gca 17 caa 23 aaa 815
145 35 atgj 18 gta 838
268 47 caa 23 aaa 840
350 13 caa 18 gta 881
181 ** atgj 34 aaa 884
259 2 aac 22 gta 913
87 ** gga 46 aag 936
114 CDS-CDS inf 50 123 cac 22 gta 940
318 intercalaire 36 aga 46 aag 1098
50 c- x- ** cca 32 gta 1211
230 -89 -75 36 gtc ** aaa 1501
135 -83 -71 26 gtc 2076
113 -82 -58 15 gtc 2281
213 -80 -57 11 gtc
60 -65 ** gtc
52 -53 110 atgf
171 total intercalaires 102 atgf
306 601,332 101 atgf
658 ADN long 4,777,154 101 atgf
140 % 12.6 103 atgf
174 102 atgf
233 non RNA 38 102 atgf
167 92 atgf
153 ** atgf
174
344

Intergen51. Formatage des autres intercalaires aas[modifier | modifier le wikicode]

  • amed Le prélèvement: alpha gama
  • amed données intercalaires
  • amed autres intercalaires aas
  • Note : c'est un ancien tableau. Le refaire avec la sauvegarde du tableur ci-dessus.
  • Tableau des autres intercalaires aas : C'est un tableau détaillé des autres intercalaires que ceux des CDS-CDS auxquels j'ai ajouté les noms des tRNA tirés du tableau de la première étude axée principalement sur les clusters à RNA, parfois sans CDS, et nommé amed opérons. La correspondance entre les 2 tableaux pour le nom du tRNA est basée sur l’exacte adresse entre celle de tRNA du 1er tableau à celle du codon de l'acide aminé du second.
  • Légende :
    - comp, le gène est sur le brin complement
    - deb, fin sont respectivement dans le sens des adresses croissantes, le cds avant le 1er tRNA et le cds après le dernier tRNA du bloc.
    - misc_f, pour misc_feature
    - regul, pour regulatory
  • Totaux : 10 regulatory 3 ncRNA 2 misc_f 1 tmRNA : à adapter à amed
tRNA-cds		tRNA-tRNA		autres-cds		total	
c+	x+	x-	c+	x+	c-	c+	x+	c-		
46	34	1	141			22	6	2	252	1 acdsx-
  • Méthode de calculs des intercalaires autres que les CDS-CDS voir le cas de amed.
amed Les autres intercalaires.
deb fin comp gene adresse1 adresse2 intercalaire autre aas
deb comp CDS 7163 8359 516 *
rRNA 8876 10415 72 * 1540
tRNA 10488 10564 10 * atc
tRNA 10575 10650 238 * gca
rRNA 10889 13778 120 * 2890
rRNA 13899 14013 386 * 115
fin CDS 14400 14717
deb CDS 45743 46576 187 *
ncRNA 46764 47150 46 *
fin CDS 47197 48777 0
deb CDS 117188 117850 47 *
tRNA 117898 117973 52 * ttc
tRNA 118026 118101 3 * aca
tRNA 118105 118180 45 * ttc
tRNA 118226 118301 252 * aac
fin CDS 118554 119573
deb comp CDS 170063 170329 103 *
comp tRNA 170433 170518 71 * ctg
comp tRNA 170590 170675 46 * ctg
comp tRNA 170722 170807 46 * ctg
comp tRNA 170854 170939 51 * ctg
comp tRNA 170991 171076 116 * ctg
fin comp CDS 171193 172653
deb CDS 318836 320692 190 *
tRNA 320883 320959 244 * atgi
fin comp CDS 321204 323780
deb CDS 386382 386732 518 *
rRNA 387251 388796 274 * 1546
tRNA 389071 389146 252 * gaa
rRNA 389399 392290 126 * 2892
rRNA 392417 392531 268 * 115
fin comp CDS 392800 394413 0
deb CDS 476261 476482 64 *
comp tRNA 476547 476622 5 * aac
comp tRNA 476628 476703 881 * ttc
fin comp CDS 477585 478565
deb CDS 500269 500814 177 *
tRNA 500992 501067 24 * ggc
tRNA 501092 501167 29 * ggc
tRNA 501197 501272 38 * ggc
tRNA 501311 501386 25 * ggc
tRNA 501412 501487 23 * ggc
tRNA 501511 501586 363 * ggc
fin comp CDS 501950 502159
deb CDS 505552 507110 236 *
tRNA 507347 507422 28 * gcc
tRNA 507451 507526 66 * gcc
tRNA 507593 507668 58 * gcc
tRNA 507727 507802 40 * gcc
tRNA 507843 507918 471 * gcc
regulatory 508390 508473 148 *
fin CDS 508622 511627 0
deb CDS 642476 642802 9 *
tRNA 642812 642896 91 * ctc
tRNA 642988 643064 166 * atgf
fin CDS 643231 643689
deb CDS 772218 774050 195 *
comp tRNA 774246 774329 8 * cta
comp tRNA 774338 774414 38 * atgj
comp tRNA 774453 774527 47 * caa
comp tRNA 774575 774649 17 * caa
comp tRNA 774667 774743 35 * atgj
comp tRNA 774779 774853 47 * caa
comp tRNA 774901 774975 13 * caa
comp tRNA 774989 775065 235 * atgj
fin comp CDS 775301 776392
deb comp CDS 779541 780488 173 *
comp tRNA 780662 780736 -21 * caa
fin comp CDS 780716 781630
deb comp CDS 1154914 1155384 131 *
comp tRNA 1155516 1155592 226 * ccc
fin comp CDS 1155819 1157162 0
deb comp CDS 1224854 1226290 301 *
comp tRNA 1226592 1226667 2 * aac
comp tRNA 1226670 1226744 460 * gga
fin comp CDS 1227205 1228818
deb comp CDS 1240786 1241733 425 *
comp tRNA 1242159 1242234 556 * aac
deb CDS 1242791 1244527 181 *
tRNA 1244709 1244796 83 * tcc
fin CDS 1244880 1246145 0
deb comp CDS 1407358 1408665 83 *
comp tRNA 1408749 1408836 177 * tcc
fin comp CDS 1409014 1409631
deb CDS 1444233 1444688 146 *
tRNA 1444835 1444922 127 * tcc
fin CDS 1445050 1446834
deb comp CDS 1461184 1462401 163 *
comp tRNA 1462565 1462640 438 * cac
fin comp CDS 1463079 1464389
deb comp CDS 1526374 1527606 151 *
comp tRNA 1527758 1527833 123 * cac
comp tRNA 1527957 1528033 36 * aga
comp tRNA 1528070 1528146 203 * cca
fin CDS 1528350 1529207 0
deb comp CDS 1587325 1589010 772 *
comp tRNA 1589783 1589858 132 * aac
fin CDS 1589991 1592003
deb CDS 1649438 1651867 104 *
comp tRNA 1651972 1652048 36 * gtc
comp tRNA 1652085 1652161 26 * gtc
comp tRNA 1652188 1652264 15 * gtc
comp tRNA 1652280 1652356 11 * gtc
comp tRNA 1652368 1652444 170 * gtc
fin comp CDS 1652615 1653994
deb comp CDS 1734629 1735525 28 *
comp misc_f 1735554 1735678 185 *
fin CDS 1735864 1736109
deb comp CDS 1931438 1932934 145 *
comp tRNA 1933080 1933156 110 * atgf
comp tRNA 1933267 1933343 102 * atgf
comp tRNA 1933446 1933522 101 * atgf
comp tRNA 1933624 1933700 101 * atgf
comp tRNA 1933802 1933877 103 * atgf
comp tRNA 1933981 1934057 102 * atgf
comp tRNA 1934160 1934236 102 * atgf
comp tRNA 1934339 1934415 92 * atgf
comp tRNA 1934508 1934584 268 * atgf
fin comp CDS 1934853 1935572
deb CDS 1977322 1978332 353 *
comp ncRNA 1978686 1978779 94 *
fin CDS 1978874 1979143 0
deb comp CDS 1980394 1981206 97 *
comp ncRNA 1981304 1981397 269 *
fin CDS 1981667 1981849 0
deb comp CDS 1997119 1998258 85 *
comp ncRNA 1998344 1998440 102 *
fin comp CDS 1998543 1999331
deb CDS 2154455 2154631 277 *
ncRNA 2154909 2155037 -9 *
fin comp CDS 2155029 2155319 0
deb CDS 2234810 2235142 16 *
ncRNA 2235159 2235341 133 *
fin comp CDS 2235475 2236674
deb comp CDS 2426470 2427675 350 *
comp tRNA 2428026 2428112 40 * tta
comp tRNA 2428153 2428226 35 * tgc
comp tRNA 2428262 2428337 181 * ggc
fin comp CDS 2428519 2429073
deb comp CDS 2546995 2547534 271 *
tRNA 2547806 2547882 259 * ccc
fin CDS 2548142 2548282
deb CDS 2658354 2659094 87 *
tRNA 2659182 2659257 114 * acg
fin CDS 2659372 2659665 0
deb comp CDS 2827175 2828170 -13 *
comp regulatory 2828158 2828297 79 *
fin CDS 2828377 2830089
deb comp CDS 2858527 2859036 126 *
tRNA 2859163 2859247 30 * tac
tRNA 2859278 2859362 121 * tac
fin comp CDS 2859484 2863335
deb CDS 2953473 2953961 121 *
tmRNA 2954083 2954442 177 *
fin CDS 2954620 2955903
deb CDS 2978639 2979358 119 *
comp tRNA 2979478 2979552 104 * gga
comp tRNA 2979657 2979730 201 * ggg
fin CDS 2979932 2981701
deb CDS 3023194 3023487 75 *
comp tRNA 3023563 3023636 57 * tgc
comp tRNA 3023694 3023769 248 * ggc
fin CDS 3024018 3027455 0
deb CDS 3044891 3045361 133 *
comp tRNA 3045495 3045584 380 * tcg
fin CDS 3045965 3046882
deb comp CDS 3052964 3053617 105 *
comp regulatory 3053723 3053869 209 *
fin CDS 3054079 3054915 0
deb comp CDS 3093394 3094776 249 *
comp regulatory 3095026 3095141 508 *
fin CDS 3095650 3096798 0
deb comp CDS 3268030 3268398 318 *
comp tRNA 3268717 3268804 198 * tca
fin CDS 3269003 3269752 0
deb comp CDS 3286866 3287465 164 *
misc_f 3287630 3287752 38 *
fin CDS 3287791 3288963 0
deb CDS 3290470 3291624 50 *
tRNA 3291675 3291751 126 * agg
fin comp CDS 3291878 3292798 0
deb CDS 3334670 3335758 230 *
tRNA 3335989 3336073 32 * tac
tRNA 3336106 3336190 45 * tac
tRNA 3336236 3336320 135 * tac
fin CDS 3336456 3336731
deb comp CDS 3382564 3385161 111 *
comp regulatory 3385273 3385359 203 *
fin comp CDS 3385563 3389024
deb comp CDS 3497173 3497463 91 *
regulatory 3497555 3497645 99 *
fin CDS 3497745 3498725
deb comp CDS 3505823 3506272 275 *
comp rRNA 3506548 3506662 123 * 115
comp rRNA 3506786 3509675 236 * 2890
comp tRNA 3509912 3509987 224 * gaa
comp rRNA 3510212 3511756 596 * 1545
fin CDS 3512353 3515220
deb comp CDS 3676304 3677323 113 *
comp tRNA 3677437 3677521 142 * ttg
fin CDS 3677664 3678182 0
deb CDS 3688045 3688872 369 *
comp tRNA 3689242 3689318 25 * cgt
comp tRNA 3689344 3689420 25 * cgt
comp tRNA 3689446 3689522 26 * cgt
comp tRNA 3689549 3689625 98 * cgt
comp tRNA 3689724 3689800 4 * cgt
comp tRNA 3689805 3689897 213 * agc
fin comp CDS 3690111 3690299
deb CDS 3886846 3887601 302 *
comp tRNA 3887904 3887980 98 * gac
comp rRNA 3888079 3888193 127 * 115
comp rRNA 3888321 3891210 238 * 2890
comp tRNA 3891449 3891524 10 * gca
comp tRNA 3891535 3891611 72 * atc
comp rRNA 3891684 3893228 424 * 1545
fin comp CDS 3893653 3894195
deb comp CDS 3912946 3913317 60 *
comp tRNA 3913378 3913454 52 * tgg
deb comp CDS 3913507 3914691 171 *
comp tRNA 3914863 3914937 38 * gga
comp tRNA 3914976 3915060 263 * tac
fin CDS 3915324 3916262 0
deb comp CDS 3962163 3963533 306 *
comp tRNA 3963840 3963916 202 * tgg
fin CDS 3964119 3964703
deb comp CDS 4024345 4026816 658 *
comp tRNA 4027475 4027551 140 * ccg
fin comp CDS 4027692 4028417
deb CDS 4109413 4111986 99 *
comp rRNA 4112086 4112200 123 * 115
comp rRNA 4112324 4115213 238 * 2890
comp tRNA 4115452 4115527 198 * gaa
comp rRNA 4115726 4117269 627 * 1544
fin CDS 4117897 4118388 0
deb comp CDS 4119290 4121155 51 *
comp regulatory 4121207 4121385 207 *
fin CDS 4121593 4122102
deb comp CDS 4149775 4150278 174 *
comp tRNA 4150453 4150529 58 * cca
comp tRNA 4150588 4150673 20 * ctg
comp tRNA 4150694 4150769 49 * cac
comp tRNA 4150819 4150895 258 * cgg
fin CDS 4151154 4151744
deb CDS 4226547 4227725 432 *
rRNA 4228158 4229702 198 * 1545
tRNA 4229901 4229976 236 * gaa
rRNA 4230213 4233102 126 * 2890
rRNA 4233229 4233343 106 * 115
tRNA 4233450 4233525 23 * acc
rRNA 4233549 4233663 164 * 115
fin CDS 4233828 4234793
deb comp CDS 4354145 4355686 626 *
rRNA 4356313 4357857 274 * 1545
tRNA 4358132 4358207 237 * gaa
rRNA 4358445 4361342 124 * 2898
rRNA 4361467 4361581 106 * 115
tRNA 4361688 4361763 233 * acc
fin CDS 4361997 4363241
deb CDS 4434674 4435198 469 *
rRNA 4435668 4437211 225 * 1544
tRNA 4437437 4437512 236 * gaa
rRNA 4437749 4440638 122 * 2890
rRNA 4440761 4440875 98 * 115
tRNA 4440974 4441050 167 * gac
fin CDS 4441218 4442054 0
deb comp CDS 4481974 4482513 481 *
rRNA 4482995 4484539 547 * 1545
misc_f 4485087 4486108 236 *
comp tRNA 4486345 4486419 224 * gaa
comp rRNA 4486644 4488189 559 * 1546
fin comp CDS 4488749 4489795
deb comp CDS 4560642 4561715 153 *
comp tRNA 4561869 4561944 18 * gta
comp tRNA 4561963 4562038 34 * aaa
comp tRNA 4562073 4562148 18 * gta
comp tRNA 4562167 4562242 23 * aaa
comp tRNA 4562266 4562341 18 * gta
comp tRNA 4562360 4562435 23 * aaa
comp tRNA 4562459 4562534 18 * gta
comp tRNA 4562553 4562628 34 * aaa
comp tRNA 4562663 4562738 22 * gta
comp tRNA 4562761 4562836 46 * aag
comp tRNA 4562883 4562958 22 * gta
comp tRNA 4562981 4563056 46 * aag
comp tRNA 4563103 4563178 32 * gta
comp tRNA 4563211 4563286 174 * aaa
fin comp CDS 4563461 4564267
deb CDS 4626091 4627785 262 *
regulatory 4628048 4628133 65 *
fin CDS 4628199 4629623
deb comp CDS 4635172 4636104 344 *
comp tRNA 4636449 4636525 95 * gac
comp rRNA 4636621 4636735 120 * 115
comp rRNA 4636856 4639749 238 * 2894
comp tRNA 4639988 4640063 10 * gca
comp tRNA 4640074 4640150 72 * atc
comp rRNA 4640223 4641767 516 * 115
fin CDS 4642284 4643480 0
deb comp CDS 4698779 4700680 360 *
comp regulatory 4701041 4701154 88 *
fin CDS 4701243 4702160

Intergen51. Formatage des intercalaires CDS-CDS et tRNA-CDS[modifier | modifier le wikicode]

  • Lien au tableur : amed_données_intercalaires.
  • Note: tableau de amed en exemple
  • Légende: Ce sont des effectifs bruts des
    - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus.
    - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
    - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
    - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
    - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 amed. Formatage des intercalaires CDS-CDS et tRNA-CDS
CDS-tRNA CDS-CDS CDS-CDS CDS-CDS
frequence effectif frequence effectif frequence effectif frequence effectif
amed fxt fct amed fx fc amed fx40 fc40 amed fx- fc-
0 1 0 2 12 0 2 12 -1 0 91
10 1 10 38 225 1 2 26 -2 1 0
20 0 20 20 167 2 0 41 -3 0 0
30 0 30 23 110 3 4 34 -4 8 212
40 0 40 34 92 4 9 18 -5 0 0
50 2 50 43 75 5 0 12 -6 1 0
60 2 60 76 92 6 6 6 -7 0 10
70 1 0 70 90 111 7 4 12 -8 3 47
80 1 0 80 100 99 8 6 17 -9 1 0
90 3 90 59 120 9 3 34 -10 0 2
100 0 100 54 90 10 4 25 -11 2 31
110 1 1 110 58 112 11 1 21 -12 0 0
120 1 3 120 50 96 12 3 18 -13 2 6
130 3 1 130 35 81 13 2 20 -14 1 7
140 2 3 140 30 74 14 2 22 -15 1 0
150 1 2 150 25 72 15 1 14 -16 0 8
160 2 160 33 70 16 3 13 -17 0 4
170 4 170 29 32 17 2 20 -18 1 0
180 6 180 35 50 18 1 17 -19 1 1
190 3 190 25 44 19 2 6 -20 1 7
200 2 0 200 37 53 20 3 16 -21 1 0
210 3 0 210 39 48 21 3 11 -22 2 1
220 1 220 25 34 22 0 8 -23 0 1
230 2 230 30 26 23 1 16 -24 0 0
240 3 240 26 30 24 3 10 -25 1 2
250 2 0 250 20 26 25 3 13 -26 0 1
260 1 2 260 21 25 26 1 7 -27 0 0
270 1 1 270 22 36 27 4 10 -28 0 0
280 1 0 280 25 28 28 2 11 -29 1 1
290 0 290 13 24 29 2 15 -30 0 0
300 0 300 8 14 30 4 9 -31 0 1
310 1 2 310 19 17 31 3 9 -32 0 0
320 1 320 12 14 32 3 11 -33 2 0
330 0 330 8 15 33 4 11 -34 0 2
340 0 340 9 8 34 1 9 -35 2 2
350 2 350 13 13 35 1 12 -36 1 0
360 0 360 15 8 36 1 5 -37 0 0
370 2 0 370 7 5 37 5 4 -38 1 0
380 1 0 380 8 7 38 7 13 -39 0 0
390 0 390 7 9 39 7 10 -40 0 0
400 0 400 10 9 40 2 8 -41 0 0
reste 1 6 reste 110 109 reste 1226 1776 -42 0 0
total 25 54 total 1343 2382 total 1343 2382 -43 0 0
%reste 4.0 11.1 %reste 8.2 4.6 diagr 115 594 -44 0 1
t30 0 1 t30 81 502 -45 0 0
%t30 0 1.9 %t30 6.0 21.1 -46 3 0
diagr 24 47 diagr 1231 2261 -47 0 0
-48 0 0
Récapitulatif des effectifs -49 0 0
>0 <0 zéro total * -50 1 0
x 1341 42 2 1385 reste 4 6
c 2370 444 12 2826 total 42 444
4211 239 %reste 9.5 1.4
total 4450 diagr 29 135

Les intercalaires tRNA-cds[modifier | modifier le wikicode]

Les intercalaires en continu-discontinu[modifier | modifier le wikicode]

comparaison continu-discontinu[modifier | modifier le wikicode]
  • Lien tableur: comparaison continu-discontinu
  • Légende:
    - Tableau tRNA-cds01, les intercalaires tRNA-cds positifs : Ils sont comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. Les intercalaires inférieurs à 201 sont reportés dans les colonnes deb, fin (début et fin d'une transition continue cds-tRNA, complement ou non) et les colonnes deb'-fin' (changement de sens entre cds et tRNAs, direct-complement ou complement-direct). La colonne total est la somme de tous les intercalaires, les >200 aussi.
    - Tableau tRNA-cds01, les intercalaires cds-cds négatifs, l'ensemble: 3 colonnes sont extraites du tableau des fréquences cds-cds (exemple abra, cds le total des intercalaires cds-cds, <0 (continu + discontinu) le total des négatifs et r32 correspondant au reste du label fréquence-1. Deux colonnes sont des rapports extraits du tableau des détails tRNA-cds02, comp'% (discontinu sur les négatifs) et min% (200*différence/somme, en valeur absolue, de min-min').
    - Tableau tRNA-cds02, détail des cds-cds négatifs: Les effectifs sont tirés du tableur au paragraphe intercalaires négatifs de chaque génome exemple abra. Pour les continus con et les discontinus comp' j'ai mis 3 colonnes total, le minimum (min' pour comp') et le reste des effectifs après la fréquence (-50), r50. Pour les continus seulement, car con1 des comp' est toujours nul, j'ai ajouté 2 colonnes, les effectifs de la fréquence (-1), con1, et ceux de la fréquence (-4), con4.
  • Note : erreur sur eco, intercalaire 233 (voir eco intercalaires tRNA). corrigé ici.
  • MAJ du 23.2.22: les 2 colonnes ensemble sont maj d'après le tableau positif-négatif. Restent les autres colonnes de négatifs à faire avec les maj de tous les négatifs.
tRNAs-cds0. Comparaison continu-discontinu des intercalaires des tRNA-cds positifs et des cds-cds négatifs.
tRNAs-cds01. Détail des tRNA-cds et l'ensemble des cds-cds négatifs.
détail tRNA-cds positifs ensemble cds-cds négatifs
gen deb fin deb’ fin’ total cds <0 r32 r32% comp’% min%
abra 7 12 5 4 41 1 667 417 20 4,8 1,4 117
ade 20 16 7 9 69 4 464 815 40 4,9 11,9 6
afn 20 17 2 5 53 2 038 307 21 6,8 1,3 31
ant 11 12 4 1 34 3 095 762 17 2,2 10,9 11
ase 18 16 12 12 101 8 197 1 652 128 7,7 19,3 1
blo 15 15 5 6 78 1 772 228 8 3,5 7,0 17
bsu 3 5 7 5 28 4 213 608 52 8,7 4,9 182
cbei 9 5 4 1 47 5 622 400 24 6,0 2,8 59
cbn 12 12 2 2 40 2 491 176 6 3,4 4,5 54
cvi 22 20 7 9 78 4 282 756 26 3,4 8,2 5
eco 10 11 5 7 65 4 024 738 55 7,5 12,3 107
mba 9 8 7 4 90 3 943 329 26 7,9 5,5 23
mja 6 15 8 1 43 1 729 219 17 7,8 24,2 29
myr 18 15 12 10 79 3 555 302 12 4,0 6,6 37
pmg 16 17 13 8 67 1 800 253 12 4,7 36,0 3
pmq 8 11 2 5 42 7 223 795 52 6,5 4,3 45
pub 13 14 11 11 50 1 307 473 14 3,0 19,0 41
rru 15 18 10 11 83 3 786 683 32 4,7 10,1 12
rtb 9 12 0 2 56 793 102 7 6,9 2,9 35
scc 13 8 11 5 67 1 805 347 14 4,0 7,8 47
spl 9 9 4 3 62 4 213 426 10 2,3 2,8 61
total 263 268 138 121 1 273 72 019 10 788 593 5,5 10,6
tRNAs-cds02. Détail des cds-cds négatifs.
con cds-cds négatifs continus comp’ cds-cds négatifs discontinus
gen total min con1 con4 c1/c4 r50 r50% total min’ r50 r50%
abra 411 -92 68 142 0,48 13 3,2 6 -24 0
ade 718 -109 70 540 0,13 10 1,4 97 -116 14 14,4
afn 303 -113 38 129 0,29 9 3,0 4 -83 1 25,0
ant 679 -71 164 221 0,74 6 0,9 83 -79 1 1,2
ase 1333 -119 168 892 0,19 32 2,4 319 -120 49 15,4
blo 212 -86 52 109 0,48 2 0,9 16 -102 2 12,5
bsu 578 -7 616 72 233 0,31 17 2,9 30 -361 7 23,3
cbei 389 -110 71 82 0,87 4 1,0 11 -60 1 9,1
cbn 168 -47 34 28 1,21 0 8 -27 0
cvi 694 -97 118 377 0,31 4 0,6 62 -102 6 9,7
eco 647 -2 400 163 261 0,62 22 3,4 91 -723 11 12,1
mba 311 -59 33 119 0,28 7 2,3 18 -74 2 11,1
mja 166 -83 25 52 0,48 7 4,2 53 -62 0
myr 282 -47 71 60 1,18 0 20 -68 1 5,0
pmg 162 -65 36 72 0,50 2 1,2 91 -67 2 2,2
pmq 761 -119 80 387 0,21 17 2,2 34 -75 4 11,8
pub 383 -65 152 81 1,88 3 0,8 90 -43 0
rru 614 -137 81 396 0,20 13 2,1 69 -122 7 10,1
rtb 99 -50 10 33 0,30 0 3 -35 0
scc 320 -74 39 156 0,25 6 1,9 27 -120 1 3,7
spl 414 -98 126 136 0,93 5 1,2 12 -52 1 8,3
total 9 644 1 671 4 506 0,37 179 1,9 1 144 110 9,6
Notes, comparaison continu-discontinu[modifier | modifier le wikicode]
  • Les intercalaires tRNA-cds: tableau tRNA-cds01
    - Pour les intercalaires positifs les totaux deb et fin sont à égalité de même que les deb' et les fin' (notation des intercalaires tRNA, par exemple abra). Cependant les deb-fin sont 2 fois plus nombreux que les deb'-fin' car les plages des adresses direct ou complement sont très étendues, sous-tendues par l'architecture globale du chromosome et la discontinuité ne concerne que le passage d'une plage à l'autre. Dans les intercalaires négatifs, qui sont rares, ce sont les discontinus qui prennent l'avantage comme si la discontinuité ajoutée à la difficulté de réparation due aux appariements des tRNAs provoquait le chevauchement, il y a 2 continus contre 6 discontinus négatifs (voir 1er petit tableau parmi ceux qui suivent). C'est ce résultat partiel qui m’a poussé à étudier les intercalaires cds-cds négatifs.
    - Les intercalaires tRNA-cds négatifs, 8/1273 soit 0.6%, sont rares alors que les négatifs représentent environ 15% (10 788/72 023) des intercalaires cds-cds. Je les ai comparés à la rareté des tRNA-cds nuls: il semblerait que ceux-ci soient aussi rares, 4/1273 soit 0.3% (voir le 2ème petit tableau parmi ceux qui suivent). Mais les nuls sont aussi très faibles chez les cds-cds. Le décompte des nuls des 21 génomes avec cds donne 510 nuls pour 72 023 intercalaires cds-cds, soit 0,7% (voir "génome" les fréquences: exemple abra) et la comparaison des nuls/négatifs des cds-cds pour 8 génomes donne 210/24482 soit 0.9%, et en plus le rapport comp'/con égale à 39/171 soit 0.23 est du même ordre de grandeur et même 2 fois plus élevé que celui des cds-cds négatifs de 0.11 = 346/3035 (Les effectifs des nuls sont obtenus en même temps que les relevés des négatifs, mais seulement pour ces 8 génomes. Les effectifs des négatifs sont extraits du tableau tRNA-cds02).

Fin cds01

tRNA-cds intercalaires négatifs
gen 	deb 	fin 	deb’ 	fin’ 	total 
mba	-	-	-12	-	1
spl	-	-	-23	-	1
myr	-	-	-38	-	1
pmg	-30	-	-	-	1
ase	-	-	-	-12	1
blo	-17	-	-39	-8	3

tRNA-cds intercalaires nuls
mba	-	1	-	-	1
pmg	-	-	1	-	1
pub	-	-	2	-	2
total	-	1	3	-	4

cds-cds intercalaires nuls/négatifs
nuls 	-	-	<0	-	-
gen	con	comp’	con	comp’	cds
myr	14	4	282	20	3 555
pmg	34	12	162	91	1 800
pmq	26	5	761	34	7 223
pub	58	13	383	90	1 307
rru	11	2	614	69	3 786
rtb	4	1	99	3	793
scc	7	1	320	27	1 805
spl	17	1	414	12	4 213
total	171	39	3035	346	24 482
  • Les intercalaires cds-cds négatifs: tableau tRNA-cds01 partie de droite pour les caractéristiques de l'ensemble des négatifs et tableau tRNA-cds02 pour les détails.
    1. Les intercalaires négatifs tRNAs-cds sont très rares par rapport aux cds-cds négatifs
      - Suite à la constatation de la quasi absence des intercalaires négatifs chez les tRNA-cds (note du début) j'ai entamé l'étude détaillée des cds-cds, positifs-négatifs, continus-discontinus. J'ai regroupé le tout dans le tableau récapitulatif des taux discontinu/continu, dans le tableau par classe génomique et dans le tableau des cds-cds positifs-négatifs.
      + Les intercalaires cds-cds négatifs S-: Le taux Sx-% des discontinus négatifs varie beaucoup d'un génome à l'autre et suit le classement par génome basé notamment sur le taux de négativité, S-%. Cependant la corrélation n'est pas totale puisque abra a le taux parmi les plus faibles, 1.4%, alors qu'il a un taux élevé de négativité de 25%; de même pour afn de la classe moyenne (II) a respectivement 1.3% et 15%. La classe I regroupe donc 4 forts en Sx-% et 1 génome très faible, la classe II est un mélange de 4 forts de 3 moyens et de 2 faibles et la classe III 2 faibles et 5 moyens. La classe III est l'opposée de la classe I puisqu'elle regroupe aussi les plus faibles taux S-%. Au total les Sx- sont 10 fois plus faibles que les Sc- varient fortement avec un écart supérieur à 50% par rapport à la moyenne.
      + Les intercalaires cds-cds positifs S+: Le taux Sx+% par contre est très homogène avec un écart de seulement de 10% par rapport à la moyenne. Au total les Sx+ ne sont que 3 fois plus faibles que les continus Sc+.
      + Les intercalaires tRNA-cds positifs R+: Ils se comportent exactement comme les S+, le taux Rx+% est homogène avec un écart de 20% par rapport à la moyenne et il y a 3 fois plus de continus que de discontinus. Cependant leur moyenne de 37% est supérieure de 20% à la moyenne des Sx+% de 31%.
      - Les tRNAs-cds négatifs pour 43 génomes restent très rares, 0.7%, mais le rapport c- / x- tend vers l'unité, 9/10. Si les cds-cds négatifs sont beaucoup plus abondants que les tRNA-cds négatifs, 15% contre 0.7%, ce sont surtout les Sc- qui les représentent. En ramenant au total des S, les Sx- ne représentent que 1144/72023 soit 1.6% et en ramenant au total des R, les Rx- représentent 10/2688 soit 0.4% et donc les Sx- sont peu fréquents mais sont 4 fois plus abondants que les Rx- dans leur catégories respectives.
      - Les intercalaires tRNA-tRNA discontinus positifs x+ (1% pour 50 génomes et 1745 intercalaires) sont aussi rares que les tRNA-cds négatifs et les x- sont quasi inexistants, 1 seul cas et d'une seule paire de base. En plus sur 18 intercalaires discontinus relevés 5 sont tellement grands (supérieurs à 400 pbs) qu'ils résulteraient plutôt d'un remaniement du chromosome que d'une propriété des blocs à tRNAs seuls, 9 entre 130 et 290 pbs et 4 entre 50 et 90 pbs. Voir le tableur du même lien.
      - Les intercalaires discontinus dans les blocs à rRNAs sont inexistants pour 50 génomes et 1984 intercalaires.
      - Les intercalaires positifs de 1 à 40 pbs:
      + La comparaison des tRNA-cds aux cds-cds (tRNA-cds1), avec intervalle de confiance, m'a montré que les 1ers ont un comportement propre aux tRNA et surtout que la fréquence attendue des "petit" était inférieure à la borne inférieure de l'intervalle. Cela veut dire que les petits intervalles sont moins fréquents que les grands, relativement aux cds-cds. Ceci m'a poussé à comparer les moyennes des cds-cds et des tRNA-cds dans le sous tableau tRNA-cds2 (même lien). Et effectivement les moyennes des tRNA-cds sont toujours et nettement supérieures à celles des cds-cds (colonne diff). De même les grands intercalaires (grd%) sont encore plus grands que la moyenne cds-cds et les petits intercalaires (pet%) plus petits (14 génomes) qu'elle, ou égaux (4) et pour 3 génomes légèrement supérieurs (bsu spl scc).
      + Ce résultat va dans le même sens que la faible fréquence des tRNA-cds négatifs et donc de l'orientation des blocs à tRNAs seuls, sans rRNA. Aussi j'ai comparé les fréquences des petits intercalaires positifs cds-cds (S) et tRNA-cds (R) de 1 à 40 pbs. Les R sont au moins 3 fois plus faibles que les S (colonne taux) pour 13 génomes et 7 ont si peu de R (0 1 2) que leur taux doit être supérieur à 3. Un seul génome pub a un taux proche de l'unité, mais son taux approche 3 quand je compare les 10 plus petits intercalaires. J'ai calculé aussi le taux des R40 discontinus R40x% sur le total R40, il est du même ordre de grandeur que celui des Sx+% et Rx+% calculés sur la totalité des intercalaires, 26% contre respectivement 31 et 37 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser.
      - En conclusion:
      • Les intercalaires tRNA-tRNA, à l’intérieur des blocs à tRNA, avec rRNA ou non, sont toujours continus. Ils peuvent être discontinus dans les blocs sans rRNA, jusqu'à 1%, sous la forme positive Rx+ seule et sont souvent très longs. Ceci suggèrent qu'ils sont plutôt le résultat des remaniements du chromosome que du processus de la formation du bloc.
      • Les intercalaires tRNA-cds, en contact avec les gènes protéiques, orientent les blocs à tRNAs seuls. L'orientation n'est pas définie par la disposition des tRNA dans le bloc comme le font les rRNAs dans les blocs les contenant, mais par la difficulté (faible fréquence) à réaliser des intercalaires courts d'un côté et la facilité à en réaliser des longs de l'autre côté (forte fréquence). La différence avec les blocs à rRNA, comme je le montrerai plus loin, c'est que le côté long varie peu en longueur pour ceux-ci alors qu'il est très variable pour les blocs sans rRNA.
    2. Comparaison entre les intercalaires cds-cds négatifs continus et discontinus:
      - Comparaison avec les positifs: quand on voit les minima des négatifs on a l'impression que leur étendue est très grande, mais en fait les négatifs ont des intercalaires inférieures à 32 pbs dans 95% des cas alors que les positifs ne dépassent pas les 27% dans la plage 1-40 pbs. Voir ici les comparaisons positifs-négatifs dans le 1er sous-tableau. Les négatifs supérieurs à 140 pbs ne représentent que 0.2% du total, 21/10788, et ne concernent que 2 génomes dans mon étude de 21, bsu et eco. Voir en fin de chapitre la liste des intercalaires négatifs supérieurs à 140 pbs.
      - Comparaison entre continus et discontinus: Maintenant, quand on voit les minima des négatifs entre continus et discontinus (voir la comparaison dans les colonnes min et min' dans le 2ème sous-tableau et leurs taux dans le 1er sous-tableau ainsi que leur liste en fin de chapitre), on a l'impression qu'ils sont similaires, 9 de plus de 360 pbs chez les continus et 5 chez les discontinus. Et même les négatifs seraient plus fréquents puisque le rapport c-/x- est de 2 alors qu'il est de 10 pour le total des négatifs. Or des recouvrements longs pour les discontinus me posaient problème: à l'instar d'un tRNA où son complément n'est pas un tRNA à cause de la dissymétrie des tRNAs, je pensais que le complément d'un cds ne pouvait être que rarement un cds et que s'il y avait recouvrement il ne pourrait être que court. C'est ce qui expliquerait par ailleurs la rareté des discontinus.
      - Aussi j'ai étudié les recouvrements réels chez les continus et les discontinus. Ce qui en ressort c'est que les intercalaires longs ont un recouvrement total et les courts ont un recouvrement partiel. Et ceci que les intercalaires soient continus ou non. Et il y a ainsi 2 intercalaires discontinus à recouvrement total long, 297 et 486 pbs, et un 3ème discontinu partiel de 210 pbs. Sur 6 discontinus les autres ont un recouvrement inférieur à 75 pbs. Le taux des recouvrements longs pour les discontinus parait donc très élevé, 33 à 50%. Mais sur les 10788 de négatifs ils sont extrêmement rares 2 à 3 pour 10 000 intercalaires. On pourrait suggérer que ce sont des accidents dus aux remaniements du chromosome mais l'étude des fréquences de tous les négatifs qui suit montre que le processus sous-tendu par les intercalaires continus s'apparente au processus de traduction et de transcription basé sur une périodicité de 3 bases ou triplet qui défini les aas, et que le processus sous-tendus par les intercalaires discontinus s'apparente au processus de réparation qui ne concerne que les propriétés physiques de l'ADN double brin mais qui néanmoins fait apparaître une périodicité de 3 paires de bases différente de celle ces continus.
    3. Les fréquences des intercalaires négatifs cds-cds, c- et x-
      - Les c- reproduisent dans l'ADN le processus traductionnel des triplets mais décalés.
      - Les x- mettent en évidence 2 processus de réparation, un qui reproduit partiellement le processus traductionnel des triplets auquel se superpose le 2ème par des triplets décalés
  • Les intercalaires cds-cds négatifs inférieurs à -140
Les intercalaires cds-cds négatifs inférieurs à -140 pbs: continu, le chevauchement se fait sur le même brin et comp' pour discontinu, le chevauchement se fait sur 2 brins.
continu		continu		comp’
eco		bsu		eco
-2400		-7616		-723
-2130		-500		-530
-1295		-492		-527
-897		-164		-436
-729		-154		-210
-448		-143		-
-242		-		bsu
-212		-		-361
-153		-		-
Rareté des tRNA-cds négatifs et petits positifs[modifier | modifier le wikicode]
  • Lien tableur: Rareté des tRNA-cds négatifs et petits positifs.
  • Légende:
    1. Les tRNA-cds négatifs: Les décomptes et la dénomination du tRNA sont faits à partir des "génome"-opérons quand ils ont des cds sinon à partir de "génome"-autres-intercalaires. Aux 21 génomes étudiés avec les discontinuités (comp') s'ajoute 22 autres génomes avec un total de 11 intercalaires négatifs. Ces derniers sont en gras et le total de tRNA-cds négatifs, 1407 pbs, est reporté dans le tableur (lien ci-dessus). Le taux des négatifs passe donc à 19 pour un total de 2688 intercalaires (1407 plus ceux des 21 génomes, 1281), soit 0.7%, 2 fois plus faible que les discontinus positifs entre tRNA dans les blocs sans rRNA.
      - Note: le rapport c-/x- maintenant est proche de l'unité, 9c- / 10x- pour 43 génomes. Voir les 1ères estimations avec les 21 génomes.Ce rapport et la rareté des tRNA-cds négatif suggèrent que le processus est aléatoire avec une probabilité de 0.5.
      - tga*, cette adresse n'apparaît pas dans spl opérons du 30.6.19 mais apparaît dans fréquences de spl du 24.9.20 dont est issu spl-autres-intercalaires.
      - blo*, dans blo opérons il n'y a pas de cds. Voir dans blo autres intercalaires qui est du 15.10.20 (voir blo-fréquences) alors que blo-opérons est du 30.6.19.
    2. Les tRNA-cds positifs: les génomes gen pointent sur les intercalaires des tRNA-cds des 21 étudiés pour les discontinuités.
      - S40% voir les intercalaires cds-cds 1-40 colonne 1-40% du 1er tableau, pourcentage des Sx+ sur le total, (100*Sx+ / S+).
      - total, total des tRNA-cds du génome reporté dans l'encadré au-dessus de son tableau.
      - R40 est le total des intercalaires positifs de 1 à 40 pbs des 2 parties du tableau de chaque génome (gen): continu pour Rc+ et comp' ou discontinu pour Rx+. Le pourcentage du total des Rx+, Rx+%, égale à (100*Rx+ / R+), est le même que celui des Sx+% et Rx+% calculés sur le total, soit 100*33/129 = 25,6 contre respectivement 31 et 36 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser. En effet quand je compare les moyennes (tableau tRNA-cds2) des intercalaires positifs des cds-cds à celles des tRNA-cds ces dernières sont toujours et nettement plus élevées que les 1ères. Et quand j'oriente les blocs de tRNA sans rRNA les grands sont donc normalement tous plus élevés que cds-cds mais pour les petits 7 génomes à égalité ou presque (spl et bsu), 7 sont nettement plus petits ( différence supérieure à 40%) 7 moyennement petits (différence de 16 à 40%).
      - R40%, pourcentage des 1-40 par rapport au total des tRNA-cds;   taux, S40% / R40%.
      - Note:
      + les taux de cbn et bsu sont calculés avec R40=1. Quand j'enlève pub le taux du total passe à 3.6 au lieu de 2.9 et le pourcentage à 7.5 pour un cumulé de 1213 et un R40 total de 91.
      + Ce tableau est à comparer aux moyennes des tRNA-cds.
génomes. Rareté des tRNA-cds négatifs et des petits positifs
génomes. Les tRNA-cds négatifs
genome adresse tRNA inter
Intercalaire continu nc
vha chrII 1842556 ctc -36
amed 779541 caa -21
oan 1945985 aag -38
oan 34057 gcc -40
ppm plasm 7953 gac -24
hmo 2497882 gtg -10
mfi 314088 caa -1
pmg 1600898 gta -30
blo* 207388 tgg -17
Intercalaire discontinu xc comp’
rpm 1941413 agc -30
oan 1639492 atgj -44
aua 1350534 cgt -30
npu 3439846 gca -19
mba 1315521 cgc -12
spl 552630 tga* -23
myr 1926118 tta -38
ase 1249593 aag -12
blo* 440078 aac -39
blo* 1424907 gag -8
total 19
génomes. Les poisitifs de 1 à 40
gen S40% total R40 R40% taux Rc+ Rx+
abra 37,3 41 2 4,9 7,6 2
ade 32,6 69 8 11,6 2,8 7 1
afn 35,8 53 4 7,5 4,7 4
ant 45,1 34 5 14,7 3,1 3 2
ase 23,9 100 14 14,0 1,7 11 3
blo 19,1 75 1 1,3 14,4 1
bsu 34,6 28 0 0 9,7
cbei 19,0 47 3 6,4 3,0 1 2
cbn 29,3 40 0 0 11,7
cvi 26,9 78 8 10,3 2,6 8
eco 29,1 65 4 6,2 4,7 1 3
mba 13,3 88 4 4,5 2,9 2 2
mja 39,4 43 5 11,6 3,4 5
myr 30,8 78 7 9,0 3,4 5 2
pmg 42,9 65 11 16,9 2,5 8 3
pmq 19,1 42 1 2,4 8,0 1
pub 59,6 48 27 56,3 1,1 18 9
rru 26,1 83 3 3,6 7,2 1 2
rtb 20,3 56 6 10,7 1,9 6
scc 31,0 67 4 6,0 5,2 2 2
spl 20,0 61 1 1,6 12,2 1
total 27,1 1261 118 9,4 2,9 86 32
Les cds-cds positif-négatif[modifier | modifier le wikicode]
  • Lien tableur: Les cds-cds positif-négatif
  • Légende:
    1. Les intercalaires cds-cds positifs de 1 à 40: Les liens des génomes gen pointent sur les fréquences des intercalaires cds-cds.
      - <0%: intercalaires négatifs / total des intercalaires cds-cds, extrait du sous-tableau génomes3. De même total est extrait du sous-tableau génomes2.
      - <1 reste: sont extraits du tableau des fréquences de chaque génome (lien dans la colonne gen de gauche) et concernent la colonne frequence1. <1 est la somme des fréquences (-1) et (0), et reste est à la fin de la colonne. Leur somme est soustraite du total pour donner le total des intercalaires positifs (>0).
      - >0: total des intercalaires positifs, égale à total - <1.
      - 1-40 et 1-40%: 1-40, le total des intercalaires positifs de 1 à 40 est égale à >0 - reste et son taux, 1-40%, à 1-40 / >0.
      - 1-32%: taux des négatifs de -1 à -32, extrait du tableau tRNA-cds02, après avoir retranché la colonne reste32% de 100%.
      - Note: Tous les taux calculés pour chaque génome (lien à la colonne gen) sont faits par rapport au total des intercalaires cds-cds. Dans le tableau tRNA-cds02 reste32% est calculé par rapport au total des négatifs seuls. Pour ne pas refaire tous les calculs des intercalaires positifs de 1 à 32 la comparaison de 1-40% à 1-32% me paraît pertinente puisque leur différence est très forte, que la différence des effectifs est très faible (40 contre 32) et que leurs calculs sont faits de la même façon, par rapports à leur totaux.
    2. Les intercalaires continu-discontinu: voir ici la méthode de ces décomptes.
      - S R a pour intercalaires cds-cds, tRNA-cds, autres
      - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S.
      - total, total de tous les gènes
      - nc, intercalaires entre 2 gènes non marqués CDS
      - lien a, vers autres intercalaires, lien S vers les décomptes sous forme de nombres séparés par des points virgules à remplacer lors de la copie vers le tableur.
    3. tRNA-cds positifs: mêmes notations que précédemment. Les liens des génomes gen pointent sur les intercalaires tRNA-cds. Les génomes avec * (ase*) ont des R- contenus dans les R+ pour retrouver les totaux de tRNA-cds01 précédents.
      - attention correction pour eco, 37 28 et non 37 27. corrigée ici.
génomes. Les intercalaires cds-cds, comparaison positif négatif.
gen1. Les intercalaires cds-cds positifs de 1 à 40
gen <0 % <1 reste total 1-40 >0 1-40% 1-32%
abra 25 430 776 1667 461 1237 37 95
ade 18 844 2440 4464 1180 3620 33 95
afn 15 318 1104 2038 616 1720 36 93
ant 25 827 1246 3095 1022 2268 45 98
ase 20 1687 4956 8197 1554 6510 24 92
blo 13 231 1246 1772 295 1541 19 97
bsu 14 635 2341 4213 1237 3578 35 91
cbei 7 419 4214 5622 989 5203 19 94
cbn 7 187 1628 2491 676 2304 29 97
cvi 18 771 2566 4282 945 3511 27 97
eco 18 767 2310 4024 947 3257 29 93
mba 8 351 3113 3943 479 3592 13 92
mja 13 240 902 1729 587 1489 39 92
myr 9 320 2239 3555 996 3235 31 96
pmg 14 298 857 1800 645 1502 43 95
pmq 11 826 5173 7223 1224 6397 19 94
pub 36 544 308 1307 455 763 60 97
rru 18 696 2285 3786 805 3090 26 95
rtb 13 107 547 793 139 686 20 93
scc 19 355 1001 1805 449 1450 31 96
spl 10 444 3017 4213 752 3769 20 98
total 11297 72019 16453 60722 27 94.5
écart 27±7 95±3
gen2. Les intercalaires cds-cds, continu - discontinu
lien a total nc ac ax lien S Sc- Sx- Sx-% Sc+ Sx+ Sx+% S-% total S
abra 1795 37 78 13 abra 409 8 1.9 979 271 22 25 1667
ade 4569 22 57 26 ade 713 102 12.5 2339 1310 36 18 4464
afn 2192 44 88 22 afn 303 4 1.3 1385 346 20 15 2038
ant 3190 47 37 11 ant 679 83 10.9 1702 631 27 25 3095
ase 8380 65 69 49 ase 1300 352 21.3 3866 2679 41 20 8197
blo 1900 24 71 33 blo 210 18 7.9 1045 499 32 13 1772
bsu 4537 99 205 20 bsu 573 35 5.8 2515 1090 30 14 4213
cbei 5814 106 68 18 cbei 390 10 2.5 4010 1212 23 7 5622
cbn 2638 87 45 15 cbn 167 9 5.1 1773 542 23 7 2491
cvi 4487 79 85 41 cvi 687 69 9.1 2424 1102 31 18 4282
eco 4700 65 580 31 eco 644 94 12.7 2211 1075 33 18 4024
mba 4071 22 54 52 mba 307 22 6.7 2381 1233 34 8 3943
mja 1828 21 41 37 mja 163 56 25.6 1071 439 29 13 1729
myr 3754 87 69 43 myr 282 20 6.6 2274 979 30 8 3555
pmg 1884 v5 45 34 pmg 158 95 37.5 950 597 39 14 1800
pmq 7479 185 51 20 pmq 753 42 5.3 4543 1885 29 11 7223
pub 1386 7 44 28 pub 381 92 19.5 599 235 28 36 1307
rru 3946 23 79 58 rru 614 69 10.1 2140 963 31 18 3786
rtb 868 5 51 19 rtb 98 4 3.9 506 185 27 13 793
scc 1909 20 47 37 scc 319 28 8.1 1001 457 31 19 1805
spl 4466 141 70 42 spl 414 12 2.8 2486 1301 34 10 4213
total 75793 1191 1934 649 9564 1224 11.3 42200 19031 31 15 72019
écart 10±9 30±5 16±7
gen3. tRNA-cds positifs
gen Rc+ Rx+ Rx%
abra 31 10 24
ade 47 22 32
afn 43 10 19
ant 29 5 15
ase* 60 41 41
blo* 52 26 33
bsu 12 16 57
cbei 35 12 26
cbn 30 10 25
cvi 52 26 33
eco 37 28 43
mba* 48 42 47
mja 25 18 42
myr* 48 31 39
pmg* 41 26 39
pmq 27 15 36
pub 28 22 44
rru 49 34 41
rtb 40 16 29
scc 35 32 48
spl* 39 23 37
total 808 465 37
écart 37±7
Récapitulatif des taux discontinu/continu[modifier | modifier le wikicode]
  • Lien tableur: Récapitulatif des taux discontinu/continu.
  • Légende: >0, intercalaires positifs zéro compris. <0, intercalaires négatifs
    - S R a nc pour intercalaires cds-cds, tRNA-cds, autres cds et non cds.
    - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S
    - Liens: S RS t1,  Scx- RS t2,  Scx+ S+ t2,  nc,acx a t2,  Rcx R+ t3  et  R-. (t1 t2 t3 pour les sous-tableaux des liens).
    - Voir les tRNA-cds négatifs, Rcx-, dans Notes.
  • Note: Les autres intercalaires contiennent ceux des tRNA-tRNA qui ne produisent pas de discontinuités. En enlevant ces intercalaires, environ 500 (spl 133, bsu 60, pmq 138, cbn 22, cbei 140) j'arrive à un rapport ax% de 463/1500 soit 31%, celui de Sx+%. En plus eco contient 129 pseudo-gènes comptés dans autres intercalaires et qui se comportent comme les cds S+. Donc sans eco et les tRNAs le reste doit avoir un rapport ax% semblable à celui des Sx%.
Récapitulatif continu - discontinu
>0 <0 total taux <0
tRNA-cds tRNA-cds
Rc+ Rx+ Rx+ % Rc- Rx- Rx- % R- %
808 465 36,5 2 6 75 1 281 0,6
cds-cds cds-cds
Sc+ Sx+ Sx+ % Sc- Sx- Sx- % S- %
42 200 19 031 31,08 9 564 1 224 11,3 72 019 15,0
nc ac ax ax% a% intercal Sx%
1 191 1 934 649 25,1 3,4 75 793 28,1
Les taux de discontinus par classe génomique[modifier | modifier le wikicode]
génomes. Les taux de discontinus par classe génomique
gen Sx-% Sx+% S-% Rx+% ax%
I
abra 1,4 22 25 24 6
ant 10,9 27 25 15 8
mja 24,2 30 13 42 36
pmg 36,0 39 14 39 41
pub 19,0 29 36 44 45
II
ade 11,9 36 18 32 13
afn 1,3 20 15 19 11
ase 19,3 42 20 41 11
bsu 4,9 30 14 57 16
cbn 4,5 23 7 25 5
cvi 8,2 32 18 33 18
eco 12,3 33 18 43 35
rru 10,1 31 18 41 33
spl 2,8 34 10 37 11
III
blo 7,0 32 13 33 18
cbei 2,8 23 7 26 6
mba 5,5 34 8 47 28
myr 6,6 30 8 39 9
pmq 4,3 29 11 36 4
rtb 2,9 27 13 29 25
scc 7,8 32 19 48 18
total 10,6 31 15 37 19
écart 10±6 31±4 15±5 37±7 19±10
Les fréquences des intercalaires négatifs cds-cds[modifier | modifier le wikicode]
Les fréquences des intercalaires négatifs cds-cds. Tableau[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Voir aussi les détails à la suite du tableau dans le tableur.
  • Légende: inter, intercalaire; comp', pour discontinu.
    - nc, nombre de continus; nc%, proportion par rapport au total des continus; pc%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des continus.
    - xc, nombre de discontinus; xc%, proportion par rapport au total des discontinus; px%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des discontinus.
    - Le 1er pas de 3 intercalaires comprend les fréquences, inter, 6 7 8. Le rapport des continus est alors pc%=(4 + 139)/945=0.15. Pour les discontinus px%=(35+19)/51=1.06.
    - diff différence entre la fréquence 6 et 7.
cds-cds. Les fréquences des intercalaires négatifs cds-cds
continu comp’
inter nc nc% pc% nx nx% px% diff
-1 1671 17.5 0 0
-2 4 0.0 40 3.3
-3 5 0.1 0 0
-4 4476 46.8 0.38 410 33.5 0.10
-5 9 0.1 3 0.2
-6 4 0.0 35 2.9 16
-7 139 1.5 19 1.6
-8 945 9.9 0.15 51 4.2 1.06
-9 3 0.0 25 2.0 14
-10 93 1.0 11 0.9
-11 498 5.2 0.19 52 4.3 0.69
-12 2 0.0 23 1.9 8
-13 94 1.0 15 1.2
-14 329 3.4 0.29 45 3.7 0.84
-15 1 0.0 25 2.0 12
-16 58 0.6 13 1.1
-17 235 2.5 0.25 42 3.4 0.90
-18 5 0.1 13 1.1 1
-19 43 0.4 12 1.0
-20 162 1.7 0.30 24 2.0 1.04
-21 0 0 11 0.9 3
-22 22 0.2 8 0.7
-23 107 1.1 0.21 20 1.6 0.95
-24 1 0.0 19 1.6 8
-25 34 0.4 11 0.9
-26 101 1.1 0.35 21 1.7 1.43
-27 2 0.0 6 0.5 -2
-28 19 0.2 8 0.7
-29 61 0.6 0.34 10 0.8 1.40
-30 0 0 5 0.4 -3
-31 16 0.2 8 0.7
-32 45 0.5 0.36 18 1.5 0.72
-33 0 0 3 0.2 -4
-34 15 0.2 7 0.6
-35 35 0.4 0.43 19 1.6 0.53
-36 0 0 3 0.2 0
-37 9 0.1 3 0.2
-38 31 0.3 0.29 12 1.0 0.50
-39 0 0 3 0.2 -4
-40 5 0.1 7 0.6
-41 34 0.4 0.15 8 0.7 1.25
-42 0 0 4 0.3 -2
-43 16 0.2 6 0.5
-44 24 0.3 0.67 4 0.3 2.50
-45 0 0 2 0.2 -1
-46 5 0.1 3 0.2
-47 11 0.1 0.45 4 0.3 1.25
-48 0 0 2 0.2 -2
-49 11 0.1 4 0.3
-50 9 0.1 1.22 6 0.5 1.00
reste 169 1.8 120 9.8
total 9558 100.0 1223 100.0
  • Totaux: voir les restes des cds-cds négatifs (14.8.21).
14.8.21	c50	creste	ctotal	x50	xreste	x80	xtotal
6 mod3	18	2	20	179	14	16	209
7 mod3	579	65	644	135	12	19	166
8 mod3	2627	87	2714	336	19	34	389
autres	-	15	15	-	6	-	6
1 à 5			6165				453
total			9558				1223
  • Notes:
    - Exception pour les discontinus: si les continus ont des pas avec les 2 1ères fréquences toujours très faibles par rapport à la 3ème fréquence, chez les discontinus les 2 1ères sont toujours plus faibles que la 3ème mais leur somme peut être supérieure à elle, ce qui donne des px% supérieurs à l'unité et un seul cas (fréquence 44) où la 3ème n'est pas la plus grande. Le dernier pas des continus, 48 49 50, 49 et 50 sont égaux.
    - Les fréquences 1 2 3 4 5: Les 2 lots continu et comp' ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 34% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement pour les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec le 1er pas (17% contre 10%) et la fréquence 2 est quasiment nulle et portée par un seul génome, bsu (effectif de 4 en gras); la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec le 1er pas avec un effectif de 40 contre 47.
    - Les restes après la fréquence 50: D'après la 1ère note la progression des continus est plus rapide que celle des comp' ce qui fait que les restes sont 5 fois plus élevés chez les comp' 9,6% contre 1.9% pour les continu. Mais la progression s'annule presque au-delà de la fréquence 100, voir le tableau des caractéristiques globales de ces 2 lots (tRNA-cds02 les colonnes des minima).
    - Chez les discontinus une seconde périodicité apparaît avec les -8 (modulo 3): les 3 1ères sont constantes entre 44 et 48 puis 39, suivent 3 autres de 17 à 22 puis 10, suivent 3 autres de 12 à 17 puis 8 et enfin la queue qui diminue lentement avec des 3 et 4, dépassant rarement 7 (voir la suite dans -80).
    - Les courbes de progression de chaque fréquence modulo 3 sont des exponentielles.
  • périodicité supérieure des discontinus, modulo 9.
-6	35 25 23	-7	19 11 15	-8	51 52 45	-8	51 52 45   42
-15	25 13 11	-16	13 12 8		-17	42 24 20	-20	24 20 21   10
-24	19 6 5		-25	11 8 8		-26	21 10 18	-32	18 19 12
-33	3 3 3		-34	7 3 7		-35	19 12 8		-41	8 4 4
-42	4 2 2		-43	6 3 4		-44	4 4 6		-50	6 3 5
-51	5 1 2		-52	1 2 5		-53	4 5 7		-59	7 3 6
-60	1 1 1		-61	2 1 4		-62	3 6 3		-68	3 1 3
-69	2 2 1		-70	1 1 0		-71	1 3 0		-77	0 2 ?
-78	0 ? ?		-79	2 ? ?		-80	2 ? ?		-86	-
Les fréquences des intercalaires négatifs cds-cds. Diagrammes[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Diagrammes. Voir aussi les détails à la suite du tableau dans le tableur.
  • Légende:
    - droite exp p4 coefficient de détermination R2 de la courbe de tendance, respectivement, d'une droite, de la fonction exponentielle, du polynôme de d° 4.
    - Paramètre des courbes, -a pente b constante pour la droite; -x exposant multiplié par 1000, x' constante pour l'exponentiel; w constante du polynôme.
    - fréquence: 6 6' 6" pour les fréquences -6 modulo 3; 7 7' 7" pour -7 modulo 3; et 8 8' 8" pour -8 modulo 3. Les diagrammes sont faits avec la valeur absolue de la fréquence.
    - abscisse modulo 3, abscisse 1: abscisse des diagrammes pour modulo 3 de fréquence ci-dessus, et abscisse modulo 1 de 1 à 15 pour les fréquences jusqu'à 50 et de 1 à 25 pour les fréquences jusqu'à 80. -x1 et x'1 pour l'exponentielle en abscisse1, à comparer avec les exponentielles des génomes.
    - moyennes: pour m e m/e respectivement moyenne écart type et leur rapport des fréquences modulo 3.
    - continu 50 et discontinu 50 80, diagrammes pour les cds-cds continus jusqu'à la fréquence 50 et les cds-cds discontinus jusqu'aux fréquences 50 et 80.
  • Note: Les fréquences des continus 8 et 7 progressent rapidement par rapport aux discontinus qui s'étalent sur une plus grande plage. Aussi les diagrammes sur 80 fréquences améliorent les paramètres des courbes des discontinus. En effet les R2 des droites 6" et 8" sont nettement inférieures à ceux de leurs exponentielles avec les facteurs x1 élevés quoiqu'ils aient diminués par rapport à la série -50. Par contre pour 7" les R2 des 2 courbes sont identiques ce qui milite pour une courbe de tendance linéaire quoique le facteur -x1 et le m/e soient supérieurs à ceux des génomes en discontinu.
cds-cds. Diagrammes des fréquences des intercalaires négatifs cds-cds
R2 abscisses modulo 3 abscisses 1 moyennes
fréquence droite exp p4 -a b -x x’ w -x1 x’1 m e m/e
continu 50
6 537 190 585 0,1 4 36 4 6 107 3.5 1.2 1.66 0.72
7 735 855 971 2,6 111 72 176 245 215 132 38.6 40.2 0.96
8 608 973 987 14,8 603 100 1389 2611 301 841 175.1 253.9 0.69
discontinu 50
6’ 820 912 913 0.7 32 72 54 45 217 43 11.9 10.8 1.11
7’ 806 779 835 0.3 17 36 22 26 109 19 9.0 4.5 1.99
8’ 857 888 933 1.2 56 61 97 56 184 71 22.4 17.0 1.32
discontinu 80
6” 667 834 931 0.4 23 51 32 45 152 28 7.8 9.76 0.80
7” 806 769 887 0.2 15 38 22 21 115 19 6.2 5.04 1.22
8” 739 874 949 0.6 42 48 70 80 144 55 14.8 16.14 0.92
Les intercalaires négatifs cds-cds, recouvrements[modifier | modifier le wikicode]
  • Lien tableur: Les intercalaires négatifs cds-cds, recouvrements.
  • Légende:
    - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
    - Les opérations:
    + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
    + shift, différence entre les extrémités des 2 cds, add22-add12. Quand le shift est nul (à droite ou à gauche) il est coloré en jaune.
    + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si le shift est nul (à droite ou à gauche) le recouvrement d'un des 2 cds est total.
  • Note:
    - Donc la longueur du recouvrement ne peut pas être supérieure à l'intercalaire.
    - Tous les longs intercalaires ont un recouvrement total. Sur les 21 intercalaires de longueur supérieure à 140 pbs, 17 ont un recouvrement total dont 16 ont des intercalaires supérieurs à 212 pbs et 4 ont un recouvrement partiel avec des intercalaires inférieurs à 210 pbs. J'ai étudié plusieurs cds-cds négatifs de plus en plus courts, inférieurs à 140 pbs, que je n'ai pas représentés ici, et à part le -127 de bsu tous se sont révélés des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
    - Les continus ont de longs recouvrements allant jusqu'à 2400 et ne descendent pas en dessous de 140. 9 sur 15 génomes ont plus de 200 pbs de recouvrement.
    - Les discontinus, à l'inverse, ne dépassent pas les 500 pbs de recouvrement et 5 sur 8 sont en dessous de 100 pbs. 3 sur 8 génomes ont plus de 200 pbs.
cds-cds0. Les intercalaires cds-cds négatifs, les recouvrements.
cds-cds01. Recouvrements chez bsu
intercal add1 add2 shift couvre
intercalaire continu
-7616 387744 398495 -7475 141
390880 391020
-500 3717238 3717825 -20 480
3717326 3717805
-492 2909520 2910011 735 492
2909520 2910746
-164 1252815 1253021 52 164
1252858 1253073
-154 2466721 2467953 209 154
2467800 2468162
-143 1916663 1917097 205 143
1916955 1917302
intercalaire discontinu
-361 2601528 2603339 -64 297
2602979 2603275
-127 3666841 3667059 -43 84
3666933 3667016
-93 2652993 2653463 1410 93
2653371 2654873
cds-cds02. Recouvrements chez eco
intercal add1 add2 shift couvre
intercalaire continu
-2400 164730 167264 0 2400
164865 167264
-2130 2731600 2733729 444 2130
2731600 2734173
-1295 492092 493386 637 1295
492092 494023
-897 4577958 4578854 483 897
4577958 4579337
-729 1179520 1180359 0 729
1179631 1180359
-448 1639030 1639527 -193 255
1639080 1639334
-242 578107 578568 -59 183
578327 578509
-212 508875 511379 0 212
511168 511379
-153 16751 16903 57 153
16751 16960
intercalaire discontinu
-723 3111128 3111988 -663 60
3111266 3111325
-530 3838248 3839171 -470 60
3838642 3838701
-527 10643 11356 -41 486
10830 11315
-436 3796948 3798207 -361 75
3797772 3797846
-210 3993739 3994059 276 210
3993850 3994335
Classement des génomes par les fréquences des cds-cds négatifs discontinus[modifier | modifier le wikicode]
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs discontinus.
  • Légende:
    - couleurs,
    + Les colonnes en jaunes: rouge pour les rapports non significatifs, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes et soulignées pour les extrêmes.
    + Le classement, ordre décroissant de x6 x7 x8: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 x7.
    - clde, ordre des génomes en 9 forts et 12 faibles par rapport à x‰. Ils sont séparés par la ligne très grasse.
    - r80, total des effectifs des fréquences négatives supérieures à 80.
    - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
    - "6 "7 "8, somme des effectifs des fréquences -6 -7 -8 modulo 3 jusqu'à -80.
    - "p pour périodique, somme des 3 modulo 3, "6 "7 "8
    - "80, somme des effectifs de ("5 "6 "7 "8)
    - cds, total des intercalaires cds-cds décomptés pour un génome, gen.
    -x5, % par rapport au total ("80 + r80).
    - x6 x7 x8, pourcentage d'un modulo 3 par rapport au total "p des 3 modulo 3, "6 "7 "8.
    - x‰, pour 1000 cds-cds, somme de "80 et r80 divisée par la colonne cds
cds-cds-x. Intercalaires négatifs discontinus. Classement
clde gen r80 “6 “7 “8 “p x6 x7 x8 x‰ cds “5 x5 “80
1 pub 0 17 3 25 45 38 7 56 70.4 1307 47 51 92
2 pmg 0 16 9 30 55 29 16 55 48.9 1800 33 38 88
3 ase 17 48 55 123 226 21 24 54 42.9 8197 109 31 335
4 mja 0 19 3 8 30 63 10 27 32.4 1730 26 46 56
5 ant 0 20 5 18 43 47 12 42 26.8 3095 40 48 83
6 eco 10 15 6 18 39 38 15 46 23.4 4024 45 48 84
7 ade 9 4 17 36 57 7 30 63 22.8 4464 36 35 93
8 rru 5 6 13 22 41 15 32 54 19.5 3786 28 38 69
9 cvi 1 7 16 20 43 16 37 47 16.1 4282 25 36 68
10 scc 1 9 3 12 24 38 13 50 15.5 1805 3 11 27
11 blo 2 1 4 8 13 8 31 62 10.2 1772 3 17 16
12 bsu 4 5 7 5 17 29 41 29 8.3 4215 14 40 31
13 myr 0 5 1 5 11 45 9 45 5.6 3555 9 45 20
14 pmq 1 8 5 14 27 30 19 52 5.8 7223 14 33 41
15 mba 0 3 3 10 16 19 19 63 5.6 3943 6 27 22
16 rtb 0 0 0 3 3 0 0 100 5.0 793 1 25 4
17 abra 0 3 0 3 6 50 0 50 4.8 1667 2 25 8
18 cbn 0 5 0 4 9 56 0 44 3.6 2491 0 0 9
19 spl 0 1 1 3 5 20 20 60 2.8 4213 7 58 12
20 cbei 0 2 2 3 7 29 29 43 2.0 5622 4 36 11
21 afn 1 1 1 0 2 50 50 0 2.0 2039 1 25 3
total 51 195 154 370 719 27 21 51 17.0 72023 453 37 1172
  • Note: Le tableau est construit à partir du tableau détaillé dans le tableur ainsi que les restes des cds-cds négatifs (14.8.21).
    - Classement: Le classement est fait suivant l'ordre décroissant de x6 x7 x8. Il y a ainsi 3 catégories: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 avec x7 quelconque. Chaque catégorie est divisée en x‰ fort, faible et rouge ou incetain. Ainsi le classement indique la couleur, l'ordre, l'effectif de la sous-catégorie et la fourchette du taux de x6.
    - Les forts x‰: Le taux de négatifs discontinus x‰ dépasse pour 8/9 le taux du total, 17.0 et le 9ème fait 16.1‰; 4 taux sont les plus élevés des 21, dépassant les 30‰. Le total de cds ne les impacte pas, il y a 5 grands cds pour 4 petits (inférieurs à 3100). Le taux des fréquences 1-5 varie peu et est très élevé, entre 31 et 51%. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds.
    1. bleu ordre x6 x8, deux, 47-64:   mja 32‰   1730  ant 27‰   3095
    2. v.clair ordre x8 x6 x7, trois, 29-38:   pub 70‰   1 307   pmg 49‰   1 800   eco 23‰   4 024
    3. v.foncé ordre x8 x7 x6, quatre, 7-21:   ase 43‰   8 197   ade 23‰   4 464   rru 19‰   3 786   cvi 16‰   4 282
    - Les faibles x‰: Le taux de négatifs discontinus x‰ ne dépasse pas 7‰ pour 10/12 d'entre eux; blo fait 10‰ et seul scc égale celui du fort cvi; j'ai gardé scc parmi les faibles à cause du faible taux des fréquences 1-5. Le total de cds ne les impacte pas, il y a 6 grands cds pour 6 petits (inférieurs à 2 500). Le taux des fréquences 1-5 varie beaucoup, est impacté par le total de cds; les 6 taux 1-5 les plus petits ont un cds inférieur à 2500; tandis que 5 grands ont un cds supérieur à 3555 et rtb est ambigu du à sa faiblesse en cds. Le taux des "6 par rapport au total des "p n'est impacté ni par le total cds ni par le taux des 1-5. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
    1. v.clair ordre x8 x6 x7, trois, 30-45:   scc 15‰   1 805-11   myr 6‰   3 555-45   pmq 6‰   7 223-33
    2. v.foncé ordre x8 x7 x6, cinq, 8-29:   blo 10‰   1 772-17   mba 6‰   3 943-27   spl 3‰   4 213-58   cbei 2‰   5 622-36   bsu 8‰   4 215-40
    - Les rouges ou incertains, en x‰: Les effectifs sont très faibles d'où les ? pour zéro. Leurs cds ne dépassent pas 2500. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par l'effectif des 1-5.
    1. bleu ordre x6 x8, trois, 50-56:   afn 2‰   2 039-1   abra 5‰   1 667-2   cbn 4‰   2 491-?
    2. v.clair ordre x8 x6 x7, un ?, 0:   rtb 5‰   793-1
  • Coefficient de détermination, moyenne et corrélation des taux des périodiques par rapport au total des cds-cds. Les colonnes ‰. (pour 10 000) sont à faire d'après le tableau ci-joint extrait des discontinus et des continus, x6‰. pour "6/cds des discontinus et c7‰. pour "7/cds pour les continus par exemple. Ainsi le coefficient de détermination R2 (ici multiplié par 1000 et correspond à la progression croissante de 1 à 21 des taux) est nettement à l'avantage d'une exponentielle chez les discontinus avec une différence minimale de 106 points pour x7‰. et plus de 200 points pour les 4 autres; la fonction exponentielle est très prononcée avec une constante de l'exposant a, b*exp(-ax), proche de 0.2. Les variances très élevées des taux vont dans le même sens avec des rapports moyenne/écartype, m/e, inférieurs à l'unité. Chez les continus l'avantage vers la linéarité est très prononcé en comparaison avec les discontinus: R2 linéaire supérieur à celui de l'exponentielle pour c7‰. et c5‰. avec le coefficient a 4 fois inférieur pour c7‰. et 2 fois inférieur pour c5‰.; pour c8‰. et c‰. très grande ressemblance avec x8‰. et x‰. pour le R2 mais les coefficients a sont analogues à ceux de c7‰. et c5‰. militant plutôt pour la linéarité car plus a tend vers zéro plus l'exponentielle tend vers 1+ax [63]; enfin les très faibles variances des taux, m/e entre 1.7 et 3.9 vont dans le même sens. On retrouve ces comportements de l'exponentielle avec les fréquences des intercalaires où -x1 et x'1 correspondent à -a et b avec les mêmes abscisses que les génomes après tri (suite de 1 à 15 ou 25). Cependant le classement des continus en fonction de c‰, pour 1000, (voir cds-cds-cx) avait montré au moins 4 groupes dont un plateau et 2 pentes de progression élevées, une de 7 et l'autre de 37 (voir note) et apparemment cette hétérogénéité est supportée par les c5‰ (pas de classe avec un intrus) et c8‰ (une seule avec blo comme intrus) mais pas par c7‰ (les 4 classes ont au moins un intrus, dans l'ordre, cbei mja (ade eco) abra ). Enfin les fortes corrélations entre 2 colonnes de taux des discontinus et celles très faibles entre les taux des continus confirment respectivement leur parentés à la fonction exponentielle et à la fonction linéaire.
14.8.21		discontinu					continu				
		x6‰.	x7‰. 	x8‰. 	x5‰. 	x‰. 		c7‰. 	c8‰. 	c5‰. 	c‰. 
moyenne		32.4	18.2	52.8	69.5	178.3		84.2	427.9	859.9	1398.9
écart		37.6	18.2	53.8	86.6	181.3		22.4	248.2	422.8	592.4
m/e		0.9	1.0	1.0	0.8	1.0		3,9	1,7	2,0	2,4
R2 progrès											
droite		753	850	758	687	783		978	793	967	888
exponentiel	980	956	961	969	986		975	941	957	967
a		0.195	0.183	0.165	0.202	0.171		0.043	0.081	0.089	0.065
b		1.98	1.44	5.37	3.75	16.4		50	153	283	629
corrélation, pour coefficient de détermination de 2 colonnes.											
5-6	5-7	5-8	6-7	6-8	7-8			5-7	5-8	7-8	
788	244	728	154	569	555			37	176	177	
Classement des génomes par les fréquences des cds-cds négatifs continus[modifier | modifier le wikicode]
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs continus.
  • Légende: voir le tableau des détails dans le tableur ainsi que les restes des cds-cds négatifs.
    1. Les continus
    - couleurs des continus, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, gras pour très faibles et soulignées pour les extrêmes.
    1. - c5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs continus.
      - c‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - cont, total des continus négatifs
      - r50, reste des continus après la fréquence -50.
      - "6 "7 "8, somme des effectifs continus des fréquences -6 -7 -8 modulo 3 jusqu'à -50.
      - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
      - "p, somme de "6 "7 "8
      - c7 en % somme des effectifs continus de la fréquence -7 modulo3 jusqu'à -50, sur la somme des mêmes sommes -6 -7 -8 modulo 3.
      - c1/c4, en %, rapport de la fréquence -1 sur la fréquence -4 des négatifs continus, tiré du tableau comparaison continu-discontinu
    2. Les discontinus voir leur chapitre
      - c‰ c5‰ c7‰ c8‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - x5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs discontinus.
      - x‰, pour 1000 cds-cds, total des intercalaires négatifs discontinus divisé par cds (total des cds-cds). Pour x5 et x‰ les couleurs sont celles des continus avec le rouge pour les effectifs peu significatifs.
      - x6 en %, somme des effectifs des discontinus de la fréquence -6 modulo 3 jusqu'à -80, sur la somme des mêmes sommes -6 -7 -8 modulo 3. Les couleurs des 3 classes de discontinus basés sur x6, sont dans l'ordre décroissant, bleu (x6 x8 x7), vert clair (x8 x6 x7) et vert foncé (x8 x7 x6).
cds-cds. Intercalaires négatifs. Classements
cds-cds-c. Intercalaires négatifs continus. Classement
gen r50 cont “6 “7 “8 “p c8 c7 “5 c5 c‰ cds
cbn 0 167 23 82 105 78 21.9 62 37 67 2 491
cbei 4 389 32 200 232 86 13.8 153 39 69 5 622
mba 6 307 7 34 108 149 77 22.8 152 50 78 3 943
myr 0 282 22 127 149 85 14.8 133 47 79 3 555
pmg 2 158 10 41 51 80 19.6 105 66 88 1 800
mja 6 163 17 62 79 79 21.5 78 48 94 1 730
spl 5 414 30 117 147 80 20.4 262 63 98 4 213
pmq 16 753 1 44 226 271 84 16.2 466 62 104 7 223
blo 2 210 1 10 36 47 79 21.3 161 77 119 1 772
rtb 0 98 9 46 55 84 16.4 43 44 124 793
bsu 17 573 42 209 251 83 16.7 305 53 136 4 215
afn 9 303 2 20 105 127 84 15.7 167 55 149 2 039
ase 28 1300 3 70 145 218 68 32.1 1054 81 158.6 8 197
ade 9 713 25 72 97 74 25.8 607 85 159.7 4 464
eco 22 644 47 152 199 76 23.6 423 66 160.0 4 024
cvi 4 687 38 152 190 80 20.0 493 72 160.4 4 282
rru 11 609 26 97 123 79 21.1 475 78 160.9 3 786
scc 6 319 1 22 95 118 81 18.6 195 61 177 1 805
ant 6 679 1 33 252 286 89 11.5 387 57 219 3 095
abra 13 409 11 174 185 94 5.9 211 52 245 1 667
pub 3 381 2 14 129 145 90 9.7 233 61 292 1 307
total 169 9558 18 579 2627 3224 82 18.0 6165 64 134 72 023
cds-cds-cx. Intercalaires négatifs. Classement
gen c5‰ c7‰ c8‰ c‰ c1/c4 cds x6 x5 x‰
cbn 25 9.2 33 67 121 2 491 56 0 3.6
cbei 27 5.7 36 69 87 5 622 29 36 2.0
mba 39 8.6 27 78 28 3555 19 27 5.6
myr 37 6.2 36 79 118 3943 45 45 5.6
pmg 58 5.6 23 88 52 1 800 29 38 48.9
mja 45 9.8 36 94 49 1 730 63 46 32.4
spl 62 7.1 28 98 93 4213 20 58 2.8
pmq 65 6.1 31 104 21 7 223 30 33 5.8
blo 91 5.6 20 119 48 1 772 8 17 10.2
rtb 54 11.3 58 124 30 793 0 25 5.0
bsu 72 10.0 50 136 31 4215 29 40 8.3
afn 82 9.8 51 149 29 2 039 50 25 2.0
ase 129 8.5 18 158.6 19 8 197 21 31 42.9
ade 136 5.6 16 159.7 13 4464 7 35 22.8
eco 105 11.7 38 160.0 63 4024 38 48 23.4
cvi 115 8.9 35 160.4 31 3786 16 36 16.1
rru 125 6.9 26 160.9 21 4282 15 38 19.5
scc 108 12.2 53 177 25 1 805 38 11 15.5
ant 125 10.7 81 219 74 3095 47 48 26.8
abra 127 6.6 104 245 48 1 667 50 25 4.8
pub 178 10.7 99 292 190 1 307 38 51 70.4
total 86 8.0 36 134 37 72023 27 37 17.0
  • Note: voir la note des discontinus seuls. Ici les couleurs ont été harmonisées pour le tri et pour comparer rapidement 2 génomes: jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, en gras pour très faibles et soulignées pour les extrêmes.
    - Les négatifs continus se distinguent des discontinus par 3 points essentiels:
    1. Le taux des intercalaires, voir le petit tableau en bas de cette note.
      - c‰: La courbe de détermination des négatifs continus triés est une droite à forte pente de 9. Elle a un palier à pente nul de 5 génomes avec un taux de 160 ‰. Ce palier sépare une queue de 12 génomes avec une droite de pente 7 (R2 99), d'une tête de 4 génomes de pente 37 (R2 97). Les cds ne semblent pas impacter ce taux, la queue a 6 faibles cds contre 6 forts, le palier est un palier aussi pour 4 cds moyens et le 5ème fort extrême, la tête de la courbe a un cds moyen pour 3 faibles. Les c5 impactent différemment les 3 parties, les 4 1ers c‰ de la queue semblent être corrélés positivement aux c5 alors que la tête est corrélée négativement, le palier est aussi un palier c5 et les 8 génomes restant ne semblent pas être corrélés entre eux.
      - x‰: La courbe de détermination des négatifs discontinus triés est une exponentielle nette et régulière. J'ai détaillé ses fréquences dans le chapitre précédent. La fonction exponentielle dénote la difficulté physique d’établir la discontinuité entre 2 cds, on passe d'un état vibratoire à l'autre en les chevauchant. Les intercalaires négatifs continus répondent, eux, à une logique fonctionnelle, le chevauchement ne peut pas être à l'identique (0 modulo 3) sinon on tombe dans les domaines protéiques communs à plusieurs gènes et qui ont un rôle fonctionnel; le chevauchement doit être décalé (-1 -2 modulo 3) et c'est pour cela qu'on n'a que rarement des -6 modulo 3 ("6).
    2. Les intercalaires de -1 à -5: voir le petit tableau en bas de cette note et les fréquences périodiques. Ces intercalaires ont une moyenne de 60% et 33% par rapport au total respectivement des continus et des discontinus négatifs, avec des écarts identiques faibles. Ceci s'explique par la difficulté des discontinus à s'ancrer avec une seule paire de bases, ils n'ont aucun intercalaire de ce genre, alors qu'il y en a 17% chez les continus (le rapport c1/c4 ne concerne donc que les continus et varie beaucoup d'un génome à l'autre). Par contre les discontinus ont un taux de fréquence -2 équivalent à celui de -8 comme s'ils initialisaient cette périodicité, alors que les continus malgré qu'ils soient 10 fois plus nombreux n'en présentent que 4 et pour le seul génome bsu.
    3. Les intercalaires périodiques - 6 -7 -8 modulo 3
      - "6 continu (voir le tableur): cas de mba avec 7 occurrences 1 pour 9 27 et 5 pour 18. Au total les continus ont 26 occurrences jusqu'à -50 et 5 sur les 179 restants avec eco (66 75) ase (51 57) et mba (51) pour les occurrences inférieures à 140. Pour les discontinus, les 6 modulo 3 apparaissent régulièrement, ainsi pour ase il y a 7 au-delà de -80 jusqu'à une occurrence de -120 soit 40 aas! De même pour eco 2 occurrences après -80, 102 129 avant les plus grands; de même bsu a une occurrence à 93, mais ade qui a 9 au-delà de -80 n'en a pas. Jusqu'à -50 il y a 171 discontinus et 13 de -51 à -80.
      - Les rapports entre les périodiques "6 "7 "8: Chez les continus ils sont complémentaires puisque "6 est quasi nul (26 contre 171 chez les discontinus). Ils sont très homogènes (m/e de 3.2 et 14 respectivement et un R2 de 91) avec une pente de progression de 0.89 contre 2.15 et 2.70 pour les discontinus. Ces pentes fortes et leur faible homogénéité (m/e 1.7 1.4 2.6 pour "6 "7 "8 respectivement et un R2 des "8 de 79) rapprochent les discontinus des courbes exponentielles en pourcentage du total.
      - Les pourcentages par rapport au total des cds: Dans cette comparaison on retrouve l'homogénéité des continus avec un m/e entre 1.7 et 3.9 et l'hétérogénéité des discontinus avec un m/e inférieur à 1.0. Par contre les courbes de tendance de progression des discontinus sont nettement exponentielles (R2 de la droite très inférieur à celui de l'exponentielle sauf pour x7‰) alors que celles des continus sont nettement linéaires (R2 de la droite supérieur ou presque égale à celui de l'exponentielle). Cette tendance à l'exponentielle explique la corrélation forte, comparaison entre 2 à 2 colonnes, chez les discontinus (80 76 58 54 27 15) et très faible chez les continus (5 15 18) où la corrélation entre ces derniers est réduite à leurs différences de pente. Il ne faut confondre l'exponentielle des fréquences qui est fonction de la longueur des recouvrements valable pour les continus et les discontinus, des tendances des génomes qui reflètent chez les continus la facilité à établir le recouvrement et sa difficulté chez les discontinus.
    - Le classement des continus voir en bas du chapitre: Les classes sont ordonnées sur le taux par rapport au total c‰. Il est suivi de /pas pour l'écart entre 2 taux successifs, ça correspond à la pente que j'ai signalé au paragraphe ci-dessus c‰. On remarque le palier de 5 génomes avec un /pas de 1. Il y a ainsi 5 classes dont 4 sont quasiment des paliers et la dernière avec une pente très forte. Les colonnes c5 et c7 présentent une plage avec éventuellement une exception après la virgule. Cette exception ne s'écarte réellement de l'homogénéité que dans 2 cas sur 5 pour c5 dans les classes 3 (43-55,76) et 5 (6-12,18). Cette écart est du à l'hétérogénéité du c1/c4. La colonne cds montre clairement que les cds n'impactent pas l'homogénéité d'une classe tant l'écart dans une classe est très grand. Le classement des 21 génomes en continu et discontinu (2ème tableau) montre la différence entre les 2 types de négatifs: dans chaque classe de continus il y a au moins 2 classes de discontinus sur les 3, v.clair v.foncé et bleu. Le palier de 5 en continus a 4 v.foncés et 1 v.clair, ce qui confirme sa grande homogénéité en plus de ses 4 cds.
    - Les caractéristiques communes aux continu-discontinu: Voir le récapitulatif en fin de chapitre.
    + Ces 2 types d'intercalaires ont en commun la périodicité modulo 3 des occurrences -6 -7 -8, les occurrences uniques -3 -4 -5 et les taux de ces occurrences cumulées pour -8 (respectivement continu discontinu 28 32 %), pour -4 (respectivement continu discontinu 47 34 %) et enfin -3 et -5 qui sont quasiment nulles.
    + Ils diffèrent par les taux des occurrences cumulées des -6 d'un facteur 50 (respectivement continu discontinu 0.3 17 %), des occurrences cumulées -7 d'un facteur 2 (respectivement continu discontinu 6.8 13 %), des occurrences -1 (respectivement continu discontinu 17 0 %) et des occurrences -2 (respectivement continu discontinu 0 3.5 %) et enfin ils diffèrent par les totaux des effectifs d'un facteur 10 (respectivement continu discontinu 9644 1144).
    + Une caractéristique commune entre les 2 types d'intercalaires apparaît après une analyse approfondie de la corrélation entre -7 et -8: Le taux moyen en % des continus, c7, ("7)/("7+"8) et celui des discontinus, x7, ("7)/("6+"7+"8) sont équivalents 18.6% contre 19.2%. Certes les c7 sont plus beaucoup plus homogènes (m/e de 3.2) que les x7 (m/e de 1.4) mais ceci est du au fait que les taux individuels en (‰.) par rapport au total des cds des c7 ont une progression linéaire alors que les x7 ont une progression exponentielle. Et la corrélation entre les taux individuels x7-x8 est forte avec un coefficient de détermination de 0.54. C'est comme si, quelle que soit la longueur de l'intercalaire, le taux "7/"8 était toujours le même. Ce rapport commun aux 2 types d'intercalaires renforce l'idée que la périodicité commune aux deux est un processus lié aux propriétés physiques de l'ADN et non aux fonctionnalités des 2 cds. Les corrélations fortes chez les discontinus, 5-6 (0.80) 5-8 (0.76) 6-8 (0.58) vont aussi dans ce sens grâce aux coefficients de détermination de leurs courbes exponentielles de progression listés dans le même tableau. Chez les continus les corrélations sont très faibles parce que leurs moyennes sont très homogènes ou autrement dit leurs taux sont presque constants. Ce qui va toujours dans le même sens de la propriété physique de l'ADN pour 2 processus différents, un linéaire pour les continus et l'autre exponentiel pour les discontinus.
  • Les taux entre périodiques: Les calculs sont faits à partir du tableau des continus. Comme c7 et c8 sont complémentaires ils ont même ecartype, même pente et même R2. Avec une moyenne de 81.5 (100-18.5) c8 obtient donc un m/e de 14.
14.8.21	c5	c7	c‰	x5	x6	x7	x8	x‰ 
moyenne	59,7	18,6	140,9	34,0	30,8	19,6	49,6	17,8
ecart	13,4	5,9	59,5	14,0	17,2	13,9	18,5	18,1
m/e	4,4	3,2	2,4	2,4	1,8	1,4	2,7	1,0
a	2,16	0,88	9	2,17	2,74	2,19	2,55	x0,17
b	35,9	8,82	40,91	10,17	0,62	-4,47	21,46	1,64
r2	98	91	89	92	98	96	74	99
			pal 5	pal 5				expo
  • Les classes des continus,14.8.21
classe				c‰ /pas			c5		c7		cds
					
cbn cbei mba myr:  		67-79 /3		37-50		14-23		2 491 - 5 622
					
pmg mja spl pmq:		88-104 /4		62-66,48	16-21		1 730 - 7 223
					
blo rtb bsu afn: 		119-149 /7		44-55,77	16-21		 793 - 4 215
					
eco ade rru cvi ase:		159-161 /1		72-85,66	20-26,32	3 786 - 8 197
					
scc ant abra pub: 		177-292 /29		52-61		6-12,19		1 307 - 3 095
  • Récapitulatif continus discontinus du 14.8.21: Les compilations sont tirées des -50 des continus, des -80 des discontinus et les occurrences négatives supérieures à 130 dans les restes. Période: "6 "7 "8 pour les -6 -7 -8 modulo 3; 1,2 pour -1 -2; 4 pour -4; et 3,5 pour -3 et -5; reste pour les occurrences négatives supérieures à 130.
période	cont	%	discont	%
6	20	0.21	209	17.09
7	644	6.74	166	13.57
8	2714	28.4	389	31.8
reste	15	0.16	6	0.49
1	1671	17.5	0	0
2	4	0.04	40	3.27
3,5	14	0.15	3	0.25
4	4476	46.8	410	33.5
total	9558	100	1223	100
Les fréquences des intercalaires positifs cds-cds[modifier | modifier le wikicode]
Les fréquences des intercalaires positifs cds-cds. Diagrammes 400[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Diagrammes 400.
  • Légende: Ces tableaux sont suivis par les corrélations et fréquences faibles, cds-cds.31 et cds-cds.32.
    - gen: pour génome. Le 1er tableau cds-cds.11 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.12" pointe sur ses diagrammes. Sur les diagrammes sont indiqués eff et eff3.
    - Pour la construction des diagrammes et leurs symboles,   -7  -5  R2  flex   R2’  f3, pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
    - m50x: Les polynômes Sx+ présentent soit un maximum (max) soit un minimum (min) à l'abscisse 50 (ou bien proches de 50,40 60) soit ni l'un ni l'autre et ils paraissent réguliers.
    - m50c: comme m50x mais ce sont tous des minima.
    - f3: c'est la forme de la courbe du polynôme. Quand le coefficient de la variable x3 est négatif (colonne -7) la courbe a la forme d'un S majuscule, d'abord concave ensuite convexe. Quand ce coefficient est positif la forme est un tilde (t), convexe puis concave. Si la forme f3 est nette avec un R2' élevé, elle est suivie de F pour fort, de m si R2' est moyen et de f si R2' est faible.
    - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
cds-cds-d. Diagrammes 400 des intercalaires cds-cds.
cds-cds.11 Intercalaires positifs discontinus. Fréquences Sx+ 1-400
Polynome de d°3
gen m50x -7 -5 R2 flex x+ R2’ eff f3 clx+
rru min 50 -13 90 818 231 20 874 Sf b1
rtb max 80 45 -332 496 246 191 118 tF c3
pub min 20 -58 495 853 284 249 218 SF a1
cvi max 70 29 -174 611 200 30 1008 tf b2
ade min 50 -20 145 782 242 39 1229 Sf b1
ant min 50 -25 209 680 279 70 601 Sm a2
eco max 50 22 -151 532 230 43 1003 tm c2
spl max 80 47 -333 611 236 336 1071 tF c5
bsu max 40 -6.4 69 458 359 18 1028 Sf c1
pmq régulier 31 -283 878 304 813 1614 tF d2
cbn max 50 16 -109 454 227 27 489 tf c1
cbei régulier 32 -258 712 269 708 946 tF d2
afn max 4-14 29 -227 486 261 183 328 tF c4
ase max 70 19 -108 872 189 25 2398 tf b2
blo régulier 33 -233 728 235 138 448 tF d3
mja min 50 -16 150 660 313 78 406 Sm a2
mba régulier 4.9 -71 350 483 348 705 tF d1
myr max 70 33 -213 708 215 68 828 tm c2
pmg min 40 -67 515 607 256 179 559 SF a1
abra max 50 53 -314 734 197 96 256 tF c3
scc régulier 30 -200 690 222 71 416 tm d3
cds-cds.21 Intercalaires positifs continus. Fréquences Sc+ 1-400
Polynome de d°3
gen m50c -7 -5 R2 flex c+ R2’ eff clx+
rru 50 -34 275 878 270 139 2056 b1
rtb 50 -36 279 569 258 82 Sm 402 c3
pub 50 -236 1732 559 245 338 537 a1
cvi 50 -44 372 852 282 203 2320 b2
ade 50 -61 489 843 267 232 2242 b1
ant 40 -135 1021 664 252 306 1616 a2
eco 50 -74 565 805 255 265 2130 c2
spl 50 -47 363 806 257 192 2215 c5
bsu 50 -41 352 790 286 173 2444 c1
pmq 70 -29 229 946 263 140 4164 d2
cbn 50 -50 394 855 263 203 1701 c1
cbei 50 -46 338 779 245 213 3399 d2
afn 50 -95 712 722 250 297 1323 c4
ase 50 -43 352 910 273 216 3558 b2
blo 40 -5.7 69 868 404 41 Sf 993 d3
mja 50 -94 719 856 255 319 1047 a2
mba 50 -50 359 823 239 287 1651 d1
myr 50 -94 717 742 254 290 2081 c2
pmg 60 -107 844 869 263 368 895 a1
abra 60 -99 750 702 253 277 934 c3
scc 60 -86 660 830 256 331 961 d3
cds-cds.12 Intercalaires positifs discontinus. Fréquences Sx+ 31-400
Polynome de d°3
gen teff -7 -5 R2 flex x+ R2’ eff3 f3 clx+
rru 3786 12 -97 833 269 36 726 tf b1
rtb 793 c3
pub 1307 -49 437 918 297 256 149 SF a1
cvi 4282 b2
ade 4464 32 -228 874 238 67 958 tm b1
ant 3095 60 -400 785 222 112 432 tF a2
eco 4024 c2
spl 4213 c5
bsu 4216 48 -359 861 249 167 645 tF 51 c1
pmq 7223 d2
cbn 2493 c1
cbei 5623 d2
afn 2039 c4
ase 8197 b2
blo 1773 d3
mja 1729 47 -300 711 213 88 309 tF a2
mba 3943 d1
myr 3555 c2
pmg 1800 23 -124 774 180 48 377 tm a1
abra 1667 c3
scc 1805 d3
cds-cds.22 Intercalaires positifs continus. Fréquences Sc+ 31-400
Polynome de d°3
gen f3 -7 -5 R2 flex c+ R2’ eff3 clx+
rru tm 13 -61 957 156 41 1509 b1
rtb tF 70 -478 788 228 190 284 c3
pub SF -48 403 945 280 365 200 a1
cvi tF 5.3 22 915 -138 107 1621 b2
ade tF 2.5 38 957 -507 103 1490 b1
ant tF 4.8 28 888 -194 142 833 a2
eco tm 7.6 -18 934 79 61 1389 c2
spl tf 10.3 -50 915 162 30 1618 c5
bsu tF 12 -27 954 75 104 1424 c1
pmq Sm -13 112 937 287 51 3257 d2
cbn tm 8.8 -32 932 121 41 1171 c1
cbei Sf -13 15 935 38 8 2571 d2
afn tm 9.5 -42 904 147 45 791 c4
ase SF -18 182 976 337 149 2619 b2
blo tf 28 -174 897 207 36 786 d3
mja SF -6.2 87 964 468 105 623 a2
mba SF -6.7 100 789 495 209 2156 d1
myr tF 7.8 -12 897 51 86 1265 c2
pmg SF -35 327 973 311 286 510 a1
abra tF 21 -104 912 165 85 548 c3
scc SF -17 162 949 318 162 622 d3
  • Diagrammes 400 note: Cette note analyse le tableau des diagrammes 400 et son annexe des corrélations et faibles fréquences.
  • Classement: J’ai classé les 21 génomes suivant la pente des fréquences faibles des x+ de 1 à 30 pbs et suivant la forme de leurs diagrammes après la fréquence 30. J'ai obenu 4 groupes a b c d.
    1. Le groupe a: La pente des fréquences faibles est fortement négative et aboutit au minimum local d'abscisse 40 50. Il n'y a pas de maximum local supérieur à celui des faibles fréquences au-delà de ce minmum. La forme des 4 polynomes de d°3 sont tous de forme S, de force supérieure à 70, égale à la différence R2', R2 polynome moins R2 droite. Ce sont les génomes pub pmg mja ant. Les 2 1ers sont de forme S forte et les autres de forme S moyenne. Les génomes mja et ant ont un maximum à la fréquence 10 avec les taux respectifs de 121 et 136 ‰ et le maximum local à la fréquence 90 avec respectivement 69 et 58 ‰. Leur taux total des 1-30 ‰ sont respectivement 239 et 281 ‰ bien plus faibles que ceux de pub et pmg avec 317 et 326.
    2. Le groupe b: Ce sont dans l'ordre ade rru ase cvi. Ils présentent tous un minimum local vers 40-50 après une forte pente négatve comme le groupe a. Je les présentent ici comme mja et ant, fréquence du maximum des faibles suivie de son taux puis fréquence du maximum local au-delà du minimum des faibles suivie de son taux puis total du taux des faibles (1-30‰) puis la forme S ou tilde du diagramme suivi de sa force:
      - groupe a2, mja 10-121 90-69 239 Sm78, ant 10-136 90-58 281 Sm70.
      - groupe b1, ade 20-85 80-48 221 Sf39, rru 30-58 110-43 169 Sf20.
      - groupe b2, ase 10-59 70-57 135 tf25, cvi 10-62 70-91 112 tf30.
      + Note: dans la colonne m50x j'ai mis un minimum pour les b1 qui correspond au local 40-50 et un maximum pour les b2 qui ont aussi un minimum local à 40-50 mais leur maximum à 70 dépasse ou égalise celui des faibles. Ensuite les b2 changent de forme en passant du Sf des b1 au tf. Les formes faibles peuvent être rassemblées parce que très proches les unes des autres, il suffit d'un petit changement dans les effectifs pour passer de l'une à l'autre.
    3. Le groupe c: Ils sont caractérisés par un taux 1-30 ‰ très faible, inférieur à 71 ou par une pente positive des faibles, comme bsu et abra, quand le taux est élevé respectivement, 140 et 94 ‰. A ces taux très bas des fréquences faibles sont associés des pyramides à 3 ou 4 fréquences supérieures ou égales à 40 avec des taux maximum. Le groupe c est classé par la forme du diagramme dans l'ordre croissant Sf tf tm tF et non par la différence R2' entre le R2 du polynome et le R2 de la droite. R2' n'est pas adéquat pour ordonner la totalité des 21 génomes car il ne peut distinguer entre une forme S et une forme t, il ne représente que la force de la forme. Ainsi les ruptures naturelles apparaissent quand on change de forme, entre rru Sf et ase tf, entre cvi tf et bsu Sf et entre pmq tF et scc tm. Dans ce dernier cas la rupture est due au changement du classement de scc et blo (en gras) basé sur le taux élevé des fréquences faibles, 1-30 ‰, au lieu d'être nul comme pour les autres de la classe d. J'interprête scc et blo comme ayant leur pyramide à la fréquence 20, cad que les fréquences 10 et 30 ont des taux élevés aussi, ce qui les rend aussi réguliers comme mba cbei pmq. J'ai provoqué volontairement une seule rupture, celle entre rtb et afn, qui sont tous les 2 tF, mais afn se distingue par 2 pyramides au lieu d'une seule.
      - groupe c1, bsu cbn. Pyramide à 40 et 50. Taux 1-30 ‰ fort pour bsu à 140 mais avec une pente des 1-30 positive, taux faible pour cbn à 65 ‰. Le R2' est très faible, respectivement 18 Sf et 27 tf.
      - groupe c2, eco myr. Pyramide à 50 et 70. Taux 1-30 ‰ faibles 63 et 71 ‰. Le R2' est moyen, tm, respectivement 43 et 68.
      - groupe c3, abra rtb. Pyramide à 50 et 80. Taux 1-30 ‰ fort pour abra à 94 mais avec une pente des 1-30 positive, taux faible pour rtb à 51 ‰. Le R2' est fort, tF, respectivement 96 et 191.
      - c4 afn. Caractérisé par 2 pyramides à 40 et 140 au taux de 64 ‰ alternant avec 2 trous à 70 et 180 avec des taux très faibles, respectivement 15 et 6 ‰. Taux 1-30 ‰ faible 46 et R2' fort tF de 193.
      - c5 spl. Caractérisé par une pyramide à 80 et une forme régulière comme le groupe d puisque le passage de la fréquence 30 à 80 se fait doucement au contraire de tous les autres génomes du groupe c. Taux 1-30 ‰ faible 37 et un R2' le plus fort du groupe, tF, de 336 juste avant le 348 de mba du groupe d régulier, ce qui confirme sa régularité.
    4. Le groupe d: se caractérise par une abscence de pyramide et une progression lente de la fréquence 10 à la fréquence du maximum.
      - d1 mba. Il se caractérise par des déterminants du polynome et de la droite très faibles, 350 et 2, d'où le R2' de 348. Ceci est du au reste très élevé des effectifs au-delà de 400, 527 contre 705 pour 1-400. Le diagramme de 1 à 600 donne des valeurs plus conséquentes, respectivement, 465 156 309, avec un reste de 295 contre 937 pour 1-600. Ce dernier diagramme améliore le point d'inflexion qui devient normal avec un effectif de 354 pour 4823 sur 1-400. Le génome associe une forme tilde forte de 309, qui dénote sa régularité, tout en ayant un R2 très faible de 465 qui dénote une grande variabilité au contraire de cbei, qui a aussi un reste élevé au-delà de la fréquence 400, mais un R2' de 708 et un R2 de 712 sur 1-400 et 783 sur 1-600. Taux 1-30 ‰ faible de 45 seulement.
      - groupe d2, cbei pmq. Ils vont de pair, clostridia bacilli, comme pour le groupe c1 de cbn bsu, mêmes clades. Ces 2 paires se distinguent par leurs effectifs doubles en d2 par rapport à c1, respectivement, 946 1614 contre 489 1028. Alors que les c1 ont une pyramide chacun, les d2 n'en ont pas et sont réguliers avec des R2 élevés 712 878 contre 454 458. De même pour R2' qui passent de tF 708 813 à tf 27 pour cbn et Sf 18 pour bsu. Mais les taux 1-30 ‰ sont tous faibles sauf pour bsu qui a une pente positive, respectivement, 26 32 et 65 140.
      - groupe d3, scc blo. J'ai regroupé ces 2 génomes avec le groupe d à cause de leur régularité mais leurs taux 1-30 ‰ sont forts 118 89, non pas à cause d'une pente positive comme bsu et abra, mais parce que blo a une pyramide à 10 et scc à 30. C'est ce qui donne l'impression de régularité avec un R2 moyen, 690 728, malgré un R2' faible pour scc, tm 71 et fort pour blo, tF 138.
  • mnemo
    - forme: Classement par la forme de la courbe, à la place du classement génomique par la pente a37 de la droite. L'utilisation du polynôme de d°3 sert à repérer un renflement après le minimum local des diagrammes c+ 1-400. J'obtiens alors les diagrammes c+ 31-400 que je peux comparer à ceux de x+ 31-400. Les diagrammes c+ 40 montrent la préférence de certaines longueurs autour de 12 pbs pour les contrôles des gènes. C'est dans les diagrammes 31-400 qu'on peut deviner qu'il y a d'autres séquences privilégiées pour d'autres types de contrôle, cela se présente par des pointes au niveau des renflements mais ne désigne pas une fréquence déterminée parce que les abscisses sont des plages de 10 fréquences.
    + détailler chaque classe et comparer les classes.
    - formes du tableau 22, c+31-400: Les c+1-400 sont toutes S, sur ce tableau 8 conservent cette forme, mja pmg pub scc mba pmq ase et cbei avec un R2' de 8, les 13 autres génomes sont de forme tilde. Le taux des x+ sont nettement améliorés dans les diagrammes 31-400 par rapport à celui des 1-400. Et avec la forme tilde chez 13/21 de 31-400, ceci montre que c+ apporte aussi des renflements comme les x+.
    - Le classement effectué lors de l'étude des pentes a37 et fait sur les 3 critères suivants:
    + in%, %positifs/total ADN
    + moy, moyenne des fréquences sur 0-200
    + rap, rapport des totaux des fréquences 10-370/0-100
    + a donné l'équivalent des classes a b c d des formes x+1-400, suivant l'ordre du critère moy: à la classe inférieure de a37, pub pmg ant mja correspond la classe a, pub pmg ant mja; à la classe supérieure de a37, myr rtb spl - cbei mba blo pmq, correspondent les classes c - d, myr rtb spl - mba cbei pmq blo; à la classe intermédiaire de a37, rru ase cvi ade - eco bsu cbn afn - scc, correspondent, respectivement, la classe b ade rru ase cvi, la classe c bsu cbn eco afn et la classe d avec scc.
    - bornes: pourquoi la plage de 1 à 400, alors que j'ai étudié 1 à 600 pour les courbes puissances, 1 à 370 pour le classement génomique? Au delà de 400 le profile ne change pas et 400 est la plupart du temps un intercalaire cds-rRNA23.
    - statistiques: Les diagrammes 400 ne cherchent pas à définir une statistique mais juste à nommer et comparer 2 génomes avec le signe du coefficient de x3 (forme S ou tilde), R2' obtenu en faisant la différence de R2 du polynôme avec celui de la droite et enfin le point d'inflexion du polynôme. Les diagrammes d'un génome reflète une organisation de l'ADN qui devrait restée la même de génération en génération. Ceci est à confirmer en analysant plusieurs séquençages puisque j’ai pu constater avec bsu et lmo que les intercalaires entre gènes de tRNA varient beaucoup entre les 2 génomes alors que les clusters des gènes rRNA et tRNA ont la même configuration.
    - corrélations: Une forte corrélation c+/x+ indique que le changement de brin pour constituer le complément ne modifie la longueur des intercalaires, une corrélation nulle qu'il y a beaucoup de modifications et une corrélation fortement négative que le processus de changement de brin prélève un intercalaire cds-cds en continu et le met en discontinu.
    - Conséquences pour les clusters rRNA-tRNA, intercalaires tRNA-cds et cds-rRNA23
    - au départ les cumuls des intercalaires tRNA-cds par génome, et recherche de cds intra cluster rRNA-tRNA.
    - comparaison entre 2 génomes semblables:   rru ade   rtb cvi   pub seul   cvi ase   ade pmg   ant ade   eco cbn   spl myr   bsu eco   pmq cbei   cbn cvi   cbei afn   afn rtb   ase pmg   blo abra   mja pmg   mba cbei  myr abra  pmg pub  abra pmg  scc ase.
Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences.
  • Légende: ces tableaux sont la suite de ceux des diagrammes 400, cds-cds.11 12 21 22.
    - gen: pour génome. Le 1er tableau cds-cds.31 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.32" pointe sur son diagramme 40 de la fréquence 1 à 40, voir le tableau synthétique des diagrammes 40 des cds-cds positifs continus.
    - pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
    - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
  • Calculs des corrélations: Le coefficient de corrélation est fait avec LibreOffice calc sur les colonnes fx fc des effectifs du lien du génome, de la ligne 50 à ligne n ce qui va de la fréquence 41 à n, avec n égale 200 250 400 600. Les colonnes effectifs ici correspondent à la ligne diagr de fx et fc. Les références à ce tableau utilisent surtout la colonne 250.
    - J’ai fait les corrélations pour les 21 génomes entre c+/x+ 41-400, 41-250 et 41-200. Avec 41-400 les corrélations peuvent être très fortes car elles font intervenir la queue de la courbe où les effectifs sont faibles et la distance par rapport à la discontinuité direct/complement est si grande que le mécanisme de formation a peu d’influence. Avec 41-200 le nombre de points de comparaison, de 16, est faible. Aussi j’utilise les corrélations entre c+/x+ 41-250 avec 21 lignes de comparaison. Il y a ainsi 13 génomes faiblement corrélés ou carrément anti corrélés avec un coefficient inférieur à 0.611 et 8 fortement corrélés avec un coefficient supérieur à 0.758.
cds-cds-c. Diagrammes 400 des intercalaires cds-cds. Corrélations et faibles fréquences.
cds-cds.31 Intercalaires positifs. Diagrammes 400. Corrélations x+/c+.
eff Corrélations
gen x+ c+ 41-250 41-200 diff 1-250 mini clx+
rru 874 2056 611 193 418 792 min40 b1
rtb 118 402 148 -105 253 -165 min30 c3
pub 218 537 883 857 26 852 min20 a1
cvi 1008 2320 891 858 33 549 min30 b2
ade 1229 2242 758 624 134 897 min50 b1
ant 601 1616 538 271 267 886 min40 a2
eco 1003 2130 440 296 144 -64 min20 c2
spl 1071 2215 784 735 49 -202 min10 c5
bsu 1028 2444 282 8 274 257 min10 c1
pmq 1614 4164 -651 -832 181 -825 min10 d2
cbn 489 1701 508 548 -40 -112 min20 c1
cbei 946 3399 -377 -510 133 -646 min10 d2
afn 328 1323 101 -26 127 -407 min10 c4
ase 2398 3558 940 922 18 725 min40 b2
blo 448 993 537 406 131 255 min20 d3
mja 406 1047 571 326 245 857 min30 a2
mba 705 1651 -221 -330 109 -477 min10 d1
myr 828 2081 764 649 115 41 min20 c2
pmg 559 895 802 728 74 915 min40 a1
abra 256 934 797 716 81 59 min10 c3
scc 416 961 530 440 90 49 min10 d3
cds-cds.32 Intercalaires positifs. Diagrammes 400. Faibles fréquences.
1-30 ‰ teff 0 ‰ <0 ‰ eff40 corel40 classe
gen x+ c+ x+/c+ x c x c x- c- x+ c+ x+/c+ clx+
rru 169 266 0.64 1037 2749 1 4 71 222 175 630 17 b1
rtb 51 294 0.17 189 604 5 7 21 162 8 131 -81 c3
pub 317 628 0.50 327 980 40 59 281 389 88 367 715 a1
cvi 112 301 0.37 1171 3111 4 3 59 221 130 815 582 b2
ade 221 335 0.66 1412 3052 8 6 72 234 304 876 459 b1
ant 281 485 0.58 714 2381 13 24 116 285 186 836 575 a2
eco 63 348 0.18 1169 2855 11 6 80 226 126 821 -119 c2
spl 37 270 0.14 1313 2900 1 6 9 143 69 683 -342 c5
bsu 140 333 0.42 1125 3091 2 8 31 186 302 936 -432 c1
pmq 32 218 0.15 1927 5296 3 5 22 140 68 1156 -207 d2
cbn 65 312 0.21 553 1940 2 5 17 86 56 620 -382 c1
cbei 26 244 0.11 1219 4404 0 4 9 88 35 954 272 d2
afn 46 402 0.11 350 1689 6 5 11 179 36 580 -369 c4
ase 135 264 0.51 3031 5166 7 3 116 252 389 1165 346 b2
blo 89 208 0.43 518 1255 4 1 35 167 54 241 -109 d3
mja 239 405 0.59 495 1234 20 9 113 132 113 474 502 a2
mba 45 214 0.21 1255 2688 1 8 18 114 51 428 -74 d1
myr 71 392 0.18 999 2556 5 5 20 110 97 899 -78 c2
pmg 326 430 0.76 692 1108 16 31 137 143 196 449 703 a1
abra 94 413 0.23 279 1388 4 9 29 295 41 420 -243 c3
scc 118 353 0.33 485 1320 4 5 58 242 60 389 -177 d3
  • Note:
    - corrélations fortes
    - ade cvi ase min40 les corrélations sont élevées et constantes ade Sf39 ase tf25 cvi tf30
    - pmg pub idem mais SF
    - myr abra spl corrélations fortes mais nulles avec 1-30 myr tm68 abra tF96 spl tF336. Donc myr est à la limite des tF parce que avant eco tm43
    - corrélations 500
    + rru ant mja S 20 70 78
    + scc blo t 71 138
    + cbn eco t 27 43
    - corrélations faibles
    + bsu afn rtb 282 148 101 Sf18 tF328 tF118
    - corrélations négatives
    + mba cbei pmq 221 377 651 tF > 348
    - Les fréquences faibles
    + Classe a: Par la construction de la classe a le rapport x+/c+ de leurs fréquences faibles est très élevé compris entre 0.50 et 0.76. Les taux des zéros suivent avec un maximum de 99 ‰ pour pub, puis 47 37 29 pour pmg ant mja
    + Classe b: Se comporte comme la classe a pour le rapport x+/c+, très élevé 0.66 0.64 0.51 pour ade rru ase, seul cvi descend à 0.37. Par contre les zéros ne suivent pas, leurs taux sont inférieurs à 14 ‰ (ade) contre 29 ‰ pour le plus bas de la classe a, et descendent jusqu'à 5 ‰ pour rru.
    + Classe c: Les x+/c+ sont tous faibles, inférieurs à 0.23 sauf pour bsu avec 0.42 mais qui s'explique par la pente positive des 1-30. Les zéros ne suivent pas, tous inférieurs à 17 ‰ (eco) et 2 sur 8 ont 7 ‰, cbn et spl.
    + Classe d: Les sous classes d1 d2 se comportent comme les c1 puisqu'ils des taux des fréquences 1-30 peu élevé comme eux. Le rapport x+/c+ est inférieur à 0.21 et les zéros ne suivent pas, moins de 9 ‰. La sous classe d3 se comporte comme la sous classe b2 avec des rapports x+/c+ équivalents, 0.43 0.33 contre 0.51 0.37 pour b2. La différence avec b2 c'est que les 1-30 constituent une pyramide alors que celles de b2 sont sur une pente négative. Pour les d3 et b2 les zéros ne suivent pas, moins de 10 ‰.
Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400.
  • Légende: Les effectifs x+ et c+ des 1-400 (x+% 1) sont les colonnes eff des tableaux 11 et 21 des diagrammes 400. Ceux des 31-400 (x+% 31) sont les colonnes eff3 des tableaux 12 et 22. Pour les génomes n'ayant pas de 31-400 voir leur tableur au paragraphe des effectifs (derrière ligne, t30) en point sur le lien de la colonne gen du tableau 11. Les effectifs x+ et c+ des totaux (x+% t) sont extraits du tableau des positifs et négatifs.
  • Note:
    - colonne t-1, différence des taux calculés sur le total et non de la fréquence 1-400. Les génomes rtb et mba ont beaucoup d'intercalaires supérieurs à 400, voir leurs fiches.
    - colonne 31-1, différence des taux calculés sur les fréquences 1-400 et 31-400: Le génome pub a la différence la plus élevée parce que le taux de x+1 est affaibli par les faibles fréquences et notamment les zéros, voir sa fiche. En 31-400 il se comporte comme pmg de la même classe a3, mais aussi comme ase et eco. Après pub ce sont les classes c2 et c3 qui sont affaiblies par les fréquences faibles, différence 31-1 de 8.2 à 9.3.
cds-cds-t.23 Diagrammes 400 des intercalaires cds-cds. Taux des x+
gen x+ c+ %x+ 1 x+ c+ %x+ 31 x+ c+ %x+ t t-1 31-1 clx+
rru 874 2056 30 726 1509 32 972 2131 31 1.5 2.7 b1
rtb 118 402 23 112 284 28 189 505 27 4.5 5.6 c3
pub 218 538 29 149 200 43 239 595 29 -0.2 13.9 a1
cvi 1008 2320 30 895 1621 36 1115 2410 32 1.3 5.3 b2
ade 1229 2242 35 958 1490 39 1320 2325 36 0.8 3.7 b1
ant 601 1616 27 432 833 34 639 1694 27 0.3 7.0 a2
eco 1003 2130 32 940 1389 40 1076 2210 33 0.7 8.3 c2
spl 1071 2215 33 1031 1618 39 1304 2482 34 1.8 6.3 c5
bsu 1028 2444 30 884 1629 35 1092 2513 30 0.7 5.6 c1
pmq 1614 4164 28 1562 3257 32 1893 4535 29 1.5 4.5 d2
cbn 489 1701 22 457 1171 28 543 1776 23 1.1 5.7 c1
cbei 946 3399 22 921 2571 26 1213 4011 23 1.4 4.6 d2
afn 328 1323 20 313 791 28 349 1386 20 0.2 8.5 c4
ase 2398 3558 40 2072 2619 44 2726 3819 42 1.4 3.9 b2
blo 448 993 31 408 786 34 502 1044 32 1.4 3.1 d3
mja 406 1047 28 309 623 33 447 1063 30 1.7 5.2 a2
mba 705 1651 30 673 1297 34 1237 2378 34 4.3 4.2 d1
myr 828 2081 28 769 1265 38 981 2270 30 1.7 9.3 c2
pmg 559 895 38 377 510 43 604 942 39 0.6 4.1 a1
abra 256 934 22 232 548 30 273 977 22 0.3 8.2 c3
scc 416 961 30 367 622 37 462 993 32 1.5 6.9 d3
Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40[modifier | modifier le wikicode]
  • Lien tableur: Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40.
  • Diagrammes:   propro1bacbac1pr-bc1totalLes données.
  • Légende:
    - ase: mini3, tous les modulos 3 de 6 à 33 sont des minina locaux.
    - pub: Sa courbe de tendance est comme celle du diagramme Sc+ 400, un polynôme de d° 3 avec un R2 de 899 et un coefficient de la variable x3 de -0.0039 donc de forme S.
    - Les polynômes de d° 15: sont propres aux fc40 et présentent un creux brutal à l'abscisse 7 environ, min1 et de coordonnée min, suivi d'un sommet élevé d'abscisse max1 et de coordonnée max. La pente entre ces 2 points varie peu d'un génome à l'autre avec une moyenne de 7.8 et un écart de 2.4 (m/e=3.2). Sont écartés de cette moyenne blo rtb et pub. Le génome ant présente un max très élevé, ramené à l'abscisse 10 au lieu de 9 son ordonnée baisse à 48 au lieu de 88 pour l'abscisse 9 et la pente devient moyenne comme pour les autres génomes à 11.3. L'autre versant du creux est aussi abrupt de pente pente0, avec un sommet élevé d'abscisse mx1 et de coordonnée mx.
    - type: c'est le type de courbe de tendance, pro ou pr pour proteobacteria, bac ou bc pour les bacilli et les clostridia.
    - R2: coefficient de détermination de la courbe de tendance.
cds-cds.2 Intercalaires cds-cds positifs continus. Diagrammes 40
Sc+ 40 Diagrammes polynôme de d° 15 Pourcentage des tranches de 7 fréquences Effectif des tranches de 7 fréquences
gen R2 min1 max1 min max pente mx1 mx pente0 diagr type gen 1-7 8-14 15-21 22-28 29-35 1-7 8-14 15-21 22-28 29-35 total
rtb 721 5 8 2 7 1.7 4 13 -10.7 131 pr1 rtb 39 27 18 10 6 48 33 22 13 8 124
pub 981 6 8 13 13 0 2 58 -11.0 367 pr2 pub 63 17 8 6 6 223 61 27 21 20 352
rru 882 7 11 11 34 5.8 4 43 -11.3 630 pro1 rru 32 28 13 15 11 191 167 78 86 66 588
cvi 897 6 10 13 50 9.3 1 58 -9.0 815 pro cvi 30 30 17 11 11 230 232 133 80 86 761
ade 929 5 9 19 51 8.0 2 63 -14.7 876 pro ade 30 32 15 12 11 247 267 122 95 93 824
ant 923 7 9 14 88 37.0 1 109 -15.8 836 pro ant 37 39 14 5 6 297 316 112 40 45 810
eco 894 5 9 13 61 12.0 2 54 -13.7 902 pro eco 27 35 17 12 8 232 295 146 103 71 847
spl 881 6 10 13 33 5.0 2 53 -10.0 683 pro1 spl 30 31 15 13 11 193 202 94 86 73 648
bsu 897 8 12 7 53 11.5 1 41 -4.9 935 bac bsu 22 25 28 15 11 189 220 245 128 96 878
pmq 758 9 14 10 45 7.0 1 52 -5.3 1155 bac1 pmq 25 19 22 18 17 255 192 224 181 177 1029
cbn 891 8 12 9 32 5.8 1 37 -4.0 620 bac1 cbn 23 24 23 18 12 134 136 133 101 67 571
cbei 873 7 12 8 51 8.6 1 55 -7.8 954 bac cbei 22 27 25 15 11 194 242 220 138 101 895
afn 829 7 12 5 46 8.2 1 38 -5.5 580 bac afn 25 30 26 13 7 138 167 143 71 37 556
ase 827 6 10 28 67 9.8 1 60 -6.4 1165 bac-a ase 29 28 15 12 16 307 298 158 131 166 1060
blo 636 7 10 4 11 2.3 2 15 -2.2 241 bc1 blo 28 23 22 17 10 62 52 50 37 23 224
mja 670 6 9 4 32 9.3 4 32 -14.0 474 pro-a mja 23 31 22 13 10 104 143 102 61 45 455
mba 732 7 10 4 19 5.0 2 31 -5.4 428 bac1-a mba 32 22 20 13 12 124 87 79 50 48 388
myr 922 7 12 23 46 4.6 2 78 -11.0 899 pro1-a myr 42 25 16 11 7 355 213 133 93 61 855
pmg 776 7 9 10 27 8.5 2 27 -3.4 449 bac-b pmg 35 25 16 12 11 146 105 65 50 46 412
abra 895 7 12 4 33 5.8 1 58 -9.0 420 pro1 abra 41 30 14 10 6 165 119 56 39 24 403
scc 855 6 9 4 20 5.3 1 31 -5.4 389 bac1-b scc 31 30 18 13 8 113 110 66 46 29 364
Les fréquences des intercalaires cds-cds positifs discontinus. Diagrammes 40[modifier | modifier le wikicode]
Poly 3	-	-4	-4	-	-
fx40	R2	x3	x2	flex	f3°
rru	253	3	-289	32	t
cvi	499	3	-108	12	t
ade	443	4	-337	28	t
ant	574	-2	167	28	S
eco	646	202	-7426	18	Cc
bsu	789	7	-231	11	S
ase	315	71	-5211	37	Cc
mja	467	-4	313	26	S
pmg	831	-10	808	27	S
cds-cds.1 Intercalaires cds-cds positifs discontinus, Diagrammes 40
gen poly3 mod3 tot diagr note
rru 253 5 12 175
rtb 8
pub 88
cvi 499 8 11 130
ade 443 8 11 304
ant 574 1 9 186
eco 647 6 11 129 parabole
spl 69
bsu 789 5 9 302 croit
pmq 68
cbn 56
cbei 35
afn 36
ase 315 10 17 389 P15 611
blo 54
mja 467 4 12 113
mba 51
myr 97
pmg 831 5 7 196 décroit
abra 41
scc 60

Les intercalaires tRNA-cds synthèse[modifier | modifier le wikicode]

  1. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir cheminement de ma réflexion dans la genèse des gènes de tRNA et la référence à E.Coli dans Notes.
  2. Une autre idée c'est que les cds-rRna-cds sont orientés, est-ce que c'est le cas des cds-tRNA-cds aussi? Il ne faut pas oublié que les tRNAs s'auto apparient ce qui crée des contraintes lors de la gestion de l'ADN: réplication transcription réparation recombinaison et insertion des éléments mobiles contenant des tRNAs.
Les intercalaires tRNA-cds, dans les cumuls des génomes[modifier | modifier le wikicode]
- Exemple de vha
- Quand j'ai commencé à étudier les tRNAs (voir le cheminement ci-dessus) je listais séquentiellement juste les blocs de tRNAs avec ou sans rRNA, sans les cds bordant ces blocs.
- Les caractéristiques des blocs à rRNAs m'ont poussé augmenter de plus en plus le nombre de génomes à étudier et du coup j'ai commencé à trouver des cds à l'intérieur de ces blocs. Mais souvent c'était de petites protéines hypothétiques. Le lien avec l'opéron d'E.coli associant une protéine et un tRNA devenait évident. La 1ère question qui s'est imposée à moi, alors, est: est-ce que les gènes protéiques ne seraient pas créées dans ces blocs lors des remaniements chromosomiques? De nombreux remaniements des blocs à rRNAs me sont apparus quand j'ai trouvé 2 génomes très proches dont l'un des 2 présente de nombreux blocs identiques avec l'autre, mais cassés et souvent les séquences de tRNAs sont conservées. Ceci me confortait dans mon hypothèse de genèse. Et les tRNAs peuvent, aussi, intervenir dans ce processus puisqu'ils peuvent créer des contraintes comme les rRNAs puisqu'ils peuvent s'auto apparier. Aussi j'ai commencé à border mes blocs de tRNAs, avec ou sans rRNAs avec 2 cds.
- Du coup, étant donné que les blocs à rRNA sont orientés dans le sens 16s-23s-5s, qu'ils soient en direct ou en complément, j'ai pu constater rapidement que les intercalaires cds-16s étaient quasiment, tout le temps, plus grands que les intercalaires avec le cds dans 5s-aas-cds, où aas désigne l'absence ou la présence d'un ou plusieurs gènes de tRNAs.
- Comme les blocs à tRNAs, seuls, présentaient aussi cette dissymétrie des intercalaires avec les 2 cds, les bordant, se posait aussi la question de leur orientation. Mais on ne peut pas décider de cette orientation puisqu'il n'y a pas de repère interne au bloc comme pour les blocs avec les 3 rRNAs.
- Au début j'ai commencé à faire la moyenne de ces intercalaires et à établir leurs fréquences pour chaque génome. Puis j'ai fait de même avec les petits intercalaires en supposant que l'orientation allait du grand au petit comme pour les blocs à rRNAs. C'est ainsi que j'ai créé la colonne cds pour les 2 intercalaires confondus et la colonne cdsd des petits seulement, pour cds dirigé. A l'époque je ne prenais pas en compte les négatifs, ne distinguais pas les continus des discontinus et les tRNA-cds des rRNA-cds. Voici l'exemple de vha.
- Quand j'ai voulu synthétiser les résultats de ces intercalaires avec les moyennes je trouvais de grandes variations entre les génomes (voir ici le récapitulatif des 51 génomes). Ces intercalaires semblaient dépendre des génomes, donc de leurs processus de gestion de l'ADN, et du coup l'orientation que je supposait n'avait plus de sens. Il fallait à tout prix comparer ces intercalaires à tout autre intercalaire et notamment les plus nombreux, les intercalaires cds-cds.
Les intercalaires tRNA-cds, récapitulatif[modifier | modifier le wikicode]
Les méthodes de prélèvement dans NCBI[modifier | modifier le wikicode]

Le lien du texte NCBI avec sa date est indiqué dans chaque "génome.fréquences". J'applique la méthode sur ce texte pour ne laisser qu'une ligne par gène, ce qui correspond à l'étape 8 de cette méthode. J'ai sauvegardé ces textes épurés dans les annexes Artb génomes (rtb pub abra mja pmg blo scc afn), Acbn génomes (cbn ant myr rru mba), Aspl génomes (spl cvi bsu ade eco), Apmq génomes (pmq cbei ase).

  1. - méthode initiale: méthode sans tenir des compléménts. Ce sont les 1ers tableaux,
  2. - méthode des discontinus, méthode avec les compléments. Elle est utilisée dans tous les autres tableaux ainsi que pour la comparaison cds-cds / tRNA-cds.
  3. - méthode pour tout intercalaire: autres, cds-cds et tRNAs-cds (+ - c x). Le tableau de la méthode. Les tableaux contenant les autres intercalaires (ac ax):
Les intercalaires cds-cds[modifier | modifier le wikicode]
Classement des génomes, périodicité et recouvrement chez les négatifs.
  1. - Les fréquences par génome: intercalaires positifs et négatifs, continu-discontinu confondus
    • Exemple rtb après traitement par la méthode initiale, jusqu'à l'étape 24. Ce tableau "genome les fréquences" contient
      + La date du NCBi se trouve à la fin de la légende,
      + Sous tableau des plages des intercalaires (leurs historiques sont dans la légende 2 du tableau des fréquences) avec leurs effectifs, pourcentages, moyennes et variances. Ce sous-tableau contient aussi la taille du chromosome en pbs (ADN) et le total et pourcentage des intercalaires cds-cds positifs, indiquant les espaces inutilisés.
      + 3 colonnes de fréquences avec leurs 3 colonnes des effectifs par fréquence. Ces fréquences m'ont permis d'apprécier leurs courbes et notamment j'ai repéré la tranche de fréquences 26-370 (fréquence5) qui caractérise par une droite le génome et non par une courbe puissance. En utilisant le tableur on peut reproduire la droite et les puissances jusqu'à la fréquence 600 (fréquence6) ou 1200 (fréquencez) suivant l'importance du génome. Une colonne de pourcentage est accolée à frequence6 qui reprend ceux du sous-tableau, et j'y ait ajouté le pourcentage des intercalaires de 1 à 100 qui est utilisé pour le classement des génomes qui suivent.
      + 2 colonnes des fréquences unité avec leurs 2 colonnes des effectifs. Fréquence-1 m'a permis de repérer la périodicité ternaire des négatifs et la fréquence1 dont j'ai cherché la périodicité mais paraît plutôt apériodique, elle me servira plus tard pour comparer ces effectifs à ceux des tRNA-cds positifs dans la même gamme.
      + 2 colonnes d'adresses avec leurs intercalaires, pour les extrêmes des positifs et des négatifs. Les négatifs comportent une colonne de discontinuité (comp). Ils m'ont permis d'aborder les recouvrements de 2 cds étudiés plus en détail dans le chapitre suivant des discontinuités. Pour compléter toutes les adresses j'ai ajouté une colonne, fréquencef, qui fait le lien entre les extrêmes positifs et les fréquences de frequencez ou frequence6.
    • Les droites des diagrammes fréquence5: Pendant la construction des tableaux des fréquences de chaque génome, comme indiqué ci-dessus, j'ai fait les diagrammes frequence6 et il m'est apparu rapidement que je pouvais les diviser la courbe de tendance, proche d'une hyperbole, en 3 parties distinctes: la gamme de 0 à 30 de pente très élevée et proche de la branche de l'hyperbole, la gamme de 30 à 370 très accidentée ressemblant plutôt à une droite qu'au milieu de l'hyperbole, et enfin la gamme à partir de 370 jusqu'à 600 de pente très faible et proche de la branche de l'hyperbole. Comme cette dernière gamme peut être prolongée au-delà de 600 et même de 1200 pour certains génomes, la gamme du milieu existe pour tous les génomes, c'est une droite facile à comparer avec sa pente et pourrait contenir la plupart des séquences de contrôle et donc avoir un sens fonctionnel. Effectivement d'après le tableau des fréquences,
      + Les coefficients de détermination de ces droites sont très confortables puisque 18 sont supérieurs à 0.75 jusqu'à 0.91 et seulement 3 sont inférieurs à 0.64, 0.63 pour pub, 0.58 pour rtb et 0.46 pour mba.
      + Cinq clades à 2 génomes chacun ont souvent des pentes très proches. Le seul clade à 2 génomes avec les 2 pentes très différentes est celui des actinomycètes, ase pente 43 et blo pente 10. Trois clades ont les 2 pentes presque identiques, gamma 20 (eco spl), bacilli 29 (bsu pmq) et clostridia 15 (cbn cbei). Deux clades diffèrent légèrement pour leurs pentes, alpha rtb 3 et pub 6, archées mja 10 et mba 6.
      + Sur les 6 clades à 2 génomes un seul, gamma, a les 2 nombres de cds (n-cds) presque équivalents, les 5 autres ont des cds très dissymétriques. Ce qui pourrait laisser croire que la pente est indépendante de la taille du génome, en tout cas à l'intérieur de chaque clade.
      + Une seule discordance à ce schéma, dans le clade alpha, rru (pente 19) est très différent de pub (6) et rtb (3).
      + En considérant la totalité des 21 génomes la pente se révèle en fait proportionnelle à la taille du génome
      + Les courbes puissance
    • Le classement des génomes.
  2. - Les fréquences par génome: intercalaires négatifs continus et discontinus, symboles Sc- Sx- .
    • Caractéristiques et comparaison avec les tRNA-cds, Notes
    • Les recouvrements
    • La périodicité ternaire des petits intercalaires inférieurs à 80 paires de bases met en exergue l'état vibratoire des 2 cds en recouvrement.
  3. - Les fréquences par génome: intercalaires positifs continus et discontinus, symboles Sc+ Sx+ .
  4. - Récapitulation de tous les intercalaires

Les intercalaires tRNA-tRNA[modifier | modifier le wikicode]

Intercalaires entre tRNA et rRNA en continu discontinu[modifier | modifier le wikicode]

  • Lien tableur: Intercalaires entre tRNA et rRNA en continu discontinu.
  • Légende
    - c x + - % pour continu, discontinu, positif, négatif, x+/total ou nombre de génomes à x+ et c- sur le total.
    note: c-, 1 seul continu négatif, son intercalaire est d'une paire de base seulement (-1)
    - type:
    tRNA, intercalaires entre tRNAs dans un bloc sans rRNA;
    t-rRNA, intercalaires entre tRNAs à l'extérieur d'un bloc rRNA
    rRNA, intercalaires rRNA-rRNA et tRNA-rRNA d'un bloc rRNA
    aa interne, tRNA-tRNA interne d'un bloc rRNA
    4*: Ces 4 intercalaires x+ sont dus au grand nombre de remaniements des blocs rRNA du génome cdc8. 23s' et 16s' sont des rRNA fonctionnels mais tronqués.
tRNA. Intercalaires entre tRNA et rRNA en continu discontinu
tRNA1. Les totaux de 50 génomes
type total c+ x+ c- x- x+%
tRNA 1745 1714 19 1 0 1,1
t-rRNA 814 810 4* 0 0
rRNA 1043 1043 0 0 0
aa interne 127 127 0 0 0
genomes 50 50 13 26
4* cdc8 aaa-5s 23s’-16s 16s’-16s’ 16s-5s
adresse 4229303 4229975 4189696 4179150
tRNA2. discontinus
gen x+ gen x+
ase 1 -
ksk 1 vpb 1
mja 2 rtb 2
mba 1 rpl 2
mfe 1 agr 2
fps 1 aua 4
npu c- lbu 1

Intergen51. Intercalaires entre gènes pour 51 génomes[modifier | modifier le wikicode]

Intergen51. Introduction[modifier | modifier le wikicode]

  • Liens aux réflexions sur la genèse des gènes tRNA:
    - Réflexion sur la genèse des gènes tRNA
    - genèse et duplication dans les 3 domaines
    - Duplications dans les clusters RNA chez les bactéries, étude de 16 génomes. L'étude de départ avec la comparaison bsu-lmo et eco-eal auxquels j'ai ajouté 12 autres regroupés par leur taux de %GC,   cbc cbn cle lam  spl lmo bsu vpb  eal eco afn blo  cvi ade sma ksk.
    - organisation de l'opéron tac-tac-tpr chez eco-eal
    - Comparaison entre les 2 types de duplication.
    - Similitude des comportements des codons dans les 3 domaines
    - tRNA-cds: recherche de l'équivalent de l'opéron tac-tac-tpr. D'où les génomes avec les cds autres que les 1ers 16 étudiés pour les duplication cités ci-dessus. Exemple de rru avec la note que j'ai copié pour tous ces nouveaux génomes:
    + Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
    - tRNA-cds dans les cumuls: voir les réflexions dans Les intercalaires tRNA-cds synthèse et les cumuls.
    - Les calculs: La faiblesse des tRNA-cds est abordée dans comparaison continu-discontinu et sa note ainsi que le chapitre sur leurs raretés. Les calculs sont faits dans tRNA-cds calcul suivi de la comparaison avec les moyennes. J'ai supprimé ces calculs puisqu'ils se fondaient sur l'hypothèse que les intercalaires CDS-CDS et tRNA-CDS étaient analogues.Ce qui n'est pas le cas puisque les courbes montrent clairement la gamme de fréquence de 1 à 30 pdbs est quasiment nulle chez les seconds et majoritaires chez les 1ers. En plus les CDS-CDS sont la somme de continus et de discontinus.
  • Intercalaires entre gènes pour 51 génomes:
    - J'ai commencé à étudier les intercalaires entre gènes quand je me suis intéressé aux longs clusters de rRNA et tRNA chez bsu et lmo, 2 génomes qui reproduisaient à peu près les mêmes séquences dans leurs clusters mais dont les intercalaires courts entre gènes tRNA variaient beaucoup d'un génome à l'autre. J'attribuais ce comportement à la structure en trèfle des tRNAs dont les gènes pourraient s'auto-apparier lors des réparations, des transcriptions et de la réplication. La contrainte pour conserver le gène et éviter l'auto appariement devrait se résoudre par la modification des intercalaires entre les gènes de tRNA. Article qui introduit les opérons longs de tRNA et les opérons mixtes de tRNA et de protéines, page 17 [64].
    - Cette étude des clusters de rRNA et tRNA est la suite de ma réflexion sur les 1ères étapes de l'évolution moléculaire à l'origine de l'émergence de la vie. Le cheminement qui m'a conduit à l'étude de ces clusters est détaillé dans l'article sur la genèse des gènes de tRNA.
    - L'étude des clusters de tRNA et rRNA comprend l'étude de ces séquences, c'est ce que j'ai fait dans les fiches, mais aussi l'étude des intercalaires que j'ai fait dans les annexes. Or l'article qui m'a poussé à étudier ces clusters s'intéressait au fait qu'un opéron chez E.Coli contenait 2 tRNAs et un gène protéique. Ceci m'a poussé à étendre mes investigations sur les intercalaires, à ceux entre tRNA et CDS. Et pour apprécier les longueurs des intercalaires tRNA-CDS j'ai du les comparer à ceux entre 2 CDS.
    - J'ai rencontré de nombreuses difficultés dans les décomptes des intercalaires car au début je ne savais pas ce que je devais rechercher et donc les décomptes étaient au début manuels, puis petit à petit j'utilisais de plus en plus les traitements par lot. Et l'erreur qui m'a obligé à tout refaire, pour les décomptes que je présente dans ce chapitre, c'est que je ne distinguais pas entre les décomptes avec ou sans complément. Or la rareté des intercalaires tRNA-CDS de petites tailles et nuls ou négatifs m'a poussé à considérer la discontinuité lors du passage au complément. Et en étendant cette notion de discontinuité il s'est avéré qu'il peut y avoir modifications des intercalaires lors du changement de brin. C'est ce qui me paraît maintenant évident puisqu'il doit y avoir de nombreux processus de réparation à ce moment là.
    - Tous les gènes d'un génome ne sont pas considérés ici, notamment les gènes de contrôle, les pseudo gènes et ceux non définis par NCBI (miscellaneous). Leurs intercalaires ne représentent que 1% du total.

Intergen51. Historique des pré-études[modifier | modifier le wikicode]

Intergen51. Les clusters avec les intercalaires tRNA-CDS[modifier | modifier le wikicode]
  • Ce sont 43 génomes, 8 génomes du début n'ont pas été encadrés par des CDS: vpb eal lmo lam cbc cle sma ksk. Les 8 autres du début ont été sélectionnés pour les 21 génomes à intercalaires CDS-CDS: bsu spl eco cbn cbei afn ase blo. Donc j'ai ajouté 22 génomes, en plus, encadrés avec des CDS.
  • Les 51 génomes ont servis à étudier le typage des clusters à rRNA et l'étude des clusters à tRNAs seuls qui n'ont pas été inclus dans les fiches et présentent des processus de duplication différent des 1ers.
  • Les 43 génomes encadrés par des CDS ont permis de repérer des cds dans les 2 types de clusters, cds candidats pour l'étude de leur création par la contrainte des clusters à RNA.
  • Les 43 ont permis de mettre en évidence la faible fréquence des intercalaires tRNA-CDS nuls, négatifs et petits positifs. C'est ce qui m'a poussé à les comparer aux intercalaires CDS-CDS.
  • Les génomes du début avaient permis d'étudier les remaniements des clusters sans créer de chaos: eal eco et bsu lmo
  • Avec l'encadrement par CDS sont apparus des génomes avec des remaniements chaotiques:  rpmabq-abscdc-cdc8. Ce sont les annotations de bouts de rRNA, alors que la localisation des tRNAs est maintenue, qui m'ont permis d'émettre l'hypothèse de la création de gènes protéiques lors de ces remaniements provoqués par le comportement des rRNAs.
Intergen51. Les 21 génomes avec les intercalaires CDS-CDS[modifier | modifier le wikicode]
  • Cette étude des intercalaires m'a permis de mettre en évidence une périodicité chez les petits négatifs malgré le mélange continu/discontinu et de pouvoir interpréter les grands négatifs qui correspondent à des recouvrements. La périodicité sera reprise en séparant les continus des discontinus et les grands intercalaires, positifs et négatifs, qui constituent les restes des diagrammes, seront étudiés ou simplement listés dans chaque génome.
  • Cette étude m'a permis aussi d'apprécier le taux des séquences non protéiques et différentes des clusters à RNA, en calculant le taux de la somme des intercalaires positifs par rapport à la longueur total du génome donné par NCBI. Pour calculer ce taux avec l'intergen51 il faudrait refaire la somme des intercalaires positifs, mais avant, je vais reprendre les taux calculés pour seulement les 21 génomes traités pour les intercalaires CDS-CDS.
  • Tout le reste du formatage de chaque génome des 21 sera éliminé puisque c'est un mélange de continu et de discontinu, notamment les diagrammes.
  • Les 21 génomes de cette 1ère étude d'intercalaires CDS-CDS sont: abra myr pmg scc mba mja cvi ade ant rtb rru pub pmq bsu spl eco cbn cbei afn ase blo.

Intergen51. Vue de l'ensemble[modifier | modifier le wikicode]

Intergen51. La longueur totale des intercalaires d'un génome[modifier | modifier le wikicode]

  • Note: 46 génomes ont entre 8.9 et 16.3% du génome en intercalaires, soit 79% des cas étudiés avec une médiane de 12.6%. Il reste 4 faibles, 3.4 6.4 8.1 8.3 et 8 forts, 5 de 22.8 à 27.7 et 3 de 17.9 à 18.8%.
Nom	intercalaires	génome		taux en %	Nom	intercalaires	génome		taux en %	Fréquence des taux	
alpha							clostridia							
abq	356,439		3,064,393	11.6		cbc	696,513		3,892,029	17.9		taux	effectif
abqp	217,409		1,901,707	11.4		cbei	1,199,672	6,485,394	18.5		6	1
abs	363,304		3,023,440	12.0		cbn	330,729		2,773,157	11.9		7	1
absp	211,208		1,766,028	12.0		cdc	636,447		4,110,554	15.5		8	0
agrc	332,177		2,823,930	11.8		cdc8	663,874		4,308,325	15.4		9	3
agrl	225,474		2,148,289	10.5		cle	615,068		4,714,237	13.0		10	3
aua	449,307		3,742,793	12.0		hmo	396,940		3,075,407	12.9		11	9
auap	-						psor	450,598		3,550,458	12.7		12	10
oan	364,228		2,887,297	12.6		negativicutes						13	10
oan2	199,249		1,895,911	10.5		afn	242,270		2,329,769	10.4		14	5
pub	44,276		1,308,759	3.4		actino							15	4
rpl	252,952		1,109,301	22.8		ase	1,100,127	9,239,851	11.9		16	3
rpm	461,433		3,876,289	11.9		blo	267,098		2,256,640	11.8		17	1
rru	461,427		4,352,825	10.6		ksk	1,255,749	8,783,278	14.3		18	1
rtb	264,633		1,112,957	23.8		sma	1,241,224	9,025,608	13.8		19	2
beta							archeo							20	0
cvi	481,477		4,751,080	10.1		mba	1,341,425	4,837,408	27.7		21	0
ade	445,108		5,029,329	8.9		mfe	987,074		3,914,091	25.2		22	0
ant	203,179		3,192,235	6.4		mfi	403,834		2,478,074	16.3		23	1
gama							mja	168,865		1,664,970	10.1		24	2
amed	601,332		4,777,154	12.6		bacilli							25	0
eal	594,081		4,701,875	12.6		ban	749,857		5,321,900	14.1		26	1
eco	501,283		4,641,652	10.8		bsu	434,723		4,215,606	10.3		27	0
ecoN	646,219		5,441,200	11.9		lam	210,907		2,078,001	10.1		28	1
spl	789,212		5,174,581	15.3		lbu	222,489		1,856,951	12.0			0
vha1	499,733		3,765,351	13.3		lmo	288,032		2,944,528	9.8			58
vha2	317,649		2,204,018	14.4		pmq	1,228,719	8,739,048	14.1			
vpb1	403,530		3,297,305	12.2		ppm	791,310		5,728,392	13.8			
vpb2	242,529		1,806,219	13.4		ppmp	119,608		510,118		23.4			
bacteriodites						cyano							
fps	351,518		2,860,382	12.3		pmg	149,500		1,641,879	9.1			
myr	538,974		4,155,464	13.0		npu	1,547,626	8,234,322	18.8			
tenericutes						spirochete							
abra	151,700		1,877,792	8.1		scc	214,658		2,227,296	9.6			
apal	128,786		1,554,229	8.3

Intergen51. Formatage des résultats pour 51 génomes[modifier | modifier le wikicode]

  • Lien au tableur: Intergen51. Formatage des résultats pour 51 génomes.
  • Légende: Ce sont des effectifs brutes des
    - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus
    - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
    - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
    - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
    - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 Total des effectifs des intercalaires de 51 génomes
CDS-tRNA CDS-CDS CDS-CDS CDS-CDS
frequence effectif frequence effectif frequence effectif frequence effectif
fxt fct fx fc fx40 fc40 fx- fc-
0 14 14 0 228 919 0 228 919 -1 4 4,140
10 15 29 10 1746 12728 1 173 1972 -2 85 11
20 19 37 20 1378 11017 2 157 2034 -3 3 12
30 6 32 30 1475 6338 3 248 1557 -4 717 10,938
40 38 47 40 1715 4716 4 213 1317 -5 5 19
50 25 50 50 1838 3974 5 125 1057 -6 59 6
60 32 54 60 1877 4135 6 174 736 -7 41 351
70 34 75 70 1855 4194 7 205 641 -8 89 2,362
80 42 76 80 1880 4182 8 125 836 -9 47 7
90 25 74 90 1723 3967 9 169 1265 -10 29 213
100 57 84 100 1734 3737 10 157 1313 -11 94 1,255
110 32 84 110 1605 3690 11 115 1404 -12 39 3
120 27 79 120 1594 3438 12 149 1577 -13 35 242
130 41 72 130 1599 3154 13 131 1218 -14 97 788
140 56 71 140 1489 2883 14 116 1282 -15 43 6
150 30 78 150 1406 2828 15 154 1126 -16 28 123
160 35 75 160 1466 2552 16 133 939 -17 68 537
170 27 64 170 1338 2356 17 116 904 -18 35 9
180 36 54 180 1211 2127 18 154 969 -19 29 107
190 37 44 190 1304 2031 19 181 785 -20 51 408
200 25 46 200 1201 1818 20 129 813 -21 17 2
210 43 45 210 1163 1656 21 168 774 -22 21 61
220 32 31 220 1074 1602 22 165 701 -23 42 264
230 26 33 230 979 1470 23 127 652 -24 28 5
240 28 32 240 914 1363 24 177 716 -25 22 91
250 30 33 250 896 1206 25 125 597 -26 43 246
260 30 25 260 847 1139 26 119 617 -27 13 3
270 19 35 270 842 1144 27 173 615 -28 21 54
280 14 25 280 741 984 28 155 546 -29 43 158
290 17 20 290 658 927 29 115 550 -30 17 0
300 20 20 300 632 881 30 151 570 -31 20 48
310 25 14 310 586 823 31 135 559 -32 39 125
320 17 21 320 595 703 32 122 518 -33 14 0
330 17 13 330 523 710 33 173 494 -34 15 32
340 17 6 340 507 595 34 167 457 -35 31 108
350 20 16 350 435 599 35 150 460 -36 9 0
360 14 15 360 447 567 36 165 481 -37 8 27
370 19 13 370 396 530 37 174 414 -38 27 71
380 10 15 380 398 497 38 187 442 -39 15 0
390 14 14 390 341 484 39 233 461 -40 14 21
400 6 13 400 334 429 40 209 430 -41 24 58
reste 182 267 reste 6,624 8,284 reste 45,052 77,659 -42 7 0
total 1,253 1,945 total 51,594 113,377 total 51,594 113,377 -43 10 31
%reste 14.5 13.7 %reste 12.8 7.3 diagr 6,314 34,799 -44 14 47
t30 40 98 t30 4,599 30,083 -45 6 0
%t30 3.2 5.0 %t30 8.9 26.5 -46 15 14
diagr 1,057 1,664 diagr 44,742 104,174 -47 19 43
-48 12 0
Récapitulatif des effectifs -49 13 23
>0 <0 zéro total * autres -50 15 55
x 51,366 2,456 228 54,050 reste 264 420
c 112,458 23,544 919 136,921 total 2,456 23,544
190,971 9,555 %reste 10.7 1.8
total 200,526 diagr 1,378 8,004

Intergen51. Les différents types d'intercalaires[modifier | modifier le wikicode]

  • Lien au tableur: Intergen51. Les différents types d'intercalaires.
  • Légende:
    - S pour intercalaire CDS-CDS et R pour tRNA-CDS,
    - c pour intercalaire continu (les 2 gènes sont sur le même brin) et x pour discontinu (les 2 gènes sont sur 2 brins différents, le brin et son complément)
    - %reste = 100*reste/total, le reste étant ce qui reste du total après la fin du diagramme, gamme.
    - %t30 = 100*t30/total, t30 étant le total des fréquences 10 20 30
    - %t5 = 100*t/total, t5 étant le total des fréquences de -1 à -5 dans le diagramme des S-.
  • Note:
    - total de tous les intercalaires étudiés ici, 190,971 + 9,555 + 6 = 200,532
    - taux des R-: c-/c = 100*8/1945 = 0.4 et x-/x = 100*11/1253 = 0.9.
Int51.2 Les différents types d'intercalaires entre gène de 51 génomes
Int51.21 Les différents types
intercalaires CDS-CDS * autres intercalaires
continu S+ S- S0 total c/x RNA-RNA CDS-rRNA total
c 112,458 23,544 919 136,921 2.5 3,136 348 3,484
x 51,366 2,456 228 54,050 18 196 214
t 163,824 26,000 1,147 190,971 3,154 544 3,698
% 85.8 13.6 0.6
Int51.22 Détail des * autres intercalaires
intercalaires tRNA-CDS récapitulatif des * autres intercalaires
continu R+ R- R0 total c/x * autres total %
c 1,931 8 6 1,945 1.6 tRNA-CDS 3,198 33
x 1,239 11 3 1,253 RNA-RNA 3,154 33
t 3,170 19 9 3,198 CDS-rRNA 544 6
% 99.1 0.6 0.3 non RNA 2,665 28
total 9,561 9,555+6 aua
Int51.23 Les taux remarquables
taux %reste %t30 %t5 %0
type S+ R+ S- S+ R+ S- S+ R+
gamme 400 400 6-50 - - - - -
c 7.3 13.7 4.8 26.5 5.0 64 0.7 0.3
x 12.8 14.5 15.9 8.9 3.2 33 0.4 0.2

Intergen51. Détail des intercalaires RNA-RNA et CDS-rRNA[modifier | modifier le wikicode]

RNA-RNA		c	x		CDS-RNA		c	x
23s 5s		286			CDS 16s		210	93
16s 23s		150			5s CDS		101	89
16s tRNA	155			16 CDS		6	1
tRNA 23s	173			CDS 5s		2	4
5s tRNA		155	1		23s CDS		12	6
tRNA in		140			CDS 23s		5	1
tRNA contig	731			5s 16s		11	2
tRNA hors	1254 	17		16s16s		1	
tRNA 16s	20			total		348	196
23s tRNA	25					
tRNA 5s		23					
16s 5s		21					
5s 23s		1					
5s 5s		2					
total		3136	18				

Intergen51. Les intercalaires rares[modifier | modifier le wikicode]

  • Note: Ce n'est pas la peine d'ajouter les adresses pointant sur le tableau autres intercalaires aas, je n'ai pas trouvé d’ambiguïté en cherchant sur l'intercalaire.
tRNA-CDS					tRNA hors		
gen	x-	c-	zéro x	zéro c	gen	x+	c-
oan1	-44				rtb	60	
oan2	-44					1051	
aua	-30				rpl	49	
pub			2			830	
spl	-23				agrl	793	
ecoN				2	aua	161	
vha2		-36				173	
amed		-21				270	
ppmp		-24				404	
cdc				1	lbu	151	
cdc8				1	hmo	293	
ase	-12				ase	130	
blo	-8, -39	-17			sma	153	
sma	-3	-10			ksk	151	
ksk	-3	-13			mfe	227	
mfi		-1			fps	296	
mba	-12			1	npu		-1
mfe				1	total	17	1
myr	-38				__	__	__
pmg		-30	1		5s tRNA		
total	11	8	3	6	cdc8	353	x+
__	__	__	__	__	16s16s		
5s5s					vha1	0	c+
cvi	89	c+			5s23s		
mfi	748	c+			hmo	230	c+

Intergen51. Les intercalaires non RNA[modifier | modifier le wikicode]

  • Note: ce sont les intercalaires autres que CDS-CDS et ceux contenant un RNA. Ici leur décompte sert à vérifier le total des intercalaires. gen pour génome, l'astérisque pour le total de la colonne autres du tableau autres intercalaires aas du génome, ft pour le total des tRNA-CDS, RNA pour les intercalaires contenant un RNA. ft RNA et non RNA sont reportés dans le tableau des données intercalaires de chaque génome.
gen	 *	ft	RNA	non RNA		gen	 *	ft	RNA	non RNA
abq	104	64	20	20		ban	173	22	142	9
abqp	65	26	27	12		bsu	324	28	106	190
abs	110	66	14	30		lam	152	43	55	54
absp	54	25	23	6		lbu	198	48	108	42
agrc	109	66	15	28		lmo	101	25	76	0
agrl	40	15	19	6		pmq	256	42	202	12
aua	117	80	13	24		ppm	190	43	139	8
auap	6	0	6	0		ppmp	62	20	40	2
oan1	105	70	15	20						
oan2	46	24	12	10		cbc	88	38	50	0
pub	79	50	11	18		cbei	192	48	130	14
rpl	75	58	9	8		cbn	147	42	101	4
rpm	243	100	51	92		cdc	282	13	113	156
rru	160	83	28	49		cdc8	348	16	141	191
rtb	75	58	9	8		cle	273	69	120	84
						hmo	223	54	118	51
ade	105	65	24	16		psor	226	19	158	49
ant	95	34	53	8						
cvi	205	76	93	36		afn	154	57	55	42
										
amed	239	79	122	38		ase	183	101	74	8
eal	537	77	74	386		blo	128	82	30	16
eco	712	65	77	570		ksk	171	103	62	6
ecoN	217	104	101	12		sma	164	115	43	6
spl	253	62	159	32						
vbp1	203	47	124	32		fps	114	54	46	14
vbp2	32	13	11	8		myr	199	79	96	24
vha1	190	47	115	28		npu	156	96	52	8
vha2	33	15	12	6		pmg	84	67	7	10
						abra	128	41	40	47
mba	128	90	28	10		apal	96	29	27	40
mfe	122	79	28	15		scc	104	67	25	12
mfi	87	56	27	4						
mja	99	43	22	34		total	9 561	3 198	3 698	2 665

Intergen51. Les diagrammes de la totale[modifier | modifier le wikicode]

Intergen51. Les diagrammes CDS-CDS et tRNA-CDS[modifier | modifier le wikicode]

Intergen51. Les diagrammes CDS-CDS et tRNA-CDS positifs[modifier | modifier le wikicode]
Courbes de tendances pour les diagrammes en pour 1000			Calculs pour f.41 et autres R2 f.1		
R2	x3		x2		x		c		Inflexion poly3	x	c	
0.974	1.57E-06	-1.06E-03	1.16E-01	30.0	fx1	abscisse	201.9	120.9
0.865	-4.49E-06	3.51E-03	-9.26E-01	93.9	fc1	ordonnée	22.7	28.8
									poly3/droite	22.9	27.9
0.995	7.53E-07	-4.56E-04	-1.81E-02	38.7	fx41			
0.989	8.19E-07	-2.97E-04	-1.12E-01	45.2	fc41	R2 f.1		x	c
									Poly 3		974	865
0.988					-9.43E-02	41.9	fx41	Poly 6		979	978
0.938					-1.06E-01	40.7	fc41	Poly 9		993	985
0.924					-8.21E-02	38.5	fx1
0.656					-1.60E-01	55.8	fc1
  • Note CDS-CDS positifs (tableau des 51 génomes):
    - J'ai représenté en diagrammes les 6 courbes correspondants aux effectifs des colonnes fxt fct fx fc fx40 fc40 sans la fréquence 0 du tableau présenté pour le formatage. Chaque abscisse est le total des effectifs de 10 fréquences successives (freq 10) et va de 1 à 400 pour les 4 premiers tandis que pour fx40 et fc40 elle est réduite à une seule fréquence (freq 1) et va de 1 à 40. La légende est détaillée dans les images  t1  t2  de wikimédia. Les 2 derniers diagrammes de l'image t1, fx41 et fc41, vont de l'abscisse 50, qui regroupe les fréquences de 41 à 50, à l'abscisse 400. Je les ai présentés avec un polynôme de degré 6 pour montrer l'adéquation nette du diagramme fc41 avec sa courbe de tendance (R2 0.999). La courbe de tendance linéaire (R2 0.938) met en valeur sa courbure alors que celle de fx41 (R2 0.988) se confond avec son diagramme (R2 0.995). Je les ai comparés entre eux avec leurs équations de courbe de tendance de polynôme de d° 3, présentées ci-dessus avec des ordonnées en pour 1000 du total des effectifs (les données sont dans le tableur du tableau des 51 génomes).
    - La netteté de fc41 va de pair avec la netteté de fc40 comparées aux diagrammes en dents de scie de fx40 et à ceux des diagrammes fxt1 et fct1 (abscisse en unité de fréquence), non présentés mais dont les données sont dans le tableur.
    - Les calculs avec les polynômes de d° 3: les points d'inflexion de fc41 (120) et fx41 (200) montrent que fx41 est au-dessus de fc41 mais se rejoignent à la fin. L'équation de fc a le coefficient de x3 négatif alors que ceux de fct fxt fx fx41 fc41 sont tous positifs. Les fréquences en pour 1000 sont identiques, au ‰ près, de la freq10 50 à la freq10 130, entre fx et fc, avec un taux moyen de 33‰.
    - Le diagramme fx est une droite, nettement différent de ceux de fct et fxt. Ces derniers représentent un seul processus avec un seul mode d'un maximum d'abscisse 133 pour fxt et 113 pour fct à comparer aux points d'inflexion de fx41 et fc41. Leurs équations en effectifs sont:
    + f(x)= 3.16E-06*x3 - 2.46E-03*x2 + 0.487*x + 9.58, pour fxt et
    + f(x)= 1.04E-05*x3 - 7.10E-03*x2 + 1.21*x + 13.5 pour fct.
    - La variance de fct et fxt est due seulement aux génomes étudiés avec un processus commun alors que dans fx chaque génome devrait avoir son processus propre avec un mode différent. L'homogénéité de fc est le reflet d'un comportement de chaque génome qui varie peu à chaque fréquence. Alors que chaque génome, dans fx, a un mode propre à chaque fréquence.
    - L'homogénéité de fc se retrouve dans fc40 avec une adéquation nette à la courbe de tendance alors que fx40 présente un diagramme en dents de scie qui montre encore que chaque génome procède d'un processus différent. Le diagramme fc40 montre que tous les génomes ont le même processus. Et quand je compare fct1 et fxt1 (abscisse en unité de fréquence) à fx40, les dents de scie des 2 premiers ont leurs courbes de tendances des droites croissantes (voir les équations au tableur, R2 respectif de 0.347 0.239) qui sous-tendent un seul processus dont la variance est due à la variance des génomes, alors que les dents de scie de fx40 est une droite horizontale (R2 0.001) combinant la variance des processus et des génomes.
    - Le processus sous-tendant fc étant tout à fait différent de celui de fct les fréquences de fct ne peuvent être déduites statistiquement de celles de fc. On ne peut pas comparer 2 choses incomparables.
    - Le diagramme de fc40 laisse penser qu'il y a un mode prépondérant à la fréquence 12, cela correspondrait aux séquences de contrôle cis des gènes protéiques.
    - Le diagramme fct est régulier et présente des motifs avec un semblant de symétrie (R2 0.923) contrairement au chaos de fxt (R2 0.600). Les 3 diagrammes fc40 fc fct montrent la caractéristique régulière des intercalaires continus, bien que sous-tendus par 2 processus différents, comparée au chaos des intercalaires discontinus de fxt, fx40 et de probablement de fx comme je l'ai mentionné ci-dessus.
Intergen51. Classement des courbes CDS-CDS positifs discontinus.[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs discontinus..
  • Légende:
    - Les classes sont séparées par une bordure bleue fine. Elles sont ordonnées sur x=0, intersection de la courbe avec l'axe oy.
    - Les clades sont séparés par une ligne à blanc
    - Courbures, représentées par la courbure calculée multipliée par 1000. En cyan les valeurs extrêmes.
    + courb1 est la courbure au sommet des courbes fx1 (fréquences regroupées par 10, freq10, de 1 à 400 pbs), d'abscisse soma et d'ordonnée somo. Quand fx1 est une hyperbole, constante négative de x3, la courbure courb1 n'est pas renseignée.
    + courb4 est celle des courbes fx41 de 41 à 400 pbs. Quand fx41 est une hyperbole, constante négative de x3, elle est remplacée par une courbe de constante positive. Ce paramètre est intéressant car en l'absence de courb1 il décroît avec %t20 dans la classe A et est très faible pour les classes B et C1 (sauf pour bsu lmo ban). Il y a une continuité progressive de A vers C (en valeur absolue). Une évolution progressive apparaît avec courb1 pour les classes C2 et D2 et dégressive dans les classes C1 D1. La classe A est très progressive. (voir diagrammes à venir des courbures par classe).
    + Les courbes différentes de fx1 sont indiquées dans la colonne courbe.
    - 1ères fréquences: long1 et long2 respectivement la somme des fréquences de 1 à 10 et de 11 à 20 en pourcentage. %t20 est la somme des 2. Elle sert aussi à caractériser les classe B et C en comparaison avec la colonne %dom.
    - fréquences dôme: Les classes B et C sont caractérisées, après %t20, par la somme très élevée de 2 fréquences freq10 das la colonne %dom et dont l'abscisse est adom.
    - évolution régulière des fréquences freq10: C'est le cas de la classe D.
    - Certains génomes sont caractérisés par des extrêmes,
    + ksk agrl colorés en jaune, ont des courbes de tendance sous forme de droites peu différentes des polynômes de d° 3. Leurs coefficients de détermination R2, poly3/droite, sont respectivement 922/911 et 762/756. Les 2 1ères fréquences sont quasiment identiques, différant de 2 et 4% alors que pour agrc oan1 aua ase j'obtiens 8 16 12 18% respectivement et le fossé se creuse encore pour les freq10 30 et 40.
    + Le %reste en cyane, taux des intercalaires au-delà des 400 pbs, est excessif pour mfe mba cbc npu rtb rpl de 23 à 43%, et très faible pour pub et apal 1.7 et 2.6%. le plasmide ppmp a 23.4% mais sa taille est la plus faible des 51 génomes étudiés. C'est pour cela que j'ai construis des diagrammes jusqu'à 900 pbs pour mfe mba pour comparer leurs x=0 dont l'ordre ne change pas, 17.7 pour mfe contre 9.77 pour mba (Dans le diagramme 400 j'ai respectivement 12.8 6.43).
    - Sommets des courbes en plus de celle de fx1. Elles sont colorées en gris. Leur courbure est indiquée dans la colonne courb4.
courbe	gen	soma	somo	courb4
51	psor	118.9	29.7	-1.586
61	ban	127.4	57.1	-2.317
31	cvi	-9.1	49.5	-1.943
21	eal	-75.3	49.6	-1.263
21	ecoN	11.5	37.8	-1.299
11	rpm	2.1	40.2	-1.555
11	cbn	-24.2	37.2	-0.731
11	eco	82.1	36.0	-1.881
21	myr	-51.3	46.1	-1.238
31	ksk	-128.7	49.7	-0.849
41	ksk	-749.1	130.7	-0.493
31	ase	33.9	40.3	-1.969
41	ase	33.9	40.3	-0.942
31	agrl	-431.0	72.3	-0.454
Classement des courbes des intercalaires CDS-CDS positifs discontinus x+
clade gen taille %reste courb1 courbe courb4 soma somo %dom adom long1 long2 %t20 x=0 classe
alp1 pub 234 1.7 - - - 167 64 231 127 A0
cya2 pmg 599 4.5 - 41 -1.109 10.8 39.4 194 65 259 110 A1
bde3 ant 633 3.5 - 41 -4.031 101.7 38.0 128 81 209 82.0 A20
arc4 mja 441 5.4 - 41 -3.400 97.9 34.7 111 70 181 71.5 A21
bde2 ade 1314 5.3 - 41 -2.325 92.1 34.6 78 80 158 64.4 A22
al4 absp 472 11.0 - 41 -1.720 108.2 29.2 81 59 140 62.4 A23
al1 abq 890 9.2 - 41 -1.870 111.4 29.9 73 61 134 59.8 A24
al2 abs 883 10.2 - 41 -1.841 94.7 30.6 74 46 120 58.8 A25
al3 abqp 497 8.7 - 41 -1.884 111.3 30.9 70 64 135 56.1 A26
al9 oan2 460 8.7 - 41 -1.613 46.9 34.4 63 54 117 49.5 A27
alp4 rru 967 9.3 - 41 -1.079 76.7 30.3 47 52 98 47.8 A28
al5 agrc 796 7.2 - 31 -0.790 -45.1 40.2 90 60 53 45 98 46.3 B10
al7 aua 975 9.9 - 31 -0.116 -875.6 76.3 91 60 51 39 90 45.3 B11
al8 oan1 771 9.1 - 21 -1.160 30.5 34.4 99 60 54 38 92 43.0 B12
bac2 bsu 1093 5.5 - 51 -3.143 135.7 29.9 219 40 26 41 67 62.5 C10
bac5 lmo 587 6.3 - 51 -2.188 126.7 26.3 271 40 17 34 51 59.1 C11
act1 ase 2691 9.7 -1.804 41 -0.942 20.6 41.1 99 70 52 34 86 40.7 C12
clo8 psor 693 9.1 -0.901 51 -1.586 -11.0 39.2 140 50 12 23 35 39.1 C13
bac1 ban 1579 10.3 -1.565 61 -2.317 23.3 38.5 138 40 10 26 36 38.1 C14
bde1 cvi 1114 8.0 -2.436 31 -1.943 53.3 41.6 146 70 56 30 85 37.7 C15
ga2 eal 1185 10.3 -1.902 21 -1.263 42.3 37.9 118 50 38 22 60 36.0 C16
ga4 ecoN 1382 10.3 -1.471 21 -1.299 34.8 36.3 134 50 32 16 48 35.3 C17
alp3 rpm 906 11.8 -2.175 11 -1.555 65.2 35.7 191 50 15 7 22 30.3 C18
clo3 cbn 540 9.6 -1.339 11 -0.731 68.8 33.3 113 50 19 6 24 29.7 C19
ga3 eco 1074 5.3 -1.834 11 -1.881 78.5 36.0 131 50 33 9 42 29.4 C19a
bct1 myr 980 14.9 -2.327 21 -1.238 76.6 35.7 107 70 27 12 39 27.6 C19b
bac3 lam 483 5.6 -3.737 85.8 43.6 155 60 17 6 23 26.7 C20
ga1 amed 1343 8.2 -3.171 90.6 39.3 141 80 28 15 43 23.2 C21
ga7 vha2 689 13.9 -2.925 96.5 35.1 103 80 20 20 41 17.8 C22
bac4 lbu 411 7.8 -4.193 98.5 42.9 141 70 2 5 7 17.0 C23
ga8 vpb1 782 11.5 -3.965 96.4 39.7 145 70 15 15 31 16.1 C24
ga6 vha1 934 13.4 -3.343 98.7 36.4 115 70 12 17 29 15.5 C25
ga9 vpb2 561 12.7 -3.667 104.6 38.2 127 80 20 11 30 12.1 C26
alp2 rpl 183 32.2 -2.604 108.0 28.1 104 80 11 22 33 8.12 C27
alp5 rtb 186 35.5 -2.195 117.3 27.0 97 80 11 16 27 7.33 C28
clo4 cdc 640 19.5 -1.942 176.9 31.0 5 0 5 -11.8 D10
clo5 cdc8 686 20.1 -1.748 175.5 29.9 7 4 12 -7.46 D11
bac6 pmq 1888 14.0 -2.305 160.2 34.2 8 8 16 -6.46 D12
clo2 cbei 1212 21.6 -1.691 156.0 27.6 5 10 15 -2.49 D13
bac7 ppm 1267 11.9 -3.106 133.9 37.0 86 90 13 16 28 -1.18 D14
clo6 cle 779 10.7 -2.811 133.5 35.8 12 8 19 1.51 D15
bac8 ppmp 107 23.4 -1.912 146.0 29.5 0 0 0 2.61 D16
clo1 cbc 719 23.9 -0.859 174.4 23.9 1 7 8 4.94 D17
arc3 mba 1235 42.8 -0.482 193.6 17.4 6 11 17 6.43 D18
arc1 mfe 1067 34.9 -0.779 119.8 20.2 10 14 24 12.8 D19
ga5 spl 1305 17.6 -2.662 120.1 32.4 93 80 6 15 21 6.45 D21
clo7 hmo 460 12.6 -1.900 135.5 31.6 20 22 41 8.01 D22
arc2 mfi 626 15.8 -1.820 123.8 29.8 19 10 29 11.2 D23
neg1 afn 346 4.6 -2.277 121.4 36.2 12 9 20 14.5 D24
cya1 npu 2307 23.2 -1.454 98.1 27.1 22 23 44 18.4 D25
bct2 fps 560 13.4 -2.683 91.5 35.2 32 16 48 21.3 D26
act2 blo 499 9.8 -2.403 98.7 36.0 34 16 50 21.4 D27
act4 sma 2581 11.6 -1.894 84.2 33.9 29 26 55 25.9 D28
spi1 scc 458 8.5 -2.273 81.0 37.2 20 33 52 28.3 D29
ter2 apal 191 2.6 -4.112 82.3 47.3 31 21 52 30.4 D30
ter1 abra 270 5.2 -3.934 65.0 47.0 137 50 19 33 52 37.3 D31
act3 ksk 2564 11.6 -1.185 31 -0.849 -10.8 39.5 87 80 38 36 74 39.4 D32
al6 agrl 499 8.4 -0.543 31 -0.454 -431.0 72.3 78 60 42 38 80 42.2 D33
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
totale 58 51,594 12.8 -1.520 63.7 33.5 34 27 61 30.0 D28
Intergen51. Classement des courbes CDS-CDS positifs discontinus. Note[modifier | modifier le wikicode]
  • Pour classer les diagrammes des discontinus, x+, j'ai utilisé 4 critères
    - %t20 et les colonnes associées long1 long2. Il dérive du taux %t30 que j'ai utilisé dans la comparaison x+ c+.
    • Long1 sert de repère par rapport au corps du diagramme. Il peut dépasser toutes les ordonnées et c'est le cas de la classe A, ou bien être plus ou moins bas par rapport au sommet du dôme et c'est le cas des classes B C D1. Dans la classe D2 où le x=0 remonte long1 le suivra.
    • La pente définie par long1 long2 va distinguer 2 taux %t20 identiques mais dont le signe de la pente est différent. C'est ainsi que j'ai pu analyser le cas des C1 bsu lmo psor ban. Mais cette pente positive va surtout caractériser la classe D2 dont la courbure ne dépend plus d'un dôme et long1 va suivre x=0.
    • A part le cas des 2 C1 sans minimum local, bsu lmo , l'évolution du taux %t20 va être parallèle à celle de x=0.
    - Les dômes. Ils sont caractérisés par l'abscisse du sommet, adom, et la somme des 2 taux du dôme, %dom. Ils appartiennent essentiellement aux classes B et C.
    • adom: Chez les B1 et C1 les abscisses sont faibles, autour de freq10 50, alors que les C2 tournent autour de 70. Les 2 classes C1 et C2 sont homogènes et les moyennes nettement distinctes. (voir le tableau des moyennes en fin de note).
    • %dom: C1 et C2 sont très homogènes d'après le tableau des moyennes mais bsu et lmo ny sont pas. Bien que les moyennes se chevauchent celle de C2 est plus faible, de 10%, par rapport à celle de C1 et celle de B1 est encore plus faible, autour de 90%.
    • conséquences: plus le dôme est proche de l'origine et son taux élevé plus la courbure sera faible, avec les B1 sans courbures (le coefficient de x3 étant négatif), les C1 aux courbures faibles et les C2 aux courbures fortes.
    • D1 et D2 n'ont pas de dôme sauf pour ppm spl et abra. Leurs courbes sont très étalées ce qui fait que le dôme est loin de l'origine et son taux faible ce qui donne une courbure très forte. Ainsi pour ppm spl abra j'ai respectivement pour adom %dom courb1, 90 86% -3.106, 80 93% -2.662, 50 137% -3.934.
    • + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+ du à son minimum local, à l'abscisse 10, 2 fois supérieur (abra ban psor 19 10 12%) avec un %dom identique (abra ban psor 137 140 138%). Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
    - La courbure du sommet de poly3. C'est la comparaison entre x+ et c+ qui a mis en évidence pour certains diagrammes la forte pente négative t30 des c+ par rapport à la forte courbure des x+ pour cette plage. Quand je l'ai appliquée à tous les diagrammes j'ai pu regrouper les diagrammes sans dôme en 2 classes D1 et D2.
    • La classe D1 va se caractériser par une courbure très faible comparable à la classe C1, moyenne -1.763 contre -1.775. Les 2 classes se différencient par leur homogénéité, m/e 2.0, moyenne la plus hétérogènes des 5 classes, contre 3.8 pour C1 , 2ème homogène après C2. Elles se différencient plus par leur décroissance dans le diagramme en fonction de X=0, D1 est fortement décroissante (R2 0.495) et C1 à peine décroissante (R2 0.146), voir les diagrammes des courbures. D1 se différencie de C1 à cause des dômes qui font diminuer l'abscisse des C1, alors que les D1 s'étalent plus loin, soma 157 contre 45 pour C1.
    • Le passage de D1 à D2: mfe m'a posé un problème puisque D1 est décroissante, pour la courbure, et que D2 est croissante, son X=0 de 12.8 va se positionner après mfi qui a une courbure de -1.820 contre -0.779 pour mfe. Je l'ai alors mis en D1, en continuité de X=0, après mba. J'ai eu un doute à cause du %reste très élevé de mba et mfe. Peut être qu'en étendant les diagrammes x+ à 900 de mfe et mba, leurs places dans D1 ne seraient plus justifiées. Mais le fait que leur nouveau X=0 ne modifie pas leur ordre, mba 9.77, avant mfe 17.7 m'a conforté dans ce positionnement dans D1. J'ai comparé les x=0 des diagrammes étendus 800 et 400 des D1 à ceux des D2, dans le tableau en bas de la note. L'ordre de mba et mfe est respecté mais non ceux des autres D1. Par contre dans la colonne 800 les D1 restent largement inférieurs à celle des D2, sans aucun chevauchement. Les D2 800 respectent exactement l'ordre des 400 et le 1er, spl, reste supérieur au plus grand des D1 800, 23.8 contre 21.4 pour ppm. Ce dernier est un intrus dans D1 800.
    • La classe D2, de D21 à D31, ressemble beaucoup à C2 pour le sommet, soma 100.2 contre 99.6. Mais le sommet de C2 croît nettement (1 seul intrus) et passe de 86 à 108, alors que celui de D2 décroît rapidement par groupe de 3 génomes à la fois et passe de 135 à 65. La courbure de D2 a une moyenne 50% plus forte que celle de D1, -2.492 contre -1.763, mais 50% plus faible que celle de C2, -2.492 contre -3.311. La moyenne de D2 est moins homogène, m/e 3.0, que celle de C2 la plus homogène des 5 classes, m/e 5.1. Les 2 classes se ressemblent beaucoup dans les diagrammes des courbures, ils sont nettement croissants et de façon régulière avec un R2 de 0.612 pour D2 contre 0.730. Les 2 diagrammes diffèrent par leur forme.
    • La suite de la classe D2 est la limite de la courbure et du sommet de la courbe. D32 et D33 ressemblent à la classe B1 mais ils se distinguent tous les 2 par l’absence du minimum local à t30 (en plus long1 est presque égal à long2), un dôme très faible (%dom le plus faible, 87 et 78 contre 91 pour B11) et éloigné (80 pour ksk contre 60 pour agrl et les B1). L'ordonnée du sommet de D32 et D33 est élevée ce qui fait que la courbe de tendance est plus une droite qu'un polynôme qui a pourtant une courbure.
    - Les x=0 enfin que j'ai adoptés pour le classement et les 3 critères précédents définissent les grandes classes A B C D.
    • Classe A: Il n'y a pas de courbure. Le coefficient de x3 est négatif. J'ai établit alors la courbure du diagramme 41-400, courb4.
      + A0 a un coefficient toujours négatif quel que soit le début du diagramme.
      + A1 a une courb4, mais l'abscisse du sommet est tellement grande, -500, que la courbe est quasiment à coefficient négatif.
      + De A20 à A28 par contre les courbures sont grandes et nettement croissantes avec un R2 de 0.932. Les abscisses des sommets sont croissantes de façon irrégulières et passent de 77 47 à 111 92 102.
      + Le x=0 décroît régulièrement, sans intrus, de 127 à 48.
    • Classe B:
      + C'est la continuité de la classe A puisque le coefficient de x3 de 1-400 est négatif.
      + Il y a continuité aussi pour la courbure, courb4, puisque le coefficient de x3 de 41-400 est négatif faisant suite à la courbure la plus faible de la classe A (-1.079).
      + La seule différence avec la classe A est que les B ont un dôme. Et celui-ci a une ordonnée de même grandeur que celle de l'abscisse 10 (freq10) avec un minimum local en l'abscisse 40 ou 30.
      + Le minimum local m'a permis de calculer la courbure, courb4, des diagrammes 31 21 11-400 (colonne courbe) ce qui est possible puisque l'ordonnée de l'abscisse 40 ou 30 est inférieure à celle du dôme. Cette courbure est en continuité progressive, et non abrupte, avec celle de la classe A comme je l'ai notée ci-dessus. En plus elle est en continuité avec les courbures, courb4, de la classe C1 bien que celle-ci ait une courbure courb1, sauf pour bsu et lmo.
      + Les taux %dom des dômes de B sont plus faibles que tous ceux de la classe C et leurs abscisses, adom 60, sont supérieures à celles de C sauf pour ase cvi myr avec 70.
      + Le x=0 décroît régulièrement, sans intrus, à la suite de la classe A, de 46 à 43.
    • Classe C1
      + En excluant momentanément les 2 génomes bsu et lmo (C10 C11), le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe B, de 41 à 28.
      + En parallèle la courbure, courb1, décroît légèrement dans les diagrammes des courbures (R2 0.146), avec une moyenne homogène (m/e 3.8), -1.775, la 2ème très faible des 5 classes. Par contre les sommets, soma, croissent régulièrement de 21 à 77, avec une moyenne faible de 45 très hétérogène, m/e de 1.6, le plus faible de toutes les moyennes du tableau, conséquence de la forte croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C1 son évolution n'est pas homogène (m/e 2.1) et ne manifeste pas de croissance nette. Le diagramme des classes montre bien que le %t20 de C1 est très chaotique, différemment des autres classes. La courbure, courb1, différencie nettement B1 et C1.
      + Le classement de C12, ase. Ce génome ressemble beaucoup à oan1 avec un long1 au même niveau que le sommet du dôme, un x=0 du même ordre 41 contre 43 pour oan1 et un %t20 qui vient juste après celui de oan1, 86 contre 92. Le génome ase se distingue nettement de la classe B parce que c'est le 1er à avoir une courbure courb1 moyenne, -1.804, et vient juste après lmo et bsu. Donc il est logique de le classer avec les C1. Cependant ase se comporte aussi comme ksk qui est du même clade et qui a une classe D2. Les 2 diagrammes ont à peu près le même minimum local t30 à l'abscisse 40 pour ase , 23‰ contre 29‰ pour ksk à l'abscisse 50. Mais c'est la pente très négative de ase qui m'a poussé à le comparer aux B, -7.25 contre -1.79 pour ksk. Si je trie sur clade, toutes les autres colonnes sont à peu près identiques, sauf courb1, -1.804 contre -1.185 pour ksk, soma 21 contre -11, long1 et par conséquent %t20, 52 contre 38. Même la queue du diagramme est semblable et les fx41 fx31 aussi (voir tableau en bas de la légende du tableau de classeau). Il serait peut être logique de le mettre en D32 alors que leurs phylogénies sont complètement différentes.
      + Le minimum local à t30: j'ai montré dans la comparaison continus discontinus que ce minimum est caractéristique des continus qui l'arborent tous et se trouve dans la plupart des cas aux alentours de l'abscisse 30 de freq10. On le retrouve chez les discontinus mais il varie beaucoup d'une classe à l'autre et d'un génome à l'autre. Cependant, s'il se comporte de façon analogue dans les classes A et B, dans C1 seuls ase (abscisse 40) et cvi (30) font de même, avec la différence notable, pour ces 2 là, d'avoir une courbure courb1. Sinon 4 C1, bsu lmo psor ban, ont l'abscisse à 10 et les 6 autres à 20.
      + La courbure courb4: A part ase tous les C1 ont un coefficient négatif de x3 et donc n'ont pas de courbure, courb4. C'est la même situation qu'avec les B. En éliminant les 1ères abscisses, 10 20 30, j'arrive à trouver une courb4 aussi faible que celle des B, à part bsu lmo psor ban pour qui j'ai trouvé une forte courbure, courb4, en abscisse 70 (ban) ou 60 pour les 3 autres, et non pour des abscisses inférieures. Cette ressemblance entre les 2 classes renforce nettement la continuité entre elles. C'est ce qui m'a amener à classer ase, mais aussi bsu lmo, dans la classe C1 comme je le montre au chapitre suivant sur les dômes.
      + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C1 adom et %dom sont très homogènes, avec les moyennes respectives de 55 et 132 avec le même m/e de 5.1. Par contre la courbure, courb1, et l'abscisse du sommet sont hétérogènes et faibles, respectivement -1.775 (m/e 3.8) et 45.3 (m/e 1.6). Comparés aux moyennes de C2, ces dernières sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
      + Les diagrammes des courbures: La classe C1 est différente des 4 autres diagrammes parce qu'elle est homogène et à peine décroissante (R2 0.146), alors que les autres sont nettement croissants ou décroissants avec une homogénéité variable.
      + Le passage de B12 à C10, oan1 à bsu. Le x=0 décroît régulièrement de A0 jusqu'à B12 (43) puis au-delà de C12 (ase 41). Mais bsu et lmo arbore un x=0 très élevé (62 et 59), en rupture avec la décroissance. Ces 2 génomes présentent la particularité d'avoir un %t20 à pente positive qui fait partie du dôme. Ce qui est nettement différent des classes A et B qui ont des pentes négatives, avec un long1 des B au même niveau que le sommet de leur dôme. Or la particularité des C1 est d'avoir un long1 inférieur au sommet du dôme ce qui est le cas de bsu lmo psor ban, puisque long1 est leur minimum local. Une autre particularité des C1 est d'avoir une courbure courb1 sauf pour bsu et lmo. Mais le fait qu'ils partagent un long1 avec psor et ban qui ont, eux une courbure, autorise à les classer ensemble et à placer bsu lmo en 1er puisqu'ils n'ont pas de courbure qui est faible mais croissante chez les C1.
    • Classe C2
      + Le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe C1, de 27 à 7.
      + En parallèle la courbure, courb1, croît fortement dans les diagrammes des courbures (R2 0.730), avec une moyenne très homogène (m/e 5.1), -3.311, la plus élevée des 5 classes. Par contre les sommets, soma, croissent régulièrement de 86 à 117, avec une moyenne de 100 très homogène, m/e de 11, parmi les plus forts de toutes les moyennes du tableau, conséquence de la faible croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C2 son évolution est plus homogène que celui de C1(m/e 2.8 contre 2.1 pour C1) et ne manifeste pas, aussi, de croissance nette. Le diagramme des classes montre bien que le %t20 de C2 est régulier, avec un seul intrus, celui de lbu avec 7%. La courbure, courb1, différencie nettement C2 et C1.
      + Le minimum local à t30: La disparition du minimum local est encore plus accentuée chez les C2 que chez les C1. La moyenne de %t20 est 2 fois plus élevée chez C1 que chez C2, 47.7 contre 29.3 et beaucoup plus hétérogène (m/e 2.1 contre 2.8 pour C2 avec l'intrus); en omettant l'intrus, lbu, je trouve m e m/e 32.0 6.8 4.7 ce qui montre le maintient de la moyenne et l'augmentation nette de l'homogénéité de C2. Les diagrammes x+ montrent clairement que les t30 sont aussi insignifiants que chez les D1 par rapport à ceux de C1: cC12C12 - C19  cC19aC19a - C25  cC26C26 - D14.
      + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C2 adom et %dom sont encore plus homogènes que chez C1, avec les moyennes respectives de 74 et 125 et les m/e de 10 et 5.9. Au contraire de C1, la courbure, courb1, et l'abscisse du sommet, soma, sont très homogènes et forts, respectivement -3.311 (m/e 5.1) et 99.6 (m/e 10.6). Comparés aux C1, les moyennes de C2 sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
      + Les diagrammes des courbures: La classe C2 est nettement croissante (R2 0.730) comme la classe D2 (R2 0.612), alors que C1 est à peine décroissante mais très homogène et D1 est moyennement décroissante.
    • Classe D: voir le chapitre sur les courbures ci-dessus.
  • Moyennes: ne sont pas compris dans ces moyennes bsu lmo (C1) et mba mfe (D1)
%t20	m	e	m/e	gen		courb1	m	e	m/e	gen
A-B	147.2	53.8	2.7	14		A41	-2.196	0.934	-2.4	9
C1	47.7	22.8	2.1	10		B	<0	-	-	
C2	29.3	10.4	2.8	9		C1	-1.775	0.473	-3.8	10
D1	14.4	8.7	1.7	10		C2	-3.311	0.655	-5.1	9
D2	42.3	13.0	3.2	11		D1	-1.763	0.862	-2.0	10
D32-33	77	-	-	2		D2	-2.492	0.843	-3.0	11
adom						%dom				
C1	55.0	10.8	5.1	10		C1	131.8	25.9	5.1	10
C2	74.4	7.3	10.2	9		C2	125.2	21.4	5.9	9
soma						somo				
A	93.4	20.6	4.5	9		A	32.5	3.0	10.9	9
B	<0	-	-			B	<0	-	-	
C1	45.3	28.8	1.6	10		C1	37.5	2.6	14.3	10
C2	99.6	9.4	10.6	9		C2	36.7	5.9	6.3	9
D1	157.0	23.5	6.7	10		D1	28.6	6.5	4.4	10
D2	100.2	22.2	4.5	11		D2	35.8	6.3	5.6	11
  • Diagrammes fx% étendus à 800 des classes D1 et D2
gen	x+ 400	x+ 800
D1		
pmq	-6.46	10.4
cbei	-2.49	9.38
ppm	-1.18	21.4
cbc	4.94	9.72
mba	6.43	8.93
mfe	12.8	16.5
D2		
spl	6.45	23.8
npu	18.4	27.1
sma	25.9	36.6
ksk	39.4	44.7
ase	40.7	49.3
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x..
  • Diagrammes fx%:  alpha1  alpha2  bacilli  gamma  spl bde  clostridia  actino archeo  afn cyano tenericutes bacteroide spiro  fcp1  fcp2
  • Légende:
    - Les colonnes
    + du tableau des effectifs: taille pour total, %reste reste au delà 400pbs / taille, %t30 somme des freq10 10 20 30 / taille, de même pour les intercalaires nuls.
    + du tableau des diagrammes: flexa pour abscisse du point d'inflexion de la courbe de tendance en polynôme de d°3 et R2 41 son coefficient de détermination du diagramme fc41; fcp pour abscisse (en freq10) des taux fc% pour laquelle la courbe de tendance commence à devenir positive (constante du monôme x3), pour une valeur de 2 la courbe de tendance démarre à 21 pbs c'est à dire l'abscisse freq10 de 30.
    + des rapports,
    - classe, c'est la classe des diagrammes fx% listée dans le chapitre des discontinus positifs.
    - %x+, taux des discontinus par rapport au total positifs, zéros compris, continus plus discontinus.
    - corelaxc, coefficient de corrélation entre les freq10 de 41 à 200 pbs des continus et des discontinus. J'ai fait le digramme corel freq1 (fréquences unitaires) en fonction de corel freq10 (fréquences regroupées par 10) pour la plage 41-200 pbs. La courbe de tendance qui passe par zéro a pour équation 0.340x avec un R2 de 0.811 et sans forcer à zéro 0.336x + 0.003 avec un R2 de 0.743. Lien au tableur.
    - t30c/x et restx/c sont les rapports des colonnes correspondantes.
    - Les valeurs remarquables sont indiquées en gras pour les maxima et en bleu pour les minima, en rouge pour les fcp qui représentent les courbes à constante négative quelque soit les tests effectués et en orange ses valeurs 0 et 1. En jaune ce sont les points d'inflexion anormaux et le vert ceux qui sont proches de l'extrémité 400 du diagramme.
  • Note: les corrélations entre colonnes. Les coefficients sont calculés après tri sur toute colonne sauf clade.
c/x	t	r	30	0
ct	0.868	0.119	-0.306	-0.231
r	0.156	0.967	-0.492	-0.347
30	-0.480	-0.631	0.495	0.586
0	-0.281	-0.152	0.402	0.674
				
cc	t	r	30	0
t	*	0.180	-0.420	-0.234
r		*	-0.606	-0.142
30			*	0.588
0				*
				
xx	t	r	30	0
t	*	0.068	-0.098	-0.116
r		*	-0.523	-0.371
30			*	0.584
0				*
int51.cx Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.
c+ x+ Rapports
clade gen taille %reste %t30 %0 R2 41 flexa fcp taille %reste %t30 %0 classe %x+ corelaxc t30c/x restx/c
act1 ase 3854 7.6 24.4 0.3 0.972 333.3 -1 2691 9.7 12.1 0.7 C12 41 0.918 2.0 1.3
act2 blo 1045 4.9 19.8 0.1 0.906 188.5 2 499 9.8 8.0 0.4 D27 32 0.406 2.5 2.0
act3 ksk 3995 7.9 12.9 0.1 0.955 193.3 0 2564 11.6 11.3 0.3 D32 39 0.766 1.1 1.5
act4 sma 3894 8.4 17.8 0.2 0.952 198.2 1 2581 11.6 8.8 0.3 D28 40 0.801 2.0 1.4
act5
al1 abq 1565 3.6 25.4 0.2 0.949 188.0 2 890 9.2 19.8 0.2 A24 36 0.227 1.3 2.5
al2 abqp 921 5.0 25.1 0.2 0.930 176.0 3 497 8.7 19.1 0.2 A26 35 0.302 1.3 1.7
al3 abs 1570 3.5 24.8 0.3 0.952 197.1 2 883 10.2 18.9 0.2 A25 36 0.412 1.3 2.9
al4 absp 873 5.0 26.0 0 0.910 168.6 3 472 11.0 19.7 0 A23 35 0.272 1.3 2.2
al5 agrc 1466 2.3 26.2 0.2 0.908 216.8 2 796 7.2 13.3 1.1 B10 35 0.034 2.0 3.1
al6 agrl 1040 3.9 32.7 0.1 0.924 507 3 499 8.4 12.0 0.2 D33 32 0.454 2.7 2.1
al7 aua 1803 5.1 25.1 0 0.931 201.3 1 975 9.9 12.9 0.3 B11 35 0.585 1.9 1.9
al8 oan1 1517 4.6 27.4 0.5 0.901 188.3 2 771 9.1 11.3 1.5 B12 34 0.310 2.4 2.0
al9 oan2 914 3.5 34.1 0.1 0.863 129.8 4 460 8.7 13.7 0.4 A27 33 0.189 2.5 2.5
alp1 pub 601 0.7 56.1 5.9 0.939 278.6 -1 234 1.7 29.5 4.0 A0 28 0.865 1.9 2.6
alp2 rpl 527 19.4 22.4 0.8 0.822 229.1 1 183 32.2 4.4 0 C27 26 0.051 5.1 1.7
alp3 rpm 1847 4.1 23.4 0.4 0.945 195.3 2 906 11.8 3.2 0.4 C18 33 0.395 7.2 2.9
alp4 rru 2136 3.3 25.7 0.4 0.963 52.4 2 967 9.3 15.2 0.1 A28 31 0.189 1.7 2.8
alp5 rtb 505 19.8 23.4 0.7 0.804 230.0 1 186 35.5 3.2 0.5 C28 27 -0.105 1.7 1.8
alp6
arc1 mfe 2011 23.2 15.9 0.8 0.872 4261.2 -1 1067 34.9 4.4 0.1 D19 35 0.327 3.6 1.5
arc2 mfi 1545 6.0 20.2 1.7 0.937 164.3 2 626 15.8 5.8 0 D23 29 -0.043 3.5 2.6
arc3 mba 2379 29.7 14.9 0.8 0.739 246.6 -1 1235 42.8 2.6 0.1 D18 34 -0.317 5.7 1.4
arc4 mja 1069 1.1 39.7 0.9 0.960 413.1 -1 441 5.4 22.0 2.0 A21 29 0.326 1.8 4.8
arc5
bac1 bsu 2512 2.0 32.4 0.8 0.936 166.0 3 1093 5.5 13.1 0.2 C10 30 0.005 2.5 2.8
bac2 ban 3289 5.1 25.9 0.9 0.900 198.3 3 1579 10.3 8.7 0 C14 32 0.106 3.0 2.0
bac3 lam 1248 2.0 34.8 1.1 0.875 -166.3 4 483 5.6 4.8 0.4 C20 28 0.490 7.3 2.8
bac4 lbu 1098 4.6 31.7 0.7 0.936 162.1 3 411 7.8 2.9 0.5 C23 27 0.558 10.9 1.7
bac5 lmo 1849 2.8 36.5 1.2 0.850 201.9 3 587 6.3 8.5 0.2 C11 24 -0.178 4.3 2.3
bac6 pmq 4540 7.8 20.0 0.5 0.950 387.5 5 1888 14.0 2.7 0.3 D12 29 -0.836 7.4 1.8
bac7 ppm 3176 7.0 21.3 0.5 0.956 201.3 2 1267 11.9 3.7 0 D14 29 -0.129 5.8 1.7
bac8 ppmp 438 12.3 14.8 0.6 0.726 196.4 0 107 23.4 3.7 0 D16 20 0.044 4.0 1.9
bac9
bct1 myr 2273 7.9 35.9 0.5 0.891 -134.8 3 980 14.9 6.0 0.5 C19b 30 0.642 6.0 1.9
bct2 fps 1628 6.2 29.7 0.8 0.943 319.8 2 560 13.4 7.9 1.2 D26 26 0.451 3.8 2.2
bct3
bde1 cvi 2412 3.9 29.0 0.3 0.915 1288.8 2 1114 8.0 10.1 0.4 C15 32 0.860 2.9 2.1
bde2 ade 2335 3.4 32.2 0.6 0.952 -975.1 2 1314 5.3 20.7 0.8 A22 36 0.591 1.6 1.5
bde3 ant 1700 1.7 46.2 2.4 0.925 437.1 2 633 3.5 26.4 1.2 A20 27 0.274 1.8 2.0
bde4
clo1 cbc 2572 12.7 25.5 0.8 0.885 164.9 4 719 23.9 2.5 0.1 D17 22 -0.676 10.2 1.9
clo2 cbei 4010 14.9 20.6 0.4 0.931 -3362 4 1212 21.6 2.1 0 D13 23 -0.509 10.0 1.5
clo3 cbn 1775 3.5 29.9 0.5 0.941 186.3 3 540 9.6 5.9 0.2 C19 23 0.552 5.0 2.8
clo4 cdc 2589 9.5 29.5 1.3 0.903 430.8 -1 640 19.5 0.5 0 D10 20 -0.587 62.9 2.1
clo5 cdc8 2727 8.9 30.0 1.3 0.905 551.3 -1 686 20.1 1.7 0 D11 20 -0.640 17.1 2.3
clo6 cle 2900 6.4 30.3 1.0 0.948 181.0 4 779 10.7 2.6 0 D15 21 0.269 11.8 1.7
clo7 hmo 1867 5.8 24.6 0.8 0.959 151.9 3 460 12.6 5.0 0 D22 20 0.180 4.9 2.2
clo8 psor 2350 5.6 32.0 0.9 0.926 219.5 3 693 9.1 9.5 0.1 C13 23 -0.473 3.4 1.6
clo9
cya1 npu 3999 14.7 11.9 0.3 0.913 169.8 0 2307 23.2 6.3 0.2 D25 37 0.428 1.9 1.6
cya2 pmg 948 2.2 40.7 3.1 0.963 318.2 -1 599 4.5 30.2 1.6 A1 39 0.739 1.3 2.0
cya3
ga1 amed 2382 4.6 33.8 0.4 0.902 186.0 2 1343 8.2 5.9 0.1 C21 36 0.717 5.8 1.8
ga2 eal 2286 6.0 32.7 0.6 0.966 349.1 3 1185 10.3 6.4 0.9 C16 34 0.673 5.1 1.7
ga3 eco 2204 2.9 31.2 0.6 0.938 -1789.2 3 1074 5.3 8.4 1.1 C19a 33 0.324 3.7 1.8
ga4 ecoN 2822 4.4 24.1 0.8 0.959 434.8 3 1382 10.3 3.1 1.2 C17 33 0.596 7.8 2.3
ga5 spl 2482 10.2 24.1 0.7 0.976 150.5 2 1305 17.6 3.1 0.1 D21 34 0.740 3.5 1.7
ga6 vha1 1945 7.5 27.5 0.4 0.929 189.7 2 934 13.4 4.6 0.3 C25 32 0.533 6.0 1.8
ga7 vha2 1075 7.8 25.1 1.2 0.877 3.6 2 689 13.9 6.1 0.1 C22 39 0.728 4.1 1.8
ga8 vpb1 1757 5.3 31.6 0.4 0.947 214.3 3 782 11.5 4.2 0.1 C24 31 0.600 7.5 2.2
ga9 vpb2 828 7.6 28.1 1.1 0.764 185.9 3 561 12.7 5.0 0.2 C26 40 0.516 5.6 1.7
gam
neg1 afn 1385 3.9 38.5 0.5 0.893 164.2 3 346 4.6 4.0 0.6 D24 20 -0.025 9.5 1.2
neg2
spi1 scc 1000 3.4 33.9 0.5 0.938 321.3 -1 458 8.5 10.7 0.4 D29 31 0.445 3.2 2.5
ter1 abra 980 3.4 39.4 0.9 0.909 148.9 2 270 5.2 8.9 0.4 D31 22 0.713 4.4 1.5
ter2 apal 919 4.1 38.8 0.8 0.951 -261.8 2 191 2.6 11.0 0 D30 17 0.549 3.5 0.6
ter3
totale 58 113,377 7.3 26.5 0.8 0.989 120.9 3 51,594 12.8 8.9 0.4 D28 31.3 0.975 3.0 1.8
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x. Note[modifier | modifier le wikicode]
  • Les taux
    + %t30. Dans la compilation totale j'ai 26.5 et 8.9 pour c+ et x+, avec un rapport t30c/x de 3.0 et un coefficient de corrélation t30/t30 de 0.495.
    • %t30c: La plage moyenne regroupe 43 éléments avec des taux de 27.5±7.5. Les extrêmes sont au nombre de 15 allant de 36 à 56% (9) et de 12 à 18% (6). Les clades alpha (sans pub), gamma et clostridia sont homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 7 alors que celui de la totale est de 3.5 et que les bacilli le sont beaucoup moins (m/e de 3.5 et 4.4 en retirant ppmp).
    • %t30x: La plage moyenne regroupe 41 éléments avec des taux de 9.0±6.0. Les extrêmes sont au nombre de 17 allant de 19 à 30% (9) et de 0.5 à 2.9% (8). Les clades alpha- (sans rtb rpl et rpm) et gamma sont relativement homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 3 alors que celui de la totale est de 1.3, des bacilli 1.6 et des clostridia 1.3. Les alpha- se distinguent des gamma par une moyenne très élevée, 17% contre 5%. Et les clostridia réunissent les taux les plus bas (5 sur 8) alors que les bacilli en ont un peu moins (4 sur 8).
    • Importance des %t30: explique les colonnes R2 41, flexa, fcp, classe, corelaxc et les colonnes courbe et courb4 du chapitre sur le classement des discontinus, x+. Prendre un exemple de bacilli ou  clostridia x+ à comparer avec les c+ de fcp2, pmq lam cbc cbei tous fcp 4. Diviser un diagramme c+ ou x+ en t30, 41-200 au point d’inflexion qui contiendrait des séquences de contrôle cis et la queue après le point d'inflexion. Cette queue de grands intercalaires serait sans intérêt et augmenterait la corrélation corelaxc aussi j'ai réduit cette corrélation à la plage 41-200.
      + Cependant %t30x+ ne peut pas être utilisé pour le classement. Ainsi bsu et oan2 présentent le même taux mais la pente t30 de bsu est positive alors que celle de oan2 est négative. De même j'ai pu comparer ban psor lmo à eco eal et cvi.
      + Le dôme: je l'ai introduit pour justement différencier les pentes négatives des positives des %t30x+. Je l'ai caractérisé par son abscisse, adom, et son taux, %dom, qui est la somme des ordonnées de ses 2 abscisses proches l'une de l'autre. Et pour relativiser le dôme j'y ai adjoint son équivalant, à la colonne %t20, qui ne retient du %t30 que les 2 1ères abscisses.
      + Le %t20: c'est pour éviter le minimum local du %t30 ou sa pente positive comme dans le cas de bsu. En fait il fallait que je caractérise les diagrammes qui sont sans minimum local et sans dôme. C'est le cas de agrl ksk sma qui se sont révélés des chromosomes linéaires présentant cette caractéristique. Le %t20 va aussi caractériser les diagrammes à forte courbure du sommet du polynôme de d°3 et ne présentant ni minimum local ni dôme, comme npu apal sma blo dans cD24.
    + %reste. Dans la compilation totale j'ai 7.3 et 12.8 pour c+ et x+, avec un rapport restx/c de 1.8 et un coefficient de corrélation r/r de 0.967.
    + %0. Dans la compilation totale j'ai 0.8 et 0.4 pour c+ et x+, avec un coefficient de corrélation 0/0 de 0.674.
  • Comparaison entre éléments d'un génome: le chromosome et son plasmide, entre 2 chromosomes circulaires et 1 circulaire l'autre linéaire (agrc agrl).
    + abq abs, sont tout les 2 des Azospirillum, les 4 éléments se ressemblent beaucoup. En plus la différence entre plasmide et chromosome se retrouve entre les 2 génomes. Ce qui fait que les chromosomes sont semblables entre eux, et de même pour les plasmides.
    + rpl rtb, sont tout les 2 des Rickettsia (typhus group). Les 2 génomes se comportent de la même façon.
    + oan1 oan2, sont 2 chromosomes circulaires mais de tailles différentes, resp. 1517..914 en c+ et 771..460 en x+. Dans les rapports ils sont semblables, %x+ %t30c/x %restx/c et la classe, sauf pour la corrélation 41-200 qui diffère nettement, 0.310 contre 0.190. Les 2 chromosomes diffèrent dans les taux, si oan1 est plus grand en taille il a plus de %reste et moins de %t30. Ils diffèrent aussi dans leurs courbes dans l'image alpha1 des discontinus, oan1 présentant un max à l'abscisse 60 tandis que oan2 le présente en 110. Du coup le point d'inflexion et le fcp sont très différents.
    + agrc agrl, agrc est un chromosome circulaire alors que agrl est linéaire. La courbe de agrc x+ est semblable à celle de oan1 x+ qui se trouve aussi dans l'image alpha1. C'est la même classe B1 avec un coefficient de x3 négatif, l'ordonnée de l'abscisse 10 est au même niveau que celle du dôme (abscisse 50 et 60 respectivement) et le minimum local est à l'abscisse 30 et 40 respectivement. C'est la définition même de la classe B1. Par contre agrl ressemble beaucoup à sma npu, avec un coefficient de x3 positif et l'absence du minmum local et du dôme aux abscisses supérieures à 40. Le chromosome de sma est linéaire et celui de npu circulaire. La classe de agrl est D33 quasiment identique à celle de ksk qui a un chromosome linéaire aussi. Ils ont les mêmes caractéristiques dans le tableau des classes et notamment un x=0 de 42 et 39 pour ksk. C'est avec les courbes c+ que agrl se distingue de sma npu ksk avec un fcp de 3 pour agrl contre respectivement 1 0 0 pour les 3 autres. En conclusion agrl se comporte bien comme un chromosome linéaire comme sont ksk et sma.
    + mfe mba, sont 2 Methanosarcina se ressemblent beaucoup dans le tableau mais diffèrent nettement dans les rapports (corrélation, t30c/x), par la taille (20% de plus pour c+ et x+) et les taux (%reste %t30). Ils sont de même classe (D19 D18) et les colonnes %x+ fcp restx/c sont presque identiques.
    + ppm ppmp: Une séquence de 31 aas comme ppm et la courbe, malgré un total représenté (diagr) de 82 intercalaires ressemble beaucoup à celle de ppm (voir l'image des bacilli).
    + cdc cdc8, sont identiques dans le tableau. Ce sont seulement 2 souches différentes du même génome, Clostridioides difficile CD196 et M68.
    + eal eco ecoN, ce sont 3 escherichia, 2 coli, eco ecoN, et une albertii, eal. Ils diffèrent par les tailles c+ avec eco = eal, ecoN+30%, et les tailles x+ avec eal eco+10% ecoN+30%. Ils ont en commun le rapport %x+ et la classe C1. Sinon tout le reste diffère entre eux.
    + vpb vha, ce sont 2 vibrio qui diffèrent par les tailles. Chacun a 2 chromosomes circulaires. Cependant les 2 génomes sont analogues si on ne tient compte que des taux et des rapports. Par contre dans chaque génome les 2 chromosomes se comportent différemment; ainsi flexa %t30x+ %x+ t30c/x diffèrent nettement, tout le reste étant semblable par ailleurs, notamment la classe qui est C2. Le comportement de 2 chromosomes de même taille est identique, il y a un parallélisme en fonction de la taille. Je penses que les 2 génomes sont semblables.
    + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+. Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
  • Les diagrammes
    - Le point d'inflexion à 200 pbs pour les courbes 41-400 des continus. Il permet d'introduire le coefficient de corrélation, dans la zone 41-200, entre c+ et x+. Dans la colonne flexa, 34 génomes ont l'abscisse du point d'inflexion contre entre 130 et 230, 8 génomes entre 250 et 390 et les 16 restants sont en dehors de la plage 130-400.
    - Le R2 41 permet de montrer l'homogénéité des courbes c+ par rapport à celles des x+. Seulement 3 génomes ont un R2 41 inférieur à 0.800, ppmp avec la plus petite taille c+ de l'étude (438 pbs), mba qui, malgré une grande taille (2379 pbs), est désavantagé par un %reste le plus élevé de 30%, enfin reste vpb2 qui a aussi une petite taille de 828 pbs juste après rpl et pub.
    - le fcp qui fait ressortir certaines courbes c+ sans le t30: les fcp 0 sont  ksknpuppmp. Les fcp 1 sont  smarplrtbaua. Il y a 9 fcp-1, 19 fcp2, 17 fcp3, 5 fcp4 et 1 fcp5. Total 58 génomes. Voici 16 diagrammes, c+ x+ du même génome, avec leurs corrélations cx, corelaxc:   fcp1  fcp2.
  • Les rapports qui permettent de mettre en valeur les classes.
    - t30c/x
    • + pour un rapport plus grand que 7.2 il y a 11 éléments dont 6 D1, 3 C2, 1 D2 (afn), 1 C1 (ecoN C17).
    • + pour un rapport plus petit que 2.5 il y a 21 éléments dont 14 sont de classe A et B, 4 de classe D et 3 de classe C.
    • + entre ces 2 limites il y a 26 éléments sans classes A et B. Avec 9 C1, 5 C2, 4 D1 et 8 D2.
    - restx/c: ce rapport n'est pas pertinent et le taux des restes, %reste est caractéristique de quelques génomes seulement comme rtb et mba. Voir l'étude de ces taux au début de la note.
    - %x+: le rapport de la compilation totale est égal à 31.3% avec un coefficient de corrélation t/t de 0.868. Les clades se distinguent par leurs moyennes nettement différentes les unes des autres dans le tableau en bas de la note, avec des rapports m/e supérieurs à 10 alors que celui de la totale est de 5 (clostridia+, les 8 plus afn (un négtivicutes) et apal abra qui se comportent comme les clostridia par ailleurs; bacilli, sans ppmp qui abaisse fortement m/e, 27.4 4.0 6.9, parce que ses effectifs sont les plus petits, total 545 contre 691 pour rtb),
    - La classe: tirée du classement des diagrammes des discontinus x+
    - corelaxc: J'ai présenté 3 diagrammes chacun représentant les 2 courbes de tendances c+ x+ du même génome. Le diagramme de pmq a une corrélation négative maximale de -0.836, celui de ase une corrélation positive maximale de 0.918 et celui de agrc de corrélation nulle, 0.034.
    • + Analyse de la corrélation positive: diagramme de la totale avec une corrélation proche de l'unité, formation de la discontinuité sans modification de la séquence d'ADN.
    • + Analyse de la corrélation négative: modification de la séquence d'ADN lors de la création de la discontinuité
    • + Intérêt de la colonne corelaxc: permet d'avoir une idée des modifications de l'ADN lors de la formation de la discontinuité sans passer à la visualisation des diagrammes.
%x+		m	e	m/e	gen		%t30c		m	e	m/e	gen		%t30x		m	e	m/e	gen
actino		38.1	3.9	9.7	4		actino		18.7	4.7	4.0	4		actino		10.0	2.0	5.2	4
alpha		32.6	3.4	9.5	14		alpha		26.3	3.4	7.6	13		alpha		14.0	7.3	1.9	14
archeo		31.7	3.1	10.1	4		archeo		22.7	11.6	2.0	4		archeo		8.7	9.0	1.0	4
bacilli		28.6	2.6	10.9	7		bacilli		29.0	6.6	4.4	7		bacilli		6.0	3.7	1.6	8
clostridia	21.5	1.5	14.3	8		clostridia	27.8	3.8	7.3	8		clostridia	3.7	2.9	1.3	8
gamma		34.8	3.2	10.9	9		gamma		28.7	3.8	7.6	9		gamma		5.2	1.7	3.0	9
clostri+	21.0	1.8	11.4	11		bacilli+	27.2	7.9	3.5	8		alpha-		16.9	5.3	3.2	11
total		30.3	6.2	4.9	58		total		28.2	8.1	3.5	58		total		9.3	7.1	1.3	58
Intergen51. Classement des courbes CDS-CDS positifs continus.[modifier | modifier le wikicode]
Intergen51. Classement des courbes CDS-CDS positifs continus fc40[modifier | modifier le wikicode]
  • Diagrammes fc40:  alpha1  alpha2  bacilli  gamma  spl bde  clostridia  actino archeo  afn cyano tenericutes bacteroide spiro  
  • Diagrammes fc40 par clade: archeo-c  alpha-c  clostridia-c  bacilli-c  actino-c  gamma-c
  • Pense bête
    - Le diagramme en V: sur 58 étudiés, 14 non, 3 faibles et 41 forts.
    • alpha 14   5472 0.973 6-7 fort.
      + forts rpm 0.787 rru 0.876; 6-7 574 631; sup 0.817 oan1 oan2 agrc agrl, 6-7 sauf agrc 8, 463 361 440 374
      + faibles abs et p 0.726 0.450, 6, 466 271
      + non abq 193 et p 291, rtb 131 rpl 129 aua 149 pub 367 (0.977)
    • gamma 9 bacilli 8 clostridia 8; tous forts,   5728 0.908 6   6587 0.921 7   5583 0.916 8 .
    • actino 4,   2956 0.783 7 faible
      + forts ase 6 0.793 1166
      + non sma 0.761 862 ksk 0.620 687 blo 0.628 241
    • archeo 4,   1650 0.758 7 faible .
      + forts 6 mfi mja 0.749 368, 0.595 474
      + faible mfe 7 0.772 1166
      + non mba 0.581 428
    • reste, 11.
      + forts bde 6 sup 0.871 813 875 838
      + forts afn scc 6 sup 0.820 581 388
      + forts tener abar apal 6-7 sup 0.895 420 391
      + non bacteroide fps myr sup 0.917 561 899
      + non cyano npu pmg 0.555 607, 0.764 450
    - Le V n'existe pas chez les discontinus même quand il y a un effectif élevé dans la plage 1-40, et la plupart des cas, ces effectifs sont très faibles pour faire un diagramme.
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc40. Contient les effectifs et les taux des zéros. A la suite du tableau il y a les différences x42-x162.
  • Légende: Lien aux données des intercalaires 200 pour le calcul des pourcentages. Ne contiennent pas les effectifs et les taux des zéros.
    - maxp, 1-8-11 et de façon symbolique, a b x, abscisses 1 et 11 des maxima, 8 du minimum, choisis pour le calcul des pentes. J'ai essayé de coller le plus à la courbe de tendance des diagrammes publiés en admettant que les vrais extrêmes sont sujets aussi à des fluctuations comme tous les autres relevés. Ainsi, dans l'exemple de cbn 1-8-11, je n'ai pas pris l'abscisse 12 qui est le vrai maximum.
    - Pourcentage, 0 6 x 18 42 162 t162: En suivant les symboles de maxp, somme des pourcentages (ordonnées) des zéros, de 1 à b, de b+1 à x-1, de x à 18, de 19 à 42 et de 43 à 162. t162 étant le total de ces sommes.
    - Pentes, p6 x 18 42 162: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43), 42-162. Le calcul de p6 suis le maxp. Pour p162 il y a beaucoup de pentes nulles car la pente est calculée entre 2 points qui peuvent être égaux. Les pentes p42 et p162 sont multipliées par -1000.
    - Maxima, x6 18 42 162: ce sont les vrais maxima de 1-b b-18 19-42 43-162. A comparer avec les symboles a et x où ce dernier se trouve dans b-18.
    - Minima: n6, c'est l'abscisse b reprise ici pour comparer avec la colonne x18.
    - La profondeur du V: Les diagrammes fc40 se présentent comme un zigzag commençant par un V, \/\. Pour caractériser numériquement l'importance de ce zigzag j'ai additionné les 2 pentes du V, en valeur absolue, colonne px-p6.
    - Classement: C'est la colonne Form, je l'ai construite sur l'ordre croissant de la colonne px. Puis j’ai caractérisé les diagrammes par leurs formes, S pour symétrique, D pour dissymétrique et X pour anomalie des ordonnées des fréquences de 1 à 6 qui peuvent dépasser les x18. Les sous-divisions permettent de repérer facilement les pentes px. Les X2, associés à la pente p18 qui m'a permis de distinguer entre symétrie et dissymétrie, présentent un désordre (aua) ou un diagramme plat, npu sma ksk. Les X1 présentent surtout un excès des fréquences 6 et retrouvent la forme des diagrammes S ou D, sans cette fréquence. Diagrammes des X en pour 1000, ‰, du total des intercalaires positifs continus.
int51.40 Intergen51. Classement des courbes CDS-CDS positifs continus fc40.
clade gen c+ maxp 0 6 x 18 42 162 t162 p6 px p18 p42 p162 x6 n6 x18 x42 x162 px-p6 Form gen
clo7 hmo 1,867 2-8-13 9.1 85 29 58 119 392 693 -2.8 1.821 -0.6 290 4.5 20.4 3.7 12.9 10.2 8.0 4.59 D10 hmo
arc2 mfe 2,011 1-7-10 8.5 61 7 44 86 265 471 -2.1 1.823 -0.4 -21 20.5 14.4 1.5 7.5 6.0 6.0 3.90 D11 mfe
bac6 pmq 4,540 1-9-12 5.7 61 10 57 136 355 624 -1.2 2.06 -0.1 174 7.3 11.5 2.2 9.9 9.9 5.3 3.21 D12 pmq
arc1 mba 2,379 2-7-10 8.8 52 5 52 77 224 419 -2.3 2.10 -0.3 105 3.5 13.0 1.7 8.0 6.3 5.0 4.37 D13 mba
clo4 cdc 2,589 1-6-11 14.3 68 26 103 158 294 662 -3.6 2.2 -0.3 306 22.5 21.2 2.3 17.4 9.7 5.8 5.79 D14 cdc
clo5 cdc8 2,727 1-6-11 14.3 65 24 107 164 297 671 -3.0 2.3 -0.4 290 24.4 19.4 2.6 16.9 10.3 5.5 5.28 D15 cdc8
clo1 cbc 2,572 1-7-11 9.3 60 17 95 131 292 605 -3.4 2.43 0.1 340 16.2 21.4 1.2 17.1 9.3 5.1 5.80 D16 cbc
clo3 cbn 1,775 1-8-11 5.6 81 16 100 159 376 738 -2.3 2.44 -0.2 423 -32.9 20.8 5.1 18.0 11.3 7.3 4.69 D17 cbn
clo2 cbei 4,010 1-7-11 4.7 48 14 80 102 294 544 -2.0 2.5 -0.4 239 4.2 13.7 2.0 12.7 8.0 5.0 4.45 D18 cbei
bac8 ppmp 438 2-7-13 6.8 34 11 50 112 379 594 -1.4 2.7 -1.4 190 0 9.1 0 16.0 13.7 9.1 4.03 D19 ppmp
clo8 psor 2,350 2-6-11 9.8 64 31 126 141 352 724 -5.2 3.5 -0.5 514 3.5 22.1 1.3 19.6 11.1 5.1 8.70 D20 psor
ter2 apal 919 1-6-10 10.9 123 27 164 111 369 805 -8.3 4.08 -0.2 725 9.1 45.7 4.4 25.0 14.1 8.7 12.35 D21 apal
clo6 cle 2,900 1-7-11 12.1 69 27 115 146 336 704 -2.8 4.14 -1.3 287 5.7 19.3 2.4 22.1 11.7 5.2 6.95 D22 cle
bac1 ban 3,289 1-8-12 10.0 62 18 101 126 389 706 -1.3 4.3 -1.2 355 15.2 12.2 2.8 19.2 9.7 6.4 5.60 D23 ban
bac2 bsu 2,512 1-8-12 10.0 78 27 125 147 440 827 -1.9 4.7 -0.7 630 -16.6 16.3 2.1 21.5 11.5 8.0 6.61 D24 bsu
bac5 lmo 1,849 2-7-12 14.6 84 29 147 144 383 802 -3.8 5.1 -0.8 901 4.5 21.6 2.7 28.1 16.2 6.5 8.87 D25 lmo
spi1 scc 1,000 1-6-9 6.0 105 19 141 134 358 763 -5.4 5.3 -0.6 417 33.3 31.0 4.0 20.0 12.0 8.0 10.73 D26 scc
bac7 ppm 3,176 1-8-12 6.0 62 13 57 134 376 648 -1.5 6.0 -0.5 144 7.9 14.5 3.8 9.8 8.2 6.0 7.51 D27 ppm
bac4 lbu 1,098 2-7-9 9.1 95 4 128 134 387 757 -6.0 6.38 -0.6 152 30.4 32.8 2.7 15.5 15.5 7.3 12.39 D28 lbu
bac3 lam 1,248 2-7-9 12.8 112 13 148 109 411 806 -5.0 6.41 -0.8 300 26.7 30.4 5.6 18.4 9.6 10.4 11.38 D29 lam
arc3 mfi 1,545 2-6-11 18.8 65 30 62 87 406 669 -2.9 1.3 -0.5 189 21.6 16.2 4.5 11.7 7.8 8.4 4.21 S10 mfi
alp3 rpm 1,847 2-6-12 4.9 81 44 73 120 306 629 -3.8 1.9 -1.5 152 9.0 19.5 4.3 15.7 9.2 5.4 5.68 S11 rpm
al3 abs 1,570 2-6-13 3.8 66 61 48 129 441 749 -1.4 2.2 -1.4 -27 5.3 15.3 5.7 14.6 8.3 10.2 3.66 S12 abs
act1 ase 3,854 1-6-9 3.4 72 17 91 133 401 717 -1.7 2.3 -1.6 -86 25.9 15.6 7.0 17.4 9.1 6.7 4.05 S13 ase
alp4 rru 2,136 2-7-11 5.6 90 24 78 112 432 742 -2.0 2.7 -1.7 -39 31.5 20.1 5.1 15.9 7.5 7.5 4.66 S14 rru
al6 agrl 1,040 1-6-12 1.9 102 57 93 114 386 754 -3.3 2.9 -0.6 521 8.1 24.0 7.7 19.2 10.6 9.6 6.15 S15 agrl
ter1 abra 980 1-7-11 12.2 168 44 115 107 377 823 -9.2 3.1 -0.8 340 8.5 59.2 4.1 33.7 14.3 9.2 12.24 S16 abra
bde2 ade 2,335 2-5-9 7.3 84 37 134 126 424 813 -6.3 3.426 -1.5 196 3.6 27.0 8.1 21.8 8.6 9.4 9.71 S17 ade
ga6 vha1 1,945 2-6-9 4.6 83 15 115 104 369 692 -3.7 3.428 -0.5 343 12.9 20.6 5.7 16.5 7.7 16.5 7.16 S18 vha1
bde1 cvi 2,412 1-6-10 4.1 88 30 109 118 440 789 -3.7 3.8 -1.7 155 13.9 24.0 5.4 20.7 7.5 8.3 7.57 S21 cvi
ga1 amed 2,382 2-6-9 5.0 58 12 86 101 453 715 -3.7 3.9 -0.8 122 35.0 17.2 2.5 14.3 6.7 7.1 7.59 S22 amed
al8 oan1 1,517 2-7-10 5.9 108 22 90 93 372 692 -4.6 3.96 -1.3 220 11.0 29.7 6.6 18.5 7.3 6.6 8.57 S23 oan1
ga5 spl 2,482 2-6-10 6.8 72 29 81 98 357 644 -4.0 4.03 -0.7 235 10.1 21.4 5.2 14.1 8.5 5.6 8.06 S24 spl
al5 agrc 1,466 1-8-11 2.0 98 20 83 104 427 734 -1.9 4.32 -2.0 -191 11.4 21.8 4.1 19.1 8.9 7.5 6.27 S25 agrc
al2 abqp 921 1-9-11 2.2 83 7 84 153 419 747 -0.5 4.34 -0.6 181 18.1 10.9 6.5 16.3 11.9 8.7 4.89 S26 abqp
ga2 eal 2,286 2-6-9 7.9 81 16 144 122 365 736 -2.6 4.7 -1.6 18 25.5 21.9 6.6 24.1 9.6 6.6 7.29 S27 eal
al9 oan2 914 1-6-10 1.1 112 38 118 135 374 778 -4.8 4.9 -2.5 91 0 28.4 4.4 28.4 10.9 9.8 9.74 S28 oan2
ga4 ecoN 2,822 2-6-9 10.3 82 14 151 126 378 763 -3.9 5.8 -1.3 369 17.7 21.6 6.0 23.4 9.6 6.4 9.69 S31 ecoN
neg1 afn 1,385 1-7-12 6.5 100 51 139 136 326 757 -4.0 5.9 -2.5 572 12.0 27.4 3.6 33.2 14.4 6.5 9.89 S32 afn
ga3 eco 2,204 2-6-9 7.3 87 18 155 121 376 764 -4.3 6.5 -1.9 227 22.7 23.1 5.9 26.3 10.4 8.2 10.81 S33 eco
ga8 vpb1 1,757 2-6-9 5.1 88 20 129 124 351 717 -5.3 6.8 -1.7 356 -9.5 25.6 4.6 25.0 11.4 7.4 12.09 S34 vpb1
arc4 mja 1,069 2-6-9 10.3 93 19 170 176 379 847 -5.6 8.7 -1.4 312 46.8 29.9 3.7 29.9 16.8 10.3 14.34 S35 mja
bde3 ant 1,700 1-7-10 32.9 175 79 150 96 371 904 -9.3 10.0 -1.7 368 19.6 64.1 8.2 51.8 9.4 7.6 19.31 S36 ant
ga7 vha2 1,075 1-7-9 14.9 62 10 120 81 387 675 -1.9 11.6 -2.2 78 0 13.0 1.9 25.1 9.3 15.8 13.49 S37 vha2
ga9 vpb2 828 1-7-9 13.3 74 10 130 103 333 663 -2.8 15.1 -2.7 403 0 21.7 4.8 35.0 8.5 7.2 17.91 S38 vpb2
bct1 myr 2,273 2-7-11 5.7 156 35 93 116 356 762 -4.8 2.0 -1.4 293 -3.7 34.3 10.1 20.2 9.2 7.9 6.82 x11 myr
act2 blo 1,045 2-7-10 1.0 59 13 71 93 449 686 -2.1 2.2 -0.7 40 0 14.4 3.8 13.4 8.6 10.5 4.34 x12 blo
bct2 fps 1,628 1-8-10 9.2 168 11 76 98 389 751 -3.9 4.6 -1.8 26 -5.1 36.9 9.8 19.0 10.4 7.4 8.47 x13 fps
al4 absp 873 2-6-13 0 61 54 65 139 419 738 -1.7 6.3 -0.5 334 9.5 18.3 3.4 17.2 10.3 10.3 8.02 x14 absp
cya2 pmg 948 2-7-9 35.9 155 12 146 170 382 900 -3.4 8.4 -1.9 264 35.2 28.5 11.6 28.5 13.7 9.5 11.81 x15 pmg
alp1 pub 601 2-6-8 96.5 351 20 125 126 243 962 -17.9 -0.4 -1.2 208 27.7 94.8 23.3 21.6 8.3 13.3 17.47 x21 pub
al1 abq 1,565 3-8-12 2.6 35 9 24 66 445 581 -0.5 0.3 -0.3 -53 -16.0 7.0 2.6 7.0 6.4 8.9 0.87 x22 abq
cya1 npu 3,999 2-9-14 3.8 43 16 18 83 380 544 -0.4 0.6 -0.4 -42 8.3 6.3 3.0 5.8 5.0 6.5 0.98 x23 npu
act4 sma 3,894 2-7-10 2.8 62 14 55 98 396 628 -1.1 1.2 -0.7 32 -10.7 12.1 5.6 9.2 6.9 5.6 2.33 x24 sma
alp5 rtb 505 2-7-12 7.9 95 42 51 71 339 606 -2.0 1.3 -0.4 248 0 25.7 5.9 9.9 7.9 11.9 3.30 x25 rtb
act3 ksk 3,995 2-8-10 1.0 51 5 36 93 450 635 -1.2 1.4 -0.5 -136 14.6 10.0 3.0 6.8 7.5 6.8 2.54 x26 ksk
alp2 rpl 527 2-7-12 9.5 93 34 47 74 366 624 -2.7 1.5 -0.9 237 -31.6 20.9 5.7 13.3 11.4 11.4 4.17 x27 rpl
al7 aua 1,803 3-7-9 0 19 2 21 48 420 509 -0.8 1.9 -0.4 -46 18.5 6.1 1.7 5.5 6.1 7.2 2.77 x28 aua
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
clade gen c+ maxp 0 6 x 18 42 162 t162 p6 px p18 p42 P162 x6 n6 x18 x42 x162 px-p6 Form gen
m 9.7 79.4 22.1 97.8 116 373 706.9 -3.1 3.5 -1.1 254.7 13.5 20.8 4.3 18.6 9.8 8.0 7.2
e 13.3 26.0 9.6 32.9 23.7 50.7 102.4 1.3 1.6 0.5 93.8 7.5 6.7 1.8 6.8 2.6 2.4 3.1
m/e 0.7 3.1 2.3 3.0 4.9 7.4 6.9 -2.4 2.2 -2.2 2.7 1.8 3.1 2.4 2.7 3.8 3.3 2.3
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale.
  • Légende: Voir le détail des calculs dans abs et le résultat de chaque génome dans son 1er lien (2ème colonne du tableau, gen) avec son diagramme dans son 2ème lien (dernière colonne du tableau, gen). Voir la légende des diagrammes pour les nombres affichés dans les diagrammes..
    - La diagonale: c'est le segment de droite entre les points (xm,y'm) et (x1m,1) (avec y'm=ym*1000/effect). Sa pente, pte, est en -‰ et sa constante, cste.
    - Les rebonds, sommes d'intercalaires: supd supdt %sd supf supft %sf; pour intercalaires au-dessus de la diagonale, leur total et le rapport supd/supdt. Puis de même pour la plage réduite à l'abscisse bornf de l'inflexion de la courbe, x1m-bornf.
    - Indices des rebonds: sf/lf sr/lr st/ld, rapport des intercalaires au-dessus de la diagonale, supf supd supr, par la longueur de leurs plages, lf égale lonf (bornf-xm), lr (x1m-bornf), ld (x1m-xm). Le supr est la différence supd-supf. J'ai ajouté l'indice, i.r400, du reste des intercalaires de l'abscisse x1m à 400, r400, par sa longueur r400l = 400-x1m (voir le détail des calculs dans abs).
    - Les restes des intercalaires: rfin r400 xmp: total des intercalaires au-delà de l'abscisse 400, de x1m à 400 et pour xmp de l'origine à xm. Le reste restp est égal à r400 + rfin.
    - Les formes des courbes de tendance en moyennes glissantes et de période 9, colonne "forme": C E M P, abréviation pour colline, "en escalier", montagne et plateau. Les préfixes de E M P indiquent le nombre de sommets de la forme. La colline a un seul sommet et la forme F est une forme E dont les sommets sont regroupés par 2, F6 (3 groupes de 2) ou par 3, F9 (3 groupes de 3).
    - Colonne clasf: classement des formes
    - Moyennes par classe de forme, en bas du tableau: Les 3 couleurs correspondent,respectivement par rapport à la moyenne de la colonne, à +15% jaune, à -15% bleu et entre ces 2 valeurs blanc.
  • Diagrammes fc+400 par classe: E11  E21  M11  M21  M31  M41  Q.
int51.400 Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, par la forme du rebond de la courbe de tendance.
Les génomes Le rebond sur la diagonale La diagonale de la courbe Le rebond jusqu’à l’inflexion de la courbe Indices des rebonds Les plages encadrant la diagonale Les classes des formes
clade gen effect supd supdt %sd x1m xm ‰pte cste supf supft %sf lonf sf/lf sr/lr i.r400 sd/ld rfin restp xmp R2.21 forme clasf gen
alp1 pub 601 102,8 264,6 38,9 108 30 41,0 5,4 68,6 178,0 38,6 37 1,86 0,83 0,26 1,32 6,7 81,5 653,9 924 E4 E10 pub
spi1 scc 1000 139,3 420,0 33,2 163 30 22,6 4,7 85,3 276,0 30,9 69 1,24 0,84 0,85 1,05 34,0 236,0 344,0 815 E6 E11 scc
act1 ase 3854 66,3 604,6 11,0 235 25 18,7 5,4 46,4 335,2 13,9 70 0,66 0,14 0,62 0,32 75,8 178,0 217,4 870 E4 E12 ase
alp4 rru 2136 158,2 589,4 26,8 231 35 14,0 4,2 77,7 298,7 26,0 71 1,09 0,64 0,58 0,81 32,8 131,1 279,5 792 E4 E13 rru
bac7 ppm 3176 144,2 501,6 28,8 259 60 9,2 3,4 72,5 275,8 26,3 87 0,83 0,64 0,66 0,72 69,6 162,2 336,3 831 E5 E14 ppm
clo5 cdc8 2727 61,0 389,4 15,7 229 45 12,5 3,9 34,9 249,0 14,0 92 0,38 0,28 0,83 0,33 88,7 231,4 379,2 864 E2 E15 cdc8
clo4 cdc 2589 71,2 385,5 18,5 228 45 11,4 3,6 41,6 246,0 16,9 92 0,45 0,33 0,85 0,39 95,0 241,4 373,1 860 E2 E16 cdc
ga2 eal 2286 76,8 452,3 17,0 227 43 16,0 4,6 28,2 270,8 10,4 95 0,30 0,55 0,67 0,42 60,4 176,7 371,0 798 E5 E17 eal
bac6 pmq 4540 78,5 526,4 14,9 284 54 10,0 3,8 36,7 295,8 12,4 101 0,36 0,32 0,70 0,34 78,0 159,3 314,3 839 E4 E18 pmq
ga5 spl 2482 132,4 483,5 27,4 248 45 9,0 3,2 90,7 317,5 28,6 102 0,89 0,41 0,79 0,65 101,9 222,0 294,5 802 E5 E19 spl
arc4 mja 1069 135,3 349,9 38,7 163 50 20,4 4,3 135,3 349,9 38,7 114 1,19 0 0,60 1,20 11,2 152,5 497,7 738 F6 E21 mja
clo6 cle 2900 119,4 442,8 27,0 231 45 9,5 3,2 92,4 352,4 26,2 128 0,72 0,47 0,72 0,64 63,8 184,8 372,4 841 F9 E22 cle
clo3 cbn 1775 133,3 509,9 26,1 241 45 12,1 3,9 102,1 409,0 25,0 135 0,76 0,51 0,55 0,68 34,9 121,7 368,5 845 E6 E23 cbn
arc3 mfi 1545 202,6 622,0 32,6 252 25 9,9 3,5 151,2 463,4 32,6 135 1,12 0,56 0,78 0,89 60,2 175,4 202,6 686 E5 E24 mfi
clo1 cbc 2572 115,2 407,5 28,3 241 45 6,8 2,6 89,5 325,8 27,5 140 0,64 0,46 0,93 0,59 126,7 274,5 318,0 836 F6 E25 cbc
ga9 vpb2 828 205,9 487,9 42,2 254 45 6,8 2,7 168,6 396,1 42,6 147 1,15 0,60 0,69 0,99 76,1 176,3 335,7 593 F6 E26 vpb2
clo2 cbei 4010 92,4 517,7 17,9 289 37 6,9 3,0 61,5 396,0 15,5 170 0,36 0,38 0,93 0,37 148,6 252,1 230,2 818 E6 E27 cbei
arc1 mba 2379 88,6 449,3 19,7 283 26 5,9 2,7 58,4 335,4 17,4 172 0,34 0,36 0,94 0,34 297,2 407,3 143,3 604 E8 E28 mba
arc2 mfe 2011 131,0 485,3 27,0 283 32 5,9 2,7 98,8 396,3 24,9 185 0,53 0,49 0,96 0,52 232,2 344,1 170,6 619 E8 E29 mfe
bde2 ade 2335 130,7 464,7 28,1 196 47 19,2 4,8 75,8 269,8 28,1 63 1,20 0,64 0,46 0,88 34,3 127,6 407,7 845 C M11 ade
bde1 cvi 2412 125,5 484,2 25,9 194 45 21,1 5,1 85,3 327,9 26,0 76 1,12 0,55 0,57 0,84 39,0 156,3 359,5 855 C M12 cvi
ga3 eco 2204 139,4 465,1 30,0 222 46 12,4 3,7 86,2 276,8 31,1 75 1,15 0,53 0,60 0,79 29,0 136,6 398,4 800 M3 M13 eco
ga4 ecoN 2822 112,3 500,7 22,4 235 37 12,8 4,0 77,9 305,8 25,5 79 0,99 0,29 0,56 0,57 44,3 136,1 363,2 814 M3 M14 ecoN
cya1 npu 3999 163,8 648,2 25,3 282 25 7,8 3,2 93,3 344,6 27,1 99 0,94 0,45 0,90 0,64 146,5 252,8 99,0 716 M4 M21 npu
bac1 ban 3289 169,0 484,3 34,9 222 45 9,8 3,2 127,5 356,0 35,8 107 1,19 0,59 0,79 0,95 51,1 191,2 324,4 800 M4 M22 ban
al8 oan1 1517 189,6 519,4 36,5 250 45 8,0 3,0 128,4 352,0 36,5 110 1,17 0,64 0,72 0,92 46,1 154,3 326,3 779 M4 M23 oan1
alp3 rpm 1847 193,1 551,2 35,0 253 45 8,2 3,1 144,1 401,7 35,9 121 1,19 0,56 0,53 0,93 41,1 119,1 329,7 820 M2 M24 rpm
al7 aua 1803 220,3 620,6 35,5 270 35 7,5 3,0 168,8 443,7 38,0 127 1,33 0,48 0,48 0,94 51,0 113,1 266,2 781 M4 M25 aua
al2 abqp 921 206,6 536,4 38,5 229 45 12,3 3,8 164,6 440,8 37,3 129 1,28 0,76 0,46 1,12 49,9 128,1 335,5 689 M3 M26 abqp
bac4 lbu 1098 184,9 507,3 36,5 220 35 11,4 3,5 159,1 434,4 36,6 136 1,17 0,53 0,59 1,00 46,4 152,1 340,6 777 M4 M27 lbu
al4 absp 873 169,2 478,8 35,3 194 45 20,1 4,9 166,6 468,5 35,6 139 1,20 0,26 0,70 1,14 50,4 194,7 326,5 644 M4 M28 absp
ga8 vpb1 1757 156,1 477,5 32,7 231 41 9,7 3,2 132,4 408,7 32,4 144 0,92 0,52 0,63 0,82 52,9 159,4 363,1 767 M5 M29 vpb1
al6 agrl 1040 220,1 510,6 43,1 235 39 7,7 2,8 96,8 189,4 51,1 45 2,15 0,82 0,54 1,12 39,4 127,9 361,5 784 C M31 agrl
bac8 ppmp 438 334,6 554,8 60,3 250 45 4,9 2,2 136,7 232,9 58,7 63 2,17 1,39 0,72 1,63 123,3 230,6 214,6 331 C M32 ppmp
bde3 ant 1700 164,2 384,7 42,7 155 35 16,2 3,5 123,8 282,4 43,8 69 1,79 0,79 0,37 1,37 17,1 107,6 507,6 822 M3 M33 ant
bct1 myr 2273 169,3 385,0 44,0 191 46 8,3 2,6 131,5 271,9 48,4 76 1,73 0,55 0,58 1,17 79,2 200,6 414,4 901 M4 M34 myr
bac2 bsu 2512 184,6 491,6 37,5 200 45 14,1 3,8 135,1 362,7 37,2 93 1,45 0,80 0,46 1,19 19,5 110,7 397,7 847 C M35 bsu
ga1 amed 2382 224,2 566,3 39,6 230 45 10,5 3,4 155,9 380,4 41,0 93 1,68 0,74 0,71 1,21 45,8 166,7 267,0 760 M4 M36 amed
bac3 lam 1248 221,0 486,4 45,4 196 35 9,9 2,9 180,1 371,8 48,4 93 1,94 0,60 0,59 1,37 20,0 140,2 373,4 838 M2 M37 lam
bac5 lmo 1849 217,7 449,4 48,4 209 45 6,1 2,3 167,5 326,1 51,4 95 1,76 0,73 0,51 1,33 27,6 125,5 425,1 816 M4 M38 lmo
bct2 fps 1628 195,1 516,0 37,8 199 25 11,9 3,4 151,6 379,6 39,9 96 1,58 0,56 0,66 1,12 62,0 194,1 289,9 895 M2 M39 fps
ter2 apal 919 198,4 412,4 48,1 170 33 10,9 2,9 186,6 383,0 48,7 116 1,61 0,56 0,60 1,45 41,3 178,5 409,1 875 M4 M41 apal
act3 ksk 3995 292,0 728,4 40,1 259 20 7,3 2,9 197,1 467,8 42,1 117 1,68 0,78 0,69 1,22 79,1 176,5 95,1 764 M4 M42 ksk
ga7 vha2 1075 343,8 520,9 66,0 238 35 0 1 276,0 391,6 70,5 123 2,24 0,85 0,76 1,69 78,1 201,9 277,2 577 M4 M43 vha2
al9 oan2 914 213,2 426,7 50,0 203 45 7,5 2,5 195,9 381,8 51,3 126 1,55 0,54 0,67 1,35 35,0 166,3 407,0 749 M4 M44 oan2
al5 agrc 1466 283,7 551,2 51,5 231 45 5,6 2,3 236,4 447,5 52,8 130 1,82 0,85 0,65 1,53 23,2 132,3 316,5 730 M5 M45 agrc
alp2 rpl 527 291,7 394,7 73,9 178 45 0 1 291,7 394,7 73,9 133 2,19 0 0,68 2,19 193,5 345,4 260,0 608 M4 M46 rpl
clo8 psor 2350 227,4 451,1 50,4 219 45 4,0 1,9 197,9 384,7 51,4 135 1,47 0,75 0,63 1,31 55,7 170,2 378,7 851 M4 M47 psor
act2 blo 1045 279,9 612,4 45,7 229 35 9,6 3,2 250,9 542,6 46,2 149 1,68 0,65 0,73 1,44 48,8 174,2 213,4 611 M4 M48 blo
alp5 rtb 505 306,7 431,7 71,0 205 45 0 1 306,7 431,7 71,0 160 1,92 0 0,52 1,92 198,0 299,0 269,3 617 M4 M49 rtb
cya2 pmg 948 100,7 309,1 32,6 122 46 56,2 7,9 60,5 216,2 28,0 43 1,41 1,22 0,48 1,33 22,2 155,1 535,9 850 P1 Q1 pmg
clo7 hmo 1867 161,9 545,3 29,7 257 43 9,3 3,4 83,3 271,6 30,7 74 1,13 0,56 0,67 0,76 57,8 153,7 301,0 757 P4 Q2 hmo
neg1 afn 1385 125,1 366,1 34,2 183 40 13,2 3,4 92,1 288,1 32,0 100 0,92 0,77 0,79 0,87 39,0 210,8 423,1 799 P2 Q3 afn
al3 abs 1570 178,1 527,4 33,8 205 45 17,6 4,6 123,7 390,4 31,7 100 1,24 0,91 0,63 1,11 35,0 158,0 314,6 756 P2 Q4 abs
al1 abq 1565 186,5 579,6 32,2 220 37 15,5 4,4 129,0 423,0 30,5 109 1,18 0,78 0,54 1,02 36,4 134,2 286,3 768 P2 Q5 abq
ga6 vha1 1945 181,5 468,9 38,7 220 45 9,0 3,0 141,3 356,3 39,7 113 1,25 0,65 0,71 1,04 75,1 203,1 328,0 757 P5 Q6 vha1
ter1 abra 980 177,7 441,8 40,2 175 29 14,1 3,5 170,1 422,4 40,3 132 1,29 0,55 0,56 1,22 33,7 159,2 399,0 849 P4 Q7 abra
act4 sma 3894 131,7 637,4 20,7 261 25 11,0 3,9 94,9 459,7 20,6 134 0,71 0,36 0,85 0,56 84,5 202,9 159,7 820 P2 Q8 sma
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
clade gen effect supd supdt %sd x1m xm ‰pte cste supf supft %sf lonf sf/lf sr/lr i.r400 sd/ld rfin restp xmp R2.21 forme clasf gen
Moyennes par colonne
m 1812,79 163,90 492,28 33,65 226,02 39,93 11,17 3,38 118,29 349,23 35,02 109,21 1,23 0,59 0,66 0,96 49,41 165,96 331,27 777,48
e 678,16 39,34 72,31 9,41 32,84 8,20 4,48 0,65 37,15 73,10 9,68 33,13 0,50 0,17 0,15 0,36 20,81 34,74 81,71 83,69
m/e 2,67 4,17 6,81 3,57 6,88 4,87 2,49 5,20 3,18 4,78 3,62 3,30 2,44 3,50 4,50 2,67 2,37 4,78 4,05 9,29
plage 828-3289 89-227 350-648 15-51 155-289 20-60 4-23 2,2-4,8 58-187 178-468 16-53 37-185 0,30-2,24 0,26-0,91 0,26-0,96 0,32-1,69 11-95 108-241 143-536 577-901
n gen 48 46 55 53 56 58 53 49 45 57 50 58 58 52 58 56 48 50 55 56
Moyennes par classe de forme, clasf
E11 - 2597,4 103,4 468,8 22,7 224,3 43,0 15,0 4,2 62,1 288,6 21,1 90,7 0,72 0,47 0,71 0,62 60,6 185,4 345,8 823,0
E21 2278,0 135,7 489,5 27,6 258,0 38,3 8,1 3,1 101,5 376,9 26,7 151,0 0,72 0,47 0,81 0,63 126,9 239,8 270,6 738,2
M11 2443,3 127,0 478,7 26,6 211,8 43,8 16,4 4,4 81,3 295,1 27,7 73,3 1,12 0,50 0,55 0,77 36,6 139,1 382,2 828,5
M21 1900,4 183,6 536,0 34,5 239,0 40,1 10,5 3,4 142,8 405,6 35,0 123,6 1,15 0,53 0,64 0,94 59,5 162,8 301,3 752,6
M31 1674,4 214,5 482,8 44,3 207,2 40,0 9,9 3,0 142,1 310,8 46,7 80,3 1,81 0,78 0,57 1,28 48,2 156,0 361,3 832,9
M41 1421,8 270,7 503,3 55,2 214,7 38,7 7,5 2,6 237,7 425,0 56,5 132,1 1,80 0,71 0,66 1,57 83,7 204,9 291,8 709,1
Q 1769,3 155,4 484,4 32,7 205,4 38,8 12,8 3,7 111,9 353,5 31,7 100,6 1,14 0,72 0,65 0,99 48,0 172,1 343,5 794,5
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Note[modifier | modifier le wikicode]
  • Différence entre diagonale et polynôme de d°3: avec poly3 le point d'inflexion est unique et déterminé par le calcul, alors que pour le diagramme de la diagonale, il est déterminé visuellement. Inversement poly3 est défini sur une plage plus petite que le diagramme de la diagonale qui incorpore la plage 1-40, très importante pour plus de la moitié des génomes. Cependant les 2 points d'inflexion, étoile et bornf, sont près l'un de l'autre.
  • La diagonale: du point de vue du rebond, il ne peut être comparé entre les 2 diagrammes. Celui de poly3 mesure le dépassement au-dessus de l'horizontale passant par le point d'inflexion alors que l'autre diagramme mesure le dépassement au-dessus de la diagonale. Une 1ère tentative du calcul du rebond avec la courbe de tendance en moyennes glissantes était de faire la somme de tous les rebonds par rapport à l'horizontale de chaque sommet ou forme du diagramme, de façon continue, ce qui ressemble à une diagonale en escalier. Cela est très compliqué et ne permet toujours pas de comparer les 2 rebonds entre les 2 diagrammes.
  • Détermination de la diagonale: Elle n'est pas déterminée visuellement et correspond au segment entre la 1ère intersection de la courbe et l'horizontale 1‰, et le minimum local de la courbe autour de l'abscisse 40‰. La plupart des cas l'ordonnée de ce minimum correspond à celle d'un point du diagramme. Dans les autres cas je l'estime visuellement, mais le calcul de la pente varie très peu. Le choix du point à 1‰ n'est pas arbitraire car, pour les formes M C P, la pente de la courbe au-delà de ce point est horizontale, ce qui correspond à la fin du rebond global. Par contre, pour la plupart des courbes E cette pente n'est pas horizontale mais le point 1‰ est plus éloigné que pour les autres formes et rend la diagonale beaucoup plus longue. Avec poly3 ce problème se traduit par des courbes au point d'inflexion inexistant ou anormal pour le calcul du rebond et j'ai du réduire la plage du diagramme de 400 à 250 et même moins pour avoir un point d'inflexion entre xm et 400.
  • Le choix du paramètre "période" de la courbe en moyennes glissantes: c'est le nombre de points consécutifs pour faire la moyenne glissante. Si la période est le total des points du diagramme alors sa courbe est réduite à un seul point. Dans le cas des diagrammes fc+40 beaucoup de génomes présentent un minimum local en 6 (en effectifs) et un maximum en 9 ou 12 et les courbes de tendance en poly12 avaient un R2 très élevé. C'est cette idée, qu'il y aurait des boucles en multiples de 3, qui m'a poussé à choisir une période de 9, un carré de 3 pour exagérer cette tendance. Et en effet les formes M obtenues présentent plusieurs boucles ou sommets de la montagne. Mais même les formes "en escalier" souvent présentent régulièrement de nombreuses boucles qui constituent les marches de l'escalier.
  • La courbe en polynôme de d°21, R2.21: Elle est à comparer avec la colonne R2.3 du classement en poly3.
  • Le calcul du rebond par rapport à la diagonale (voir légende des diagrammes): supd est la somme des différences "ordonnée(x) moins ordonnée de la diagonale de la courbe rouge (pte*x+cste)" pour une abscisse x donnée et supdt le total des intercalaires de la plage xm-x1m; les rebonds supf et supft sont calculés de la même façon mais limités à la plage xm-bornf. Dans le tableur, il suffit d'avoir 2 cellules avec pte cste et la cellule de l'ordonnée(x) du génome. La colonne contenant les différences est sauvegardée numériquement. Il suffit de rechercher toutes les cellules de cette colonne contenant le signe (-) et les effacer puis faire la somme de la colonne (supd supf), ainsi que celle contenant les formules de la différence avec les cellules pte et cste à blanc (supdt supft).
  • Le classement des formes, colonne clasf:
    + Les formes E: En triant sur la colonne sf/lf, j'ai remarqué que les formes E forment un groupe homogène de 13 génomes, à valeurs faibles de 0.30 à 0.89 dont 7 à moins de 6 sommets et 6 de 6 à 9 sommets. Cinq autres E ont des valeurs moyennes entre 1.10 et 1.20 et enfin pub qui se détache anormalement comme d'habitude à 1.86. Aussi apparaissent naturellement 2 groupes de E quand on trie sur la colonne lonf, le 1er avec 9 génomes croissant régulièrement avec des sommets inférieurs à 6 sauf pour scc (classés de E11 à E19) et le 2ème avec 9 génomes avec des longueurs supérieures à celles du 1er avec des sommets supérieurs à 6 sauf pour mfi (classés de E21 à E29). La rupture de lonf, entre les 2 groupes est nette et passe de 102 à 114.
    + Les formes M et C: Quand je trie sur la colonne sf/lf 18 génomes M et C forment un pavé continu des grandes valeurs juste interrompues par le seul génome pub. Mais si je regarde la colonne lonf, alors je distingue 2 groupes de 9 génomes chacun. L'un avec les plus grandes valeurs de lonf et dont les génomes ont tous 4 sommets, ce sont des formes M4. Ils sont classés de M41 à M49. L'autre groupe, avec les plus petites valeurs de lonf, a 9 génomes et se répartissent en 3 M4 1 M3 2 M2 et 3 C. Ils sont classés de M31 à M39. J'ai caractérisé ces 2 groupes en (grand lonf) / (grand rebond) pour le 1er groupe, et en (petit lonf) / (grand rebond). Aussi j'ai caractérisé les autres formes M,C en un groupe de 9 génomes en (grand lonf) / (petit rebond) et contient 7 M4 1 M2 1 M3 et sont classés de M21 à M29, puis en un petit groupe de 4 génomes en (petit lonf) / (petit rebond), 2 C 1 M2 1 M3, classés de M11 à M14.
    + Les formes P: La classe Q a 8 génomes et correspond aux formes P, j'ai changé de nom pour ne pas entraîner de confusion entre la classe et la forme. Les formes P ont des valeurs moyennes pour lonf et sf/lf sauf pour sma qui a un petit rebond de 0.71 comme les formes E, alors que les M C P ont un rebond supérieur à 0.90. Pour sma, en partant de xm à 49 au lieu de 25 je retrouve un rapport sf/lf et un lonf, 1.00 et 110, qui sont dans les plages des formes P, respectivement, 0.92-1.41 43-132 (voir les liens aux calculs et au diagramme de sma). La classe Q a les mêmes valeurs sf/lf (petit) et un lonf (grand) que la classe M21, respectivement 0.92-1.29 (sans pmg) pour le rapport, et entre 105 (sans pmg) et 124 pour lonf. La caractéristique des formes P c'est le plateau, donc absence de sommets et c'est le paramètre lonf que distingue la classe Q de la classe M21.
    + La notation des classes des génomes: j'ai donné le même nom de classe à tous les génomes d'un groupe de formes (E M C P) puis j'ai fait un tri croissant sur cette colonne clasf puis croissant sur lonf pour distinguer les génomes en séquence. Ainsi j'ai noté E11 pour les E à moins de 6 sommets, E21 pour les E à plus de 6 sommets, M11 pour les M C (petit lonf)/(petit rebond), M21 pour (grand lonf)/(petit rebond), M31 pour (petit lonf)/(grand rebond), M41 pour (grand lonf)/(grand rebond) et enfin j'ai noté les formes P par la lettre Q pour éviter les confusions. J'ai noté E10 le génome pub pour le distinguer de tous bien, qu'il soit de forme E4. Il y a 2 intrus de la forme, scc E11 de forme E6 au lieu qu'elle soit inférieure à 6 et mfi E24 de forme E5 au lieu qu'elle soit supérieure à 6.
    + Diagrammes fc+400 par classe: E11  E21  M11  M21  M31  M41  Q.
  • Corrélation pente-supd: J'ai fait le diagramme des E et des M+Q. Il en ressort que les E (sans E10, pub) ne sont pas corrélés, avec un R2 inférieur à 0.02 (18 génomes) et que les pentes des E1 et E2 sont disjointes, avec E1 supérieures à 10 (7 supérieurs à 10 et 2 égalent 9) et E2 inférieures à 10 (7 inférieurs à 10 plus 12 et 20). Par contre les M+Q (sauf pmg) sont corrélés avec un R2 de 0.535 (38 génomes) et 0.359 sans les 3 nuls. La non corrélation des E s'explique par le fait qu'ils n'ont pas un rebond étendu comme les M+Q, par contre leur rebond est éparpillé sur plusieurs petits rebonds disposés sur les marches de la "forme en escalier" du diagramme en moyennes glissantes. L'indice sd/ld l'illustre très bien avec 0.62 pour E1 et E2 et plus de 0.94 pour 34 génomes des M+Q et 0.77 pour les 4 génomes de M11.
  • Caractéristiques de chaque classe de forme: voir en bas du tableau les moyennes par classe de forme, clasf. Les 3 couleurs correspondent,respectivement par rapport à la moyenne de la colonne, à +15% jaune, à -15% bleu et entre ces 2 valeurs blanc. En analysant juste ces moyennes,
    1. 4 colonnes, supdt xm x1m R2.21, varient peu dans les 7 classes
    2. Les taux sd% et sf% sont quasiment identiques dans une même classe et cela pour toutes les classes.
    3. Les 2 classes E n'ont pas de point d'inflexion net comme les 5 autres: les indices sf/lf sr/lr sd/ld sont très proches et faibles. Aussi leur domaine de définition est plutôt xm-x1m au lieu de xm-bornf pour les autres. Dans ce cas les différences pour supf et supft ne sont plus valables et la différence de lonf disparaît aussi, puisque lonf est remplacé par lont qui varie peu, 191,3 pour E1 contre 29,7 pour E2, soit moins de 10% (voir les valeurs de lont à partir des liens des génomes). Les 2 classes sont donc identiques pour lont et sd/ld.
    4. Les 2 classes E diffèrent nettement entre elles par 3 paramètres indépendants: pte restp xmp et ils ont en commun un effect élevé, qui diffère nettement avec les autres classes.
      - La différence pte est de 85% et est corrélée avec cste puisque ce sont les coefficients de l'équation d'une droite. La pente de E1 est donc presque double de celle de E2.
      - La différence restp est de 29%. Le paramètre restp est la somme de rfin et r400 et si rfin est élevé alors r400 l'est aussi par continuité. Or rfin a une différence de 110% en faveur de E2, ce qui explique aussi l'indice élevé de i.r400 par rapport à celui de sd/ld. Donc la classe E2 continue à avoir des intercalaires élevés après l'abscisse 400, alors que E1 chute brusquement.
      - La différence xmp de 28% est à peu près égale à celle de restp mais dans le sens contraire. Ceci s'explique par le fait que supdt est pratiquement identique entre les 2 classes (différence de 4%), aussi, puisque restp de E2 est plus grand que celui de E1, alors xmp de E1 devient plus grand que celui de E2.
    5. Différence principale entre les 2 classes E et les classes M et Q: Entre E1 E2 M11 M21 Q M31 M41 la différence se fait par l'indice sd/ld. Elle est successivement de 2 22 22 5 29 23 %. Donc les 5 classes M et Q sont principalement différentes des 2 classes E pour l'indice sd/ld. Elles sont définies, comme mentionné ci-dessus, par lonf et sf/lf. En plus elles sont caractérisées, comme pour les E, par les 4 paramètres indépendants effect pte restp xmp auxquels il faut ajouter sr/lr qui marque la rupture brusque ou non après le point d'inflexion de la forme.
      - Classe M11: Elle se comporte comme E1 pour les 4 paramètres à peu près de mêmes tailles sauf pour restp qui est le plus petit des 7 classes et donc son xmp le plus grand aussi; respectivement
       clasf  effect  pte  restp  xmp
       E11  2597  15  185  346
       M11  2443  16  139  382
      - Classes M21 Q: Ces 2 classes se ressemblent beaucoup même pour les paramètres de classement, lonf et sf/lf. En fait ils ne diffèrent que légèrement par la forme, M21 avec de petits sommets et Q sans sommets, c'est un plateau. Pour les paramètres indépendants, il y a une seule différence notable. C'est celle de sr/lr, l'indice entre bornf et x1m. Il passe de 0.53 à 0.72 pour Q.
       clasf  effect  pte  restp   xmp  sr/lr
       M21   1900  11  163  301  0,53
       Q    1769  13  172  343  0,72
      - Classes M31 M41: Elles sont très différentes, déjà avec le paramètre lonf de classement. Ensuite par les paramètres indépendants dont 2 sont les plus faibles pour M41 et moyens pour M31, effect et pte; par contre M41 a un restp élevé comme E2, alors que pour M31 c'est moyen. Ils ont en commun l'indice sr/lr du même ordre que celui de Q, environ 0.74.
       clasf   effect  pte  restp   xmp  sr/lr
       M31   1674  9.9  156  361  0,78
       M41   1422  7.5  205  292  0,71
  • Les formes ne dépendent pas des paramètres indépendants, effect pte restp xmp. Et même pour les paramètres de classement, lonf et sf/lf pour les classes M11 M21 M31, alors que E1 E2 Q M41 sont homogènes. Pour les paramètres indépendants la plupart des classes les valeurs, pour un paramètre donné, se déclinent en faible moyenne forte. Pour les paramètres de classement la même forme peut se trouver dans plusieurs classes différentes.
	effectif	pente		reste		forme
ext	950	3300	6	20	130	2500	=	#
								
E11	.	2	.	2	1	.	E5	1
E21	1	1	2	1	1	4	E6	1
M11	.	.	.	1	1	.	C	2
M21	2	1	.	1	3	1	M4	3
M31	1	.	1	.	4	.	M4 C	3
M41	4	1	5	.	.	2	M4	1
Q	1	1	.	1	.	.	P	.
								
tot	9	6	8	6	10	7	-	11
Légende: ext pour extrêmes. Sauf pour la forme où # veut dire différent, où = veut dire pour E11 que ses formes vont de E2 à E5, pour E21 que les formes vont de E6 et plus. Pour M31 il y a 3 formes M4, 3 C et les autres (#) ce sont 2 M2 et 1 M3. Le total c'est la ligne tot.
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Discussion[modifier | modifier le wikicode]
  • Pour un même génome à 2 éléments, ceux-ci ont des formes différentes: plasmide et chromosome (abq abs ppm), 2 chromosomes circulaires (oan vha vpb), 1 chromosome circulaire et l'autre linéaire (agr).
  • Deux génomes qui se ressemblent, pour tous les paramètres de classement ou tous les paramètres indépendants, ont la même forme: cdc cdc8, abq abs, abqp absp, rpl rtb.
  • Ces 2 remarques montrent que la forme peut être transmise de génération en génération et que l'architecture du chromosome ou du plasmide, n'est pas créée par le protéonome mais qu'elle est le résultat de nombreuses contraintes environnementales qui agissent sur de longues durées. Le protéonome ne fait que transmettre ces contraintes au chromosome, notamment par les enzymes de réparation de l'ADN.
  • La forme est unique pour un élément d'un génome donné: Elle représente son architecture adénélique. En comparaison avec les CDS, ceux-ci peuvent être communs à de nombreux génomes avec les mêmes fonctionnalités mais diffèrent très peu par leurs séquences. Les intercalaires entre CDS nuls ou petits peuvent être très nombreux dans le même chromosomes, sans fonctionnalités apparemment ou alors de tailles plus grandes et servent de contrôle lors de la transcription des CDS (promoteur opéron).
  • La genèse des intercalaires est différente de celle des CDS. Les intercalaires entre CDS ressemblent plus aux intercalaires entre tRNAs, petits et variant dans la séquence et non par la taille. Par contre les CDS sont beaucoup plus longs et varient très peu en longueur et dans leur séquence (mutations). Les plus petits CDS ont une longueur qui ne descend pas en dessous de 50 acides aminés (150 pbs) loin derrière les tRNA qui ne dépassent pas les 120 pbs. La genèse des CDS, par leur constance à travers tous les génomes et leurs grandes tailles, semble procéder plus par de nombreuses contraintes environnementales et évoluer sur de longues périodes. Par ces caractéristiques un CDS devrait avoir une résonance spécifique qui obéit plus à la physique quantique, alors que les intercalaires entre CDS devraient plus procéder de la mécanique pour gérer des millions de pbs. Cependant, en dehors des tout petits intercalaires (à priori de faible résonance), les longs intercalaires doivent avoir une résonance quantique qui les rend fonctionnels, c'est à dire interagissant avec toute molécule de la cellule sans pour autant produire une protéine dont la fonctionnalité s'exprime avec l'ADN et surtout avec les milliards d'autres molécules de la cellule.
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec le polynôme de d°3[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400. Contient les équations des courbes de tendance en polynôme de d° 3.
  • Légende
    - Les couleurs: c'est pour visualiser les groupes de génomes G en fonction des taux des plages xmp et rest. Ces 2 colonnes sont divisées en taux fort (cyan), moyen fort (rouge), moyen faible (blanc) et faible (jaune). Les groupes (colonne G) apparaissent quand je trie la colonne flexp en tri croissant. En regroupant les génomes ayant les 2 mêmes couleurs j'ai pu définir les groupes de la colonne G avec une lettre suivi d'un chiffre indiquant l'ordre croissant dans la colonne flexp.
    - Les moyennes (m) des colonnes sont mises en bas du tableau avec leur écartype (e). Après avoir marqué en gras les extrêmes la moyenne est faite sur la plage restante (p) et le nombre de génomes (g) correspondant.
    - Les paramètres du polynôme de d° 3: les abscisses vont de xm à 400 fréquences unitaires (freq1) ou jusqu'à pfin quand c'est nécessaire pour avoir une ordonnée du point d'inflexion (flexo) conséquente. L'abscisse du point d'inflexion (flexa) va servir à calculer le taux de la plage concernée par le rebond (flexp, il correspond à sup4t dans le chapitre de la diagonale) et sa longueur flexa-xm (l4) ainsi que le taux du rebond (sup4) au dessus de l'horizontale passant par le point d'inflexion entre ce dernier et l'abscisse xm. Quand un polynôme a un sommet convexe j'ai indiqué ses coordonnées (soma somo) dont l'ordonnée est à comparer à celle du point d'inflexion (flexo). La pente (pte) au point d'inflexion, en ‰, est intéressante à comparer aux pentes des diagrammes en moyennes glissantes. Les paramètres xm et flexa sont indiqués par une étoile bleue dans les diagrammes en moyennes glissantes dont le lien est dans la dernière colonne, gen, du tableau. Les différents paramètres d'un génome se trouvent dans le lien de la 2ème colonne, gen, du tableau.
    - Importance des 3 régions des diagrammes en polynôme d°3: xmp de 0 à xm-1, flexp de xm à flexa, r400 de flexa+1 à l'abscisse 400 et enfin le reste rfin au-delà de 400. La colonne rest est la somme de r400+rfin. Cette importance est définie par le pourcentage de la plage en ‰ par rapport au total des intercalaires CDS-CDS positifs continus (effect).
    - Le rebond sup4: sup pour supérieur à flexo et 4 pour un diagramme de xm à 400 à courbe de tendance en polynôme de d°3. Voir sa description et son calcul. Son appréciation se fait par le rapport sup4/flexp (supF), en %. J'ai classé les génomes (gen) par rapport à sup4 dans la colonne clas. Les colonnes forme clasf sont celles des diagrammes en moyenne glissante, et la différence (des indices s4f) égale à "100*(sup4/l4 - supf/lf)/(sup4/l4)" de même la différence (des longueurs des rebonds) l4f égale à "100*(l4 - lf)/l4".
int51.400 Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, en abscisses unitaires freq1.
clade gen effect pfin xm soma somo pte flexa flexo sup4 xmp flexp r400 rfin rest supF l4 clas G forme clasf s4f l4f gen
act1 ase 3854 200 25 4,6 5,67 34,65 92,9 3,64 81,85 217,4 328,2 378,6 75,8 454,3 24,94 67,9 C12 c3 E4 E12 45,0 -3,1 ase
act2 blo 1045 35 47,7 4,07 18,50 201,0 2,17 256,86 213,4 575,1 162,7 48,8 211,5 44,66 166,0 C43 i2 M4 M48 -8,8 10,3 blo
act3 ksk 3995 25 44,1 4,17 18,43 197,3 2,29 232,14 110,6 616,8 193,5 79,1 272,6 37,64 172,3 C42 i3 M4 M42 -25,0 32,1 ksk
act4 sma 3894 49 51,6 3,47 14,27 200,7 2,06 150,45 254,5 451,7 209,3 84,5 293,8 33,31 151,7 C32 f6 P2 Q8 28,6 11,7 sma
act5
al1 abq 1565 35 38,2 4,19 20,13 189,2 2,16 229,28 276,0 535,5 152,1 36,4 188,5 42,82 154,2 C42 h4 P2 Q5 20,4 29,3 abq
al2 abqp 921 45 -23,2 4,63 17,70 165,9 2,40 169,67 335,5 423,5 191,1 49,9 241,0 40,07 120,9 C33 g6 M3 M26 9,1 -6,7 abqp
al3 abs 1570 45 28,4 4,27 19,41 187,7 2,21 205,77 314,6 496,2 154,1 35,0 189,2 41,47 142,7 C41 h1 P2 Q4 14,2 29,9 abs
al4 absp 873 45 -29,7 4,71 17,46 164,4 2,45 172,41 326,5 426,1 197,0 50,4 247,4 40,46 119,4 C33 g7 M4 M28 17,0 -16,5 absp
al5 agrc 1466 45 87,2 3,64 20,56 212,7 1,92 230,18 316,5 527,3 133,0 23,2 156,2 43,65 167,7 C42 h2 M5 M45 -32,5 22,5 agrc
al6 agrl 1040 250 35 -23,3 4,84 20,42 110,6 3,02 98,43 341,3 288,5 330,8 39,4 370,2 34,12 75,6 C21 b6 C M31 -65,3 40,5 agrl
al7 aua 1803 35 55,3 3,68 17,15 205,0 1,97 220,98 266,2 528,6 154,2 51,0 205,2 41,81 170,0 C42 h3 M4 M25 -2,3 25,3 aua
al8 oan1 1517 45 13,7 3,67 13,89 183,9 2,09 155,68 326,3 418,6 209,0 46,1 255,1 37,19 138,9 C32 g4 M4 M23 -4,1 20,8 oan1
al9 oan2 914 250 45 74,1 3,71 28,53 143,9 2,39 133,66 407,0 330,4 227,6 35,0 262,6 40,45 98,9 C31 d3 M4 M44 -15,1 -27,4 oan2
alp1 pub 601 150 25 29,2 4,91 62,1 80,3 2,79 101,34 633,9 229,6 129,8 6,7 136,4 44,13 55,3 C21 a1 E4 E10 -1,2 33,1 pub
alp2 rpl 527 45 111,6 3,09 20,91 223,6 1,53 263,93 260,0 463,0 83,5 193,5 277,0 57,00 178,6 C43 f8 M4 M46 -48,4 25,5 rpl
alp3 rpm 1847 45 17,6 3,88 15,61 188,1 2,10 159,30 329,7 445,6 183,5 41,1 224,7 35,75 143,1 C32 gb M2 M24 -7,0 15,5 rpm
alp4 rru 2136 35 -79,1 5,49 17,86 140,4 2,88 116,61 279,5 402,6 285,1 32,8 317,9 28,96 105,4 C23 f2 E4 E13 1,1 32,7 rru
alp5 rtb 505 45 116,2 3,05 21,63 224,0 1,49 250,44 269,3 447,5 85,1 198,0 283,2 55,96 179,0 C43 f4 M4 M49 -37,0 10,6 rtb
alp6
arc1 mba 2379 45 - - 2,62 242,7 1,32 116,95 198,4 340,9 163,5 297,2 460,7 34,31 197,7 C23 c4 E8 E28 42,6 13,0 mba
arc2 mfe 2011 55 -67,9 2,71 5,78 195,1 1,70 90,61 236,2 293,4 238,2 232,2 470,4 30,89 140,1 C12 c2 E8 E29 17,4 -32,0 mfe
arc3 mfi 1545 25 25,1 3,77 14,87 187,1 2,17 202,09 202,6 514,6 222,7 60,2 282,8 39,27 162,1 C41 i1 E5 E24 48,7 13,7 mfi
arc4 mja 1069 250 35 40,9 4,06 26,09 133,6 2,45 137,91 435,0 349,9 203,9 11,2 215,2 39,42 98,6 C31 d4 F6 E21 44,1 -43,0 mja
arc5
bac1 ban 3289 45 45,9 3,48 15,24 193,8 1,98 162,80 324,4 437,5 187,0 51,1 238,1 37,21 148,8 C32 g8 M4 M22 -8,9 28,1 ban
bac2 bsu 2512 45 -32,3 5,13 20,87 150,8 2,59 137,90 397,7 398,1 184,7 19,5 204,2 34,64 105,8 C31 a5 C M35 -48,5 12,1 bsu
bac3 lam 1248 35 -89,1 5,64 19,42 120,5 2,93 120,02 373,4 349,4 257,2 20,0 277,2 34,35 85,5 C23 e5 M2 M37 -3,4 -8,8 lam
bac4 lbu 1098 35 12,4 3,83 16,23 176,7 2,05 190,31 340,6 445,4 167,6 46,4 214,0 42,73 141,7 C41 ga M4 M27 12,9 4,0 lbu
bac5 lmo 1849 45 51,1 3,45 17,65 192,7 1,78 187,97 425,1 427,3 120,1 27,6 147,6 43,99 147,7 C41 a7 M4 M38 -38,6 35,7 lmo
bac6 pmq 4540 300 45 - - 7,18 185,6 2,08 117,98 279,7 397,8 244,5 78,0 322,5 29,66 140,6 C23 f1 E4 E18 -41,4 18,9 pmq
bac7 ppm 3176 55 42,3 3,46 13,78 209,0 1,93 158,22 318,0 442,4 170,0 69,6 239,6 35,77 154,0 C32 g9 E5 E14 18,9 43,5 ppm
bac8 ppmp 438 45 -135,9 5,21 13,29 133,1 2,83 111,52 214,6 292,2 369,9 123,3 493,2 38,16 88,1 C22 c1 C M32 -71,5 28,5 ppmp
bac9
bct1 myr 2273 250 45 65,5 3,70 29,33 142,3 2,20 118,03 411,4 315,0 194,5 79,2 273,6 37,47 97,3 C23 d2 M4 M34 -42,7 21,9 myr
bct2 fps 1628 250 35 27,5 4,59 28,71 122,8 2,77 118,75 328,0 346,4 263,5 62,0 325,6 34,28 87,8 C23 e4 M2 M39 -16,8 -9,4 fps
bct3
bde1 cvi 2412 250 35 39,5 4,83 31,29 137,0 2,79 147,26 315,5 420,4 225,1 39,0 264,1 35,03 102,0 C32 g5 C M12 22,2 25,5 cvi
bde2 ade 2335 250 35 39,6 4,63 29,70 138,9 2,66 148,36 355,0 410,3 200,4 34,3 234,7 36,16 103,9 C32 g3 C M11 30,9 23,9 ade
bde3 ant 1700 250 35 54,0 4,14 35,99 134,2 2,21 153,23 507,6 354,7 120,6 17,1 137,6 43,20 99,2 C32 a3 M3 M33 -16,1 30,4 ant
bde4
clo1 cbc 2572 45 -43,7 3,13 8,78 153,6 1,98 75,35 318,0 272,2 283,0 126,7 409,8 27,69 108,6 C11 b4 F6 E25 -28,2 6,1 cbc
clo2 cbei 4010 300 35 - - 5,50 246,8 1,52 157,56 224,7 462,6 164,1 148,6 312,7 34,06 211,8 C32 f7 E6 E27 51,4 19,7 cbei
clo3 cbn 1775 45 -3,3 3,92 14,99 175,9 2,13 145,39 368,5 401,7 194,9 34,9 229,9 36,20 130,9 C32 g1 E6 E23 31,9 -3,1 cbn
clo4 cdc 2589 250 45 36,0 2,98 13,53 137,7 2,06 70,11 373,1 248,7 283,1 95,0 378,1 28,19 92,7 C11 b2 E2 E16 40,2 0,8 cdc
clo5 cdc8 2727 250 45 29,0 3,06 13,48 138,0 2,08 71,86 379,2 251,6 280,5 88,7 369,3 28,57 93,0 C11 b3 E2 E15 50,9 1,1 cdc8
clo6 cle 2900 300 45 7,6 3,48 13,19 151,9 2,22 85,99 372,4 309,0 254,8 63,8 318,6 27,83 106,9 C12 e2 F9 E22 -39,2 -26,3 cle
clo7 hmo 1867 300 47 34,0 3,89 17,71 155,1 2,46 112,24 316,0 361,0 265,1 57,8 323,0 31,09 108,1 C22 e7 P4 Q2 -8,4 31,5 hmo
clo8 psor 2350 45 89,4 3,00 16,32 216,1 1,62 192,27 378,7 448,9 116,6 55,7 172,3 42,83 171,1 C41 a8 M4 M47 -30,4 21,1 psor
clo9
cya1 npu 3999 25 -12,3 3,77 11,77 180,3 2,26 149,48 99,0 486,6 267,8 146,5 414,4 30,72 155,3 C32 c5 M4 M21 2,1 36,3 npu
cya2 pmg 948 150 44 38,2 5,68 58,83 102,4 3,17 108,60 520,0 272,2 185,7 22,2 207,8 39,90 58,4 C22 a2 P1 Q1 24,3 26,4 pmg
cya3
ga1 amed 2382 45 -29,4 5,02 18,34 162,0 2,68 150,27 267,0 447,5 239,7 45,8 285,5 33,58 117,0 C32 f3 M4 M36 -30,5 20,5 amed
ga2 eal 2286 200 35 -21,0 4,78 21,94 111,8 2,84 77,24 335,5 283,0 321,1 60,4 381,5 27,29 76,8 C11 b5 E5 E17 63,8 -31,5 eal
ga3 eco 2204 250 35 24,3 4,10 20,88 137,1 2,53 117,43 358,0 353,4 259,5 29,0 288,6 33,22 102,1 C23 e6 M3 M13 0,1 26,5 eco
ga4 ecoN 2822 250 35 14,7 4,46 24,21 123,1 2,71 103,64 355,1 327,4 273,2 44,3 317,5 31,65 88,1 C21 e3 M3 M14 -2,2 28,5 ecoN
ga5 spl 2482 42 -69,7 4,16 12,31 150,2 2,36 97,38 284,9 334,0 279,2 101,9 381,1 29,16 108,2 C21 b7 E5 E19 67,0 12,2 spl
ga6 vha1 1945 43 -15,9 3,84 13,48 179,2 2,08 150,24 322,4 407,2 195,4 75,1 270,4 36,90 136,2 C32 g2 P5 Q6 -13,4 17,0 vha1
ga7 vha2 1075 35 37,1 3,42 14,29 191,1 1,96 196,05 277,2 448,4 196,3 78,1 274,4 43,73 156,1 C41 f5 M4 M43 -78,6 21,2 vha2
ga8 vpb1 1757 55 50,2 3,15 13,57 209,7 1,71 167,59 407,5 405,8 133,8 52,9 186,7 41,30 154,7 C33 a6 M5 M29 15,2 6,9 vpb1
ga9 vpb2 828 45 -159,6 4,68 11,20 127,0 2,54 77,49 335,7 246,4 341,8 76,1 417,9 31,45 82,0 C11 b1 F6 E26 -21,4 -79,2 vpb2
gam
neg1 afn 1385 44 -54,0 3,71 11,99 150,8 2,08 102,38 434,7 299,6 226,7 39,0 265,7 34,17 106,8 C21 d1 P2 Q3 4,0 6,3 afn
neg2
spi1 scc 1000 170 35 - - 21,07 109,6 2,77 107,59 365,0 290,0 311,0 34,0 345,0 37,10 74,6 C22 e1 E6 E11 14,3 7,5 scc
ter1 abra 980 35 -20,7 4,15 17,24 154,6 2,14 159,70 420,4 390,8 155,1 33,7 188,8 40,86 119,6 C32 a4 P4 Q7 3,5 -10,3 abra
ter2 apal 919 28 -65,0 4,70 17,35 131,3 2,43 140,69 396,1 354,7 207,8 41,3 249,2 39,66 103,3 C31 d5 M4 M41 -18,2 -12,3 apal
ter3
clade gen effect pfin xm soma somo pte flexa flexo sup4 xmp flexp r400 rfin rest supF l4 clas G forme clasf s4f l4f gen
m 1812,8 4,1 18,3 159,3 2,3 139,3 324,1 376,4 204,2 52,0 280,6 36,4 122,0
e 678,2 0,8 5,1 30,1 0,3 32,7 63,5 60,2 49,1 21,0 63,8 5,0 29,3
m/e 2,7 5,4 3,6 5,3 7,1 4,3 5,1 6,3 4,2 2,5 4,4 7,2 4,2
g 48 54 49 50 49 46 53 46 50 47 49 55 51
p 830-3300 2,7-5,7 11-31 102-210 1,6-2,8 82-206 198-435 272-463 117-285 20-102 187-418 27-45 75-172
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec le polynôme de d°3.Note[modifier | modifier le wikicode]
  • Le rebond avec l'horizontale est plus grand qu'avec la diagonale. C'est comme si dans les moyennes glissantes il y avait 2 processus en action, celui du rebond qui a une forme et l'autre, entre la diagonale et l'horizontale x1m, un processus qui diminue suivant la pente de la diagonale. Le reste, sous les horizontales de poly3 et x1m, est un processus aléatoire qui n'a pas de rôle particulier. Aussi le sens du rebond est différend dans les 2 tableaux étudiés, et ce n'est pas seulement une question de différence de calcul.
  • Les différences s4f se répartissent ainsi (en valeurs absolues): 10 supérieures à 45%, 17 entre 45 et 25 et 31 entre 25 et 0%
  • Les différences l4f se répartissent ainsi (en valeurs absolues): 4 supérieures à 40%, 21 entre 40 et 25 et 33 entre 25 et 0%
  • Les moyennes par clasf: je retrouve l'ordre des moyennes avec poly3 sauf pour s4/l4 de M11 qui est trop élevée.
	Poly3		Forme	
clasf	l4	s4/l4	lf	sf/lf
E1	101,5	1,01	90,7	0,72
E2	131,6	0,90	151,0	0,72
M11	99,0	1,30	73,3	1,12
M21	143,6	1,21	123,6	1,15
M31	100,4	1,33	80,3	1,81
M41	154,8	1,36	132,1	1,80
Q	122,2	1,28	100,6	1,14
  • Les sommets de poly3: M41 a 8 sommets convenables, c'est à dire dont l'abscisse est supérieure à xm (+xm). Les autres sont soit négatifs soit positifs mais inférieurs à xm (-xm).
soma	+xm	-xm
E1	0	4
E2	2	1
M11	2	2
M21	4	2
M31	3	1
M41	8	0
Q	2	3
  • fc+200 ***********************
  • Les diagrammes fc200
    - Les diagrammes fc+ (freq10) présentent un minimum local autour de l'abscisse 50 suivi d'un rebond puis d'une inflexion aux alentours de l'abscisse 200 (images  fcp1fcp2). L'objectif de l'étude des diagrammes fc+400, en fréquences unitaires (freq1), est de caractériser ce rebond pour déterminer les pics de fréquences susceptibles d'avoir des rôles de contrôle des CDS adjacents à ces intercalaires, comme les pics identifiés en 1er dans les diagrammes fc40 autour des fréquences 1 et 12 .
    - Lien au tableau
    - Le rebond: j'ai détaillé les paramètres du tableau et notamment le calcul de sup4 dans description et calcul des rebonds poly3 et mg9.
    • Après avoir repéré (xm,ym) dans les colonnes des données en fréquences unitaires (en s'aidant du diagramme en lots de fréquence de 10), j'utilise un tableau de calc contenant les formules mathématiques pour calculer les coordonnées du sommet (soma, somo) qui nécessite la dérivée 1ère, du point d'inflexion (flexa, flexo) qui nécessite la dérivée seconde, et l'ordonnée yc en xm sur la courbe de tendance du polynôme de d°3, poly3. En entrée de ce tableau je donne les 4 coefficients du polynôme et xm. J'ai calculé aussi, dans ce tableau de formules, les coefficients (a’, b') de la droite tangente au point d'inflexion.
    • Une fois obtenu flexa et flexo je calcule, pour chaque abscisse, de xm à flexa, la différence y-flexo. La colonne des y-flexo est sauvegardée numériquement, les cellules à valeurs négatives (recherche du signe moins (-)) sont recherchées et effacées. La somme de cette colonne donne sup4.
    - Classement des diagrammes
    • par le sommet du polynôme 3, somo.
      - L'ordonnée du sommet, somo, n'est pas très informative parce que sa moyenne de 4.1 varie peu avec un m/e de 5.4 pour 54 génomes. Les 4 génomes restants n'ont pas de sommet.
      - Le classement par le sommet n'a de sens que relativement au rebond qui est défini par la différence somo-flexo, et cette différence est très peu informative puisqu'elle est très faible et varie très peu comme somo et flexo avec les valeurs de m m/e g respectivement, 4.1 5.4 54 contre 2.3 7.1 49 pour flexo.
    • par le rebond sup4:
      - Comparaison avec les diagrammes fc40 qui sont nets pour oan2 ban psor ou bien aussi déchiquetés ( en dents de scie ) que les fc400 comme blo ou bien quasiment sans pics comme aua npu. Les fc400 sont systématiquement en dents de scie mais présentent régulièrement des ondulations, chacune s'étendant sur une dizaine de fréquences comme les fc40 nets.
      - Calcul du rebond
      • Une façon de calculer le rebond, qui tient compte de toutes ces dents (qui seraient chacune un pic de contrôle) et s'étend sur une plage 3 fois plus grande que la plage des fc40, soit 120 fréquences, est de sommer toutes les portions de pics qui dépassent l'ordonnée du point d'inflexion, flexo. Voir sa construction à partir du lien au début de ce chapitre, "Le rebond".
      • Le point d'inflexion est le mieux approprié pour ce calcul parce que, en faisant partie de la courbe, celle-ci résume l'ensemble des points considérés alors que prendre ym, le minimum local, ne représente que lui-même. Une ordonnée d'un autre point de la courbe qui me paraissait intéressant est celle correspondant à l'abscisse xm. Or, pour une courbe à coefficient du monome x3 négatif, cette ordonnée, yc sur l'image, peut être très grande et dépasser tous les autres points du diagramme, ce qui rend nulle la somme sup.
      • J'ai opté pour l'utilisation du point d'inflexion parce qu'il permet d'inclure les courbes à coefficient négatif de x3, mais j'ai eu 21 courbes anormales, sans point d'inflexion. Sur 36 tests de ces génomes, avec comme limite l'abscisse 400, 16 tests ont un flexa, positif ou negatif, qui dépasse 400 et 20 dont le flexo est trop grand, supérieur à 3 (7) ou trop petit, inférieur à 0.9 cbei (13). Suite à une étude précédente en abscisse 200, où beaucoup de ces génomes avaient des courbes avec un point d'inflexion, j'ai réduit la limite de 400 à pfin pour ces génomes (voir cette colonne dans le tableau). Ainsi 4 génomes vont jusqu'à 300, 12 jusqu'à 250, 2 jusqu'à 200 (eal ase), scc jusqu'à 170 et 2 jusqu'à 150 (pmg pub). La majorité des 58 génomes étudiés (51) ont un xm moitié de l'abscisse freq10 du minimum local des diagrammes en freq10, étendus de 1 à 400. Ces xm se terminent donc par 5. J'ai testé 15 génomes normaux en prenant un xm unitaire, autour du minimum local en freq10. Pour ces tests flexo et flexa changent très peu. J'ai pris seulement 7 xm ne se terminant par 5 et seul hmo présente un écart élevé du sp4, 50 entre 45 et 400 et 118 entre 47 et 300. J'ai mis en sauvegarde, dans le tableur, ces courbes avec le 1er choix du xm, l'équation de la courbe et les valeurs du point d'inflexion et de sa tangente. fin de la MAJ **********
      - Classement des fc400 avec le paramètre sup4 en tri croissant, colonne clas.
      • J'ai défini 3 groupes de classes basés sur leur très grand rapport m/e. Ce sont
        1. Le 1er groupe réuni les classe C1 C2. La classe C1 a un sup compris entre 13 et 34, avec un m/e de 3.6 (24.2,6.7,3.6) et 9 génomes. La classe C2 a un sup compris entre 40 et 76, avec un m/e de 4.3 (55.4,12.8,4.3) et 10 génomes. La frontière entre C1 et C2 est due à un saut de 6 points du rebond (sup) entre abra (33.8) et ppm (40.2). Le 1er groupe diffère du 2ème groupe surtout par le grand nombre de génomes sans sommet du 1er, 13 sur 19 et non par le saut du rebond entre eux, entre absp (75.7) et oan1 (77.1) qui est à peine de 1 point.
        2. Le 2ème groupe réunit les classes C3 C4 C5. La classe C3 avec 6 génomes a un rebond entre 77 et 86, la classe C5 avec 5 génomes a un rebond entre 116 et 130. Ces 2 classes très homogènes bordent la classe C4 très homogène avec un m/e de 15.5 (100.3,6.5,15.5) et 21 génomes. La frontière entre C3 et C4 est due à un saut de 5 points du rebond (sup) entre agrc (85.7) et lmo (91.3). La frontière entre C4 et C5 est due à un saut de 5 points du rebond (sup) entre oan2 (110.9) et ant (115.9).
        3. Le 3ème groupe est constitué de la classe C6 qui contient 7 génomes extrêmes avec un rebond entre 145 et 371, très hétérogène. La frontière entre C5 et C6 est due à un saut de 16 points du rebond (sup) entre fps (129.6) et blo (145.4). Ce groupe contient le génome pub sans sommet.
    • par la pente a', du point d'inflexion du polynôme 3. Voir tableau des moyennes
      - Tri croissant sur la colonne clas: Pour obtenir les classes en ordre croissant avec un tri croissant de la pente a', je trie d'abord la colonne a' et ensuite clas.
      - Les ruptures sont nettes entre sous-classes: 3 points entre C11 C12, 6 entre C21 C22, 4 entre C313 C314, 3.5 entre C415 C421, 2 entre C426 C427, 2.3 entre C42c C43, 12 entre C51 C52, et 14 entre C61 C62. J'ai ainsi ajouté une sous-classe dans C31 (une de C311 à C313 et l'autre de C314 à C316) et une dans C42 (une de C421 à C426 et l'autre de C427 à C42c). Il est à noter une rupture nette de 8 points entre amed et pmg de la classe C43, ce qui isole pmg comme afn et pub.
      - Homogénéité des sous-classes: ils sont tous très homogènes sauf C21 avec un m/e de 2.17 à cause des 2 génomes absp et vbp2 qui devraient se trouver en C3 avec un rebond sup, supérieur à 68.89 contre le maximum de C2 de 62.07 (cdc8). Cette homogénéité et les ruptures, listées ci-dessus, se traduisent dans le diagramme rebond/pente, duquel j'ai soustrait absp et vbp2, par des colonnes de points chacune correspondant à une pente donnée correspondant à sa sous-classe. Cela est net pour les 4 sous-classes de C4 et les 2 de C3. De même l'isolement de pmg apparait nettement puisque celui-ci, avec une pente de 48.7, est détaché de C43 qui a une moyenne de pente de 40, et se trouve près de lam avec une pente de 49.8.
      - Conséquences pour la forme des diagrammes fc+xm-200: Pour chaque sous-classe de rebond on aura 2 formes différentes, une plate avec une pente faible et une sous forme de dôme avec une pente forte.
    • Diagrammes du rebond en fonction du point d'inflexion
      - Je n'ai mis en diagramme que la pente a' et l'abscisse flexa. L'ordonnée flexo varie très peu, entre 2.19 et 3.51 (m e m/e 2.83 0.36 7.84 pour 51 génomes) et donc le rebond en fonction de flexo a comme courbe de tendance une droite verticale, sans intérêt. La constante de la tangente b', du coup, ne dépend plus que de flexa. Par conséquent a' et b' vont être très corrélés pour les 51 génomes retenus pour flexo avec un coefficient de détermination R2 de 0.937.
      - Diagramme rebond/pente, sup/a':
      • Le diagramme du milieu, à 58 génomes, montre clairement la séparation des 7 génomes extrêmes, colorés en rose.
      • A ces 7 génomes j'ai ajouté absp et vbp2 qui se sont retrouvés décalés dans leur sous-classe C21 et alignés avec les 7. Le diagramme de droite de ces 9 a une courbe de tendance linéaire nette avec un R2 de 0.682 et une pente de 5.3. Peut-être faudrait-il ajouter pmg à ces 9 génomes.
      • Le 1er diagramme concerne 49 génomes et a une courbe de tendance linéaire nette avec un R2 de 0.728 et une pente de 2.25 très différente de celle des 9 génomes. Les sous-classes apparaissent nettement comme indiqués dans l'introduction des pentes ci-dessus.
      - Diagramme rebond/%flex: le fort R2 de 0.699 pour 43 génomes montre que le classement par sup et sup/fx sont analogues puisque ce dernier est la pente de la droite de tendance du diagramme. Cela serait de même pour les 10 génomes à faible rebond et les 5 génomes à fort rebond. Le diagramme sup:(sup/fx) montre une très forte corrélation pour les 58 génomes avec un R2 de 0.816 et un coefficient de corrélation de 0.904. Pour les 43 génomes j'ai respectivement 0.684 et 0.827.
      - Diagramme rebond/abscisse, sup/flexa
      • Parmi les diagrammes présentés dans l'image, seul celui-ci présenterait la linéarité nécessaire à un classement, que ça soit celui des rebonds ou des taux des fréquences. En effet, en ne tablant que sur le coefficient de détermination R2 des 58 génomes, ce diagramme l'emporte nettement avec 0.752, alors que sup/pente que j'ai choisi pour le classement n'a qu'un R2 de 0.284; celui de sup/%flex , que j'aurais pu prendre aussi pour le classement, n'est guère reluisant avec un R2 de 0.222. Les 4 autres diagrammes en fonction de l'effectif total des intercalaires (effect), sup %1 %flex %rest ont les plus mauvais R2 avec, respectivement, 0.042 0.151 0.001 0.097.
      • Si maintenant je cherche le plus grand nombre de génomes qui rendent optimum le R2 c'est sup/pente qui l'emporte avec 0.728 et 49 génomes contre 0.486 et 49 pour sup/flexa et 0.699 43 pour sup/%flex. Les 4 autres diagrammes en fonction de effect, sup %1 %flex %rest, donnent respectivement 0.421 43, 0.316 43, 0.528 45, 0.489 43 (Voir la description de l'image).
      • Cepedant le diagramme sup/flexa m'a permis de comprendre l'origine des extrêmes. En effet les 7 maxima, rpl rtb pub vha2 vpb1 npu, subissent 2 contraintes principales un flexo très faible et un flexa très grand. Voir le tableau de classement en triant sur chaque colonne flexo et flexa. De même pour les minima, avec un flexo fort et un flexa faible, abqp lbu cbn absp. Les génomes dont un seul des 2 paramètres est extrême doivent avoir en plus un excès ou un manque de %flex. C'est le cas de mfe cbc mba vpb2 avec un %flex mis en valeur par un %rest élevé, respectivement, 474% 344 528 279 (moyenne des 58 génomes, 236). Restent cbei et ksk qui ont un effectif (effect) très élevé, respectivement, 4010 et 3995.
    • Les caractéristiques de chaque classe. Voir le tableau des moyennes.
      - L'hétérogénéité des clades par rapport au rebond et à la pente.
      • J'ai montré plus haut qu'il y a une forte corrélation entre la pente de la tangeante au point d'inflexion et le rebond (sup). Dans le tableau des moyennes par clades je retrouve ce parallélisme entre les sous-tableaux 21 et 22.
      • L'appréciation de cette hétérogénéité se trouve dans la comparaison avec l'homogénéité des sous-tableaux 11 et 12, des classes en fonction du rebond et de la pente. Le rapport m/e des classes de C31 à C51 regroupant 30 génomes est entre 14 et 58 pour le rebond et entre 7 et 17 pour la pente. A comparer avec le rapport du total de référence (54 et 58 génomes) de 2.2 et 1.8. Le rapport m/e est moyen, de 3.4 à 5.1, pour les classes du rebond de c11 à C22 qui affichent, en parallèle avec la pente, un rapport toujours moyen mais un peu plus élevé sauf pour C21 qui devient faible, 2.2, comme la référence du total. Toute cette homogénéité des classes est le résultat du classement que j'ai effectué alors que les clades répondent à ce classement par une très forte hétérogénéité dans chacun des clades avec un rapport de 2.0 ou moins.
      • Les clades diffèrent entre eux par leur moyenne malgré la forte hétérogénéité intraclade. Pour le rebond les 3 clades bacilli gamma actino sont moyens mais alpha est fort avec une moyenne de 125 et clostridia archeo sont faibles avec, respectivement, 61 et 66 de moyenne. Sans moyenne bacteroidites et tenericutes sont moyens alors que cyano est fort et afn faible. Je retrouve ces différences en miroir dans le tableau des pentes sauf pour les alphas. Les alpha sont, en fait, moyens parcequ'ils possèdent les extrêmes rpl rtb pub du rebond. Sans ces extrêmes les alpha ont 86 de moyenne et un rapport m/e de 3.1 avec 11 génomes. La faiblesse des clostridia et archeo se retrouve dans les classes de C11 à C22. Celles-ci ont 6 faibles clostridia sur 8 et 2 faibles archeo sur 4.
      - L'hétérogénéité des classes par rapport aux fréquences en pourcentage, %1 et %flex.
      • L'homogénéité des clades avec %flex:
        + Comme pour les classes en fonction du rebond, où l'homogénéité intraclasse est forte pour 5/10 classes (tableau 11), les clades en fonction du %flex (tableau 24) ont aussi une homogénéité intraclade élevée mais moins forte pour 5/6 clades avec un rapport m/e supérieur à 4.5 contre un m/e des classes supérieur à 14. Mais 5/6 clades ont à peu près la même moyenne différant de celle (322) du total de moins de 18% sauf pour actino avec 46%. Les classes, par construction, diffèrent toutes de la moyenne en fonction du rebond qui est de 82. En résumé, je peux dire le %flex ne dépend pas des clades mais de chaque génome; la moitié des génomes faibles s'étalent régulièrement jusqu'à la moyenne de 322, avec 2 extrêmes à 69 (afn) et 143% (abra); la moitié des génomes forts s'étalent aussi régulièrement avec un extrême à 530% (npu).
        + Comme pour le rebond ce sont, cette fois-ci, les classes qui répondent, à l'homogénéité des clades, par une hétérogénéité de certaines classes, 3/10, mais surtout par des moyennes différentes de celle du total, 4/10 ont une différence inférieure à 18%. Au total 6/10 classes diffèrent du total en moyenne et en rapport m/e. Cependant le changement vers les classes est beaucoup moins dramatique en %flex que des classes vers les clades en %sup. Dans le 1er cas les classes restent très homogènes avec un rapport m/e du %flex supérieur à 6.3 pour 7/10, alors que les clades sont tous très hétérogènes avec un m/e du rebond inférieur à 2.0. Le passage, en %flex, des clades vers les classes se fait par regroupement de génomes homogènes, les faibles avec les faibles et les forts avec les forts. L'introduction d'un intrus crée l'hétérogénéité. En C11 c'est lbu, fort avec un %flex de 419 et 5 autres faibles; en C12 abra un faible avec un %flex de 143 et 2 forts; en C21 c'est un faible, vha1, avec un %flex de 195 et 3 forts.
        + corrélation sup-%flex pour les clades et les classes. Cette corrélation que j'avais trouvé entre les génomes se manifeste ici entre clades ou classes. Dans les classes la corrélation est forte, d'un coefficient de 0.797 avec 10 points, entre le m du tableau 11 et de celui du 14. La corrélation est beaucoup moins forte pour les clades avec 0.651 et seulement 6 points entre le m du tableau 12 et celui du 24. Pour les génomes sans moyenne, 2ème partie des tableaux, je retrouve cette corrélation avec les extrêmes npu abra afn, respectivement pour les rebonds puis les %flex, 349 34 13 et 530 143 69.
        + L'homogénéité des clades est due au choix du polynome de d°3 et peu du choix du xm imposé par le rebond des diagrammes en fréquences 10 (freq10). Mais il est aussi, fort possible, que cela soit à cause de mes recherches des génomes pour diverses caractéristiques des clusters.
      • L'hétérogénéité des clades avec %1
        + Les classes: 8 classes sont homogènes, m/e>3.8, mais leurs effectifs sont très faibles et leurss moyennes élevées. Seulement 2 classes ont 6 génomes chacune et 4 classes ont moins de 5. Par contre les 4 classes hétérogènes, m/e<2.7, ont des effectifs élevés et des moyennes faibles. Seule la classe C61 a 4 génomes, les autres ont plus, C41 5 C11 6 et C42 12, avec ce dernier, un m/e de 2.5. Donc la tendance des classes est plutôt vers l'hétérogénéité pour la région %1 au contraire de la région %flex qui totalise 9 classes sur 11 avec un m/e>6.3 et un effectif de 75% des génomes.
        + Les clades: c'est clair que le %1 est propre à chaque clade. Quand les effectifs sont conséquents, plus de 7 génomes pour bacilli clostridia gamma et 11 pour les alpha, les clades sont très homogènes avec un m/e de 5.3 à 7,9 et 9.4 pour les alpha (11génomes). Les 4 clades à faible effectif, archeo actino avec 4, et bacteridites cyanobactéries avec 2, ont un rapport m/e très faible.
      • L'hétérogénéité des clades avec %rest: Pour un génome individuel le %rest est le complément à 1000 de la somme %1 plus %flex. Ceci est toujours valable pour la moyenne mais pas pour l'écartype et le rapport m/e. Ce dernier reflète l'une des 2 colonnes %1 et %flex,
        + Les classes: les 5 1ères classes de %rest reflètent celles de %flex alors que les 5 dernières reflètent plutôt celles de %1.
        + Les clades: L'homogénéité inter clades de %flex se reflète dans celle des %rest avec des m/e plus faibles et plus variables. Une seule exception celle des archeo avec un m/e très elevé chez les %flex, 2 fois plus élevé que les 5 autres clades, 10 contre 5 en moyenne.
    • Classement des diagrammes par les 4 régions: 1-xm (%1), xm-flexa (%flex), flexa-200 (f200) et flexa-reste (%rest). Voir le tableau des 4 régions.
      - Le tri des génomes: après avoir réuni les génomes qui se ressemblent le plus entre eux pour les 5 colonnes du tableau, sup (rebond) %1 %flex %rest f200, j'affecte un n° de séquence pour chaque génome dans la colonne tri et je ne nome le groupe par la lettre G suivi du 1er n° de la séquence. Il m'a fallu au moins 3 passages de réunification pour aboutir au résultat affiché.
      - Les groupes: j'ai constitué 14 groupes différents dont 8 de plus de 2 génomes chacun affichés avec leur statistique (m e m/e) et 6 doublets sans leurs moyennes. Les groupes avec moyenne sont ordonnés par la colonne sup du plus grand au plus petit. Les 6 doublets sont ordonnés par leur nom de groupe, du plus petit au plus grand.
      - Visualisation des caractéristiques des 8 groupes à moyenne:
      • Repérage avec sup et f200: Apparaît un super groupe en réunissant 5, G9 G22 G30 G41 G47, tous ayant un rebond (sup) autour de 100‰ et un f200 supérieur à 31% sauf pour G41 qui est incertain avec 12%. Les 3 autres ont des rebonds différents entre eux et du 100‰ du super groupe, G38 avec 285‰ G15 52‰ et G44 26‰, et un f200 plutot faible, G38 4% incertain, G15 36% et G44 24% .
      • Repérage avec %1 %flex %rest: J'ai commencé par différencier les 5 groupes du super groupe, en repérant les extrêmes uniques par génome { G47 avec un maximum de 421 (%1), G30 avec minimum de 287 (%1) et G9 avec un maximum de 497 (%rest)}, puis en comparant G41 avec ses 2 colonnes %flex et %rest (402 255) à celles de G47 (317 262) et celles de G30 (375 338) {402 est supérieur à 317 et 255 inférieur à 338} et enfin G22 a les 3 colonnes sans un extrême net (351 293 357). Pour les 3 autres groupes et sans considération de sup et f200, G44 est identique à G41, G28 a le minimum %flex des des 8 groupes à moyenne, et G38 ressemble à G22 mais avec un %flex nettement supérieur, équivalent à un maximum, 393‰ contre 293‰ et ressemble aussi à G41 pour cette colonne mais diffère pour les 2 autres colonnes, G38 (293 393 347) G41 (343 402 255).
      - Visualisation des 6 doublets en divisant par 2 leurs sommes:
      • 2 doublets ont des minima pour les 14 groupes, G1 en %flex (107‰) et G5 en %1 (94‰). Les 4 autres doublets sont repérés par une colonne extrême puis par une 2ème colonne secondaire en gras comparée à la colonne d'un groupe à moyennes ayant le même extrême:
      • G3 maximum f200 avec 50%, à comparer avec G47 et G22 %1, 200‰ contre 421‰ et 351‰, et avec G30 %rest, 520‰ contre 338‰.
      • G7 minima f200 avec 1.5%, à comparer avec G38 sup, 20‰ contre 285‰.
      • G13 f200 à 12%, à comparer avec G41 %rest, 420‰ contre 255‰.
      • G57 maximum sup avec 158‰, à comparer avec G38 %1, 525‰ contre 293‰.
      - Comparaison des classes sup et des groupes des 4 régions: c'est la colonne classe dans le tableau des régions. Dans chaque groupe des 4 régions les classes de sup sont identiques ou proches entre elles avec lexception de G30 avec blo, G41 avec psor et les doublets G3 et G5.
    • L'étendue des plages et le taux des 4 régions varient beaucoup d'un génome à l'autre.
    - Classement des diagrammes par la forme des polynômes de d°12, poly12 (ajouter R2).
Intergen51. Classement des courbes CDS-CDS positifs continus fc200[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc200. Contient les équations des courbes de tendance en polynôme de d° 3.
  • Diagrammes fc400 par forme: E1  E2  M1  M2  M3  M41  P.
  • Légende: Tous les diagrammes, ici, ont leurs ordonnées en pour 1000, ‰, par rapport au total du génome en intercalaires positifs continus et les abscisses en fréquence unitaire, freq1.
    - Lien aux données des intercalaires 200
    - Minima: xm ym, abscisse et ordonnée du point le plus bas avant le rebond dans le diagramme CDS-CDS aux fréquences par 10, freq10. Ce rebond se fait en général à l'abscisse 50 mais chez certains génomes, il peut commencer avant comme illustré dans la colonne fcp du tableau de comparaison c/x. Les diagrammes de ces génomes sont représentés ici dans les images fcp1  fcp2.
    - maxima: soma somo, abscisse et ordonnée du sommet de la courbe de tendance du rebond (polynôme de d°3, freq1) s'il existe ( - pour son absence en jaune)
    - point d'inflexion: flexa flexo, abscisse et ordonnée du point d'inflexion de la courbe de tendance du rebond (polynôme de d°3, freq1) s'il existe.
    - Calculs du dépassement des points d'inflexion flexo: yf-, sup. La somme des différences entre flexo et les ordonnées des fréquences qui suivent jusqu'au point d'inflexion constitue yf-. Dans le tableur calc, la colonne yf- est copiée sans sa formule et la recherche des signes - permet de supprimer les différences négatives. C'est la colonne sup dont la somme est reportée ici pour chaque génome.
    - tangente au point d'inflexion flexa flexo: a' b' coefficients de la tangente f(x)=a'x+b' (a' est multiplié par -1000).
    - pourcentage des régions de la courbe: %1 %flex %rest, respectivement, sommation des pourcentages de la fréquence 1 à xm, de xm à flexa, et le reste de flexa à 100%. La colonne f200 est la part (exprimée en pour cent) de %rest pour la région de la courbe de xm à 200. La colonne effect indique le total des intercalaires positifs continus du génome; et p1 classement des %1, pr classement de %rest. Le classement des pourcentages apparait quand je trie, dans l'ordre, %1 puis pr puis p1.
    - sup/fx: C'est le taux du dépassement sup par rapport au cumul des pourcentages de xm à flexa, %flex.
    - sofo: différence somo-flexo
    - frm, clas pour forme et classe
    - Les moyennes du bas du tableau: m e m/e exclus genx, moyenne ecartype rapport m/e, les exclus de la moyenne et genx nombre de génomes pour la moyenne. Les exclus: g pour les cellules en gras, t pour aucun exclu, "-" pour les cellules en jaune.
int51.200 Intergen51. Classement des courbes CDS-CDS positifs continus fc200, en abscisses unitaires freq1.
clade gen xm ym soma somo yf- sup a’ b’ flexa flexo %1 %flex %rest f200 p1 pr effect sup/fx sofo frm clas gen tri G
arc2 mfe 48 2,1 - - 12,8 36,57 3,78 2,59 113,9 2,16 216,8 157,6 625,6 25,5 41 11 2011 23,2 P2 C11 mfe a1 1
arc1 mba 48 2,1 - - 28,86 54,39 0,83 1,78 147,2 1,65 203,9 194,2 601,9 13,8 41 11 2379 28,01 1,89 D1 C21 mba a1 2
bac8 ppmp 43 0 79,06 3,84 31,06 102,71 31,14 6,76 123,9 2,91 214,6 269,4 516,0 36,7 41 11 438 38,13 0,93 S2 C51 ppmp a1 3
clo1 cbc 39 4,67 - - 16,64 38,71 4,87 2,91 111,2 2,37 288,6 189,7 521,6 34,1 31 11 2572 20,4 1,4 D2 C11 cbc a2 4
clo2 cbei 44 1,25 - - 26,53 43,37 3,8 2,72 135,7 2,21 251,6 231,7 516,7 25,5 32 11 4010 18,72 S3 C12 cbei a2 5
bac6 pmq 53 2,64 63,48 3,42 30,52 40,2 18,99 4,97 118,0 2,73 311,7 210,6 477,8 38,5 31 11 4540 19,09 1,38 D2 C12 pmq a2 6
act1 ase 24 3,37 17,26 5,37 86,57 92,39 35,03 6,92 98,3 3,48 214,1 347,4 438,5 49,6 41 12 3854 26,59 3,47 A C41 ase b1 7
act3 ksk 21 1,75 70,7 4,3 75,36 101,88 21,94 6,35 138,4 3,31 98,9 466,3 434,8 38,9 42 12 3995 21,85 1,24 S3 C51 ksk b1 8
cya1 npu 22 1,25 68,59 3,5 348,36 349,17 23,45 6,35 227,1 1,02 92,5 531,1 376,3 0 42 21 3999 65,74 A C72 npu c1 9
neg1 afn 37 5,78 - - 7,11 34,28 5,16 3,32 85,9 2,88 410,8 150,9 438,3 55,7 12 12 1385 22,72 0,7 P2 C11 afn b5 10
ter1 abra 44 6,12 - - 13,48 42,03 10,19 4,2 95,6 3,23 449,0 184,7 366,3 65,2 11 21 980 22,76 1,98 S2 C12 abra c4 11
spi1 scc 46 2 41,45 4,05 52,12 80,36 28,61 5,9 111,1 2,73 423,0 232,0 345,0 46,4 11 22 1000 34,64 1,28 A C31 scc d3 12
clo4 cdc 45 1,54 61,47 2,91 45,7 60,63 16,6 4,29 126,0 2,19 373,1 225,6 401,3 30,2 21 12 2589 26,88 P1 C22 cdc b4 13
clo5 cdc8 45 0,73 56,56 2,95 46,38 62,07 15,91 4,23 126,6 2,21 379,2 229,9 390,9 31,0 21 21 2727 27 S2 C22 cdc8 c3 14
clo7 hmo 47 1,61 61,28 3,75 92,37 109,52 20,84 5,66 152,3 2,48 316,0 355,7 328,3 28,7 22 22 1867 30,79 1,27 D2 C52 hmo d2 15
bac1 ban 46 1,22 91,38 3,72 78,96 95,08 28,85 6,94 151,7 2,56 327,5 353,0 319,6 28,7 22 22 3289 26,94 1,6 S1 C42 ban d2 16
ga6 vha1 49 1,54 - - 14,57 42,82 7,67 3,86 107,6 3,04 341,9 196,9 461,2 48,9 22 12 1945 21,75 1,01 A C12 vha1 b3 17
ga9 vpb2 47 2,42 - - 29,09 68,92 3,51 3,08 117,3 2,67 341,8 218,6 439,6 39,8 22 12 828 13,75 1,69 D2 C23 vpb2 b3 18
bac7 ppm 57 1,89 82,77 3,35 23,54 40,18 14,44 4,77 129,2 2,9 327,8 235,2 437,0 41,8 22 12 3176 17,08 P1 C12 ppm b3 19
al4 absp 46 2,29 - - 27,7 75,69 3,22 3,72 113,9 3,35 331,0 258,9 410,1 55,3 22 12 873 29,24 2,55 A C31 absp b3 20
bac4 lbu 41 5,46 - - 25,02 63,28 7,54 3,98 105,1 3,19 357,9 232,2 409,8 56,2 21 12 1098 27,25 1,16 A C22 lbu b4 21
al2 abqp 47 7,6 - - 36,52 79,2 12,68 4,77 113,9 3,33 339,9 262,8 397,4 55,5 22 12 921 30,14 P2 C31 abqp b3 22
clo3 cbn 44 4,51 - - 33,75 60,97 7,47 3,8 123,0 2,88 358,6 264,2 377,2 50,5 21 21 1775 5,45 1,05 A C22 cbn c3 23
clo6 cle 43 1,38 55,81 3,16 40,81 60,86 13,64 4,28 133,0 2,46 369,0 264,8 366,2 38,2 21 21 2900 22,98 0,69 D1 C22 cle c3 24
ga2 eal 43 2,62 11,4 4,29 61,7 77,59 22,4 5,36 119,5 2,68 371,0 270,8 358,3 41,0 21 21 2286 28,65 0,72 D3 C31 eal c3 25
ga5 spl 37 2,42 78,03 3,47 63,68 82,89 23,19 5,75 138,5 2,54 270,4 322,3 407,3 29,5 32 12 2482 25,72 1,2 S2 C31 spl b2 26
arc3 mfi 40 1,29 77,68 3,95 65,33 97,38 27,93 6,64 133,8 2,9 255,7 341,1 403,2 35,8 32 12 1545 28,55 0,99 A C43 mfi b2 27
al8 oan1 39 0,66 78,84 3,59 44,1 77,13 22,01 5,71 131,1 2,82 308,5 306,5 385,0 41,1 31 21 1517 25,16 1,21 S2 C31 oan1 c2 28
ga1 amed 45 1,26 83,04 4,62 74,59 92,21 40,85 8,69 132,7 3,27 267,0 365,7 367,3 42,3 32 21 2382 25,22 0,63 S1 C41 amed c2 29
alp4 rru 35 1,87 50,56 4,31 74,88 97,66 22,69 6,06 130,6 3,09 279,5 375,0 345,5 49,2 31 22 2136 26,04 P1 C43 rru d1 30
al6 agrl 39 0 63,15 4,02 62,31 106,36 31,83 6,63 119,8 2,82 361,5 293,3 345,2 47,4 21 22 1040 36,27 1,22 D2 C51 agrl d2 31
al7 aua 38 3,88 80,26 4,02 89,59 112,77 27,31 6,81 146,3 2,82 271,2 396,6 332,2 34,7 32 22 1803 28,44 1,43 P1 C52 aua d1 32
bct2 fps 25 1,84 54,78 4,36 105,82 129,58 35 7,04 120,6 2,82 289,9 379,6 330,5 41,5 31 22 1628 34,14 0,77 S1 C61 fps d1 33
act2 blo 40 0 79,24 4,15 85,53 145,4 22,49 6,51 156,6 2,99 231,6 438,3 330,1 35,7 32 22 1045 33,17 0,96 A C62 blo d1 34
al5 agrc 45 0,68 94,18 4,17 42,62 85,74 30,36 7,51 141,7 3,21 316,5 357,4 326,1 45,4 22 22 1466 23,99 1,04 A C32 agrc d2 35
ga4 ecoN 37 1,77 56,15 4,2 83,73 95,49 33,98 6,8 117,8 2,8 363,2 313,3 323,5 44,6 21 22 2822 30,48 1,48 D2 C42 ecoN d2 36
bde1 cvi 45 3,73 56,4 4,9 82,6 99,47 39,99 8,02 120,8 3,19 359,5 327,9 312,6 52,4 21 31 2412 30,33 1,09 A C44 cvi e2 37
al3 abs 44 1,91 80,82 4,14 73,46 108,62 24,46 6,62 142,8 3,13 312,7 386,0 301,3 46,1 31 31 1570 28,14 1,27 D3 C52 abs e1 38
al1 abq 36 0,64 71,34 4,14 141,5 172,4 24,57 6,66 165,0 2,60 280,5 464,5 255,0 35,3 31 32 1565 37,11 1,59 D2 C63 abq f1 39
ga3 eco 46 0,91 48,29 4,12 62,59 81,11 26,97 6,05 118,6 2,85 398,4 273,6 328,0 48,0 12 22 2204 29,65 1,35 A C31 eco d3 40
bct1 myr 46 1,76 75,53 3,88 75,23 94,19 39,47 7,55 127,8 2,5 414,4 282,9 302,7 37,2 12 31 2273 33,3 1,61 S2 C42 myr e3 41
al9 oan2 43 1,09 80,27 3,85 65,58 110,89 35,22 7,28 131,9 2,64 403,7 303,1 293,2 42,9 12 31 914 36,59 0,93 S2 C52 oan2 e3 42
bde2 ade 47 3 53,56 4,66 81,56 97,25 34,77 7,32 122,5 3,06 407,7 313,9 278,4 55,2 12 32 2335 30,98 1,14 A C43 ade f2 43
ter2 apal 28 0 63,42 3,84 83,63 127,22 30,39 6,41 126,7 2,56 396,1 339,5 264,4 48,2 12 32 919 37,47 1,71 S1 C61 apal f2 44
clo8 psor 45 1,28 99,55 3,32 79,39 103,12 23,22 6,15 166,7 2,28 378,7 359,6 261,7 23,3 21 32 2350 28,68 D2 C51 psor f1 45
bac3 lam 43 0,8 74,97 4,61 99,8 119 49,77 9,19 125,9 2,92 395,0 345,4 259,6 47,5 12 32 1248 34,46 1,43 S2 C61 lam f2 46
bac5 lmo 42 1,62 89,76 3,92 64,64 91,34 35,6 7,72 140,3 2,72 417,0 334,2 248,8 45,2 12 41 1849 27,33 0,74 D3 C41 lmo g2 47
bac2 bsu 47 1,59 81,09 4,37 85,21 105,35 37,15 8,09 138,8 2,94 404,5 358,7 236,9 53,3 12 41 2512 29,37 1,2 A C51 bsu g2 48
arc4 mja 35 0,94 50,12 4,03 89,85 125,18 28,22 6,18 128,6 2,55 435,0 332,1 232,9 53,0 11 41 1069 37,7 1,83 D1 C61 mja g3 49
alp5 rtb 67 1,98 124,07 3,51 251,15 275,22 42,55 10,07 213,9 0,96 316,8 380,2 303,0 0 22 31 505 72,39 P2 C71 rtb e2 50
alp2 rpl 67 0 119,64 3,61 366,74 370,87 50,98 11,45 221,8 0,14 309,3 385,2 305,5 0 31 31 527 96,28 3,96 S1 C72 rpl e1 51
act4 sma 49 2,82 92,73 3,53 183,35 188,43 2,60 6,83 195,2 1,75 254,5 440,7 304,8 3 32 31 3894 42,76 2,65 D1 C63 sma e1 52
ga7 vha2 41 0,93 67,11 3,74 180,64 208,84 28,19 6,62 172,2 1,76 283,7 413,0 303,3 12,6 31 31 1075 50,56 D2 C71 vha2 e1 53
alp3 rpm 47 1,62 59,00 3,72 176,42 187,19 21,11 5,89 191,0 1,86 335,1 446,1 218,7 7,2 22 41 1847 41,96 2,00 D1 C63 rpm g1 54
ga8 vpb1 49 2,28 88,81 3,09 127,89 155,16 17,61 5,27 194,5 1,85 390,4 397,3 212,3 5,1 12 41 1757 39,06 S2 C62 vpb1 g2 55
alp1 pub 25 3,33 -70,00 8,23 14,84 34,41 50,04 6,71 48,8 4,26 633,9 121,5 244,6 91,8 11 41 601 28,33 2,48 D3 C11 pub g3 56
cya2 pmg 46 2,11 23,17 5,76 80,15 104,74 48,7 8,21 104,7 3,11 535,9 266,9 197,3 61,5 11 41 948 39,24 1,16 S2 C51 pmg g3 57
bde3 ant 44 1,18 62,93 4,39 97,56 115,86 47,88 8,32 120,2 2,56 538,2 294,7 167,1 61,3 11 41 1700 39,31 1,54 D2 C53 ant g3 58
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
clade gen xm ym soma somo yf- sup a’ b’ flexa flexo %1 %flex %rest f200 p1 pr effect sup/fx sofo frm clas gen tri G
m 42,60 2,14 69,33 4,06 85,5 24,5 6,0 126,3 2,7 332,6 315,4 353,2 40,5 1812,8 28,7 1,4
e 8,71 1,31 22,33 0,85 30,1 13,6 1,9 20,7 0,6 63,5 75,1 95,0 11,8 678,2 6,2 0,7
m/e 4,89 1,64 3,10 4,80 2,8 1,8 3,2 6,1 4,7 5,2 4,2 3,7 3,4 2,7 4,6 2,1
exclus t g - - g t t g g g g t g g g -
genx 58 52 45 46 51 58 58 52 57 53 54 58 48 48 53 46
  • Problématique du classement basé sur les polynôme de d° 3
Intergen51. Classement des courbes CDS-CDS positifs continus.Note[modifier | modifier le wikicode]
  • Introduction
    - A la différence des diagrammes c+, fc1 et fc41, dont les abscisses sont des lots de 10 fréquences consécutives (freq10), ici ce sont des fréquences unitaires (freq1). Les ordonnées sont en ‰ du total des intercalaires positifs continus, sauf pour les images des fc40 qui sont en effectif (effect). diagrammes fc200
  • Les diagrammes fc40
    - Lien au tableur: Moyennes par clade et classe.
    - Les diagrammes fc+, en fréquences unitaires, sont apparus dès les 1ères investigations en comparaison des intercalaires négatifs fc- et fx- qui avaient très peu d'effectifs et ne nécessitaient pas de regroupement en lots de 10 fréquences consécutives. Dans les 1ères études j'avais essayé de retrouver des cycles ternaires comme avec les négatifs, mais ce n'était pas systématique. Aussi j'ai gardé ces diagrammes avec des ordonnées en effectifs et des étiquettes modulo 6 (exemple bacilli). Le classement des fc40 est fait dans le tableau correspondant avec des ordonnées en ‰. L'image de la classe X, qui est hétéroclite, est représentée en pourcentage alors que les 2 autres classes se retrouvent dans les images des clades avec des ordonnées en effectif, les pourcentages n'affectant pas l'allure des courbes.
    - Les 4 courbes des clades alpha-c, gamma-c, bacilli-c, clostridia-c, cumuls, respectivement, de 14 9 8 8 génomes. Elles se distinguent par leurs formes qui collent parfaitement à la courbe de tendance en polynôme de d° 12 avec, respectivement, un coefficient de détermination de 0.973 0.908 0.916 0.921. Pour les besoins du classement j'ai divisé ces courbes en 4 régions:
    1. région de l'abscisse 1 à 6, avec une pente forte négative
    2. région de l'abscisse 6 à 12, avec une pente forte positive
    3. région de l'abscisse 12 à 18, avec une pente forte négative pour gamma et alpha et une pente faible pour bacilli et clostridia
    4. région de l'abscisse 18 à 40, avec une pente négative très faible pour alpha et gamma, et faible jusqu'à l'abscisse 24 puis très faible au-delà pour bacilli et clostridia.
    A cette division schématique en 4 régions, les courbes réelles de ces 4 clades ont des frontières qui varient légèrement et ne permettent pas, donc, d'appliquer les mêmes calculs, de pente et de cumuls, pour les 4 clades, et encore moins quand je dois les appliquer aux génomes individuellement. Les frontières réelles sont,
    • alpha minimum à 7, maximum à 12, maximum de la courbe à 12 ( c12 ). Courbe en cloche symétrique avec 18 en bas et possède un épaulement entre le minimum 7 et le maximum 12. Le maximum de la région 1 à 6 ne se trouve pas en 1 mais en 2.
    • gamma min 6, max 9, c10, cloche symétrique avec 18 en bas, sans épaulement entre le minimum 6 et le maximum 9. Le maximum de la région 1 à 6 ne se trouve pas en 1 mais en 2.
    • bacilli min 8, max 12, c14, cloche dissymétrique avec 18 dans un épaulement presque au niveau de c14. Le maximum de la région 1 à 6 se trouve en l'abscisse 1.
    • clostridia min 7, max 12, c13, cloche dissymétrique avec 18 dans un épaulement presque au niveau de c13. Le maximum de la région 1 à 6 se trouve en l'abscisse 1.
    - Calcul approché des pentes des régions: Le calcul des pentes devrait se faire mathématiquement en calculant la tangente passant par les points d'inflexion, avec les dérivées 1ère et seconde de l'équation de la courbe de tendance. Cependant les solutions de ces équations de d°11 et d°10 sont difficiles à calculer. Un calcul numérique approché, en utilisant le tableur, est possible en repérant un point et en calculant ces dérivées de façon itérative pour obtenir un minimum ou un maximum supposé. Et même, dans ce cas, il faudrait relevé à la main une vingtaine de coefficients pour les d°12 et d°11, puisque le tableur de LibreOffice ne permet pas d'obtenir directement ces coefficients à 16 décimales qu'on peut stocker dans une cellule adressable. Aussi j'ai opté pour un calcul simple entre 2 points définissant un segment de droite le plus rapproché de la tangente au point d'inflexion considéré. Chez les 4 clades ci-dessus j'aurais choisi,
    • pour alpha, les abscisses 3-7-12. La pente de la région 1-6 est alors [ordonnée(7)-ordonnée(3)]/(7-3), celle de la région 6-12 [(12)-(7)]/(12-7), celle de 12-18 et celle 18-40 de même et ainsi de suite. J'ai ignoré dans ce calcul l'épaulement entre min7 et max12.
    • pour gamma, les abscisses seraient 2-6-10. Je ne présente pas l'abscisse 18, parce qu'elle sera toujours la même.
    • pour bacilli, j'aurais pris 1-8-11
    • pour clostridia, j'aurais pris 1-7-10
    - Confection du tableau de classement des fc40: En se basant sur ces 3 abscisses, de la colonne maxp, le tableur permet de calculer facilement les autres colonnes avec des fonctions (du tableur) qui peuvent être copiées d'un génome à l'autre en adaptant la zone sélectionnée, par glissement de son rectangle, selon les abscisses de maxp. Le pourcentage des zéros se trouve dans le tableur du classement des fc40 récupérés des données intercalaires de chaque génome. Voir le récapitulatif des calculs à la fin de cette note des fc40.
    - Analyse des colonnes du classement, génome par génome. Les valeurs faibles sont indiquées en bleu et les fortes en gras. En bas du tableau est indiquée la moyenne et l'écart type de chaque colonne ainsi que leur rapport m/e pour une indication de la dispersion et pour colorer les extrêmes en bleu et en gras.
    • Les pourcentages d'après la notation a-b-x utilisée pour la colonne maxp
      1. colonne 0, taux des zéros intercalaires positifs continus
        • Les zéros représentent les opérons standards, aucun intercalaire entre 2 enzymes. Les intercalaires -1 me semblent appartenir aux opérons aussi parce qu'il me semble que j'ai déjà vu des opérons comme ça dans [65] EcoCyc, la traduction dans le ribosome se décale d'une paire de base. Est-ce que c'est le cas pour les intercalaires de 1 à 6? qui diminueraient progressivement, le décalage devenant de plus en plus difficile? Est-ce que les zéros peuvent exister autrement que dans un opéron?
        • Hétérogénéité des zéros: aua n'a pas de zéros et 36 intercalaires de 1 à 8; blo a un seul intercalaire zéro et 60 de 1 à 6. Les autres génomes ont plus de 3 zéros et des intercalaires 1-6 très nombreux. A l'autre extrême il y a 9 génomes sur 51 qui ont plus de 29 zéros dont pub 58, ant 56, cdc et cdc8 38, cle 35, pmg 34, ban 33, mfi et ecoN 29. Les alpha ont une moyenne, en effectif, de 3.4 (sans pub), les gamma 7.4, les bacilli 8.8 et les clostridia 9.8.
        • Le pic des intercalaires 0-3, les zéros sont toujours inférieurs à int1, ce qui fait que 1-3 est un pic, sauf pour pub mfi pmg vha1 ppmp.
        • Les intercalaires int-1 forment un autre pic plus élevé que celui de int1-3.
      2. colonne 6, somme des taux des intercalaires de 1 à b paires de bases
        • Ces intercalaires sont assez homogènes quand je considère la totale, avec m e m/e, 87.8 47.9 1.8, et homogènes, en enlevant les 5 extrêmes (1 bleu et 4 gras), 79.4 26.0 3.1. Cependant, en considérant les clades, l'homogénéité augmente mais je ne retrouve pas les différences nettes qu'avec la colonne des zéros: alpha (sans pub) 80.2 28.0 2.9, bacilli 73.6 24.0 3.1, clostridia 67.5 11.5 5.9, gamma 76.3 10.7 7,1.
        • Les minima présentent des anomalies dans les abscisses de 1 à b. Avec aua l'abscisse 6 (le b de maxp) est un maximum, au lieu d'être un minimum, alors que le taux de la colonne 6 est le plus faible, 19‰. Avec ppmp, 34‰, le pic de la colonne se trouve en l'abscisse 5 et le minimum b en 7. Avec abq, 35‰, le pic est en 3 et le minimum b en 11. Avec npu,43‰, le pic est en 5 mais le minimum b est indéfini tellement que la pente descend régulièrement jusqu'à l'abscisse 14.
        • Les maxima (des pics a (de maxp) et des zéros) présentent des taux très élevés. Avec pub, 351‰, le pic (57) se trouve en 2 et le zéro (58) lui est supérieur; le maximum x (de maxp) est insignifiant et la courbe de tendance ressemble à un polynôme de d°3. Le génome pmg présente une anomalie à la colonne 6: Le taux très élevé de 155‰ est réparti sur 5 pics, 2 3 4 6 et le zéro (34) qui n'est pas présenté sur le diagramme; Le minimum b est à 7; Le polynôme 12 ne correspond pas au sommet en cloche du total mais le diagramme en % à partir de l'abscisse 7 présente un sommet symétrique qui était caché par la prédominance de la colonne 6. Les autres génomes, ant abra fps myr (taux 175‰ 168 168 156) ont des polynômes 12 normaux pour ant (qui a un pic à zéro de 56) et abra, et des polynômes normaux mais escamotés par la prédominance de la colonne 6 pour fps et myr. Les diagrammes de ces derniers, en pourcentage à partir de l'abscisse 7, le montrent bien.
      3. colonne x, somme des taux des intercalaires de b+1 à x-1 paires de bases
        - Cette colonne est difficile à déterminer car mon objectif était de montrer que la pente p6 est raide et donc que les valeurs de cette colonne seraient faibles. Mais certains génomes présentent des pics dans cette région qui font que les valeurs de la colonne peuvent être élevées alors que la pente est forte. C'est le cas de abs absp agrl (valeurs en gras) pour le clade alpha. Ce clade est hétérogène pour cette colonne et présente 3 génomes avec des anomalies qui font que leur valeur faible ne correspond pas à une forte pente. C'est le cas de abq abqp aua (valeurs en bleu). Sinon les clades gamma clostridia et bacilli (sans lbu) sont homogènes avec des moyennes différentes et un rapport m/e élevé, repectivement pour m e m/e, 16.0 6.0 2.7, 22.9 6.4 3.6 et 17.2 7.6 2.3. Il serait peut être intéressant d'additionner les 2 colonnes x et 18 pour comparer la somme à la colonne 6.
      4. colonne 18, somme des taux des intercalaires de x à 18 paires de bases
        • Cette colonne a pour 1er objectif de distinguer entre les sommets en cloche symétriques et disymétriques, et de comparer les 2 colonnes 6 et 18. Les 2 colonnes, 6 18, sont globalement semblables avec, respectivement les moyennes m e m/e, 79.4 26.0 3.1 - 97.8 32.9 3.0, sans les extrêmes, et 87.7 47.9 1.8 - 96.2 39.4 2.4 pour la totale. Et la colonne 18 est homogène.
        • La comparaison de la symétrie doit se faire par clade, ayant observé que les clades gamma et alpha ont un sommet en cloche symétrique et les clades clostria et bacilli ont un sommet dissymétrique. La comparaison des taux dans la colonne 18 montre tout à fait le contraire car ce taux dépend aussi de la hauteur du sommet. Les moyennes par clade le montrent clairement:
          clade   m   e   m/e   gen
          bacilli   102   42   2,5   8
          clostri   98   21   4,7   8
          alpha   76   22   3,5   11
          gamma 124   26   4,7   9
        • les génomes extrêmes:
          sommets dissymétriques: apal 164 lam 148 lmo 147
          sommets symétriques: mja 170 eco 155 ecoN 151 ant 150
          sommets avec une hauteur faible: npu 18 aua 21 abq 24 ksk 36
      5. colonne 42, somme des taux des intercalaires de 19 à 42 paires de bases
        • Le choix de la limite 42: J'ai mentionné, au début du chapitre 'les diagrammes fc40, la tentative de repérer des cycles ternaires comme pour les intercalaires négatifs. Ensuite, pour caractériser les diagrammes fc40 j'avais essayer de diviser ce diagramme par tranche de 6 intercalaires jusqu'à l'abscisse 36. Mais, finalement, j'ai choisi un schéma de partage pour chaque génome avec la colonne maxp plus adaptée à la variabilité des frontières. Cependant pour comparer grossièrement entre tranche, du point de vue du taux ou de la pente, j'ai gardé le partage en tranche de 6. Ainsi la colonne 6 a 6 intercalaires, la colonne 18 6 aussi (grossièrement de 12 à 18), la colonne 42 4 fois 6 et la colonne 162 20 fois 6.
        • Comparaison des taux unitaire par région. J'utilise ici la moyenne, m, de chaque colonne indiquée en bas du tableau. Ainsi les colonnes 0 6 18 42 162 ont les taux unitaires respectifs pour 58 génomes de 9.7 87.7/6 96.2/6 116,6/24 373,3/120 et sans les extrêmes - 79.4/6 97.8/6 115,8/24 373,3/120, soit, 9.7 14.6 16.0 4.9 3.1 et sans extrêmes - 13.2 16.3 4.8 3.1. Pour les pentes des colonnes p6 p18 p42 p162 elles seront proportionnelles à ces taux, voir les paragraphes correspondants ci-dessous.
        • La colonne 42 caractérise bien la moitié droite du sommet en cloche de l'abscisse x pour chaque génome et correspond aux formats constatés de la colonne forme qui distingue les sommets symétriques des dissymétriques. C'est ce que ne fait pas la colonne 18 comme je l'ai indiqué ci-dessus. Par ailleurs la colonne 42 est très homogène pour 55 génomes (sans les extrêmes), m e m/e: 115.8 23.7 4.9. Voici les moyennes par clade à comparer avec celles de la colonne 18.
          clade  m  e  m/e  gen
          bacilli  130  14  9,4  8
          clostri  140  21  6,5  8
          alpha  113  26  4,3  11
          gamma  109  15  7,1  9
        • de même les maxima par clade montrent cette différence entre symétriques et dissymétriques:
          sommets dissymétriques: bacilli 5/8 entre 134 et 147, clostridia 6/8 entre 131 et 159.
          sommets symétriques: abqp 153 absp 139 oan2 135 mja 176, les gamma 9/9 inférieurs à 126, de même pour les autres alpha symétriques.
          sommets avec une hauteur faible: npu 83 aua 48 abq 66 ksk 93.
      6. colonne 162, somme des taux des intercalaires de 43 à 162 paires de bases
        - Avant de faire les diagrammes fc200 j'ai essayé de retrouver des pics aussi prononcés, en effectifs, que ceux de la plage 1-40, sur la plage double 6-96, toujours avec des fréquences ternaires dans l'esprit. Ainsi sont apparus des bosses plus ou moins plates avec des minima presque ternaires pour les clostridia, 45 63 76 96, les bacilli, 46 57 68 94 et les gamma, 37 53 67 95. Sans faire de diagramme et en alignant les génomes de chaque clade, les minima apparaissent à plus ou moins un intercalaire en abscisse. Avec le diagramme du clade apparaît en plus un épaulement entre les abscisses 18 et 45. Pour aller plus loin j'ai étudié les diagrammes 37-162 pour tous les génomes. Les bosses continuent à apparaître mais les génomes diffèrent surtout par l'épaulement entre 37 et 45, et une pente abrupte, d'abscisse variable en fin de diagramme, qui signale le point d'inflexion des courbes en fréquences 10 (freq10). Ainsi pub a épuisé tous ses intercalaires en dessous de l'abscisse 42 (96% en colonne t162) et n'a plus que 24% entre 43 et 162 et se terminera rapidement. Le génome pmg serait dans la même situation, 38% (90%). Les génomes longs dont le reste après l'abscisse 162 dépasse les 40% se termineront certainement après 200. C'est le cas de mba mfe aua cbei npu avec respectivement 42 47 51 54 54% avant l'abscisse 162. Aussi j'ai du adopter la même stratégie que pour les abscisses maxp, c'est à dire adapter le début des courbes fc200 pour chaque génome et limiter le diagramme à l'abscisse 200. Le point d'inflexion correspondant apparaît nettement sur le diagramme.
        - Cette colonne est très homogène avec un m/e de 7.4.
      7. colonne t162, somme des taux des intercalaires de 0 à 162 paires de bases: Elle est très homogène avec un m/e de 6.9 comme la colonne 162. Elle est intéressante par son complément à 100% qui renseigne sur le point d'inflexion des diagrammes fc+% avant l'abscisse 200 comme je l'ai montré pour la colonne 162. Ainsi il y a 6 génomes très longs dépassant les 40% après l'abscisse 162, mba mfe aua cbei npu abq. De même il y a 4 génomes très courts avec moins de 15% après l'abscisse 162, pub (4%) ant (10) pmg (10) mja (15).
    • Les pentes, d'après la notation a-b-x utilisée pour la colonne maxp.
      - Pentes, p6 x 18 42 162: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43), 42-162. Le calcul de p6 suis le maxp. Pour p162 il y a beaucoup de pentes nulles car la pente est calculée entre 2 points qui peuvent être égaux. Les pentes p42 et p162 sont multipliées par -1000.
      - Les moyennes de ces 5 colonnes sont homogènes sans les extrêmes (bleu rouge gras), comme en bas du tableau. Les (moyenne m/e et nombre de génomes) respectifs sont: (-3,1 -2,4 47) (3,5 2,2 50) (-1,1 -2,2 41) (254,7 2,7 39) (13,5 1.8 38). Et pour 58 génomes l'homogénéité est divisée par 2, (moyenne m/e), (-3,5 -1,3) (4,0 1,4) (-1,0 -1,5) (228,8 1,1) (10,3 0,7). Les moyennes par clade sont en bas de la note et sont utilisés pour les commentaires qui suivent.
      1. colonne p6, pente a-b , entre les abscisses a et b colonne p6, pente a-b , entre les abscisses a et b
        - Parmi les 6 clades, 5 ont une moyenne comprise entre 2.8 et 3.6 et actino est largement inférieure avec 1.5. Pour l'homogénéité, 3 sont très homogènes avec un m/e supérieur à 3.1, actino clostridia gamma; 3 sont très hétérogènes, spécialement les bacilli avec 1.5 et les alpha avec 10 (sans abq abqp aua pub) génomes sur 14 pour le calcul du m/e qui est de 2.3. Le clade archéo est faiblement homogène avec à peine 2.0.
      2. colonne px, pente b-x entre les abscisses b et x
        - Pour la moyenne, j'ai la même configuration que la colonne p6. Une moyenne haute, entre 2.7 et 5.0, pour les mêmes 5 clades et actino avec une moyenne aussi faible de 1.8. Par contre, pour l'homogénéité, seul bacilli change complètement en passant de 1.5 à 2.9 et devient très homogène. Les 3 très homogènes de p6 ont entre 3.1 et 3.7. Alpha reste faiblement homogène à cause des 4 génomes écartés du calcul (sans abq abqp aua pub) comme pour p6, et archéo chute drastiquement à 1.0 contre 2.0 en p6.
      3. colonne p18, pente x-18 entre les abscisses x et 18
        - Pour la symétrie, constatée chez les 4 clades principaux alpha gamma clostridia bacilli, cette colonne concorde bien avec elle. Pour la symétrie de alpha et gamma les 2 pentes, à droite du sommet, doivent être plus fortes que pour bacilli et clostridia qui sont dissymétriques. Les moyennes sont respectivement 1.3 1.2 0.8 0.5 et les clostridia sont plus dissymétriques comme je l'ai constaté. Malgré la faiblesse des moyennes l'homogénéité reste élevée pour alpha (sans abq abqp aua pub) bacilli gamma, entre 1.9 et 2.6, mais elle est très faible pour les clostridia avec 1.4. Les 2 clades restant sont plus proches de la dissymétrie, 0.9 pour les actino et 0.6 pour les archéo. Cependant actino se démarque encore des archéo par leur homogénéité, 1.9 contre 1.2.
      4. colonne p42, pente 18-42 entre les abscisses 18 et 42 (multipliée par -1000)
        - Pour les 4 clades principaux la symétrie est respectée, alpha 200 (sans abq abs aua rru), gamma 239, pour les symétriques qui ont épuisé p18, et bacilli 350 clostridia 336 qui ont encore des intercalaires en nombre dans p18.
      5. colonne p162, pente 42-162 entre les abscisses 42 et 162 (multipliée par -1000)
        - Cette colonne montre la faiblesse des pentes entre 42 et 162 à comparer avec les pentes des diagrammes fc200 pour cette même plage, pentes comprises entre -11 et -23 (après division par 1000).( alpha sans abq oan2 rpl rtb).
    • Les extrêmes, x pour maximum et n pour minimum et notation a-b-x.
      - C'est intéressant pour repérer des pics au-delà de l'abscisse 42, plage que j'étudie au chapitre des fc200, mais aussi pour relativiser ces colonnes entre elles.
      1. colonne x6, maximum de la plage des ordonnées de l'abscisse 1 à l'abscisse b
        - Sans ses valeurs extrêmes, cette colonne est très homogène avec un m/e de 3.1. Et sa moyenne est la plus élevée des 4 colonnes des extrêmes, 20.8, mais elle est comparable à la moyenne de l'extrême x18, 18.6, ce qui justifie l'importance de la plage 0-6 comme je l'ai mentionnée dans l'étude de la colonne 0 des zéros. Les exclus sont npu aua abq pour les bleus et pub ant abra apal pour les gras. Je retrouve les extrêmes de la colonne 6 sauf pour fps qui est remplacé par apal. Ce dernier n'est pas très loin de abra dans la colonne 6, 123 contre 168.
      2. colonne n6, minimum de la plage des ordonnées de l'abscisse 1 à l'abscisse b
        - Cette colonne est très intéressante en comparaison avec la colonne x162. Ses minima dépassent souvent les maxima de la colonne x162: la plus grande différence est avec pub, 10‰; elle est entre 2.5 et 0.3 pour fps myr pmg ant ase; nulle pour sma eal oan1; et elle est négative au-delà de 2‰ sauf pour ecoN spl rpm ade qui vont de -0.4 à -1.3.
      3. colonne x18, maximum de la plage des ordonnées de l'abscisse x à l'abscisse 18
        - Cette colonne est semblable à la colonne 6. Sur 8 clostridia 6 sont plus grands sans cbn et hmo. Les autres sont pmq ppm, rpm spl, mba mfe sma. La colonne x18 est très homogène sans les bleus et les gras (aua npu ant) avec un m/e de 2.7.
      4. colonne x42, maximum de la plage des ordonnées de l'abscisse x19 à l'abscisse 42
        - A la suite du tableau du classement des fc40, j'ai ajouté un paragraphe pour les différences x42-x162.
        - Ces différences montrent clairement la dissymétrie de la classe D et la symétrie de la classe S1. Les classes S2 et S3 semblent être dissymétriques comme la classe D, mais ça s'explique par leurs sommets très élevés tout en étant symétriques. La classe X présente les 2 possibilités.
        - Moyenne des D, avec gen m e m/e: 18 4.5 2.1 2.2, homogènes avec un seul négatif, lam -0.8, sur 20 génomes D.
        - Moyenne des S1, 11 -0.1 3.6 -0.03, avec 6 négatifs un 0 et 4 positifs. La plage s'étale en continu sur S1 et S2; très hétérogènes avec 2 valeurs élevées des négatifs comme des positifs, abra +5.1 vha1 -8.7.
        - Moyenne des S2-S3, 13 3.0 2.1 1.4, en continu de S23 à S38 à l'exception de l'intrus S35, mja avec -6.5. Tous positifs;
        - Moyenne des X, 13 -0.4 2.6 -0.2, en continu. Les positifs sont 5, les négatifs 6 et un zéro. L'hétérogénéité des X se manifeste par des valeurs élevées en positifs comme en négatifs, pmg +4.2 pub -5.0.
      5. colonne x162, maximum de la plage des ordonnées de l'abscisse 43 à l'abscisse 162
        - Le résultat le plus important est la valeur la moyenne de 8.0‰ que je retrouve dans les diagrammes des X en ‰ sur la plage 7-40 au lieu des valeurs normales que j'ai trouvé dans la colonne x18, de 18.6‰.
        - La colonne est très homogène avec un m/e de 3.3.
    - Le classement par la pente px, la forme du diagramme et la profondeur de la vallée px-p6. Moyennes par clade et classe.
    1. La forme du diagramme, form. Je considère ici la forme du polynôme de d° 12 qui doit épouser la forme de celui du total avec un minimum autour de l'abscisse 6 et 2 maxima autour de 3 et de 12 suivi d'une pente plus ou moins abrupte, p18. C'est le zigzag que j'ai mentionné dans la légende V\.
      • Symétrie
        - Ce sont les diagrammes des 9 génomes gamma qui montrent la symétrie du pic, avec les 2 pentes px et p18 symétriques par rapport au pic. Au point de vue numérique 7 gamma, sans vha2 et vbp2, sont très homogènes pour px et p18, avec m e m/e de 5.0 1.3 3.7; -1.2 0.5 -2.2. Mais les 2 intrus, vha2 et vbp2, ont un diagramme bien formé avec des pentes px élevées à cause des effectifs faibles de 289 et 260.
        - Les diagrammes des alpha forment 2 groupes dont un avec des pics symétriques et l'autre avec des polynômes difformes. Le 1er groupe comprend 2 diagrammes qui ressemblent fortement aux gamma, agrc et oan2, avec un pic élevé et symétrique; 4 diagrammes qui ressemblent aux derniers avec seulement des sommets plus ou moins faibles, agrl oan1 rru rpm; 3 diagrammes qui ressemblent aux gamma par le polynôme mais dont la pente px est en dents de scie, abs et absp, ou bien dont la pente p6 n'est pas nette, abqp. Il reste 5 diagrammes difformes pour le 2ème groupe, abq rpl rtb aua pub.
      • Dissymétrie: Les clostridia et les bacilli montrent la dissymétrie avec une pente px aussi que celle des gamma mais dont la pente p18 est faible.
        - Les clostridia sont très homogènes pour px, avec m e m/e de 2.7 0.8 3.5; mais peu homogène pour p18 -0.5 0.4 -1.4.
        - Les bacilli sont très homogènes pour px et p18, avec m e m/e de 4.7 1.6 2.9 et -0.8 0.3 -2.6.
        - En tant que moyenne la pente p18 ne paraît pas la symétrique de px -1.2 contre 5.0, mais comparé aux clostridia et aux bacille elle est très élevée -0.5 et -0.8 contre -1.2.
      • Les diagrammes difformes par rapport au polynôme de d°12 de la totale.
        - Un taux faible, du même ordre que le reste, de la plage 1 à 40 pbs, moins de 7‰, alors que les autres génomes ont plus de 10‰ aux abscisses de 1-3 et 9-12. C’est le cas de ksk sma mba mfe npu pmg myr fps. Le cas des alpha, abq est à 7‰ alors que abqp abs absp sont à plus de 15‰.
        - Le minimum b (maxp) devient quelque fois un maximum supérieur à x: cas de aua 6 est égal 19 et supérieur à 9 et 12.
        - Au-delà de l'abscisse 12 il peut y avoir plusieurs maxima le dépassant: abq max à 16 21;
        - Les pentes p6 et px peuvent être en dents de scie: abs absp abqp.
        - La courbe de tendance est complètement différente du zigzag de la courbe totale jusqu'à épouser une forme hyperbolique comme pub. Les autres génomes de ce genre sont abq rpl rtb aua blo.
        - Certains X1 peuvent être considérés comme normaux parce que leur pic est écrasé par la valeur très élevée du a (maxp). Et sous forme de pourcentage le pic est symétrique, a une abscisse normale mais une ordonnée élevée, myr fps pmg respectivement (12 20‰) (10 19‰) (9 28‰). Et les pentes en dents de scie abs et absp ont un polynôme tout à fait symétrique et de hauteur élevée. Par contre j'ai mis mba (8‰) et mfe(7‰) dans les dissymétriques alors qu'ils ont des sommets très faibles, en pourcentage, comme sma (9‰) et ksk (7‰). C'est la frontière entre le normal et l'anormal de la courbe en cloche du polynôme de d°12.
    2. Le choix de la pente px pour le classement
      • La pente px fait partie de la forme du pic à l'abscisse 12, révélé par le polynôme de la courbe de tendance. C'est la 1ère partie de la symétrie. Donc c'est naturel de baser le classement sur cette pente d'autant plus qu'elle est aussi le versant de la vallée définie par les pentes px et p6.
        - Avantage du classement avec px sur le classement avec p6: Le choix de la forme étant le critère principal de classement, le regroupement des anomalies par px devient un avantage. Ainsi le tri sur px regroupe, sur les 13 valeurs les plus faibles, 9 diagrammes de formes X dont 8 X2, c'est à dire ayant une forte anomalie, npu aua abq pub rpl rtb sma ksk. Par contre p6 ne regroupe que 6 dont 5 X2, npu aua abq sma ksk.
    3. La profondeur de la vallée, px-p6: Ce paramètre ne peut pas servir d'ordre de classement puisque une même valeur peut correspondre à un pic de l'abscisse 12 plus ou moins faible et même disparaître. Exemple de pub ksk myr. Cette colonne permet d’apprécier le zigzag des génomes tiers comme scc pmg abra ant.
    - Synthèse de la note sur fc40
    • 2 sommets très élevés autour de a et x, supérieurs à 15‰.
    • Les zéros font partie du sommet a, mais pas les négatifs c-1 qui appartiennent à un autre processus puisque leurs effectifs sont 10 fois plus élevés que 0 ou 1.
    • Certains génomes n'ont pas ces 2 pics et en pourcentage les abscisses de 1 à 40 peuvent être inférieurs (7‰) à certains de ceux des abscisses 40-200
    • D'après le classement que j'ai effectuer, il faut retenir surtout que certains génomes n'ont pas de sommets dans la plage 0-40. C'est le cas de abq npu aua ksk sma (somme 0 6 x 18) et peu être mba mfe (suivant lee total élevé des fc+).
    - Calculs des colonnes du tableau des fc40
maxp	a-b-x indique les abscisses utilisées pour la somme des taux ou la pente entre 2 abscisses, exemple 2-6-9, a pour la 1ère, en général de 1 à 3, b pour le minimum et x pour le maximum.
Région %		
0		taux des zéros continus positifs
6		somme de 1 à b	
x		somme de b+1 à x-1	
18		somme de x à 18	
42		Idem 19-42	
162		Idem 43-162	
t162	total des 6 régions	
pentes		
p6		a-b	
px		b-x	
p18		x-18	
P42		18-42 (multipliée par -1000)	
P162		42-162 (multipliée par -1000)	
maxima		
x6		1 – b	
n6		b	minima
x12		x - 18	
x18		19 - 42	
x162		43 – 162	
profondeur de la vallée à l'abscisse b
px-p6	somme des 2 pentes	
colonnes 	A 	B
-	fréquences	génome
-	abscisse	ordonnée
-	. . . .  	. . . .  
  • - Moyennes des pentes p6 px p18 p42 p162 par clade
-	-	p6	px	p18	p42	p162
m	actino	-1,5	1,8	-0,9	-36	-20
e		0,5	0,6	0,5	-	-
m/e		-3,3	3,1	-1,9	-	-
gen		4	4	4	2	2
m	alpha 	-2,8	3,2	-1,3	-200,0	-15,0
e		1,2	1,6	0,7	180,3	8,8
m/e		-2,3	2,0	-1,9	-1,1	-1,7
gen		10	10	10	10	10
						
-	-	p6	px	p18	p42	p162
m	archeo	-3,2	3,5	-0,6	-201,9	-23,1
e		1,6	3,5	0,5	104,0	17,8
m/e		-2,0	1,0	-1,2	-1,9	-1,3
gen		4	4	4	3	4
m	bacilli	-2,8	4,7	-0,8	-356,0	-15,3
e		1,9	1,6	0,3	273,3	10,9
m/e		-1,5	2,9	-2,6	-1,3	-1,4
gen		8	8	7	8	6
						
-	-	p6	px	p18	p42	p162
m	clostri	-3,1	2,7	-0,5	-336,2	-11,6
e		1,0	0,8	0,4	89,6	9,2
m/e		-3,1	3,5	-1,4	-3,8	-1,3
gen		8	8	7	8	7
m	gamma 	-3,6	5,0	-1,2	-238,9	-20,6
e		1,0	1,3	0,5	139,9	9,1
m/e		-3,5	3,7	-2,2	-1,7	-2,3
gen		9	7	7	9	6

  • Les diagrammes fc200
    - Les diagrammes fc+ (freq10) présentent un minimum local autour de l'abscisse 50 suivi d'un rebond puis d'une inflexion aux alentours de l'abscisse 200 (images  fcp1fcp2). L'objectif de l'étude des diagrammes fc200, en fréquences unitaires (freq1), est de caractériser ce rebond pour déterminer les pics de fréquences susceptibles d'avoir des rôles de contrôle des CDS adjacents à ces intercalaires, comme les pics identifiés en 1er dans les diagrammes fc40 autour des fréquences 1 et 12 .
    - Lien au tableau
    - Le rebond: j'ai détaillé les paramètres du tableau et notamment le calcul de sup dans cette image.
    • Après avoir repéré (xm,ym) dans les colonnes des données en fréquences unitaires (en s'aidant du diagramme en lots de fréquence de 10), j'utilise un tableau de calc contenant les formules mathématiques pour calculer les coordonnées du sommet (soma, somo) qui nécessite la dérivée 1ère, du point d'inflexion (flexa, flexo) qui nécessite la dérivée seconde, et l'ordonnée yc en xm sur la courbe de tendance du polynôme de d°3, poly3. En entrée de ce tableau je donne les 4 coefficients du polynôme et xm. J'ai calculé aussi, dans ce tableau de formules, les coefficients (a’, b') de la droite tangente au point d'inflexion.
    • Une fois obtenu flexa et flexo je calcule, pour chaque abscisse, de xm à flexa, la différence y-flexo. La somme des y-flexo donne yf-. La sauvegarde numérique de la colonne des y-yf sans les valeurs négatives (recherche du signe moins (-) pour effacer leurs cellules) donne la somme sup.
    - Classement des diagrammes
    • par le sommet du polynôme 3, somo.
      - L'ordonnée du sommet, somo, n'est pas très informative parce que sa moyenne de 4.0 varie peu avec un m/e de 4.7 pour 46 génomes. Les 12 génomes restants n'ont pas de sommet. Je reprendrai ces 12 génomes avec la pente au point d'inflexion.
      - Le classement par le sommet n'a de sens que relativement au rebond qui est défini par la différence somo-flexo, colonne sofo. Et cette différence est très peu informative aussi, puisque sur les 46 génomes de la moyenne, 40 (87%) ont entre 0.63 et 1.98 avec une moyenne, m e m/e, de "1.24 0.35 3.55". Et cela s'aggrave quand je considère seulement 34 (74%) des génomes entre 0.63-1.61, avec "1.14 0.27 4.23", ou bien 28 (61%) des génomes entre 0.93-1.61, avec "1.23 0.20 6.31".
    • par le rebond sup:
      - Comparaison avec les diagrammes fc40 qui sont nets pour oan2 ban psor ou bien aussi déchiquetés ( en dents de scie ) que les fc200 comme blo ou bien quasiment sans pics comme aua npu. Les fc200 sont systématiquement en dents de scie mais présentent régulièrement des ondulations, chacune s'étendant sur une dizaine de fréquences comme les fc40 nets.
      - Calcul du rebond
      • Une façon de calculer le rebond, qui tient compte de toutes ces dents (qui seraient chacune un pic de contrôle) et s'étend sur une plage 3 fois plus grande que la plage des fc40, soit 120 fréquences, est de sommer toutes les portions de pics qui dépassent l'ordonnée du point d'inflexion, flexo. Voir l'image de sa construction sous le nom de sup.
      • Le point d'inflexion est le mieux approprié pour ce calcul parce que, en faisant partie de la courbe, celle-ci résume l'ensemble des points considérés alors que prendre ym, le minimum local, ne représente que lui-même. Une ordonnée d'un autre point de la courbe qui me paraissait intéressant est celle correspondant à l'abscisse xm. Or, pour une courbe à coefficient du monome x3 négatif, cette ordonnée, yc sur l'image, peut être très grande et dépasser tous les autres points du diagramme, ce qui rend nulle la somme sup.
      • J'ai opté pour l'utilisation du point d'inflexion parce qu'il permet d'inclure les courbes à coefficient négatif de x3, mais j'ai eu 9 courbes anormales (pour 8 génomes) parce que le choix de l'abscisse du minimun local, xm, n'était pas le bon. J'ai mis en sauvegarde, dans le tableur, ces courbes avec le 1er choix du xm, l'équation de la courbe et les valeurs du point d'inflexion et de sa tangente. La majorité, 7 sur 9, présente un flexa en dehors de la plage xm-200. Les 2 restants ont une pente de la tangente positive (signe - dans la sauvegarde), rtb afn. Plus génant encore la référence du rebond, flexo, est négative pour 4 génomes, sma rpl vha1 abra. Outre afn et rtb, abra et pub (xm 47) ont une pente positive.
      • Trois génomes, rtb rpl npu, présentent quand même, avec le point d'inflexion, des valeurs de flexa inférieures à 227, légèrement en dehors de la plage xm-200. Mais ils ont un flexo positif et une pente de la tangente négative (positive dans le tableau).
      • Trois génomes, rtb rpl pub, présentent un xm élevé pour avoir une courbe correcte pour le point d'inflexion, respectivement 67 67 52. Ceci est du au total très faible de leurs intercalaires (les plus faibles du tableau), respectivement 505 527 601. Pour rpl et rtb le nombre de minima locaux est grand et peut s'étendre sur 2 à 3 lots de fréquences 10 (freq10), de l'abscisse 50 à 70. Pour ces 2 génomes le xm convenable se trouve dans l'abscisse 70 en frq10 et en 67 en frq1. Le génome pub est très particulier, avec un pic fc40 inexistant ne permettant pas de définir un minimum local en fréquences freq10. Pour lui j'ai commencé avec un xm de 46 qui est le minimum local du diagramme des 51 génomes (lien) puis j'ai essayé 52 qui dépasse de peu l'abscisse 50 en freq10 et qui s'étend de 41 à 50 en fréquences unitaires frq1.
      • Le génome afn est présenté dans le tableau avec un xm de 50 et présente le plus faible des rebonds, sup égale 13.0. Avec un xm de 44 son sup est encore plus faible, 4.7, et devient anormal (voir les diagrammes anormaux dans le tableur).
      - Classement des fc200 avec le paramètre sup en tri croissant, colonne clas.
      • J'ai défini 3 groupes de classes basés sur leur très grand rapport m/e. Ce sont
        1. Le 1er groupe réuni les classe C1 C2. La classe C1 a un sup compris entre 13 et 34, avec un m/e de 3.6 (24.2,6.7,3.6) et 9 génomes. La classe C2 a un sup compris entre 40 et 76, avec un m/e de 4.3 (55.4,12.8,4.3) et 10 génomes. La frontière entre C1 et C2 est due à un saut de 6 points du rebond (sup) entre abra (33.8) et ppm (40.2). Le 1er groupe diffère du 2ème groupe surtout par le grand nombre de génomes sans sommet du 1er, 13 sur 19 et non par le saut du rebond entre eux, entre absp (75.7) et oan1 (77.1) qui est à peine de 1 point.
        2. Le 2ème groupe réunit les classes C3 C4 C5. La classe C3 avec 6 génomes a un rebond entre 77 et 86, la classe C5 avec 5 génomes a un rebond entre 116 et 130. Ces 2 classes très homogènes bordent la classe C4 très homogène avec un m/e de 15.5 (100.3,6.5,15.5) et 21 génomes. La frontière entre C3 et C4 est due à un saut de 5 points du rebond (sup) entre agrc (85.7) et lmo (91.3). La frontière entre C4 et C5 est due à un saut de 5 points du rebond (sup) entre oan2 (110.9) et ant (115.9).
        3. Le 3ème groupe est constitué de la classe C6 qui contient 7 génomes extrêmes avec un rebond entre 145 et 371, très hétérogène. La frontière entre C5 et C6 est due à un saut de 16 points du rebond (sup) entre fps (129.6) et blo (145.4). Ce groupe contient le génome pub sans sommet.
    • par la pente a', du point d'inflexion du polynôme 3. Voir tableau des moyennes
      - Tri croissant sur la colonne clas: Pour obtenir les classes en ordre croissant avec un tri croissant de la pente a', je trie d'abord la colonne a' et ensuite clas.
      - Les ruptures sont nettes entre sous-classes: 3 points entre C11 C12, 6 entre C21 C22, 4 entre C313 C314, 3.5 entre C415 C421, 2 entre C426 C427, 2.3 entre C42c C43, 12 entre C51 C52, et 14 entre C61 C62. J'ai ainsi ajouté une sous-classe dans C31 (une de C311 à C313 et l'autre de C314 à C316) et une dans C42 (une de C421 à C426 et l'autre de C427 à C42c). Il est à noter une rupture nette de 8 points entre amed et pmg de la classe C43, ce qui isole pmg comme afn et pub.
      - Homogénéité des sous-classes: ils sont tous très homogènes sauf C21 avec un m/e de 2.17 à cause des 2 génomes absp et vbp2 qui devraient se trouver en C3 avec un rebond sup, supérieur à 68.89 contre le maximum de C2 de 62.07 (cdc8). Cette homogénéité et les ruptures, listées ci-dessus, se traduisent dans le diagramme rebond/pente, duquel j'ai soustrait absp et vbp2, par des colonnes de points chacune correspondant à une pente donnée correspondant à sa sous-classe. Cela est net pour les 4 sous-classes de C4 et les 2 de C3. De même l'isolement de pmg apparait nettement puisque celui-ci, avec une pente de 48.7, est détaché de C43 qui a une moyenne de pente de 40, et se trouve près de lam avec une pente de 49.8.
      - Conséquences pour la forme des diagrammes fc+xm-200: Pour chaque sous-classe de rebond on aura 2 formes différentes, une plate avec une pente faible et une sous forme de dôme avec une pente forte.
    • Diagrammes du rebond en fonction du point d'inflexion
      - Je n'ai mis en diagramme que la pente a' et l'abscisse flexa. L'ordonnée flexo varie très peu, entre 2.19 et 3.51 (m e m/e 2.83 0.36 7.84 pour 51 génomes) et donc le rebond en fonction de flexo a comme courbe de tendance une droite verticale, sans intérêt. La constante de la tangente b', du coup, ne dépend plus que de flexa. Par conséquent a' et b' vont être très corrélés pour les 51 génomes retenus pour flexo avec un coefficient de détermination R2 de 0.937.
      - Diagramme rebond/pente, sup/a':
      • Le diagramme du milieu, à 58 génomes, montre clairement la séparation des 7 génomes extrêmes, colorés en rose.
      • A ces 7 génomes j'ai ajouté absp et vbp2 qui se sont retrouvés décalés dans leur sous-classe C21 et alignés avec les 7. Le diagramme de droite de ces 9 a une courbe de tendance linéaire nette avec un R2 de 0.682 et une pente de 5.3. Peut-être faudrait-il ajouter pmg à ces 9 génomes.
      • Le 1er diagramme concerne 49 génomes et a une courbe de tendance linéaire nette avec un R2 de 0.728 et une pente de 2.25 très différente de celle des 9 génomes. Les sous-classes apparaissent nettement comme indiqués dans l'introduction des pentes ci-dessus.
      - Diagramme rebond/%flex: le fort R2 de 0.699 pour 43 génomes montre que le classement par sup et sup/fx sont analogues puisque ce dernier est la pente de la droite de tendance du diagramme. Cela serait de même pour les 10 génomes à faible rebond et les 5 génomes à fort rebond. Le diagramme sup:(sup/fx) montre une très forte corrélation pour les 58 génomes avec un R2 de 0.816 et un coefficient de corrélation de 0.904. Pour les 43 génomes j'ai respectivement 0.684 et 0.827.
      - Diagramme rebond/abscisse, sup/flexa
      • Parmi les diagrammes présentés dans l'image, seul celui-ci présenterait la linéarité nécessaire à un classement, que ça soit celui des rebonds ou des taux des fréquences. En effet, en ne tablant que sur le coefficient de détermination R2 des 58 génomes, ce diagramme l'emporte nettement avec 0.752, alors que sup/pente que j'ai choisi pour le classement n'a qu'un R2 de 0.284; celui de sup/%flex , que j'aurais pu prendre aussi pour le classement, n'est guère reluisant avec un R2 de 0.222. Les 4 autres diagrammes en fonction de l'effectif total des intercalaires (effect), sup %1 %flex %rest ont les plus mauvais R2 avec, respectivement, 0.042 0.151 0.001 0.097.
      • Si maintenant je cherche le plus grand nombre de génomes qui rendent optimum le R2 c'est sup/pente qui l'emporte avec 0.728 et 49 génomes contre 0.486 et 49 pour sup/flexa et 0.699 43 pour sup/%flex. Les 4 autres diagrammes en fonction de effect, sup %1 %flex %rest, donnent respectivement 0.421 43, 0.316 43, 0.528 45, 0.489 43 (Voir la description de l'image).
      • Cepedant le diagramme sup/flexa m'a permis de comprendre l'origine des extrêmes. En effet les 7 maxima, rpl rtb pub vha2 vpb1 npu, subissent 2 contraintes principales un flexo très faible et un flexa très grand. Voir le tableau de classement en triant sur chaque colonne flexo et flexa. De même pour les minima, avec un flexo fort et un flexa faible, abqp lbu cbn absp. Les génomes dont un seul des 2 paramètres est extrême doivent avoir en plus un excès ou un manque de %flex. C'est le cas de mfe cbc mba vpb2 avec un %flex mis en valeur par un %rest élevé, respectivement, 474% 344 528 279 (moyenne des 58 génomes, 236). Restent cbei et ksk qui ont un effectif (effect) très élevé, respectivement, 4010 et 3995.
    • Les caractéristiques de chaque classe. Voir le tableau des moyennes.
      - L'hétérogénéité des clades par rapport au rebond et à la pente.
      • J'ai montré plus haut qu'il y a une forte corrélation entre la pente de la tangeante au point d'inflexion et le rebond (sup). Dans le tableau des moyennes par clades je retrouve ce parallélisme entre les sous-tableaux 21 et 22.
      • L'appréciation de cette hétérogénéité se trouve dans la comparaison avec l'homogénéité des sous-tableaux 11 et 12, des classes en fonction du rebond et de la pente. Le rapport m/e des classes de C31 à C51 regroupant 30 génomes est entre 14 et 58 pour le rebond et entre 7 et 17 pour la pente. A comparer avec le rapport du total de référence (54 et 58 génomes) de 2.2 et 1.8. Le rapport m/e est moyen, de 3.4 à 5.1, pour les classes du rebond de c11 à C22 qui affichent, en parallèle avec la pente, un rapport toujours moyen mais un peu plus élevé sauf pour C21 qui devient faible, 2.2, comme la référence du total. Toute cette homogénéité des classes est le résultat du classement que j'ai effectué alors que les clades répondent à ce classement par une très forte hétérogénéité dans chacun des clades avec un rapport de 2.0 ou moins.
      • Les clades diffèrent entre eux par leur moyenne malgré la forte hétérogénéité intraclade. Pour le rebond les 3 clades bacilli gamma actino sont moyens mais alpha est fort avec une moyenne de 125 et clostridia archeo sont faibles avec, respectivement, 61 et 66 de moyenne. Sans moyenne bacteroidites et tenericutes sont moyens alors que cyano est fort et afn faible. Je retrouve ces différences en miroir dans le tableau des pentes sauf pour les alphas. Les alpha sont, en fait, moyens parcequ'ils possèdent les extrêmes rpl rtb pub du rebond. Sans ces extrêmes les alpha ont 86 de moyenne et un rapport m/e de 3.1 avec 11 génomes. La faiblesse des clostridia et archeo se retrouve dans les classes de C11 à C22. Celles-ci ont 6 faibles clostridia sur 8 et 2 faibles archeo sur 4.
      - L'hétérogénéité des classes par rapport aux fréquences en pourcentage, %1 et %flex.
      • L'homogénéité des clades avec %flex:
        + Comme pour les classes en fonction du rebond, où l'homogénéité intraclasse est forte pour 5/10 classes (tableau 11), les clades en fonction du %flex (tableau 24) ont aussi une homogénéité intraclade élevée mais moins forte pour 5/6 clades avec un rapport m/e supérieur à 4.5 contre un m/e des classes supérieur à 14. Mais 5/6 clades ont à peu près la même moyenne différant de celle (322) du total de moins de 18% sauf pour actino avec 46%. Les classes, par construction, diffèrent toutes de la moyenne en fonction du rebond qui est de 82. En résumé, je peux dire le %flex ne dépend pas des clades mais de chaque génome; la moitié des génomes faibles s'étalent régulièrement jusqu'à la moyenne de 322, avec 2 extrêmes à 69 (afn) et 143% (abra); la moitié des génomes forts s'étalent aussi régulièrement avec un extrême à 530% (npu).
        + Comme pour le rebond ce sont, cette fois-ci, les classes qui répondent, à l'homogénéité des clades, par une hétérogénéité de certaines classes, 3/10, mais surtout par des moyennes différentes de celle du total, 4/10 ont une différence inférieure à 18%. Au total 6/10 classes diffèrent du total en moyenne et en rapport m/e. Cependant le changement vers les classes est beaucoup moins dramatique en %flex que des classes vers les clades en %sup. Dans le 1er cas les classes restent très homogènes avec un rapport m/e du %flex supérieur à 6.3 pour 7/10, alors que les clades sont tous très hétérogènes avec un m/e du rebond inférieur à 2.0. Le passage, en %flex, des clades vers les classes se fait par regroupement de génomes homogènes, les faibles avec les faibles et les forts avec les forts. L'introduction d'un intrus crée l'hétérogénéité. En C11 c'est lbu, fort avec un %flex de 419 et 5 autres faibles; en C12 abra un faible avec un %flex de 143 et 2 forts; en C21 c'est un faible, vha1, avec un %flex de 195 et 3 forts.
        + corrélation sup-%flex pour les clades et les classes. Cette corrélation que j'avais trouvé entre les génomes se manifeste ici entre clades ou classes. Dans les classes la corrélation est forte, d'un coefficient de 0.797 avec 10 points, entre le m du tableau 11 et de celui du 14. La corrélation est beaucoup moins forte pour les clades avec 0.651 et seulement 6 points entre le m du tableau 12 et celui du 24. Pour les génomes sans moyenne, 2ème partie des tableaux, je retrouve cette corrélation avec les extrêmes npu abra afn, respectivement pour les rebonds puis les %flex, 349 34 13 et 530 143 69.
        + L'homogénéité des clades est due au choix du polynome de d°3 et peu du choix du xm imposé par le rebond des diagrammes en fréquences 10 (freq10). Mais il est aussi, fort possible, que cela soit à cause de mes recherches des génomes pour diverses caractéristiques des clusters.
      • L'hétérogénéité des clades avec %1
        + Les classes: 8 classes sont homogènes, m/e>3.8, mais leurs effectifs sont très faibles et leurss moyennes élevées. Seulement 2 classes ont 6 génomes chacune et 4 classes ont moins de 5. Par contre les 4 classes hétérogènes, m/e<2.7, ont des effectifs élevés et des moyennes faibles. Seule la classe C61 a 4 génomes, les autres ont plus, C41 5 C11 6 et C42 12, avec ce dernier, un m/e de 2.5. Donc la tendance des classes est plutôt vers l'hétérogénéité pour la région %1 au contraire de la région %flex qui totalise 9 classes sur 11 avec un m/e>6.3 et un effectif de 75% des génomes.
        + Les clades: c'est clair que le %1 est propre à chaque clade. Quand les effectifs sont conséquents, plus de 7 génomes pour bacilli clostridia gamma et 11 pour les alpha, les clades sont très homogènes avec un m/e de 5.3 à 7,9 et 9.4 pour les alpha (11génomes). Les 4 clades à faible effectif, archeo actino avec 4, et bacteridites cyanobactéries avec 2, ont un rapport m/e très faible.
      • L'hétérogénéité des clades avec %rest: Pour un génome individuel le %rest est le complément à 1000 de la somme %1 plus %flex. Ceci est toujours valable pour la moyenne mais pas pour l'écartype et le rapport m/e. Ce dernier reflète l'une des 2 colonnes %1 et %flex,
        + Les classes: les 5 1ères classes de %rest reflètent celles de %flex alors que les 5 dernières reflètent plutôt celles de %1.
        + Les clades: L'homogénéité inter clades de %flex se reflète dans celle des %rest avec des m/e plus faibles et plus variables. Une seule exception celle des archeo avec un m/e très elevé chez les %flex, 2 fois plus élevé que les 5 autres clades, 10 contre 5 en moyenne.
    • Classement des diagrammes par les 4 régions: 1-xm (%1), xm-flexa (%flex), flexa-200 (f200) et flexa-reste (%rest). Voir le tableau des 4 régions.
      - Le tri des génomes: après avoir réuni les génomes qui se ressemblent le plus entre eux pour les 5 colonnes du tableau, sup (rebond) %1 %flex %rest f200, j'affecte un n° de séquence pour chaque génome dans la colonne tri et je ne nome le groupe par la lettre G suivi du 1er n° de la séquence. Il m'a fallu au moins 3 passages de réunification pour aboutir au résultat affiché.
      - Les groupes: j'ai constitué 14 groupes différents dont 8 de plus de 2 génomes chacun affichés avec leur statistique (m e m/e) et 6 doublets sans leurs moyennes. Les groupes avec moyenne sont ordonnés par la colonne sup du plus grand au plus petit. Les 6 doublets sont ordonnés par leur nom de groupe, du plus petit au plus grand.
      - Visualisation des caractéristiques des 8 groupes à moyenne:
      • Repérage avec sup et f200: Apparaît un super groupe en réunissant 5, G9 G22 G30 G41 G47, tous ayant un rebond (sup) autour de 100‰ et un f200 supérieur à 31% sauf pour G41 qui est incertain avec 12%. Les 3 autres ont des rebonds différents entre eux et du 100‰ du super groupe, G38 avec 285‰ G15 52‰ et G44 26‰, et un f200 plutot faible, G38 4% incertain, G15 36% et G44 24% .
      • Repérage avec %1 %flex %rest: J'ai commencé par différencier les 5 groupes du super groupe, en repérant les extrêmes uniques par génome { G47 avec un maximum de 421 (%1), G30 avec minimum de 287 (%1) et G9 avec un maximum de 497 (%rest)}, puis en comparant G41 avec ses 2 colonnes %flex et %rest (402 255) à celles de G47 (317 262) et celles de G30 (375 338) {402 est supérieur à 317 et 255 inférieur à 338} et enfin G22 a les 3 colonnes sans un extrême net (351 293 357). Pour les 3 autres groupes et sans considération de sup et f200, G44 est identique à G41, G28 a le minimum %flex des des 8 groupes à moyenne, et G38 ressemble à G22 mais avec un %flex nettement supérieur, équivalent à un maximum, 393‰ contre 293‰ et ressemble aussi à G41 pour cette colonne mais diffère pour les 2 autres colonnes, G38 (293 393 347) G41 (343 402 255).
      - Visualisation des 6 doublets en divisant par 2 leurs sommes:
      • 2 doublets ont des minima pour les 14 groupes, G1 en %flex (107‰) et G5 en %1 (94‰). Les 4 autres doublets sont repérés par une colonne extrême puis par une 2ème colonne secondaire en gras comparée à la colonne d'un groupe à moyennes ayant le même extrême:
      • G3 maximum f200 avec 50%, à comparer avec G47 et G22 %1, 200‰ contre 421‰ et 351‰, et avec G30 %rest, 520‰ contre 338‰.
      • G7 minima f200 avec 1.5%, à comparer avec G38 sup, 20‰ contre 285‰.
      • G13 f200 à 12%, à comparer avec G41 %rest, 420‰ contre 255‰.
      • G57 maximum sup avec 158‰, à comparer avec G38 %1, 525‰ contre 293‰.
      - Comparaison des classes sup et des groupes des 4 régions: c'est la colonne classe dans le tableau des régions. Dans chaque groupe des 4 régions les classes de sup sont identiques ou proches entre elles avec lexception de G30 avec blo, G41 avec psor et les doublets G3 et G5.
    • L'étendue des plages et le taux des 4 régions varient beaucoup d'un génome à l'autre.
    - Classement des diagrammes par la forme des polynômes de d°12, poly12 (ajouter R2).
Intergen51. Classement des courbes CDS-CDS positifs continus.Note. Moyennes des classes et des clades[modifier | modifier le wikicode]
  • fc+200. Moyennes par classe et clade. lien au tableur. La colonne %rest2 est égale à %200 + %rest. La bordure dans chaque tableau sépare les moyennes au nombre de genomes par clade ou classe supérieur à 2, des clades ou classes réduits à 1 ou 2 génomes sans moyenne.
  • Les alpha:
    - int51.21: (92,2 17,5 5,3) sans abqp pub rpl rtb
    - int51.22: (25,9 7,3 3,5) sans absp pub rpl rtb
    - int51.23: Ils sont très homogènes avec un (m e m/e) de (324,2 34,3 9,4) sans abq(121) aua(80) pub(669), donc pour 11 génomes. Ils sont ainsi plus homogènes que gamma bacilli et clostridia.
    - int51.25: (376,1 84,2 4,5) sans abq abs pub
Int51.fc+400 Moyennes des clades et des classes
Int51.11 Classes du sup4
clas m e m/e gen
C11 74 3,3 23 5
C12 86 4,4 20 3
C21 101 2,6 38 5
C22 110 2,2 49 4
C23 118 1,2 102 7
C31 132 11 12 4
C32 153 5,4 28 14
C33 170 2,4 70 3
C41 196 7,0 28 6
C42 228 4,9 46 4
C43 257 6,7 38 3
total 139 33 4,3 46
C1 79 7,0 11 8
C2 111 7,9 14 16
C3 152 13 12 21
C4 220 26 8,3 13
Int51.12 Classes du pte
clas m e m/e gen
C11 14 5,0 2,8 5
C12 18 15 1,2 3
C21 26 21 1,3 5
C22 28 21 1,3 4
C23 18 10,1 1,8 7
C31 23 5,0 4,6 4
C32 18 8,4 2,1 14
C33 16 2,3 7,0 3
C41 16 1,9 8,8 6
C42 19 1,6 12 4
C43 20 1,6 12 3
total 18 5,1 3,6 49
C1 15 9,1 1,7 8
C2 23 16 1,4 16
C3 19 7,5 2,5 21
C4 18 2,3 7,8 13
Int51.13 Classes du xmp
clas m e m/e gen
C11 348 26 13 5
C12 275 85 3,3 3
C21 410 136 3,0 5
C22 354 127 2,8 4
C23 318 72 4,4 7
C31 419 39 11 4
C32 317 94 3,4 14
C33 356 44 8,0 3
C41 323 78 4,1 6
C42 242 90 2,7 4
C43 248 30 8,3 3
total 324 64 5,1 53
C1 321 62 5,2 8
C2 356 109 3,3 16
C3 342 88 3,9 21
C4 281 80 3,5 13
Int51.14 Classes du flexp
clas m e m/e gen
C11 260 16 16 5
C12 310 17 18 3
C21 296 42 7,1 5
C22 304 39 7,8 4
C23 358 31 11 7
C31 347 40 8,6 4
C32 427 33 13 14
C33 418 11 38 3
C41 463 34 14 6
C42 552 43 13 4
C43 495 70 7,1 3
total 376 60 6,3 46
C1 279 30 9,3 8
C2 325 46 7,1 16
C3 410 45 9,2 21
C4 498 58 8,6 13
Int51.15 Classes du rest
clas m e m/e gen
C11 391 21 18 5
C12 414 83 5,0 3
C21 294 99 3,0 5
C22 342 117 2,9 4
C23 324 64 5,0 7
C31 233 28 8,4 4
C32 256 63 4,1 14
C33 225 33 6,7 3
C41 213 55 3,9 6
C42 206 49 4,2 4
C43 257 40 6,5 3
total 281 64 4,4 49
C1 400 49 8,2 8
C2 319 86 3,7 16
C3 247 55 4,5 21
C4 221 51 4,4 13
Int51.21 Clades du sup4
clade m e m/e gen
alpha 179 55 3,3 14
gama 126 42 3,0 9
bacilli 148 31 4,7 8
clostrid 114 46 2,5 8
actino 180 80 2,3 4
archeo 131 49 2,7 4
total 139 33 4,3 46
bacter 118 119 2
cyano 149 109 2
teneri 160 141 2
cvi 147 1
ade 148 1
ant 153 1
afn 102 1
scc 108 1
Int51.22 Clades du pte
clade m e m/e gen
alpha 22 12 1,9 14
gama 17 4,7 3,5 9
bacilli 15 4,3 3,6 8
clostrid 13 4,0 3,2 8
actino 21 9,0 2,4 4
archeo 12 10,4 1,2 4
total 18 5,1 3,6 49
bacter 29 29 2
cyano 12 59 2
teneri 17 17 2
cvi 31 1
ade 30 1
ant 36 1
afn 12 1
scc 21 1
Int51.23 Clades du xmp
clade m e m/e gen
alpha 334 95 3,5 14
gama 327 45 7,3 9
bacilli 334 67 5,0 8
clostrid 341 54 6,3 8
actino 199 62 3,2 4
archeo 279 133 2,1 4
total 324 64 5,1 53
bacter 411 328 2
cyano 99 520 2
teneri 420 396 2
cvi 316 1
ade 355 1
ant 508 1
afn 435 1
scc 365 1
Int51.24 Clades du flexp
clade m e m/e gen
alpha 426 91 4,7 14
gama 361 71 5,1 9
bacilli 399 54 7,4 8
clostrid 344 87 4,0 8
actino 493 130 3,8 4
archeo 363 103 3,5 4
total 376 60 6,3 46
bacter 315 346 2
cyano 487 272 2
teneri 391 355 2
cvi 420 1
ade 410 1
ant 355 1
afn 300 1
scc 290 1
Int51.25 Clades du rest
clade m e m/e gen
alpha 240 63 3,8 14
gama 312 72 4,4 9
bacilli 267 105 2,5 8
clostrid 314 79 4,0 8
actino 308 104 3,0 4
archeo 357 128 2,8 4
total 281 64 4,4 49
bacter 274 326 2
cyano 414 208 2
teneri 189 249 2
cvi 264 1
ade 235 1
ant 138 1
afn 266 1
scc 345 1
Intergen51. Classement des courbes CDS-CDS positifs continus.Note. Les groupes des 4 régions[modifier | modifier le wikicode]
  • Les groupes de génomes en fonction des 4 régions des diagrammes fc200
  • Lien au tableur: 4 régions
  • Légende:
    - Les couleurs: elles servent à comparer les groupes. Le bleu c'est entre les moyennes, le vert entre les groupes à 2 génomes en comparaison avec les moyennes et le jaune pour signaler que la comparaison n'est pas valable entre les moyennes parce que le rapport m/e est très faible.
    - Les moyennes: m pour moyenne avec n le nombre de génomes, e pour écart type.
    - Le classement des groupes: il est fait sur la valeur du rebond (sup) étudié précédemment mais ne concerne pas les groupes à 2 génomes.
    - Les 4 régions: voir le tableau de classement des diagrammes fc200. Le rebond (sup) n'est pas une région puisque c'est une partie de la région %flex. La région f200 est entre flexa, l'abscisse du point d'inflexion, et l'abscisse 200 qui est exprimée en ‰ du total et que j'appelle %200. La valeur de f200 est le rapport en % de %200/%rest. La colonne f%rest est en pour 1000 du reste après l'abscisse 200.
    - classe: ce sont les classes des rebonds, colonne clas des diagrammes fc200
    - nom du groupe, c'est G suivi du 1er n° de la colonne G du génome du tableau fc200.
Int51.fc+200. Les groupes de génomes en fonction des 4 régions des diagrammes fc200
groupe n m e sup %1 %flex %rest f200 f%rest clas gen clas gen
G1 3 m 65 212 207 581 25,3 434 C11 mfe
e 34 7 57 58 11,5 C21 mba
m/e 1,9 30,6 3,6 10,1 2,2 C51 ppmp
G4 3 m 41 284 211 505 32,7 340 C11 cbc
e 2 30 21 24 6,6 C12 cbei
m/e 17,1 9,4 10,1 21,0 4,9 C12 pmq
G10 3 m 52 428 189 383 55,8 170 C11 afn
e 25 19 41 49 9,4 C12 abra
m/e 2,1 21,9 4,6 7,8 5,9 C31 scc
G56 3 m 85 569 228 203 71,5 58 C53 ant
e 44 56 93 39 17,6 C51 pmg
m/e 1,9 10,2 2,5 5,2 4,1 C11 pub
G50 4 m 261 291 405 304 3,9 292 C71 rtb C63 sma
e 82 28 28 1 6,0 C72 rpl
m/e 3,2 10,3 14,5 249,3 0,7 C71 vha2
G13 4 m 77 346 279 375 29,7 264 C42 ban C52 hmo
e 23 29 69 49 1,0 C22 cdc
m/e 3,3 12,1 4,1 7,6 30,4 C22 cdc8
G17 9 m 63 349 245 406 47,5 213 C12 vha1 C31 abqp
e 14 16 26 35 7,3 C23 vpb2 C22 cbn
m/e 4,5 22,0 9,6 11,5 6,5 C12 ppm C22 cle
C31 absp C31 eal
C22 lbu
G26 14 m 107 298 362 340 41,5 199 C31 spl C61 fps
e 26 41 50 41 6,5 C43 mfi C62 blo
m/e 4,1 7,2 7,3 8,4 6,4 C31 oan1 C32 agrc
C41 amed C42 ecoN
C43 rru C44 cvi
C51 agrl C52 abs
C52 aua C63 abq
G40 10 m 105 405 324 271 45,4 148 C31 eco C51 psor
e 15 15 30 30 9,4 C42 myr C61 lam
m/e 7,0 26,8 10,8 9,0 4,8 C52 oan2 C41 lmo
C43 ade C51 bsu
C61 apal C61 mja
G7 2 - 92 214 347 439 49,6 221 C41 ase
- 102 99 466 435 38,9 266 C51 ksk
G54 2 - 155 390 397 212 5,1 201 C62 vpb1
- 187 335 446 219 7,2 203 C63 rpm
G9 1 - 349 93 531 376 0 376 C72 npu
groupe n m e sup %1 %flex %rest f200 f%rest clas gen clas gen
Intergen51. Étendues des 3 régions des diagrammes CDS-CDS positifs continus fc200[modifier | modifier le wikicode]
  • Lien au tableur: étendues des 3 régions
  • Légende:
    - Les colonnes effect flexa %rest %flex xm %1 sont celles du tableau du classement des diagrammes fc200
    - Les étendues des 3 régions sont retd fetd xm calculées respectivement comme (etd9 - flexa), (flexa - xm) et xm de l'abscisse 0 à l'abscisse xm. La borne etd9 correspond à l'abscisse (en fréquences de lot de 10) qui cumule 90% des intercalaires CDS-CDS.
    - %retd %fetd %1etd sont les rapports %rest/retd, %flex/fetd, %1/xm.
    - Les cellules bleues indiquent les valeurs hors des diagrammes retd/%rest, fetd/%flex, xm/%1.
  • Diagrammes: courbes de tendance des diagrammes, étendue en fonction du cumul des fréquences.
    - diagrammes retd / %rest
    • f(x)=0,573x+245  R2=0,491  58 génomes
    • f(x)=0,841x+206  R2=0,780  52 génomes sans rpl rtb
    - diagrammes fetd / %flex
    • f(x)=2,407x+88  R2=0,704  58 genomes
    • f(x)=2,425x+89  R2=0,738  57 génomes sans mba
    - diagrammes xm / %1
    • f(x)=1,707x+264  R2=0,025  58 genomes
    • f(x)=6,576x+52  R2=0,338  50 génomes sans pub rpl rtb mba mfe mja apal ant
    • f(x)=7,241x+26  R2=0,373  49 génomes sans pub rpl rtb mba mfe mja apal ant ppm
int51.200 Intergen51. Etendues des 3 régions des diagrammes CDS-CDS positifs continus fc200, en abscisses unitaires freq1.
clade gen effect flexa etd9 retd %rest %retd fetd %flex %fetd x50 xm %1 %1etd G gen
act1 ase 3854 98,3 340 241,8 438,5 1,40 74,3 347,4 4,68 30 24 214,1 8,92 7 ase
act2 blo 1045 156,6 290 133,4 330,1 1,73 116,6 438,3 3,76 40 40 231,6 5,79 34 blo
act3 ksk 3995 138,4 350 211,6 434,8 1,58 117,4 466,3 3,97 30 21 98,9 4,71 8 ksk
act4 sma 3894 195,2 370 174,8 304,8 1,17 146,2 440,7 3,01 30-60 49 254,5 5,19 52 sma
act5
al1 abq 1565 165,0 250 85,0 255,0 1,82 129,0 464,5 3,60 40 36 280,5 7,79 39 abq
al2 abqp 921 113,9 260 146,1 397,4 2,04 66,9 262,8 3,93 50 47 339,9 7,23 22 abqp
al3 abs 1570 142,8 250 107,2 301,3 1,88 98,8 386,0 3,91 50 44 312,7 7,11 38 abs
al4 absp 873 113,9 260 146,1 410,1 2,12 67,9 258,9 3,82 50 46 331,0 7,20 20 absp
al5 agrc 1466 141,7 260 118,3 326,1 1,91 96,7 357,4 3,70 50 45 316,5 7,03 35 agrc
al6 agrl 1040 119,8 260 140,2 345,2 1,75 80,8 293,3 3,63 40 39 361,5 9,27 31 agrl
al7 aua 1803 146,3 280 133,7 332,2 1,74 108,3 396,6 3,66 40 38 271,2 7,14 32 aua
al8 oan1 1517 131,1 310 178,9 385,0 1,59 92,1 306,5 3,33 50 39 308,5 7,91 28 oan1
al9 oan2 914 131,9 250 118,1 293,2 1,64 88,9 303,1 3,41 50 43 403,7 9,39 42 oan2
alp1 pub 601 48,8 90 41,2 244,6 3,51 23,8 121,5 5,09 30 25 633,9 25,36 56 pub
alp2 rpl 527 221,8 760 538,2 305,5 0,38 154,8 385,2 2,49 50 67 309,3 4,62 51 rpl
alp3 rpm 1847 191,0 270 79,0 218,7 1,50 144,0 446,1 3,10 50 47 335,1 7,13 54 rpm
alp4 rru 2136 130,6 250 119,4 345,5 2,06 95,6 375,0 3,92 40 35 279,5 7,99 30 rru
alp5 rtb 505 213,9 680 466,1 303,0 0,44 146,9 380,2 2,59 50-90 67 316,8 4,73 50 rtb
alp6
arc1 mba 2379 147,2 740 592,8 601,9 0,85 99,2 194,2 1,96 50 48 203,9 4,25 2 mba
arc2 mfe 2011 113,9 640 526,1 625,6 1,00 65,9 157,6 2,39 60 48 216,8 4,52 1 mfe
arc3 mfi 1545 133,8 320 186,3 403,2 1,63 93,8 341,1 3,64 50 40 255,7 6,39 27 mfi
arc4 mja 1069 128,6 210 81,4 232,9 1,63 93,6 332,1 3,55 40 35 435,0 12,43 49 mja
arc5
bac1 ban 3289 151,7 320 168,3 319,6 1,30 105,7 353,0 3,34 50 46 327,5 7,12 16 ban
bac2 bsu 2512 138,8 200 61,2 236,9 2,24 91,8 358,7 3,91 50 47 404,5 8,61 48 bsu
bac3 lam 1248 125,9 230 104,1 259,6 1,53 82,9 345,4 4,16 40 43 395,0 9,19 46 lam
bac4 lbu 1098 105,1 280 174,9 409,8 1,77 64,1 232,2 3,62 40 41 357,9 8,73 21 lbu
bac5 lmo 1849 140,3 230 89,7 248,8 1,66 98,3 334,2 3,40 50 42 417,0 9,93 47 lmo
bac6 pmq 4540 118,0 360 242,0 477,8 1,56 65,0 210,6 3,24 70 53 311,7 5,88 6 pmq
bac7 ppm 3176 129,2 330 200,8 437,0 1,68 72,2 235,2 3,26 60 57 327,8 5,75 19 ppm
bac8 ppmp 438 123,9 440 316,1 516,0 1,32 80,9 269,4 3,33 50 43 214,6 4,99 3 ppmp
bac9
bct1 myr 2273 127,8 330 202,2 302,7 1,00 81,8 282,9 3,46 50 46 414,4 9,01 41 myr
bct2 fps 1628 120,6 300 179,4 330,5 1,28 95,6 379,6 3,97 30 25 289,9 11,60 33 fps
bct3
bde1 cvi 2412 120,8 250 129,2 312,6 1,65 75,8 327,9 4,33 50 45 359,5 7,99 37 cvi
bde2 ade 2335 122,5 220 97,5 278,4 1,83 75,5 313,9 4,16 50 47 407,7 8,68 43 ade
bde3 ant 1700 120,2 150 29,8 167,1 2,25 76,2 294,7 3,87 40 44 538,2 12,23 58 ant
bde4
clo1 cbc 2572 111,2 440 328,8 521,6 1,28 72,2 189,7 2,63 50 39 288,6 7,40 4 cbc
clo2 cbei 4010 135,7 470 334,3 516,7 1,25 91,7 231,7 2,53 40 44 251,6 5,72 5 cbei
clo3 cbn 1775 123,0 260 137,0 377,2 2,02 79,0 264,2 3,35 50 44 358,6 8,15 23 cbn
clo4 cdc 2589 126,0 380 254,0 401,3 1,19 81,0 225,6 2,78 50 45 373,1 8,29 13 cdc
clo5 cdc8 2727 126,6 380 253,4 390,9 1,15 81,6 229,9 2,82 50 45 379,2 8,43 14 cdc8
clo6 cle 2900 133,0 310 177,1 366,2 1,50 90,0 264,8 2,94 40 43 369,0 8,58 24 cle
clo7 hmo 1867 152,3 310 157,7 328,3 1,45 105,3 355,7 3,38 40 47 316,0 6,72 15 hmo
clo8 psor 2350 166,7 300 133,3 261,7 1,21 121,7 359,6 2,95 50 45 378,7 8,42 45 psor
clo9
cya1 npu 3999 227,1 490 262,9 376,3 1,05 205,1 531,1 2,59 30 22 92,5 4,21 9 npu
cya2 pmg 948 104,7 160 55,3 197,3 1,76 58,7 266,9 4,55 50 46 535,9 11,65 57 pmg
cya3
ga1 amed 2382 132,7 280 147,3 367,3 1,82 87,7 365,7 4,17 50 45 267,0 5,93 29 amed
ga2 eal 2286 119,5 300 180,5 358,3 1,43 76,5 270,8 3,54 50 43 371,0 8,63 25 eal
ga3 eco 2204 118,6 260 141,4 328,0 1,61 72,6 273,6 3,77 50 46 398,4 8,66 40 eco
ga4 ecoN 2822 117,8 280 162,2 323,5 1,38 80,8 313,3 3,88 50 37 363,2 9,82 36 ecoN
ga5 spl 2482 138,5 410 271,6 407,3 1,13 101,5 322,3 3,18 50 37 270,4 7,31 26 spl
ga6 vha1 1945 107,6 320 212,4 461,2 1,70 58,6 196,9 3,36 50 49 341,9 6,98 17 vha1
ga7 vha2 1075 172,2 360 187,8 303,3 1,08 131,2 413,0 3,15 40 41 283,7 6,92 53 vha2
ga8 vpb1 1757 194,5 300 105,5 212,3 1,06 145,5 397,3 2,73 60 49 390,4 7,97 55 vpb1
ga9 vpb2 828 117,3 340 222,7 439,6 1,53 70,3 218,6 3,11 50 47 341,8 7,27 18 vpb2
gam
neg1 afn 1385 85,9 280 194,1 438,3 1,74 48,9 150,9 3,09 50 37 410,8 11,10 10 afn
neg2
spi1 scc 1000 111,1 290 178,9 345,0 1,37 65,1 232,0 3,56 60 46 423,0 9,20 12 scc
ter1 abra 980 95,6 220 124,4 366,3 2,14 51,6 184,7 3,58 40 44 449,0 10,20 11 abra
ter2 apal 919 126,7 240 113,3 264,4 1,45 98,7 339,5 3,44 30 28 396,1 14,15 44 apal
ter3
clade gen effect flexa etd9 retd %rest %retd fetd %flex %fetd x50 xm %1 %1etd G gen
m 1812,8 129,8 304,4 171,7 353,2 1,55 91,3 295,7 3,45 42,6 332,6 7,75
e 678,2 20,9 84,3 63,5 95,0 0,34 25,3 69,0 0,53 8,7 63,5 2,00
m/e 2,7 6,2 3,6 2,7 3,7 4,61 3,6 4,0 6,57 4,9 5,2 3,87
exclus g g g g t g g g g t g g
genx 48 54 53 50 58 55 56 53 56 58 53 56
plage 828-3289 86-195 150-490 79-334 167-626 0,85-2,25 49–155 151-413 2,4-4,7 21-67 204-449 4,2-12,4
Intergen51. Classement des courbes CDS-CDS positifs continus fc200. Calcul du rebond en freq10[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc200. Calcul du rebond en freq10. Contient les équations des courbes de tendance en polynôme de d° 3.
  • Légende: refaire les moyennes à cause des erreurs en rpl, rpm, abq, aua, oan1 . . .
    - Confection du tableau: Beaucoup de courbes de tendance en polynôme de d°3, des diagrammes du tableau fc200 en freq1, ne m'ont pas parues satisfaisantes en comparaison avec les tendances en polynôme de d°12 dont les liens sont en en-tête du tableau fc200. Ceci est du au fait que je m'attendais à retrouver le point d'inflexion des courbes en d°3 des diagrammes en freq10 (exemple la courbe fc41 de spl) dans la plage xm-200 des diagrammes en freq1. Or ces derniers ne tiennent pas compte des fréquences de 200 à 400. Ce qui fait que si le point d'inflexion, en freq10, est supérieur à 200 celui en freq1 ne représente plus le point d'inflexion recherché sauf quand la somme des fréquences de la plage 200-400 est faible (exemple pub pmg ant avec respectivement 13 48 54‰ dans la colonne r400). Aussi j'ai eu l'idée d'appliquer le point d'inflexion des diagrammes en freq10 aux diagrammes en freq1 à condition de diviser par 10 son ordonnée. Cependant 9 génomes, toujours en s'appuyant sur les poly12, sont mieux représentés avec le point d'inflexion des freq1, en poly3, car le rebond est trop pointu en freq1 et plus étendu en freq10 à cause des regroupements en lot de 10 fréquences. Ces génomes sont ase myr fps cvi ade ant pmg eco ecoN, colorés en gris non soulignés. Six autres génomes ne conviennent, en polynôme de d°3, ni en freq1 ni en freq10. Ce sont scc apal pub agrl eal mja, colorés en gris souligné. J'ai estimé à l’œil le point d'inflexion de poly12, de ces 6 génomes, qui me parait le mieux représenter la fin du rebond et je l'applique au calcul du rebond en freq1 comme si c'était un polynôme de d°3. La construction de ce tableau m'a permis de comparer les rebonds calculés en freq1 et freq10 pour les 43 génomes restant.
    - Les colonnes: Se reporter au tableau fc200 pour les colonnes autres que
    + x50, abscisse freq10 du minimum local. Pour le calcul de sup10 le xm des freq1 est mis au milieu: 45 pour 50, 35 pour 40 ....
    + sup10: calcul du rebond sur les fréquences freq1 avec le point d'inflexion (flexa, flexo) de freq10 en divisant flexo par 10.
    + sup200, calcul du sup10 au-delà de la fréquence 200 en utilisant les freq1 à formater à partir des sauvegardes NCBI. Supt est égal à sup10+sup200.
    + diff%sup, différence en %, rapportée à la plus petite valeur, d'où la couleur bleue des caractères pour les supt inférieurs au sup.
    + les restes: r200 r400 rfin respectivement de flexa à 200, de 200 à 400 et de 400 à la fin. Quand flexa est supérieur à 200 le %flex est la somme des fréquences de xm-200 plus celle de 200-flexa qui doit être soustraite de r400. Pour mettre en valeur la somme de 200-400 j'ai mis en négatif la somme de 200-flexa dans la colonne r200.
    + %rest: c'est la somme de r200 r400 rfin. Quand le point flexa est inférieur à 200 ce reste correspond à celui de fc200 et quand le flexa est supérieur à 200, il est diminué de la colonne r200.
    - Les couleurs
    + Le gris: les 14 génomes dont le point d'inflexion est celui des fréquences unitaires, freq1 (notés poly3 et poly12 dans la colonne sup200), ont leurs ordonnées multipliées par 10 pour homogénéiser ces colonnes. Les valeurs soulignées, flexa et flexo, sont celles prélevées sur le diagramme poly12.
    + Le jaune pour mettre en valeur les courbes sans sommet (soma somo).
    + Le vert et le cyan: ils concernent les restes des intercalaires après le point d'inflexion. Ce point est important , cest ce qui m'a poussé à utiliser les freq10. Mais certains génomes comme mba mfe cbei et d'autres ont des sommes de fréquence après l'abscisse 400, très élevées. Ceci j'en tiendrai compte dans l'analyse des rebonds. Le vert c'est pour les génomes dont le reste total, %rest, est très élevé et il est étalé sur 2 colonnes pour différenciés les génomes à reste final, rfin, très important par rapport aux autres. Le cyan c'est pour les génomes à très faible reste total, %rest.
    + Le rouge, freq1: c'est pour comparer %1 flex% et %rest du tableau fc200 aux valeurs, ici, après avoir appliquer le point d'inflexion des freq10. La somme des fréquences des %1 reste la même, alors que flex% augmente de la même quantité que %rest diminue.
int51.200 Intergen51. Classement des courbes CDS-CDS positifs continus fc200, calcul du rebond en freq10.
clade gen effect frm x50 soma somo flexa flexo a’ sup10 sup200 supt sup diff sup% %1 flex % r200 r400 rfin %rest gen
act1 ase 3854 D1 24 17 54 98 34,8 35 - poly3 - 92,4 - 214 347 218 145 76 438 ase
act2 blo 1045 A 40 54 41 206 21,6 186 257,8 0,0 257,8 145,4 77,3 213 582 -7,7 164 49 205 blo
act3 ksk 3995 A 30 61 41 207 22,3 189 267,5 1,1 268,6 101,9 163,6 111 637 -13,3 187 79 253 ksk
act4 sma 3894 P2 30 17 38 189 22,4 138 169,6 169,6 188,4 11,1 160 523 21,3 211 84 317 sma
act5
al1 abq 1565 A 40 36 43 191 22,1 200 224,0 224,0 172,4 29.9 276 539 20,4 128 36 97 abq
al2 abqp 921 S3 50 -7 45 176 23,3 178 178,4 178,4 79,2 125,2 336 444 43,4 127 50 220 abqp
al3 abs 1570 A 50 43 41 197 21,4 195 217,2 217,2 108,6 100,0 315 516 7,0 127 35 169 abs
al4 absp 873 S2 50 -26 47 169 24,5 174 175,6 175,6 75,7 132,0 326 439 51,5 133 50 235 absp
al5 agrc 1466 A 50 90 37 216 19,3 205 225,3 5,0 230,4 85,7 168,7 317 533 -27,3 155 23 151 agrc
al6 agrl 1040 S2 39 63 40 160 20,0 32 175,5 poly12 175,5 106,4 65,0 362 389 67,3 142 39 249 agrl
al7 aua 1803 A 40 59 37 209 19.7 170 217.0 3,7 220,8 112,8 95,8 266 533 -16,1 166 51 201 aua
al8 oan1 1517 S1 50 18 37 188 21,0 139 155,2 155,2 77,1 101,2 326 424 23,1 181 46 250 oan1
al9 oan2 914 S2 50 -96 51 129 26,8 158 104,6 104,6 110,9 6,1 407 288 138 132 35 305 oan2
alp1 pub 601 S1 25 -70 82 70 30,0 50 87,4 poly12 87,4 34,4 153,9 634 205 141 13 7 161 pub
alp2 rpl 527 A 50 119 31 229 15,2 213 256,3 9,4 265,7 370,9 39,6 260 467 -32,3 112 194 273 rpl
alp3 rpm 1847 S1 50 27 38 194 20,8 157 164,3 164,3 187,2 13,9 330 457 10,3 162 41 213 rpm
alp4 rru 2136 D2 40 -60 53 152 27,6 177 128,4 128,4 97,7 31,4 279 433 112 143 33 287 rru
alp5 rtb 505 A 50 123 30 230 14,8 219 245,6 11,9 257,6 275,2 6,9 269 457 -29,7 105 198 273 rtb
alp6
arc1 mba 2379 P1 60 - - 247 13,2 23 93,0 14,5 107,5 54,4 97,6 219 324 -61,8 222 297 457 mba
arc2 mfe 2011 P1 60 -57 27 200 16,9 58 91,0 0,0 91,0 36,6 148,8 236 296 2,0 234 232 468 mfe
arc3 mfi 1545 A 30 15 39 185 22,4 147 192,8 192,8 97,4 98,0 203 511 27,8 199 60 287 mfi
arc4 mja 1069 D2 35 50 40 153 19,0 28 191,4 poly12 191,4 125,2 52,9 435 396 59,9 98 11 169 mja
arc5
bac1 ban 3289 S2 50 52 37 199 21,0 163 150,4 150,4 95,1 58,2 324 446 2,1 177 51 230 ban
bac2 bsu 2512 S2 50 -6 47 166 23,9 206 161,1 161,1 105,4 52,9 398 436 55,7 91 20 166 bsu
bac3 lam 1248 D2 40 -35 48 149 24,9 188 153,9 153,9 119,0 29,3 373 417 73,7 116 20 136 lam
bac4 lbu 1098 D2 40 23 38 184 20,1 162 196,0 196,0 63,3 209,7 341 459 20,9 133 46 200 lbu
bac5 lmo 1849 A 50 65 34 201 17,2 178 195,8 0,0 195,8 91,3 114,4 425 439 0,0 109 28 136 lmo
bac6 pmq 4540 D1 40 - - 284 12,2 63 278,7 39,8 318,5 40,2 692,2 226 615 -134 216 78 159 pmq
bac7 ppm 3176 P1 60 63 36 219 20,2 153 146,3 2,7 149,0 40,2 270,7 318 462 -34,0 185 70 220 ppm
bac8 ppmp 438 S2 50 14 37 196 21,1 131 209,2 209,2 102,7 103,7 215 450 9,1 203 123 336 ppmp
bac9
bct1 myr 2273 D2 46 76 39 128 25,0 39 - poly3 - 94,2 - 414 283 113 111 79 303 myr
bct2 fps 1628 D2 25 55 44 121 28,2 35 - poly3 - 129,6 - 290 380 137 131 62 330 fps
bct3
bde1 cvi 2412 S1 45 56 49 121 31,9 40 - poly3 - 99,5 - 359 328 164 110 39 313 cvi
bde2 ade 2335 S1 47 54 47 122 30,6 35 - poly3 - 97,3 - 408 314 154 90 34 278 ade
bde3 ant 1700 D1 44 63 44 120 25,6 48 - poly3 - 115,9 - 538 295 102 48 17 167 ant
bde4
clo1 cbc 2572 P2 50 -23 30 165 19,2 88 80,0 80,0 38,7 106,7 318 292 56,0 208 127 390 cbc
clo2 cbei 4010 P1 70 33 25 228 16,4 69 87,7 7,9 95,6 43,4 120,4 314 348 -46,4 236 149 339 cbei
clo3 cbn 1775 D2 50 15 38 186 20,5 150 156,5 156,5 61,0 156,7 368 422 28,2 146 35 210 cbn
clo4 cdc 2589 D3 40 - - 283 10,4 34 221,5 29,5 251,0 60,6 313,9 333 486 -98,9 185 95 181 cdc
clo5 cdc8 2727 D3 40 - - 300 9,4 34 243,4 30,8 274,2 62,1 341,7 337 488 -95,0 181 89 175 cdc8
clo6 cle 2900 P2 50 -26 35 181 19,6 114 105,5 105,5 60,9 73,4 372 366 35,5 162 64 262 cle
clo7 hmo 1867 D3 50 -67 47 152 25,7 144 105,3 105,3 109,5 4,1 308 364 94,3 176 58 328 hmo
clo8 psor 2350 A 50 91 30 219 16,4 162 183,5 7,0 190,6 103,1 84,8 379 451 -30,6 145 56 170 psor
clo9
cya1 npu 3999 D3 30 20 35 196 21,5 119 166,7 166,7 349,2 109,4 99 519 6,0 230 147 382 npu
cya2 pmg 948 D1 46 23 58 105 31,1 49 - poly3 - 104,7 - 536 267 121 54 22 197 pmg
cya3
ga1 amed 2382 A 50 18 44 186 23,7 183 186,1 186,1 92,2 101,8 267 491 29,8 166 46 242 amed
ga2 eal 2286 S2 43 11 43 156 17,0 22 183,7 poly12 183,7 77,6 136,7 371 353 64,7 151 60 276 eal
ga3 eco 2204 D2 46 48 41 119 28,5 27 - poly3 - 81,1 - 398 274 157 142 29 328 eco
ga4 ecoN 2822 D2 37 56 42 118 28,0 34 - poly3 - 95,5 - 363 313 144 135 44 324 ecoN
ga5 spl 2482 S2 50 -74 42 151 24,0 123 91,4 91,4 82,9 10,3 295 326 91,9 185 102 379 spl
ga6 vha1 1945 S2 50 -1 37 189 20,1 133 157,6 157,6 42,8 268,1 328 420 17,0 160 75 252 vha1
ga7 vha2 1075 S2 40 44 34 197 19,4 141 198,9 198,9 208,8 5,0 277 456 1,9 187 78 267 vha2
ga8 vpb1 1757 S3 60 67 31 218 16,6 138 170,3 3,8 174,1 155,2 12,2 408 416 -25,0 149 53 176 vpb1
ga9 vpb2 828 D2 50 -27 35 186 19,8 108 164,5 164,5 68,9 138,7 336 389 10,9 188 76 275 vpb2
gam
neg1 afn 1385 P2 50 -30 35 164 19,8 119 114,5 114,5 34,3 234,0 435 325 45,5 155 39 240 afn
neg2
spi1 scc 1000 D1 46 41 41 159 15,0 29 185,0 poly12 185,0 80,4 130,2 423 336 56,0 151 34 241 scc
ter1 abra 980 A 40 -4 40 165 20,4 171 169,1 169,1 42,0 302,3 420 407 44,9 94 34 172 abra
ter2 apal 919 A 28 63 38 151 18,0 30 202,2 poly12 202,2 127,2 59,0 396 398 68,6 96 41 206 apal
ter3
clade gen effect frm x50 soma somo flexa flexo a’ sup10 sup200 supt sup diff sup% %1 flex % r200 r400 rfin %rest ttsup
m 198,7 20,0 157,3 177,9 92,7 328,3 407,5 41,4 149,8 51,3 252,9 165,2
e 36,6 4,0 30,3 58,0 19,8 65,1 79,2 36,1 46,2 21,4 80,4 58,6
m/e 5,4 5,0 5,2 3,1 4,7 5,0 5,1 1,1 3,2 2,4 3,1 2,8
n 43 43 36 43 40 43 52 54 43 58 48 58
freq1 freq1 freq1
plages 27 129-199 5 9-15 88-219 80 54-130 10 <32 332,6 315,4 15 <0 13 17-102 353,2 2 80
11 <230 29 16-22 23 8 91-114 9 34-43 15 53-110 63,5 75,1 16 <30 2 50 2 7-11 95,0 16 87-116
4 <285 7 23-25 5 34-69 27 128-230 6 <209 10 114-170 5,2 4,2 12 <74 36 90-166 7 123-232 3,7 33 128-230
300 2 27 267 7 251-318 3 >274 8 >209 53,0 54,0 15 <218 19 176-236 297 58,0 7 251-318
Intergen51. Classement des courbes CDS-CDS positifs continus fc200. Calcul du rebond en freq10. Note[modifier | modifier le wikicode]
  • Problématique des diagrammes fc200
    - Beaucoup de courbes de tendance en polynôme de d°3, des diagrammes du tableau fc200 en freq1, ne m'ont pas parues satisfaisantes en comparaison avec les tendances en polynôme de d°12 dont les liens sont en en-tête du tableau fc200 (les poly12). Ceci est du au fait que je m'attendais à retrouver le point d'inflexion des courbes en d°3 des diagrammes en freq10 (exemple la courbe fc41 de spl) dans la plage xm-200 des diagrammes en freq1. Or ces derniers ne tiennent pas compte des fréquences de 200 à 400. Ce qui fait que si le point d'inflexion, en freq10, est supérieur à 200 celui en freq1 ne représente plus le point d'inflexion recherché sauf quand la somme des fréquences de la plage 200-400 est faible (exemple pub pmg ant avec respectivement 13 48 54‰ dans la colonne r400). Aussi j'ai eu l'idée d'appliquer le point d'inflexion des diagrammes en freq10 aux diagrammes en freq1 à condition de diviser par 10 son ordonnée. Cependant 9 génomes, toujours en s'appuyant sur les poly12, sont mieux représentés avec le point d'inflexion des freq1, en poly3, car le rebond est trop pointu en freq1 et plus étendu en freq10 à cause des regroupements en lot de 10 fréquences. Ces génomes sont ase myr fps cvi ade ant pmg eco ecoN, colorés en gris non soulignés. Six autres génomes ne conviennent, en polynôme de d°3, ni en freq1 ni en freq10. Ce sont apal scc pub agrl eal mja, colorés en gris souligné. J'ai estimé à l’œil le point d'inflexion de poly12, de ces 6 génomes, qui me parait le mieux représenter la fin du rebond et je l'applique au calcul du rebond en freq1 comme si c'était un polynôme de d°3. La construction de ce tableau m'a permis de comparer les rebonds calculés en freq1 et freq10 pour les 43 génomes restant.
    - Les 15 génomes qui ne peuvent pas être traités en freq10: voir tableau en bas de la note.
    + Les courbes poly12 permettent de visualiser leur inadéquation avec les courbes poly3 en freq10. Ce sont les génomes  agrl pubeal eco ecoN ade cvi antasemjaapal scc myr fps pmg
    + Parmi ces génomes seul apal a un flexa inférieur à celui des freq1, 103‰ contre 127, alors que l'apport de r400 aurait du l'améliorer. Aussi j'ai opté pour le diagramme de poly12.
    + Les autres 14 génomes présenteraient des rebonds énormes si on les calculait avec leur point d'inflexion: tous ont une ordonnée (flexo10), qui divisée par 10, est inférieure à 0.5‰ sauf pour scc avec 0.7‰, alors que la moyenne des 43 génomes, retenus en freq10, est de 2.02‰ équivalente à celles des 14 en freq1 (flexo1); En plus j'ai représenté le relevé de l'ordonnée du sommet de la courbe en poly12 (somo12), elle tourne autour de 5‰ pour montrer le grand écart entre flexo10 et somo12, 5-0.5, ce qui rendrait le rebond inexistant; Ensuite l'abscisse du point d'inflexion (flexa) est très grand, dépassant les 400‰ pour 5 d'entre eux et 8 sont supérieures (plus de 319‰) à celles des 43 génomes retenus pour les comparaisons et qui sont inférieures à 300‰.
    + Pour ces 14 génomes la plage 200-400 ne leur apportent rien de plus que la plage xm-200 puisque le reste r200 est très important par rapport au reste r400 et rfin. Ce qui explique l'impossibilité d'améliorer leur diagramme pour un flexa supérieur et un flexo conséquent.
    + Enfin la tangente au point d'inflexion est négative pour 6 d'entre eux. Cela veut dire, suivant la définition du tableau principal, qu'elle est réellement positive et que le sommet de la courbe (soma somo) ne fait pas partie du rebond, puisqu'il se trouve après le point d'inflexion (voir dans le lien au tableur les équations et les résultats de ces pentes négatives).
    + J'ai ajouté les 3 génomes cdc cdc8 pmq à flexo moyen, autour de l'unité, pour comparaison.
  • Comparaison des rebonds et adéquation avec les courbes poly12: colonne diff sup%. Le rebond est calculé avec xm flexa flexo de 43 diagrammes en freq10.
    - différence inférieure à 32%, il y en a 10
    + 8 génomes ont une différence très faible, entre 4 et 12%. Ce sont les génomes qui ont un sup très élevé, vpb1 sma rpm(188) vha2(208) rtb(275) avec les classes respectives (C62 C63 C63 C71 C71), ou un sup fort, spl hmo oan2 resp. (C31 C52 C52). Les paramètres flexa et flexo sont à peu près les mêmes entre sup10 et sup.
    + 2 génomes ont une différence de 30% et aussi à spu élevé, rru lam avec resp. 98 et 119‰ et les classes C43 C61.
    - différence 53-110%, il y en a 15
    + 2 génomes ont une différence de 55% et ressemblent à rru déjà vu précédemment. Les 2 génomes que j'ai choisis en poly12, agrl et mja, se comportent resp. comme bsu et ban avec à peu près les mêmes différences
    + 6 génomes ont une différence entre 73 et 85% et se trouve parmi eux rpl qui s'aligne avec son homologue, rtb, et a un flexo anormal de 0.14 en freq1.
    + 7 génomes ont une différence entre 98 et 109% et se trouve parmi eux npu qui a un flexo anormal de 1.02 en freq1.
    - différence 114-169%, il y en a 10
    + Ce groupe est analogue aux 73-85 et aux 98-109. Ces 3 groupes montrent la pertinence de l'utilisation du point d'inflexion en freq10 par rapport à celui de freq1. Sur les 23 génomes 6 ont un rebond freq1 anormal, rpl pour le 1er groupe, mba cbc npu pour le 2ème et cbei mfe pour le 3ème.
    + Les autres ont un rebond freq1 qui évolue dans le même sens que celui de freq10. Les 5 du 1er ont une moyenne resp. de 119 et 212, les 4 du second 100 et 201 et les 8 du 3ème 80 et 192.
    + Pour les anormaux, j'ai déjà discuté de rpl et npu et les autres se distinguent par un %rest très grand qui s'étale sur r400 et rfin presque à égalité, resp. pour mba cbc cbei mfe, 457% 390 339 468. Pour ce %rest, rpl rejoint rtb avec 273% et r200 négatif -30%; npu avec 382% et 6% pour r200, lui se comporte comme mfe resp. 468 et 2%. Les génomes qui ont un r200 très négatifs sont rpl rtb mba cbei. Le génome cbc se distingue par un r200 très positifs commun aux normaux.
    + Les 3 génomes poly12 qui restent, scc eal et pub s'intègrent parfaitement dans le 3ème groupe ave scc et eal normaux et pub anormal. Mais les 3 ont un %rest faible comme les non poly12 normaux, resp. 241 276 161.
    - différence supérieure à 210%, il y en a 8: pmq ppm lbucdc cdc8afn abra  vha1
    + Je les ai réunis dans le 2ème tableau des extrêmes avec 2 évaluations de la différence pour montrer sa constance, sauf pour lbu qui chute drastiquement à 128%, avec le x50 à 40 et rejoint de ce fait le groupe 3 à 114-169% de différence.
    + Les 4 génomes que j'ai pu tester avec 2 x50 gardent leur différence, afn vha1, ou bien la baisse, abra ppm, sans jamais descendre en dessous de 200%. Je rappelle que le choix du x50 que j'ai fait suis la règle du plus ± 10 entourant le minimum local. Ceci est du à l'incertitude du minimum local en fc200 qui peut être dans les 3 x50. Ainsi seul ppm a réussi le test des 3 x50, celui de 50 non représenté ici, a les valeurs respectives du tableau à 201 20,8 et 293.
    + Les génomes cdc cdc8 pmq: je n'ai pas pu tester les 3 x50. Les 2 cdc et cdc8 ont un minimum local à x50 et pmq à 70. Il s'est avéré que, pour ce dernier, x60 et x70 ont un flexa négatif et le flexo du x80 est trop petit (6.4 du même niveau que les 14 exclus).
     Comme les 3 x40 ont un flexa supérieur à 280, les plus élevés des 58 génomes, j'ai utilisé le x30 pour faire diminuer le flexa. Cependant le sup10 n'a plus le même sens qu'avec les autres génomes où le sup10 est calculé à partir du milieu du x50 ( cest à dire 35 pour x40 , 45 pour x50 ...). Aussi j'ai appliqué le flexo du x30 tout en calculant le sup10 par rapport au minimum local, c'est à dire pour cdc et cdc8 le sup10 commence à 45 et à 65 pour pmq. Pour pmq , cependant j'ai pris 55, car x30 est trop loin de x70.
     J'ai appliqué les mêmes calculs pour x40 pour comparaison et dans le tableau j'ai ajouté la ligne du x40 dont le sup10 est calculé à partir de 35. J'ai différencié les calculs sur le tableau en cyan pour le calcul à partir de 45, en jaune à partir de 55 et en blanc à partir de 35.
     Malgré toute cette contrainte à la baisse de diff%sup, elle ne descend pas en dessous de 220% pour cdc cdc8 et pour pmq, elle reste largement extrême à 413%. Pour aller plus loin dans ce sens j'ai étudié le cas de x20 comme x30. Pour cdc et cd8 la pente est négative et donc le diagramme n'a plus de sens. Pour pmq les valeurs du tableau sont resp. 261 14,1 et 379.
     Comme pour les anormaux du groupe 53-169%, mba mfe cbe cbc rpl, cdc cd8 pmq se distinguent par un r400 très grand qui s'étale sur rfin presque de moitié, resp. pour cdc cdc8 pmq 185 181 216. Mais contrairement à ceux du groupe, le r400 est le plus utilisé parmi les 58 génomes comme on le voit dans la colonne r200 en négatif, resp. -99 -95 -134%, soit la moitie de leur r400.
    - Adéquation des 43 génomes aux diagrammes poly12
  • Comparaison des plages
  • Comparaison des points d'inflexion en freq1 et freq10. lien tableur
    - Légende, voir tableau principal. Pour apal le point d'inflexion en freq1 a une abscisse de 127‰ à comparer avec freq10 de 103‰. flexo1 pour ordonnée du point d'inflexion en freq1, et somo12 pour estimation de l'ordonnée du sommet en poly12.
Int51. Les diagrammes fc200. Comparaison des points d'inflexion en freq1 et freq10
Int51.1 Les 14 génomes à flexo faible en freq10
gen x50 a’ flexa flexo poly flexo1 somo12
eco 60 36,8 366 3,83 3 2,85 4,5
ecoN 50 -4,7 433 4,45 3 2,80 4,8
myr 60 -5,3 437 3,40 3 2,50 4,2
fps 30 38,4 346 4,34 3 2,82 4,8
pmg 50 -10,5 319 2,01 3 3,11 5,5
cvi 40 12,1 372 3,07 3 3,19 6,5
ade 60 -4,4 433 1,8 3 3,06 5,5
ant 50 -38,5 438 3,43 3 2,56 5,1
ase 30 24,4 376 4,33 3 3,48 5,8
mja 50 18,4 414 0,88 12 2,55 4,9
scc 40 24,0 328 6,55 12 2,73 4,2
agrl 60 45,5 337 5,01 12 2,82 5,5
pub 30 -20,7 287 0,91 12 4,26 5,5
eal 50 42,5 350 4,97 12 2,68 4,6
apal 30 185,3 103 30,13 12 2,56 4,7
cd8 40 34,3 300 9,36 - 2,21 3,2
cdc 40 34,5 283 10,4 - 2,19 3,1
pmq 40 62,8 284 12,2 - 2,73 3,7
Int51.1 Les 8 génomes à sup extrême en freq10
gen x50 flexa flexo diff%sup
lbu 40 162 23,3 128
50 184 20,1 210
abra 50 149 23,0 204
40 165 20,4 302
ppm 40 173 24,1 210
60 219 20,2 271
afn 40 152 21,1 225
50 164 19,8 234
vha1 40 177 21,5 263
50 189 20,1 268
cdc 30 260 11,5 218
40 283 10,4 265
cdc 40 283 10,4 314
cdc8 30 263 11,2 227
40 300 9,36 289
cdc8 40 300 9,36 342
pmq 30 270 13,3 413
40 284 12,2 470
pmq 40 284 12,2 692
Intergen51. Les diagrammes CDS-CDS négatifs[modifier | modifier le wikicode]
Intergen51. Les fréquences de -1 à -5[modifier | modifier le wikicode]
  • Liens tableau des 51 génomes et le tableau avec des couleurs.
  • Notes:
    - Les fréquences 1 2 3 4 5: Les 2 lots continu c- et discontinu x- ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 29% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement par les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec la fréquence 8 (18% contre 10%) et la fréquence 2 est quasiment nulle avec un effectif de 11 contre 814 attendus par rapport aux discontinus, 85*23512/2456; la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec la fréquence 8 (3.5% contre 3.6%).
    - Ainsi les 2 processus se comportent de façon inverse pour le taux des 5 1ères fréquences par rapport à leur total: 33% pour les discontinus et 64% pour les continus ce qui explique la forte proportion du reste chez les discontinus, 10.7% contre 1.8%, accentuée par la forte progression des continus par rapport aux discontinus comme je le détaille à la suite. A ce comportement s'ajoute la forte dissymétrie c/x des négatifs, 9.6 contre 2.5 pour la totalité des intercalaires.
Intergen51. La périodicité de 3[modifier | modifier le wikicode]
  • Lien au tableur: les rapports pour t4.
  • Liens: tableau des 51 génomes.
  • Diagrammes:  t3.3  t4
  • Légende du tableau: 2/1 pour effectif de la fréquence 8 modulo 3, sur effectif de celle de 7 modulo 3. x et c pour discontinu et continu
cds-cds. Les fréquences des intercalaires négatifs cds-cds
inter fx- ‰x- 2/1x- fc- ‰c- 2/1c-
-1 4 2 4,140 176
-2 85 35 11 0
-3 3 1 12 1
-4 717 292 10,938 465
-5 5 2 19 1
-6 59 24 6 0
-7 41 17 351 15
-8 89 36 2.20 2,362 100 6.73
-9 47 19 7 0
-10 29 12 213 9
-11 94 38 3.24 1,255 53 5.89
-12 39 16 3 0
-13 35 14 242 10
-14 97 39 2.77 788 33 3.26
-15 43 18 6 0
-16 28 11 123 5
-17 68 28 2.43 537 23 4.37
-18 35 14 9 0
-19 29 12 107 5
-20 51 21 1.76 408 17 3.81
-21 17 7 2 0
-22 21 9 61 3
-23 42 17 2.00 264 11 4.33
-24 28 11 5 0
-25 22 9 91 4
-26 43 18 1.95 246 10 2.70
-27 13 5 3 0
-28 21 9 54 2
-29 43 18 2.05 158 7 2.93
-30 17 7 0 0
-31 20 8 48 2
-32 39 16 1.95 125 5 2.60
-33 14 6 0 0
-34 15 6 32 1
-35 31 13 2.07 125 5 3.38
-36 9 4 0 0
-37 8 3 27 1
-38 27 11 3.40 71 3 2.63
-39 15 6 0 0
-40 14 6 21 1
-41 24 10 1.71 58 2 2.76
-42 7 3 0 0
-43 10 4 31 1
-44 14 6 1.40 47 2 1.52
-45 6 2 0 0
-46 15 6 14 1
-47 19 8 1.27 43 2 3.07
-48 12 5 0 0
-49 13 5 23 1
-50 15 6 1.15 55 2 2.39
reste 264 107 420 18
total 2,456 1000 23,544 1000
  • Note1: Périodicité de 3
    Découverte de la périodicité: Elle est apparue dès les 1ères études des intercalaires négatifs qui ne tenaient pas compte des compléments. En séparant les discontinus des continus, les effectifs des fréquences continues 6 modulo 3 devenaient nulles à partir de la fréquence 15 sur 50 décomptées. Ce phénomène m'a fait penser immédiatement au code génétique à 3 bases. Ce qui m'a poussé à en faire une étude approfondie.
    Signification de cette périodicité pour les intercalaires continus: un intercalaire négatif entre 2 CDS est une partie commune entre eux. Ce qui fait que pour les intercalaires 6 modulo 3 les 2 CDS ont une séquence d'acides aminés identique. Mais pour les intercalaires 7 et 8 modulo 3 les séquences sont différentes, par décalage, entre les 2 CDS. Une différence de séquence ne pose de problème du point de vue fonctionnel pour 2 protéines, mais l'identité de séquence en pose. C'est ce qui explique l'absence d'intercalaires modulo 3 long. C'est ainsi qu'une longueur de 30 pbs limite correspond à 10 aas qui devrait avoir une fonction spécifique peu fréquente. Reste alors, pourquoi la fréquence 8 modulo 3 est avantagée à celle de 7? (voir les taux dans le petit tableau de fin de note) La 1ère explication est que les fréquences 1 et 4 qui appartiennent à la période 7 modulo 3 et qui représentent 64% des intercalaires continus, servent de barrage pour les intercalaires suivants de cette période. Les fréquences 2 et 5 étant de la période 8 modulo 3 et étant nuls laissent la voie libre aux suivants. Mais le problème n'est que reporté aux fréquences de 1 à 5. Je reprendrais la discussion à la fin de ce chapitre.
    La périodicité de 3 chez les discontinus: Celle des continus était très interessante mais celle des discontinus l'est encore plus, puisqu'un intercalaire négatif discontinu entre 2 CDS étant sur 2 brins différents leurs bases sont complémentaires et donc les 2 séquences d'aas sont totalement différentes. Ce qui est intéressant, c'est pourquoi y a-t-il une périodicité? Cela ne peut être qu'une conséquence de la physique de l'ADN au moment des réparations à l'origine de la création du complément. Les fréquences de 1 à 5 sont analogues aux continus,surtout la fréquence 4: est-ce qu'on peut en déduire que les continus subissent une contrainte physique lors du chevauchement? (Voir le petit tableau pour la périodicité le chapitre des fréquences de 1 à 5).
    Les processus probables à l'origine de la périodicité des continus.
    - Les fréquences de 1 à 5: Elles représentent 64% de tous les négatifs continus. Une explication qui me vient à l'esprit est le départ de la transcription d'une base ou plus à l'arrière du 2ème CDS quand les 2 gènes sont contigus. J'avais retrouvé cette situation quand je lisais les séquences publiées par le NCBI. Ceci expliquerait les fréquences 1 et 4, la 1ère crée un déphasage de la lecture ce qui donne une nouvelle séquence d'aas et la 2ème rajouterait, en plus, le codon d'initiation de la traduction Metf.
    - Les fréquences supérieures à 5: Les longs intercalaires ne peuvent pas être expliqués par le dé calage de lecture. Mon idée c'est qu'ils sont créés lors des réparations qui apparaissent avec les contraintes physiques de l'ADN créées lors des réparations de délétions ou lors des transcriptions et de la réplication. Le processus de réparation provoquerait un état vibratoire plus ou moins fort prologeant celui du 1er CDS. Cela se traduirait par un décalage d'une à 3 bases pour respecter la périodicité des 3 bases du code génétique. La force du prolongement de l'état vibratoire serait nulle pour un décalage de zéro bases, conséquent pour une base et très fort pour 2 bases. Et plus la force serait grande plus sera grand le décalage. Ce qui donnerait la périodicité constatée chez les intercalaires continus, effectifs quasiment nuls pour la période 6 et qui s'annulent rapidement, de faibles effectifs pour la période 7 et enfin de forts effectifs pour la période 8. Cependant la période 7 accompagne la 8 jusqu'à 116 pbs et peut prendre le dessus sur la 8 pour les faibles effectifs. Dans la liste des grands intercalaires négatifs continus (ref), sur les 22 supérieurs à 120 pbs, 9 les plus grands à partir de 729 sont des 6 modulo 3 (sauf 1295) et peuvent s'expliquer par la terminaison de la transcription ou de la traduction, un seul 7 modulo 3 le 310 et 12 sont des 8 modulo 3, le dernier étant 500.
    Les processus probables à l'origine de la périodicité des discontinus.
    - Appariement du recouvrement: étant donné la rareté des discontinus négatifs, 2456/200502 soit 1.2%, cela montre qu'un CDS a un état quantique propre, différent des autres gènes et que 2 CDS puissent difficilement s'apparier ou autrement dit, le brin compléméntaire d'un CDS est rarement un CDS. C'est comme si l'état quantique des intercalaires, en général, étaient moins solides que celui d'un CDS. La formation d'une discontinuité se ferait alors plus facilement dans un intercalaire continu positif. C'est effectivement le cas puisque j'ai recensé 2,456 x- contre 51,366 x+, soit 20 fois plus. Ce rapport est encore décuplé si l'on considère le rapport de la longueur totale des intercalaires positifs à la longueur du génome, rapport qui se situe en général autour de 10%.
    - Formation d'un intercalaire discontinu négatif: Sur le schéma suivant je suppose que le gène de séquence b est sur le brin complément du gène de séquence a.
    a  a  a  a  a=  a=  a=  =  =
    °  °  b°  b°  b  b   b   b  b
    Le signe = pour le brin opposé de b, le signe ° pour le brin oppsé de a; a= et b° sont détruits, les 2 brins opposés glissent l'un par rapport à l'autre et a= b° sont remplacées par une base qui maintient le même aa dans la protéine.
    La proximité de 2 CDS imposant chacun sa force quantique contraint le système de réparation à supprimer l'intercalaire qui est entre eux et qui a une faible force quantique et pour résoudre la nouvelle contrainte il détruit quelques bases des 2 gènes pour faire glisser les 2 brins entre eux, ce qui réduit le chromosome. La réduction totale du chromosome est certainement compenser par un allongement plus loin de certains intercalaires positifs de faible force quantique. Au niveau des 2 gènes impactés, ici, le système de réparation reproduit le morceau de chaque gène à l'identique (en aas) contraint par leurs grandes forces quantiques. L'opération ne réussit pas souvent parce que certains aas n'ont pas beaucoup de codons analogues pour changer d'appariement. D'où la rareté du processus. Cependant la réparation résoud les contraintes et renforce encore plus le chromosome qu'il ne l'est par un seul gène sans recouvrement.
    - Conséquence de ce processus sur le recouvrement:
    + Plus la contrainte créée par les 2 CDS est forte plus long sera le recouvrement.
    + Pour les contraintes faibles la périodicité de 3 des CDS n'apparaît pas encore car le recouvrement est court. La périodicité de 2 prend la place avec 2 4 6 et reflète le processus de la réparation qui procèderait par paires de bases. Ce que j'obtiens c'est 3.5% de 2, 29% de 4 et 2.4% de 6. Un recouvrement de 4 paraît comme un minimum pour la consolidation d'un appariemment à problème, comme aussi pour la majorité des CDS moyens ou à force quantique moyenne. La différence de taux de la fréquence 4 entre continus, 47%, et discontinus, 29%, dénote la différence des processus mis en oeuvre.
    + Pour les contraintes fortes, c'est à dire des CDS à grande force quantique, leur périodicité de 3 apparaît à partir de la fréquence 6. Ici la période 6 n'est pas inhibée par chevauchement comme dans les continus. Au total elle a le même effectif que la période 7 (voir les taux dans le petit tableau de fin de note): 431 contre 388.
    + La période 8, dans les discontinus, fait 50% et la 6 26% et la 24%. Dans le CDS la périodicité de 3 ne se révèle qu'à la traduction qui est sensible à l'état quantique de chaque base du codon. Qu'elle est la force de la 1ère base, de la 2ème et de la 3ème base du codon? Je penses que les 2 processus, chevauchement et recouvrement, ont révélés ces forces par leur périodicité de 3. Chez les discontinus, si on considère la 1ère base du codon comme la période 7 alors la 2ème base correspond à la période 8. Ce qui est conforme au code génétique où les 2 premières bases définissent 1 2 ou 4 aas. Ceci est vrai pour les continus, mais étant donné la complémentarité les 2 dernières bases sont à égalité chez les discontinus.
    La périodicité des intercalaires négatifs et les tRNAs.
    - La périodicité des continus rappelle la genèse des tRNAs avec l’absence totale de ceux dont le codon se termine par t, c'est à dire la 3ème base comme les continus. Est-ce la base t ou bien la position du 3ème rang? Ce dernier cas expliquerait le cas du codon cgc qui est absent remplacé par le codon cgt.
    - La périodicité des discontinus rappelle l’occurrence de tous les aas mais n'explique pas pourquoi la répartition des bases chez les intercalaires est de 1 2 1 pour respectivement la 1ère base la seconde et la 3ème. Si j'applique la même règle que pour les continus pour chaque brin, 0 1 1 pour un brin et 1 1 0 pour le complément et en additionnant j'ai bien 1 2 1.
    - Si la genèse des tRNAs utilise le rRNA 5s comme modèle, comme je le montrerais plus loin avec les intercalaires 5s-CDS analogues aux tRNA-CDS, alors le tRNA se formerait, comme pour les intercalaires continus, sur le 5s et non sur le brin opposé et donc devrait s'en séparé par glissement. Si cette hypothèse était vraie alors le mystère de la genèse chez les eucaryotes des tRNA au codon se terminant par t s'éclaircisserait: ils utiliseraient les 2 rRNA 5s et 5,8s comme modèle et le second produirait les tRNA se terminant par t comme font les intercalaires discontinus x-.
    - Dans le tableau qui suit je montre la grande différence de la périodicité 3, entre intercalaires CDS-CDS et tRNA-CDS. Les données des derniers sont dans les intercalaires rares. Ce sont surtout les R- continus qui sont complètement dissymétriques par aux S- continus. Mais la fréquence -4 est nulle pour les R- alors qu'elle représente 50% des S- continus et 30% des discontinus ( voir le tableau des S- ci-dessus).
Totaux des 3 périodes jusqu'à la fréquence 120 pour CDS-CDS					
S-	continus	 		discontinus	
période	effect	%		effect	%
6	43	5.1		431	264.6
7	1604	190.9		388	238.2
8	6755	804		810	497.2
total	8402	1000		1629	1000
-	-	-		-	-
Totaux des 3 périodes jusqu'à la fréquence 44 pour tRNA-CDS					
R-	continus	 		discontinus	
période	effect	%		effect	%
6	4	571		4	444
7	2	286		0	0
8	1	143		5	556
total	7	1000		9	1000
  • Note2: Les diagrammes des périodes 3:  t3.3  t4   et les données dans le tableau des 51 génomes.
    - Construction du diagramme: J'ai représenté chaque période démarrant par 6 7 8 modulo3 (ou dans le titre 0 1 2 modulo 3) avec ses fréquences (freq -1) en abscisse et ses effectifs (effect) en ordonnée, jusqu'à la fréquence 50. J'ai ajouté le total des effectifs de chaque période avec le label diagr. Je ne suis pas allé jusqu'à la fréquence 120 que j'ai utilisée pour la périodicité 9 dans le chapitre suivant. Mais déjà on voit que les diagrammes x- pourraient être représentées par des droites avec des pentes négatives faibles et que les diagrammes c- sont mieux représentées par un polynôme de d° 6, notamment le diagramme 2 modulo3 avec un coefficient de détermination de 0.999. J'ai représenté cependant les 6 diagrammes avec le polynôme de d° 6. C'est ce qui permet de mettre en évidence la périodicité 9 des x- et pas des c-. Le tableau en fin de Note2 affiche les pentes et les effectifs des périodes successives de la périodicité 9 de 2 modulo3 x- (2x-) qu'on peut deviner aussi dans 1 modulo3 x-.
    - Les rapports entre périodes: J'ai représenté dans l'image t4 les rapports entre 2 périodes de x- entre celles de c-. Par exemple le diagramme 2/1x- est le rapport de l'effectif de la période 2 modulo3 sur celle de 1 modulo3 des x-. Il est indiqué dans le tableau coloré des négatifs en début de chapitre et on peut le retrouver en tableur au début aussi du chapitre. Pour les continus je n'est représenté que 2/1c-, la période 0 c- ayant beaucoup de valeurs nulles. Je retrouve avec ces diagrammes la périodicité 9 des x- avec 2/1x- où j'ai éliminé les rapports des fréquences 11 et 34 (j’ai donné le R2 avec ces 2 rapports). Il ressemble étonnamment à celui de la période 2 modulo3x-. Il montre la corrélation entre les périodes avec la pente de la droite et les séquences de la période 2 modulo. Les rapports de 1/0x- montre une pente faible mais pas de séquences périodiques avec un R2 faible de 0.504. Les rapports de 2/0x- ne montrent même de décroissent avec un R2 quasiment nul de 0.035. Le diagramme 2/1c- ne met pas en lumière la périodicité 9. Il a une décroissance polynomiale nette et ne présente pas de séquences périodiques comme 2/1x-.
    - Mise en évidence de la périodicité 9 chez les discontinus x- avec les droites des diagrammes t3.3. Pour les c- la pente est calculée entre les 2 1ères fréquences. J'ai ajouté les R2 des polynômes de d° 3 pour comparer à d'autres diagrammes du chapitre des négatifs.
 poly3	R2	pente	*mod3	8	14	23	35
							
2x-	930	-1.97	*2 x-	89	97	42	31
1x-	895	-0.64	*	94	68	43	27
0x-	926	-1.12	*	97	51	43	24
2c-	960	-369	*				
1c-	951	-46	*pente	1.33	-7.67	0.17	-1.17
Intergen51. La périodicité de 9[modifier | modifier le wikicode]
  • Lien au tableur: les données pour t3.9
  • Diagrammes:  t3.9
  • Périodicité de 9 : Le tableur contient tous les négatifs au-delà de -51 ainsi que les 6 périodes de 9, 6c 7c 8c 6x 7x 8x. Ci-dessous sont représentées les périodes 7c et 7x des continus et des discontinus ainsi que les 3 types d'ordonnées commençant par 6 7 8 des 3 périodes de la périodicité 9..
    - Chaque colonne a b c est une périodicité de 9 et la colonne t est leur total. Une ligne correspond à 3 périodes de 3. Dans l’exemple ci-dessous la 1ère ligne correspond aux effectifs des fréquences 7 10 13 des colonnes 7a 7b 7c et 7t la somme des effectifs de ces 3 fréquences, la 2ème ligne correspond de même aux fréquences 16 19 22 et ainsi de suite.
    - La colonne 7a a les fréquences 7 modulo 9 c'est à dire 7 16 25 ...etc, et la colonne 7b les fréquences 10 modulo 9, 10 19 34 ...etc.
c-	7ca	7cb	7cc	7ct	*	x-	7xa	7xb	7xc	7xt	*	Les 3 périodes de 9		
7	351	213	242	806	*	7	41	29	35	105	*	6	7	8
16	123	107	61	291	*	16	28	29	21	78	*	15	16	17
25	91	54	48	193	*	25	22	21	20	63	*	24	25	26
34	32	27	21	80	*	34	15	8	14	37	*	33	34	35
43	31	14	23	68	*	43	10	15	13	38	*	42	43	44
52	16	13	6	35	*	52	7	3	8	18	*	51	52	53
61	10	14	17	41	*	61	4	5	8	17	*	60	61	62
70	5	9	5	19	*	70	2	2	2	6	*	69	70	71
79	5	13	7	25	*	79	3	5	2	10	*	78	79	80
88	6	9	9	24	*	88	2	2	1	5	*	87	88	89
97	7	3	1	11	*	97	2	0	1	3	*	96	97	98
106	3	2	2	7	*	106	2	3	0	5	*	105	106	107
115	4	0	0	4	*	115	2	1	0	3	*	114	115	116
  • Les coefficients de détermination de toutes les courbes de tendance en polynôme de d°3, d°6 et leurs effectifs:
	R2	effect	d°6 		R2	effect	d°6 		R2	effect	d°6 
6ca	-	17		7ca	927	684	991	8ca	864	3372	995
6cb	-	19		7cb	969	478	999	8cb	908	2015	999
6cc	-	7		7cc	867	442	986	8cc	913	1368	999
6ct	-	43		7ct	928	1604	994	8ct	887	6755	997
											
6xa	990	173	994	7xa	997	140	998	8xa	993	287	996
6xb	966	129	979	7xb	908	123	930	8xb	975	271	989
6xc	893	129	975	7xc	970	125	988	8xc	953	253	984
6xt	994	431	997	7xt	988	388	988	8xt	987	811	994
  • Note:
    - J'ai montré la construction des diagrammes à la 1ère note "Périodicité de 9" ci-dessus. Je n'ai représenté que les courbes de tendances de 7xa 7ca 7xt 7ct avec leurs R2 en bleu. Sont représentés, affichés aussi, les R2 des 7xb et 7cb (rouge) ainsi que ceux de 7xc et 7cc (en vert). J'ai ajouté le total des effectifs de 7xt et 7ct avec le symbole diagr.
    - Le tableau ci-dessus des R2 de toutes les périodes modulo9 montre que les diagrammes des c- sont mieux représentés en polynômes de d°6, avec les 8 R2 supérieurs à 0.986, que par les polynômes de d°3, avec 7 R2 inférieurs à 0.928 alors même que leurs effectifs sont 10 fois supérieurs à ceux des x-.
    - Le même tableau montre que les x- sont suffisamment représentés par un polynôme de d°3, avec 2 R2 seulement inférieurs à 0.953 (0.908 et 0.893). Les polynômes de d°6 n'améliorent pas la situation comme les c- puis que 5 R2 sont inférieurs à 0.986: 2 avec 0.984 et 0.979 0.975 0.930. On peut attribuer ceci à leurs faibles effectifs relativement à ceux des c-.
    - En conclusion des diagrammes t3.3 t4 et t3.9, les x- avec leur décroissance lente montre bien une périodicité de 9 et les c- ne la montre pas parce qu'il décroissent rapidement et sont mieux représentés par des polynômes de d°6 et non de d°3 qui sont adaptés aux x-.
Intergen51. Les grands négatifs inférieurs à -120[modifier | modifier le wikicode]
  • Lien au tableur: les recouvrements.
  • Les recouvrements
    - Légende
    - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
    - Les opérations:
    + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
    + shift, différence entre les extrémités de droite, des 2 cds, add22-add12. S'il est nul, il est remplacé par celui des extrémités de gauche, add21-add11. Les extrémités identiques, de droite ou de gauche, sont surlignées en jaune.
    + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si les extrémités, d'un des 2 côtés, sont identiques le recouvrement d'un des 2 cds est total.
    - Note:
    - Tous les shift ou adresses colorés, au nombre de 22, ont un recouvrement total et la longueur de leurs intercalaires est supérieure à 310 (eal continu partiel) sauf 3 de eco, continus (242 212 153), et un de bsu discontinu (127). Les 12 intercalaires restants, sans couleurs, ont une longueur inférieure à 311 et des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
    - Les continus ont de longs recouvrements allant jusqu'à 2400 et 12 sur 22 ont un recouvrement supérieur à 310. Les adresses en jaune: la traduction démarre en retrait pour le plus petit gène et garde la même séquence d'aas (idco: la longueur de l'intercalaire est égale au recouvrement) sauf l'intercalaire 153 où le recouvrement est tout à fiat différent pour les 2 gènes (diff); il suit le processus des recouvrements partiels non colorés ou en cyan. Alors que les autres jaunes suivent les processus de la traduction et non ceux des réparations au niveau de l'ADN.
    - Les discontinus, à l'inverse, un seul a 486 pbs de recouvrement sur un total de 12 et 6 sont en dessous de 100 pbs, 5 ayant moins de 297 pbs.
    - Les processus des intercalaires continus sont à 95% des non multiples de 3 comme je l'ai montré dans le chapitre de la périodicité 3. C'est le cas de toutes les adresses en clair et de l'intercalaire 153 qui est en jaune. Les autres jaunes suivant les règles de la traduction sont des multiples de 3. Les 4 adresses en cyan ont des recouvrements multiples de 3 mais n'ont pas d'aas en commun (diff) avec l'autre gène, donc ils suivent les processus partiels des réparations.
    - Les recouvrements des intercalaires discontinus sont totalitaires ou partiels et multiples ou non de 3 bien qu'ils aient de grandes longueurs.
cds-cds-. Les grands intercalaires cds-cds négatifs, les recouvrements.
intercal add1 add2 shift couvre multiple 3 intercal add1 add2 shift couvre multiple 3
continu
bsu eco
-7616 387744 398495 -7475 141 *diff -2400 164730 167264 136 2400 *idco
390880 391020 164865 167264
-2202 3313342 3315543 470 2202 *idco
-500 3717238 3717825 -20 480 *diff 3313342 3316014
3717326 3717805 -2181 3313342 3315522 20 2181 *idco
3313342 3315543
-492 2909520 2910011 735 492 *idco -2130 2731600 2733729 444 2130 *idco
2909520 2910746 2731600 2734173
-1674 1973360 1975033 290 1674 *idco
-164 1252815 1253021 52 164 1973360 1975324
1252858 1253073 -1295 492092 493386 637 1295 idco
492092 494023
-154 2466721 2467953 209 154 -897 4577958 4578854 483 897 *idco
2467800 2468162 4577958 4579337
-729 1179520 1180359 112 840 *idco
-143 1916663 1917097 205 143 1179631 1180359
1916955 1917302 -448 1639030 1639527 -193 255 *diff
rru 1639080 1639334
-137 2068001 2069146 934 137 -242 578107 578568 -59 183 *diff
2069010 2070080 578327 578509
lmo -212 508875 511379 2292 212 *idco
-161 509400 510287 925 161 511168 511379
510127 511212 -153 16751 16903 57 153 *diff
mfi 16751 16960
-161 515362 516138 142 161 eal
515978 516280 -310 1869470 1869865 467 310 diff
1869556 1870332
discontinu
bsu eco
-361 2601528 2603339 -64 297 * -723 3111128 3111988 -663 60 *
2602979 2603275 3111266 3111325
-530 3838248 3839171 -470 60 *
-127 3666841 3667059 -43 84 * 3838642 3838701
3666933 3667016 -527 10643 11356 -41 486 *
10830 11315
-93 2652993 2653463 1410 93 * -495 234027 234782 -462 33 *
2653371 2654873 234288 234320
eal -436 3796948 3798207 -361 75 *
-189 3265916 3266143 1749 189 * 3797772 3797846
3265955 3267892 -210 3993739 3994059 276 210 *
eal 3993850 3994335
-167 1123029 1123934 1507 167 -129 1240260 1240463 1608 129 *
1123768 1125441 1240335 1242071

Intergen51. Les diagrammes CDS-rRNA[modifier | modifier le wikicode]

Intergen51. Les diagrammes CDS-16s[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Les diagrammes CDS-16s.
  • Diagrammes:  t5
  • Comparaison CDS16s 5sCDS
    - Les équations des polynômes de d°3
    CDS16sc f(x) = 1.06E-07 x3 – 2.31E-04 x2 + 1.37E-01 x - 1.28E+01
    CDS16sx f(x) = 2.38E-08 x3 – 5.97E-05 x2 + 4.11E-02 x - 4.25
    5sCDSc  f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
    5sCDSx  f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		CDS16sc		CDS16sx		5sCDSc		5sCDSx
R2		0.687		0.456		0.655		0.592
xs		415.2		487.7		205.9		155.5
plage		180-780		330-750		90-330		60-300
total-p		181		69		75		69
%		86		74		74		78
queue		26		20		26		18
%		12		22		26		20
tête		3		4		3		2
%		1.5		4.3		3.0		2.2
max		450;22		480;9		180;13		120;16
total51		210		93		101		89
freq		30		30		30		30
Intergen51. Les diagrammes 5s-CDS[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Les diagrammes 5s-CDS.
  • Diagrammes:  t5  et  t1  pour les tRNA-CDS
  • Comparaison avec les tRNA-CDS
    - Les équations des polynômes de d°3
    fct    f(x) = 1.04E-05 x3 - 7.10E-03 x2 + 1.21E+00 x + 1.35E+01
    fxt    f(x) = 3.16E-06 x3 - 2.46E-03 x2 + 4.87E-01 x + 9.58
    5sCDSc f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
    5sCDSx f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		fct		fxt		5sCDSc		5sCDSx
R2		0.923		0.600		0.655		0.592
xs		113.5		133.1		205.9		155.5
plage		40-210		40-260		90-330		60-300
total-p		1125		788		75		69
%		58		63		74		78
queue		708		411		26		18
%		36		33		26		20
tête		98		40		3		2
%		5.0		3.2		3.0		2.2
max		110;84		100;57		180;13		120;16
total51		1945		1253		101		89
freq		10		10		30		30
  • Note:
Intergen51. Les CDS-rRNA rares[modifier | modifier le wikicode]
		5sCDSc		23sCDSc	5s16sc	23sCDSx	CDS5sx		CDS16sc	CDS23sc		23sCDSc	5s16sc
R2		0.655		-	-	-	-		0.687	-		188	183
xs		205.9		281	284	158	264		415.2	590		223	265
plage		90-330		90-330	90-330	90-330	90-330		210-780	210-780		237	266
total-p		75		8	7	6	4		181	5		299	267
%		74		67	64	100	100		86	100		313	317
queue		26		4	4	0	0		26	0		322	319
%		26		33	36	0	0		12	0		331	371
tête		3		0	0	0	0		3	0		336	866
%		3		0	0	0	0		1.5	0		357	1107
max		13;180		2;240	3;270	2;150	1;240		22;450	1;540		385	1125
total51		101		12	11	6	4		210	5		446	1319
freq		30		30	30	30	30		30	30		463	

															
23sCDSx	CDS5sx	CDS23sc		16sCDS	16sCDSx	5s16sx							
87	184	407		-3	228	161							
109	228	531		2	CDS23sx	340							
151	301	563		294	182	CDS5sc							
151	343	719		695	16s16sc	52							
188		736		1463	0	335							
260				2466										

Intergen51. Les diagrammes RNA-RNA[modifier | modifier le wikicode]

Intergen51. Les diagrammes rRNA-rRNA[modifier | modifier le wikicode]
  • Lien au tableur: Intergen51. Les diagrammes rRNA-rRNA.
  • Diagrammes:  t6
  • Comparaison entre les 4 rRNA-rRNA
    - Les équations des polynômes de d°3
    16s23sc  f(x) = 1.17E-06 x3 – 1.42E-03 x2 + 4.93E-01 x - 3.98E+01
    16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
    tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
    23s5sc  f(x) = 1.74E-05 x3 – 1.00E-02 x2 + 1.55E-00 x - 3.11E+01
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		16s23s		16stRNA		tRNA23s		23s5sc
R2		0.680		0.474		0.562		0.684
xs		252.2		105.4		198.7		107.9
plage		160-360		80-140		100-320		60-180
total-p		137		112		151		242
%		91		72		87		85
queue		11		35		16		27
%		7.3		23		9.2		9.4
tête		2		8		6		9
%		1.3		5.1		3.5		3.1
max		21;280		32;100		25;280		58;140
total51		150		155		173		286
freq		20		20		20		20
Intergen51. Les diagrammes tRNA-rRNA[modifier | modifier le wikicode]
Intergen51. Les diagrammes tRNA-tRNA[modifier | modifier le wikicode]
Les diagrammes[modifier | modifier le wikicode]
  • Diagrammes:  t7
Comparaison entre 5stRNA et les 3 types de tRNA-tRNA[modifier | modifier le wikicode]
type c		S40	%	R2	diag	total	reste	x+	restes	5stRNA	hors	hors	contig	in
hors		815	65	0.901	260	1254	17	17		155	261	439	138	6*161
contig		669	92	0.900	120	731	6	0		170	269	452	158	
in		72	51	0.454	120	140	6	0		175	278	479	265	
5stRNA		91	59	0.593	120	155	8	1		4*257	297	504	311	
										287	306	532	1472	
											341	539	2351	
											373	634		
											373	718		
												1172		
Les pourcentages des tRNA-tRNA extra bloc[modifier | modifier le wikicode]
  • Les intercalaires tRNA-tRNA hors blocs
hors		gama	alpha	cvi	ade	ant	bacilli	clostri	afn	ase	3actino	archeo	bact	cyano	tener	scc
20		20.3	12.5	36.4	6.9	58.6	68.4	70.3	81.5	51.0	22.4	12.2	8.3	79.3	73.3	20.0
40		31.2	27.3	45.5	16.7	20.7	21.1	16.8	7.4	12.2	36.2	12.2	56.7	0	6.7	70.0
60		24.6	18.2	13.6	16.7	6.9	3.0	5.0	7.4	8.2	22.4	8.2	18.3	6.9	0	10.0
80		6.3	6.8	4.5	16.7	6.9	0.8	3.0	0	4.1	5.2	24.5	0	3.4	20.0	0
100		5.1	4.5	0	0	6.9	1.5	1.0	0	6.1	3.4	18.4	5.0	6.9	0	0
120		6.0	4.5	0	0	0	2.3	0	3.7	4.1	0	12.2	0	0	0	0
140		1.7	5.7	0	8.3	0	0	0	0	0	1.7	2.0	0	0	0	0
160		1.0	3.4	0	8.3	0	0.8	1.5	0	8.2	0	0	3.3	3.4	0	0
180		0.2	4.5	0	0	0	0	0	0	0	1.7	4.1	0	0	0	0
200		1.2	1.1	0	0	0	0	0.5	0	2.0	0	0	1.7	0	0	0
220		1.2	8.0	0	0	0	0	0	0	0	3.4	0	1.7	0	0	0
240		0	0	0	0	0	0.8	0.5	0	0	1.7	2.0	1.7	0	0	0
260		0.2	1.1	0	8.3	0	0.8	0.5	0	2.0	1.7	0	0	0	0	0
restes		1.0	2.3	0	8.3	0	0.8	1.0	0	2.0	0	4.1	3.3	0	0	0
total		414	88	44	12	29	133	202	27	49	58	49	60	29	15	10
																
repete		47.8	55.4	53.3	0	11.1	11.4	12.0	11.1	13.3	45	25.7	77.8	40	0	0
sequence	21.7	0	26.7	0	11.1	2.9	22.0	11.1	0	6	11.4	0	0	0	0
éclaté		-	-	-	-	0	5.7	0	0	0	-	-	-	0	0	-
sans		30.4	44.6	20.0	100.0	77.8	80.0	66.0	77.8	86.7	48	62.9	22.2	60	100	100
clusters	115	65	15	6	9	35	50	9	15	31	35	27	5	8	4
																
5		-	-	-	-	10.3	23.9	29.7	29.6	34.7	-	-	-	41.4	13.3	-
10		-	-	-	-	13.8	24.6	23.3	33.3	2.0	-	-	-	34.5	33.3	-
15		-	-	-	-	17.2	12.3	6.9	11.1	8.2	-	-	-	3.4	20.0	-
20		-	-	-	-	17.2	5.1	10.4	7.4	6.1	-	-	-	0	6.7	-
  • Les intercalaires tRNA-tRNA contigus aux blocs
contig		bacilli	clostri	tener
20		77.4	85.3	70.0
40		13.4	8.7	5.0
60		4.9	2.7	20.0
80		1.0	0.7	5.0
100		1.0	2.0	0
120		1.0	0.3	0
140		0.8	0	0
160		0.3	0	0
180		0	0	0
200		0	0	0
220		0	0	0
240		0	0	0
260		0	0	0
restes		0.3	0.3	0
total		389	300	20
				
repete		0	3.2	0
sequence	0	9.7	0
éclaté		21.6	16.1	0
sans		78.4	71.0	100
clusters	37	31	2
				
5		26.2	24.0	20.0
10		23.9	41.0	30.0
15		15.7	15.3	15.0
20		11.6	5.0	5.0

Intergen51. Les RNA-RNA rares[modifier | modifier le wikicode]
type c		S40	%	R2	diag	total	reste	x+	
5stRNA		91	59	0.593	120	155	8	1	
tRNA5s		15	65	0.302	17	23	8	
******	
restes	
tRNA5s	tRNA16s	23stRNA	16s5s	5s23s	5s5s
149	459	476	néant	230	748
149	1063				89
336			
777			
1112			
1360			
  • Comparaison avec les rRNA-rRNA analogues
    - Les équations des polynômes de d°3
    16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
    tRNA16sc f(x) = 1.20E-06 x3 – 8.01E-04 x2 + 1.54E-01 x – 6.62E+00
    tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
    23stRNAc f(x) = -1.26E-05 x3 + 2.37E-03 x2 – 5.95E-02 x + 5.71E-01
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		tRNA16sc	16stRNAc	23stRNAc	tRNA23sc
R2		0.532		0.474		0.681		0.562
xs		140.5		105.4		111.2		198.7
plage		80-220		80-140		60-140		100-320
total-p		16		112		23		151
%		80		72		92		87
queue		4		35		1		16
%		20		23		4		9.2
tête		0		8		1		6
%		0		5.1		4		3.5
max		4;120		32;100		8;120		25;280
total51		20		155		25		173
freq		20		20		20		20
  • Comparaison de 5s16s et 16s5s: voir Les CDS-rRNA rares. bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
    - Note. le xs sans R2 est la moyenne de la plage et bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
	5sCDSc	5s16sc	16s5sc		effect	16s5sc			5s16sc			5s16sx	
R2	0.655	-	-		7	79	6cle 1cbc	183	bacilli		340	archeo
xs	205.9	284	198		1	102	ppm		265	bcts		161	clostridia
plage	90-330	90-330	90-330		1	117	ppm		266	bcts			
total-p	75	7	21		1	144	cle		267	bcts			
%	74	64	100		1	146	cle		317	gama			
queue	26	4	0		3	261	hmo		319	gama			
%	26	36	0		2	262	hmo		371	gama			
tête	3	0	0		1	336	hmo		866	actino			
%	3	0	0		4	337	hmo		1107	clostridia			
max	13;180	3;270	7;90						1125	clostridia			
total51	101	11	21						1319	gama			
freq	30	30	30