Génomique et Bioinformatique: Fondamentaux
10 cartesComprend les bases de la génomique, de la bio-informatique et des structures d'ADN. Mettant en évidence les différences entre les génomes procaryotes et eucaryotes, les structures des chromosomes, et les mécanismes de réplication et de transcription. Nécessaire pour les étudiants en sciences de la vie.
10 cartes
Génome, Génomique et Bioinformatique : Cheatsheet Essentiel
Introduction au Génome
Génome : L'ensemble complet de l'ADN d'un organisme.
Comprend :
Séquences codantes (CDS) : pour les protéines.
Séquences non codantes : non transcrites ou transcrites mais non traduites.
Génomique et Bioinformatique
Génomique : Étude du génome entier et de ses séquences.
Objectif : Comprendre la fonction du génome dans son intégralité.
Outils : Bioinformatique pour analyser de vastes quantités de données.
Bioinformatique : Application de l'informatique à la biologie.
But : Stocker, extraire, organiser, et analyser des données biologiques (données omiques).
Nouvelles Technologies (NGS) : Génèrent d'énormes volumes de données, nécessitant des outils bioinformatiques pour l'analyse, l'organisation et la prédiction du comportement biologique.
Historique et Découverte de l'ADN
Avant 1944 : Inconnaissance du support de l'hérédité.
1944 (O. Avery) : L'ADN est identifié comme responsable de la transmission des caractères (dégradation de l'ADN supprime le caractère pathogène).
1953 (Watson et Crick) : Découverte de la structure en double hélice de l'ADN.
Conduit au développement de la génétique moléculaire.
Conformations de l'ADN
ADN-B :
Forme classique (Watson et Crick), la plus courante.
Double hélice droite.
Grand sillon large, petit sillon étroit et intermédiaire.
ADN-A :
Plus courte, plus large et plus compacte.
Se forme en conditions de déshydratation.
Conformation typique de l'ARN.
ADN-Z :
Structure en zigzag (hélice gauchère).
Plus étroite et plus longue par paire de bases que l'ADN-A et -B.
Rôle dans la libération des tensions lors du surenroulement.
Associée à la méthylation des cytosines dans les régions actives de transcription.
Organisation du Génome : Procaryotes vs Eucaryotes
Caractéristique | Génome Procaryote | Génome Eucaryote |
|---|---|---|
Structure Principale | Une seule molécule d'ADN circulaire. | Plusieurs chromosomes linéaires. |
Localisation | Dans le nucléoïde (région irrégulière du cytoplasme). | Dans un noyau délimité par une membrane. |
Noyau | Pas de vrai noyau délimité. | Noyau présent avec enveloppe nucléaire. |
ADN Supplémentaire | Plasmides (ADN circulaires ou linéaires, confèrent des avantages comme la résistance aux antibiotiques). | ADN dans les mitochondries (en plus du génome nucléaire). |
Compaction | Associé à des protéines HU (histone-like proteins) pour la compaction. | Associé aux histones pour former la chromatine. |
Gènes | Non mentionné spécifiquement, mais plus simple. | Gènes avec exons (codants) et introns (non codants, retirés lors de la transcription). |
Séquences non codantes | Moins significatif. | Grande proportion de séquences non codantes. |
Structure Fine de la Chromatide (Eucaryotes)
Généralités
L'ADN eucaryote n'est jamais nu, toujours associé à des protéines (et ARN).
Cet ensemble forme la chromatine.
Rôle des protéines de la chromatine : protection, réparation, pérennisation de l'information, et régulation de l'expression génique.
Diamètre de la fibre chromatinienne : 100 à 700 nm, pouvant atteindre 30 nm ou 11 nm.
Niveaux de Compaction de la Chromatide
Collier de perles (Fibre de 11 nm) :
Structure de base, visible après digestion ménagée par la nucléase micrococcale.
Unités répétées : Nucléosomes.
Chaque nucléosome est constitué de :
~200 pb d'ADN.
Octamère d'histones (2 H2A, 2 H2B, 2 H3, 2 H4). Le cœur est un tétramère (H3-H4)2 flanqué de deux dimères H2A-H2B.
146 pb s'enroulent autour de l'octamère (1,7 tours).
Quelques protéines non histones.
Les nucléosomes sont séparés par de l'ADN lieur (20 à 100 pb).
Histone H1 : Se lie aux sites d'entrée/sortie de l'ADN, stabilisation des structures d'ordre supérieur.
Fibre de 30 nm :
Le collier de perles (fibre de 11 nm) se bobine en hélice torsadée.
Environ six nucléosomes par tour d'hélice.
Stabilisée par l'histone H1.
Boucles radiales de 300 nm :
Les fibres de 30 nm se replient en boucles (rosettes).
Chaque boucle peut contenir jusqu'à 100 000 pb.
Associées à un squelette central protéique (échafaudage).
Niveau de compaction pour le rangement de l'ADN en interphase et maximum en mitose.
Rosettes empilées (700 nm) :
Le superenroulement des boucles de 300 nm.
L'empilement de rosettes forme une fibre de 700 nm (avant la compaction finale en chromosomes mitotiques de 1400 nm).
Histones et leurs modifications
Histone Fold : Motif structurel conservé dans les histones, caractérisé par des hélices alpha séparées par deux boucles, facilitant la formation de l'octamère.
Modifications post-traductionnelles :
Méthylation, Acétylation, Phosphorylation, Ubiquitination.
Rôle : Régulation de la structure de la chromatine et de l'expression des gènes.
Chromosomes en écouvillon
Visibles au stade diplotène de la méiose (ovocytes).
Forme étendue (10 à 100 fois celle des chromosomes mitotiques) en forme de chapelets de chromomères.
Grandes boucles sortent radialement, représentant des régions de chromatine décondensée et transcrite.
Preuve de l'organisation du génome en boucles.
Superenroulement de l'ADN Procaryote
L'ADN circulaire procaryote doit être compacté.
Superenroulement (surenroulement) : La double hélice est enroulée plusieurs fois sur elle-même.
Facilite l'empilement dans le nucléotide.
Régule l'expression des gènes.
Types :
Positif : ADN enroulé plus étroitement (selon le sens de l'hélice).
Négatif : ADN enroulé moins étroitement (torsion vers la gauche, nécessaire pour la réplication et la transcription).
Enzymes régulatrices : Topoisomérases.
ADN gyrase (topoisomérase de classe II) : Spécifique aux procaryotes, introduit des super-tours négatifs (processus énergivore via ATP).
Fonctions Biologiques des Chromosomes
Perpétuer le matériel héréditaire : Via réplication et répartition égale (mitose).
Assurer le brassage du matériel héréditaire : Via méiose et recombinaison.
Squelette Chromosomique Eucaryote
L'aspect en X des chromosomes mitotiques est transitoire.
Après dissociation des histones, il reste un squelette protéique auquel l'ADN est attaché.
Protéine majeure : Topoisomérase II.
Trois classes de séquences d'ADN essentielles : Centromères, Télomères, Origines de réplication.
Les Centromères
Éléments d'ADN actifs en cis, responsables de la ségrégation des chromosomes.
Chaque chromosome a un seul centromère (constriction primaire), essentiel à la ségrégation.
Fragments acentriques (sans centromère) sont perdus.
Rôle dans la Division Cellulaire
En prophase, formation d'une paire de kinétochores (assemblage protéique de +100 protéines) au niveau de chaque centromère.
Chaque kinétochore est attaché à une chromatide sœur.
Les microtubules du centrosome s'attachent aux kinétochores, créant un lien physique avec les pôles du fuseau mitotique.
En anaphase, les kinétochores tirent les chromatides vers les pôles par polymérisation/dépolymérisation des microtubules.
Séquence des Centromères (Ex: Levure)
Les régions CEN ne s'hybrident pas mais partagent :
Deux courtes régions homologues (éléments I et III).
Une région II riche en A-T (80-90%).
Fonctionnalité :
Mitotique : Dépend fortement de la région III, moins des régions I et II.
Méiotique : Dépend de l'intégrité des trois éléments.
Les centromères fonctionnels ne sont pas spécifiques d'un chromosome.
Chromatine Centromérique (Chromatine CEN)
Propriétés épigénétiques conservées :
Présence de la protéine CenH3 (variant d'histone H3), spécifique à cette chromatine. Forme un nucléosome distinct.
Hypo-acétylation des histones (comme l'hétérochromatine).
Flanquée d'hétérochromatine péricentromérique.
ADN -satellite :
Motifs répétés d'un monomère de 171 pb, organisés en HOR
(Higher Order Repeat).
Contient la CENP-B Box (17 pb), se liant à la protéine CENP-B, essentielle à la formation du kinétochore.
La fonction et position du centromère ne sont pas déterminées par la séquence nucléotidique seule (ex: néocentromères). L'identité dépend d'une structure chromatinienne spécialisée (modifications épigénétiques).
Les Télomères
Extrémités des chromosomes linéaires eucaryotes.
Fonctions multiples :
Protection contre la dégradation par les nucléases.
Maintien de la longueur des chromosomes lors de la réplication.
Rôle dans l'organisation de la chromatine (attachement à la membrane nucléaire).
Influence sur l'expression des gènes à proximité.
Structure :
Longs brins de séquences répétées (chez l'homme : 2-50 kb, 300-800 répétitions).
Brin riche en TG (extrémité 3'), brin complémentaire riche en CA (extrémité 5').
Séquences hautement conservées au cours de l'évolution (ex: TTAGGG chez l'homme).
Le fragment 3' se recourbe en épingle, protégé de la dégradation par les DNAses.
Problème de la Réplication (Énigme)
Les ADN polymérases ne peuvent pas répliquer l'extrémité 5' du brin naissant, conduisant à un raccourcissement à chaque division.
Stabilité des extrémités : Les télomères empêchent la dégradation ou la fusion des chromosomes.
Raccourcissement et Vieillissement
Les répétitions télomériques sont lentement érodées au cours des divisions cellulaires.
Ce raccourcissement est lié au vieillissement cellulaire et limite le nombre de divisions.
Télomérase
DNA polymérase ARN-dépendante (désoxynucléotidyl transférase terminale).
Comprend un ARN-guide (ex: 5'-CUAACCCUAAC...) qui sert de modèle pour ajouter des unités TTAGGG à l'extrémité 3' du brin matrice.
Permet d'allonger les télomères, compensant le raccourcissement.
Expression :
Normalement active dans les cellules souches (germinales et certaines adultes).
Non exprimée dans les cellules somatiques différenciées.
Activité élevée dans les cellules cancéreuses (cible thérapeutique).
Les Origines de Réplication (ORI)
Nécessaires pour initier la réplication de l'ADN et maintenir le nombre de copies.
Contrôle précis : L'ADN ne se réplique qu'une seule fois par cycle cellulaire.
Impliquent des séquences clés actives en cis (site de fixation pour protéines trans).
Chez la Levure (*Saccharomyces cerevisiae*)
Identification par test génétique (plasmide bactérien + fragment d'ADN de levure).
Nécessitent des séquences de réplication autonome (ARS) pour la réplication plasmidique et chromosomique.
Séquence consensus conservée de 11 pb : 5'-(A/T)TTTAT(A/G)TTT(A/T)-3'.
Les ARS (environ 50 pb) sont riches en A-T et contiennent un site de liaison pour un facteur de transcription et un complexe multiprotéique.
Chez les Mammifères
Mieux définies, absence de test génétique simple.
Hypothèse de multiples sites d'initiation sur des régions de dizaines de kilobases.
Séquences consensus identifiées : WAWTTDDWWWDHWGWHMAWTT.
Chromosomes Artificiels de Levure (YAC)
Outils de clonage permettant d'insérer de grands fragments d'ADN (140 à 1000 Kb).
Constitués de :
Une origine de réplication (ORI).
Une région centromérique (CEN).
Deux télomères.
Un site de clonage (ex: EcoR I).
Un ou plusieurs marqueurs de sélection.
Se comportent comme des mini-chromosomes dans la levure hôte.
Taille du Génome et Paradoxe de la Valeur C
Valeur C : Quantité totale d'ADN dans un génome haploïde (ex: 3,1 GB pour l'humain).
Exprimée en paires de bases (pb) ou en picogrammes (1 pg 1 milliard de pb).
Valeur G : Nombre de gènes dans un génome haploïde.
Observation
La taille du génome n'est pas nécessairement corrélée à la complexité de l'organisme.
Ex: Levure (eucaryote) ≈ 5x *E. coli* (procaryote).
Paradoxe C : L'absence de corrélation simple entre la taille du génome et la complexité ou la position phylogénétique.
Ex: Drosophile (180 Mb) vs Sauterelle (18000 Mb) ; différence de 100x.
Une grande partie de cet "excès" d'ADN est due aux introns et aux séquences non codantes.
Le faible nombre de gènes fonctionnels chez les mammifères (20 000-30 000) soulève la question de la fonction de l'ADN non codant.
Organisation des Gènes Eucaryotes (Cas Humain)
Pas de structure absolue définie pour un gène (ne se limite pas à sa partie codante).
L'information est souvent morcelée (introns).
Composants d'un gène eucaryote type
Séquence régulatrice enhancere (5' non transcrite) : Nécessaire pour une transcription normale (quantitative et qualitative).
Région promotrice (-100 par rapport au site d'initiation) : Fixation de l'ARN polymérase II.
Séquence CAAT (-70 à -80) : Fixation de facteurs protéiques de transcription.
TATA box (-25 à -30) : Site de fixation du facteur TFB D (l'ARN polymérase ne se fixe pas directement). L'absence de TATA box n'est pas rédhibitoire (remplacée par GC box dans les gènes housekeeping).
Site d'initiation de la transcription : Souvent une purine (A ou G).
5'UTR (Untranslated Region) : Partie non codante avant le codon ATG.
Codon ATG : Début de la traduction.
Alternance d'exons (présents dans l'ARNm mature, peuvent contenir des parties non codantes) et d
'introns (éliminés par épissage).
Séquence AATAAA : 10-20 bases avant la fin du dernier exon, reconnaissance pour la coupure du transcrit primaire.
3'UTR : Région terminale non codante.
Classification des Gènes par Nombre de Copies
1. Gènes uniques ou quasi-uniques
Majorité des gènes.
Structure correspondant au modèle décrit.
Parfois dupliqués :
Copies interchangeables (ex: gènes de la globine).
Copies divergentes (protéines proches mais différentes, expression selon tissu/stade).
2. Familles multigéniques
Résultent de duplications/divergences multiples.
Série de gènes codant pour des protéines analogues.
Expression dépendante du type ou de l'état cellulaire.
Ex: familles des gènes globine, actine, myosine.
3. Superfamilles de gènes
Duplications/divergences très anciennes dans l'évolution.
Relation difficile à établir due à une forte divergence.
Ce qui est conservé : la structure tertiaire de l'unité de base.
Ex: superfamille des récepteurs nucléaires aux hormones, superfamille des gènes de l'immunité.
4. Gènes housekeeping (domestiques)
Codent pour des protéines ubiquitaires, indispensables à la survie cellulaire.
Caractéristiques :
Taux de transcription faible et continu.
Absence de TATA box (souvent).
Présence de GC box (GGGCGGG) en 5'.
Richesse en séquences CG hypo-méthylées (îlots CpG).
5. Pseudogènes
Copie non fonctionnelle d'un gène.
Deux types :
Pseudogène conventionnel : Gène dupliqué ayant perdu sa fonctionnalité par mutations (perte d'ATG, promoteur, apparition de codon stop). Contient des introns.
Pseudogène processé : Provient de la réintégration dans le génome d'un ADNc (rétrotranscription d'un ARNm). Manque d'introns et de promoteur, donc non fonctionnel.
Homologie Moléculaire
Gènes homologues : Partagent une origine commune (grand degré d'homologie de séquence).
Gènes orthologues : Versions d'un même gène ayant la même fonction dans deux espèces différentes.
Gènes paralogues : Au sein d'une même espèce. Peuvent avoir des fonctions identiques (redondantes) ou différentes.
Crossing-over inégal : Mécanisme d'amplification génique, peut entraîner des duplications en tandem.
Exemple : Famille des Globines Humaines
Deux familles de globines ( et ) s'associant pour former l'hémoglobine.
Expression des gènes fonctionnels varie au cours de la vie (embryon, fœtus, adulte).
Les gènes de globine contiennent deux introns dont la position est conservée, mais pas la taille.
Maladies (ex: hémoglobine Lepore, Kenya) résultent souvent de crossing-over inégaux entre gènes paralogues.
Gènes d'Histones
Gènes codant les histones conventionnelles sont généralement en multiples copies organisées en clusters.
Caractéristiques atypiques pour des eucaryotes : absence d'introns et terminaison signalée par une structure en boucle (stem-loop), non polyadénylée.
Gènes ARNt et ARNr
Plusieurs copies
Séquences Non Codantes Répétées en Tandem
1. ADN Satellite
- Principalement centromérique.
- Blocs de 100 kb à plusieurs Mb.
- Densité différente du reste de l'ADN.
- Représente 3-5% du DNA de chaque chromosome.
2. Microsatellites (STR ou SSR)
- Motifs de 2, 3 ou 4 nucléotides répétés en tandem.
- Très nombreux dans le génome humain (env. 50 000).
- Le nombre de répétitions varie (polymorphisme), mais généralement stable à la transmission.
- Ex: (CA)n le plus abondant (tous les 25-100 kb).
- Utilisés pour le typage génétique (PCR des microsatellites).
3. Minisatellites (VNTR)
- Motifs de 10 à 100 nucléotides répétés en tandem.
- Le nombre de répétitions est très variable d'un individu à l'autre.
- Hautement polymorphes.
- Utilisés pour le DNA fingerprinting (empreinte génétique) et les tests de paternité.
Répétitions de trinucleotides instables
- Peuvent entraîner des maladies humaines (ex: Huntington, Kennedy, dystrophie myotonique).
- Répétitions (CAG)n dans la séquence codante (pathologiques si > 40-100 répétitions).
- Répétitions (CGG)n dans les séquences non codantes peuvent s'étendre (méthylation de l'ADN, fragilité chromosomique, inhibition du gène).
- Répétitions (CTG)n dans les régions 3' UTR (ex: dystrophie myotonique, > 200 répétitions pathologiques).
Réarrangements Génomiques : Éléments Transposables (ETs)
- Découverte par Barbara McClintock (1950s) chez le maïs ("éléments de contrôle").
- Vision du génome passe de statique à dynamique.
- ETs : Séquences moyennement répétées capables de se déplacer dans le génome.
- Autonomes (codent pour les protéines de leur déplacement) ou non-autonomes.
Impact des ETs
- Mutations : Peuvent s'insérer dans des gènes ou régions régulatrices (délétères ou non).
- Rangements chromosomiques : Délétions, inversions, translocations (ex: 80% des mutations chez la drosophile, 0,1-0,3% des maladies humaines par Alu).
- Source de variations génétiques importantes (jouent un rôle dans l'évolution).
- Présents dans tous les organismes vivants (3% chez la levure, >50% chez le maïs, 15% du génome humain).
Mécanisme de Transposition
- Insertion s'accompagne de la duplication d'une courte séquence d'ADN au site cible.
- Résulte de coupures décalées au site d'insertion.
- Les ETs sont des familles de séquences répétées dispersées, causant des recombinaisons homologues non alléliques.
Catégories d'Éléments Transposables
1. Éléments Transposables ADN ("Cut and Paste")
- Moins répandus que les rétrotransposons chez les eucaryotes supérieurs.
- Classe 1 :
- Éléments de type bactérien ou à TIR (Terminal Inverted Repeats).
- Codent pour une transposase.
- Ex: Transposons d'insertion (IS), transposons composites (Tn), transposons non-composites (Tn3).
- Ex: Éléments Ac/Ds chez le maïs (Ac autonome, Ds non-autonome).
- Classe 2 (rolling-circle) :
- Moins complexes, retrouvés chez plantes et animaux.
- Pas de TIR ni de duplication de site d'insertion typique.
- Ex: Hélitrons (mécanisme de réplication en cercle roulant, peuvent capturer des gènes).
- Ex: Polintons (Mavericks, grands transposons d'ADN, jusqu'à 40kb, codent pour ADN polymérase et intégrase).
2. Rétrotransposons (Intermédiaire ARN, "Copy and Paste")
- Spécifiquement eucaryotes.
- Utilisent une reverse transcriptase pour produire un ADNc qui s'insère dans le génome.
- Ne quittent pas leur site d'origine, font une copie.
- On distingue :
- Avec LTR (Long Terminal Repeats) : Structure similaire aux rétrovirus, codent pour Gag (protéines structurales) et Pol (reverse transcriptase, intégrase). Ex: Ty1/copia, Ty3/gypsy.
- Sans LTR :
- LINE (Long Interspersed Elements) : Plusieurs milliers de nucléotides (ex: LINE-1, 7000 pb). Codent ORF1 (fixe ARNm) et ORF2 (endonucléase + reverse transcriptase).
- SINE (Small Interspersed Elements) : Quelques centaines de nucléotides (ex: Alu, 300 pb). Ne codent pas de protéines; dérivés d'ARN (ex: Alu dérive de l'ARN 7SL).
- Les rétrotransposons LTR et les LINE/SINE constituent environ 25% et 15% du génome humain respectivement.
3. Rétrogènes
- Pseudogènes maturés.
- Formés par rétrotranscription d'un ARNm fonctionnel (après épissage), puis intégration aléatoire dans le génome.
- Dépourvus d'introns et généralement non fonctionnels car sans promoteur propre.
Lancer un quiz
Teste tes connaissances avec des questions interactives