Génomique et Bioinformatique

Kart yok

Ce document couvre les concepts fondamentaux de la génomique et de la bioinformatique, incluant la structure du génome, les techniques de séquençage, et l'analyse des données biologiques.

Génomique et Bioinformatique : Le Guide Essentiel

Ce document est un aide-mémoire concis et structuré pour comprendre les concepts clés de la génomique et de la bioinformatique. Il met en lumière les définitions, les structures et les fonctions des éléments fondamentaux du génome.

1. Le Génome, la Génomique et la Bioinformatique

  • Génome : L'ensemble complet de l'ADN d'un organisme, incluant les séquences codantes (CDS) et non codantes.

  • Génomique : L'étude de l'intégralité du génome et de ses séquences. Elle vise à comprendre la fonction du génome, en utilisant la bioinformatique pour l'analyse des données.

  • Bioinformatique : Utilisation de l'informatique pour stocker, extraire, organiser et analyser les données biologiques (données omiques), en réponse au volume croissant généré par les nouvelles technologies (NGS).

Branches de la Génomique

  • Génomique Structurale : Séquençage et cartographie du génome entier (NGS, TGS).

  • Génomique Fonctionnelle : Étude de la fonction et de l'expression des gènes (OMICS : Transcriptome, Protéome, Exome, Métabolome).

  • Génomique Comparative : Comparaison des génomes de différentes espèces (alignement de séquences).

2. Génétique et Génome

La Génétique : Science de l'Hérédité

  • Étude des caractères héréditaires, de leur transmission et de leurs variations.

  • 1944 : Oswald T. Avery identifie l'ADN comme responsable de la transmission génétique.

  • 1953 : Watson et Crick découvrent la structure en double hélice de l'ADN.

Différentes Formes d'ADN

  • ADN-B : La forme la plus courante (double hélice droite), proposée par Watson et Crick. Possède un grand sillon large et un petit sillon étroit.

  • ADN-A : Plus courte, plus large, plus compacte. Se forme en conditions de déshydratation de l'ADN-B. Conformation de l'ARN.

  • ADN-Z : Structure en zigzag (double hélice gauchère). Plus étroite et plus longue. Joue un rôle dans la régulation de l'expression des gènes.

Génomes Procaryotes vs. Eucaryotes

Caractéristique

Procaryotes

Eucaryotes

Structure principale

Molécule d'ADN circulaire unique

Chromosomes linéaires multiples

Emplacement

Nucléosome (cytoplasme)

Noyau (délimité par membrane)

Éléments supplémentaires

Plasmides (ADN circulaire/linéaire)

ADN mitochondrial

Gènes

Principalement codants

Exons (codants) et Introns (non codants)

ADN non codant

Minime

Important

Protéines associées

Protéines HU (compaction)

Histones (compaction en chromatine)

3. Structure Fine de la ChromatINE (Eucaryotes)

  • L'ADN n'est jamais nu, associé à des protéines (histones) et ARN pour former la chromatine.

  • Rôle des protéines de la chromatine : protection, réparation, régulation de l'expression des gènes.

  • La chromatine existe sous différentes formes condensées (11nm, 30nm, 300nm, 700nm).

Digestion par la Nucléase Micrococcale

  • Clive l'ADN en unités de ~200 pb, révélant les Nucléosomes (structure en "collier de perles").

Nucléosome : Unité de Base

  • Constitué d'environ 200 pb d'ADN et d'un octamère d'histones (2 H2A, 2 H2B, 2 H3, 2 H4).

  • Le cœur est un tétramère (H3-H4)2 flanqué de deux dimères H2A-H2B. L'ADN s'enroule autour (146 pb, 1,7 tours).

  • Histone Fold : Motif structurel des histones, facilitant la formation de l'octamère.

  • Modifications Post-Traductionnelles (méthylation, acétylation, phosphorylation, ubiquitination) des histones régulent la structure de la chromatine et l'expression des gènes.

  • Histone H1 : Stabilise les structures d'ordre supérieur (fibre de 30 nm) en se liant aux sites d'entrée/sortie de l'ADN nucléosomal.

Niveaux d'Organisation de la ChromatINE

  1. Fibre de 11nm (110Å) : Collier de perles (nucléosomes). L'ADN linker (20-100pb) sépare les nucléosomes.

  2. Fibre de 30nm (300Å) : Enroulement hélicoïdal de la fibre de 11nm, stabilisée par l'histone H1 (6 nucléosomes par tour).

  3. Boucles Radiales de 300nm : Les fibres de 30nm se replient en "rosettes" (jusqu'à 100 000 pb), attachées à un échafaudage protéique central (armature).

  4. Chromatide de 700nm : Forme la plus condensée durant la méiose, superenroulement des boucles de 300nm. Atteint les 1400nm lors de la division cellulaire.

Preuve de l'Organisation en Boucle : Chromosomes en Écouvillon

  • Observables dans les ovocytes, ils montrent des grandes boucles de chromatine décondensées (3-300 kb), qui sont des régions actives de transcription.

Superenroulement de l'ADN Procaryote

  • ADN circulaire compacté par superenroulement (torsion de la double hélice sur elle-même).

  • Peut être positif (plus étroit) ou négatif (moins étroit, facilitant réplication/transcription).

  • Régulé par des topoisomérases (ADN gyrase introduit des super-tours négatifs, ATP-dépendant).

4. Structure et Organisation des Chromosomes (Eucaryotes)

Généralités

  • Fonctions :

  • Perpétuer le matériel héréditaire (réplication, mitose).

  • Assurer le brassage génétique (méiose, recombinaison).

Squelette Chromosomique

  • Structure protéique rémanente après dissociation des histones, riche en topoisomérase II.

Éléments Essentiels des Chromosomes Eucaryotes

  1. Les Centromères

  2. Les Télomères

  3. Les Origines de Réplication

Les Centromères

  • Éléments d'ADN responsables de la ségrégation des chromosomes en mitose/méiose.

  • Constitutions primaires : Régions d'étranglement où les chromatides sœurs sont associées.

  • Kinétochore : Assemblage protéique (> 100 protéines) se formant au niveau de chaque centromère lors de la prophase tardive, pour l'attachement aux microtubules du fuseau mitotique.

  • Séquences centromériques chez la levure (S. cerevisiae) :

    • Trois éléments de base : I, II (riche en A-T), III.

    • La fonction centromérique ne dépend pas d'une séquence spécifique conservée, mais d'une structure chromatinienne spécialisée (modifications épigénétiques).

  • Propriétés épigénétiques de la chromatine centromérique :

    • Présence de protéine CenH3 (variant d'histone H3 spécifique).

    • Hypo-acétylation des histones.

    • Flanquée par de l'hétérochromatine péricentromérique.

  • ADN α-satellite (Humain) :

    • Répétitions de monomères de 171 pb organisés en motifs répétés d'ordre supérieur (HOR).

    • Contient la boîte CENP-B (17 pb), site de liaison pour la protéine CENP-B.

Les Télomères

  • Extrémités des chromosomes linéaires, jouant un rôle crucial dans la stabilité.

  • Fonctions :

    • Protection contre la dégradation par les nucléases.

    • Maintien de la longueur des chromosomes lors de la réplication.

    • Organisation de la structure chromatinienne interphasique.

    • Effet sur l'expression des gènes adjacents.

  • Structure : Longs brins de séquences répétées (ex: TTAGGG chez l'Homme). Une extrémité 3' riche en TG et une 5' riche en CA.

  • Forme en "épingle à cheveux" (T-loop) pour protéger l'extrémité des DNAses.

  • Raccourcissement : À chaque division cellulaire, une partie du télomère est perdue (50-200 pb), ce qui est lié au vieillissement cellulaire et à la limitation du nombre de divisions.

  • La Télomérase :

    • ADN polymérase spéciale qui permet d'allonger le brin d'ADN et de compenser le raccourcissement.

    • Comprend un ARN modèle (ex: 5'-CUAACCCUAAC...).

    • Exprimée dans les cellules souches germinales et certaines cellules souches adultes.

    • Activité importante dans les cellules tumorales (cible thérapeutique).

Les Origines de Réplication

  • Séquences d'ADN nécessaires à l'initiation de la réplication de l'ADN.

  • Chez la levure, caractérisées comme éléments ARS (Autonomously Replicating Sequence) avec une séquence consensus de 11 pb (5'-(A/T)TTTAT(A/G)TTT(A/T)-3').

  • Chez les mammifères, pas de séquence unique, mais des régions de plusieurs dizaines de kilobases avec des séquences consensuelles (ex: WAWTTDDWWWDHWGWHMAWTT).

  • Les trois éléments (centromère, télomère, origine de réplication) ont permis la création de Chromosomes Artificiels de Levure (YAC) : vecteurs de clonage pour grands fragments d'ADN.

5. Taille et Structure du Génome des Eucaryotes

Taille du Génome et Paradoxe de la Valeur C

  • Valeur C : Quantité totale d'ADN dans le génome haploïde (ex: 3,1 GB pour l'Homme).

  • Valeur G : Nombre de gènes dans le génome haploïde.

  • Paradoxe de la valeur C : La taille du génome ne corrèle pas avec la complexité de l'organisme.

  • Exemple : La drosophile (180 Mb) vs la sauterelle (18000 Mb).

  • S'explique en partie par la présence d'introns et une grande quantité d'ADN non codant.

Anatomie d'un Gène Codant pour une Protéine (cas humain)

  • Le gène ne se limite pas à sa partie codante ; il inclut des séquences régulatrices.

  • Régions Régulatrices 5' :

    • Séquences Enhancer : régulent l'expression du gène.

    • Promoteur (-100 par rapport au site d'initiation) : site de fixation de l'ARN polymérase II.

    • Séquence CAAT (-70 à -80) : fixation de facteurs protéiques.

    • Séquence TATA box (-25 à -30) : Site de fixation du facteur TFB D (si absente, remplacée par GC box: GGGGCGGG).

  • Exons : Séquences transcrites retrouvées dans l'ARNm mature (incluent 5'UTR, 3'UTR et séquences codantes CDS). L'exome (ensemble des exons) représente 1,1% à 2,3% du génome.

  • Introns : Séquences transcrites éliminées par épissage lors de la maturation de l'ARN pré-messager. Très variables en taille.

  • Séquence AATAAA : Signal de reconnaissance pour la coupure du transcrit primaire (polyadénylation).

  • Transcription : Initiée généralement par une purine (A ou G).

Classification des Gènes par Nombre de Copies

  • Gènes uniques ou quasi-uniques : La majorité des gènes (souvent sans séquence CAAT). Certains peuvent être dupliqués puis diverger.

  • Familles multigéniques : Plusieurs copies d'un gène ayant divergé. Ex: familles des globines, actines, myosines.

  • Superfamilles : Résultat de duplications/divergences très anciennes, avec une divergence élevée. Ex: récepteurs nucléaires d'hormones, gènes de l'immunité.

  • Gènes domestiques (housekeeping genes) : Codent pour des protéines ubiquitaires, essentielles à la survie cellulaire.

    • Carac. : Faible transcription, absence de TATA box, présence de GC box, richesse en îlots CG hypométhylés.

Pseudogènes

  • Copies non fonctionnelles d'un gène.

  • Pseudogène conventionnel : Gène dupliqué ayant perdu sa fonctionnalité par mutations. Contient des introns.

  • Pseudogène processé : Provient de la réintégration dans le génome d'un ADNc (ARN rétrotranscrit). Dépourvu d'introns et de promoteur.

L'ADN Mitochondrial

  • Génome autonome circulaire, mais insuffisant pour toutes les protéines requises par la mitochondrie.

  • Chez l'Homme : 16 569 pb, 37 gènes (13 chaînes polypeptidiques, 22 ARNt, 2 ARNr).

  • Code génétique mitochondrial diffère légèrement du code standard.

Le Génome Nucléaire Humain

  • Près de 99% de l'ADN cellulaire. Organisé en 22 autosomes et 2 chromosomes sexuels.

  • Bandes chromosomiques (Giemsa) : Bandes G sombres (riches en A-T, pauvres en gènes) et claires (riches en G-C, denses en gènes). Reflètent la compartimentation en isochores.

  • La densité génique varie (élevée dans les régions subtélomériques, faible dans l'hétérochromatine et les centromères).

Diversité de l'Organisation Interne des Gènes

  • Peu de gènes humains sont sans introns (ex: gènes ribosomaux).

  • Exons : taille moyenne ~170 pb.

  • Introns : très variables en taille (quelques dizaines à > 1 million pb). Un gène humain moyen a ~8,5 introns.

  • Gènes dans les gènes : Des gènes entiers peuvent être localisés à l'intérieur d'introns d'autres gènes.

6. ADN Moyennement Répété

Familles Multigéniques

  • Gènes homologues : Origine commune.

  • Gènes orthologues : Gènes similaires entre espèces (même fonction).

  • Gènes paralogues : Gènes similaires au sein d'une même espèce (souvent fonctions légèrement différentes).

  • Crossing-over inégal : Mécanisme d'amplification ou de délétion génique.

Exemple : Gènes Globine

  • Deux familles de globines (alpha et bêta) formant l'hémoglobine.

  • Expression différentielle des gènes selon le stade de développement (fœtal, adulte).

  • Les gènes globines contiennent deux introns conservés en position, mais pas en taille.

  • Hémoglobines Lepore et Kenya : Résultent de crossing-overs inégaux.

Gènes Histones Humains

  • Multiples copies organisées en clusters.

  • Caractéristiques atypiques : absence d'introns, terminaison de transcription par structure en liga-boucle.

Gènes d'ARNt et d'ARNr

  • Présents en plusieurs copies dans le génome.

  • Les ARNr sont synthétisés à partir d'unités de transcription communes (opérons d'ADN ribosomique) répétées en tandem.

Répétitions en Tandem des Séquences Non Codantes

  • Microsatellites (STR - Short Tandem Repeat) :

    • Motifs de 2, 3 ou 4 nucléotides répétés.

    • Très abondants (> 50 000 chez l'Homme).

    • Nombre de répétitions variable entre individus (polymorphisme), stables lors de la transmission.

    • Utilisés en identification et tests de paternité.

  • Minisatellites (VNTR - Variable Number of Tandem Repeats) :

    • Motifs plus longs (10 à 100 nucléotides) répétés en tandem.

    • Nombre de répétitions variable.

    • Utilisés pour l'empreinte génétique (DNA fingerprinting).

  • DNA Satellite : Grands blocs (100kb à Mb) d'ADN répété en tandem, principalement centromérique.

Maladies Liées aux Répétitions de Tri-nucléotides Instables

  • Certaines répétitions de CAG/CTG et CCG/GGC sont instables si leur longueur dépasse un certain seuil.

  • Ces répétitions sont sujettes à expansions ou contractions lors de la transmission aux descendants.

  • Types d'expansions :

    • Répétitions (CAG)n dans la séquence codante (ex: Huntington) → Polyglutamines dans la protéine.

    • Répétitions (CGG)n dans les séquences non codantes (ex: Syndrome du X fragile) → Affecte méthylation et structure de la chromatine.

    • Répétitions (CTG)n dans l'UTR 3' (ex: Dystrophie myotonique) → Forte corrélation avec la maladie.

7. Les Réarrangements Génomiques

  • Le génome est dynamique et sujet à des fluctuations.

  • Éléments Transposables (ETs) : Séquences moyennes répétées capables de se déplacer dans le génome.

    • Autonomes : Codent pour des protéines nécessaires à leur déplacement.

    • Non autonomes : Dépendent d'éléments autonomes.

  • Peuvent s'insérer dans les gènes ou régions régulatrices, causant des mutations ou remaniements chromosomiques (délétions, inversions, translocations).

  • Présents chez tous les organismes, peuvent représenter une part significative du génome (ex: >50% chez le maïs).

  • Duplication au site d'insertion : Caractéristique des ETs, due à des coupures décalées.

Types d'Éléments Transposables

  1. Éléments Transposables à ADN :

    • Classe 1 (Cut and paste) : Éléments de type bactérien ou à TIR (Terminal Inverted Repeats). Codent pour une transposase.

    • Classe 2 (Rolling-circle ou transposition réplicative) : Plus complexes, retrouvés chez plantes et animaux. Pas de TIR ni de duplication de site d'insertion. Ex: Hélitrons, Polintons (Mavericks).

  2. Rétrotransposons (ARN) :

    • Spécifiques aux eucaryotes. Se translatent via un intermédiaire ARN (modèle copier/coller).

    • Utilisent la transcriptase inverse pour produire un ADNc qui s'insère.

    • Avec LTR (Long Terminal Repeats) : Ex: Ty1/copia, Ty3/gypsy. Possèdent des gènes Gag (protéines structurales) et Pol (transcriptase inverse + intégrase).

    • Sans LTR :

      • SINE (Small Interspersed Elements) : Quelques centaines de nucléotides (ex: Alu chez les primates). Ne codent pas de protéines.

      • LINE (Long Interspersed Elements) : Plusieurs milliers de nucléotides (ex: LINE-1 (L1) chez l'Homme). Codent pour des ORF1 (fixation à l'ARN) et ORF2 (endonucléase + transcriptase inverse).

  3. Rétrogènes (Pseudogènes de gènes maturés) : Proviennent de la rétrotranscription d'un ARNm mature (sans introns), puis de son insertion dans le génome.

Bir quiz başla

Bilgini etkileşimli sorularla test et