Génomique et Bioinformatique: Fondamentaux

10 kaarten

Comprend les bases de la génomique, de la bio-informatique et des structures d'ADN. Mettant en évidence les différences entre les génomes procaryotes et eucaryotes, les structures des chromosomes, et les mécanismes de réplication et de transcription. Nécessaire pour les étudiants en sciences de la vie.

10 kaarten

Herhalen
Gespreid herhalen toont je elke kaart op het optimale moment om ze duurzaam te onthouden, door de herhalingen progressief te spreiden.
Vraag
Qu'est-ce que le génome?
Antwoord
L'ensemble complet de l'ADN d'un organisme, incluant les séquences codantes (CDS) et non codantes.
Vraag
Que désigne la bio-informatique?
Antwoord
L'utilisation de l'informatique pour stocker, organiser et analyser des données biologiques, notamment les données omiques.
Vraag
Qui a découvert la structure en double hélice de l'ADN en 1953?
Antwoord
James D. Watson et Francis H. C. Crick.
Vraag
Comment l'ADN est-il organisé chez les eucaryotes?
Antwoord
En plusieurs chromosomes linéaires compactés, contenus dans un noyau délimité par une membrane.
Vraag
De quoi est constitué le cœur d'un nucléosome?
Antwoord
D'un octamère d'histones (deux H2A, H2B, H3, H4) autour duquel s'enroulent environ 146 paires de bases d'ADN.
Vraag
Quelle est la fonction de l'histone H1?
Antwoord
Elle se lie à l'ADN internucléosomique et stabilise la fibre de chromatine de 30 nm.
Vraag
Quelles sont les trois séquences d'ADN essentielles pour les chromosomes eucaryotes?
Antwoord
Les centromères, les télomères et les origines de réplication.
Vraag
Quel est le rôle principal des télomères?
Antwoord
Protéger les extrémités des chromosomes de la dégradation et maintenir leur longueur lors de la réplication.
Vraag
Qu'est-ce que la télomérase et où est-elle active?
Antwoord
Une enzyme qui allonge les télomères, active dans les cellules souches et germinales, mais généralement inactive dans les cellules somatiques.
Vraag
Qu'est-ce qu'un pseudogène processé?
Antwoord
Une copie d'ADNc d'un ARNm réintégrée dans le génome. Il est dépourvu d'introns et de promoteur, le rendant non fonctionnel.

Génome, Génomique et Bioinformatique : Cheatsheet Essentiel

Introduction au Génome

  • Génome : L'ensemble complet de l'ADN d'un organisme.

  • Comprend :

    • Séquences codantes (CDS) : pour les protéines.

    • Séquences non codantes : non transcrites ou transcrites mais non traduites.

Génomique et Bioinformatique

  • Génomique : Étude du génome entier et de ses séquences.

    • Objectif : Comprendre la fonction du génome dans son intégralité.

    • Outils : Bioinformatique pour analyser de vastes quantités de données.

  • Bioinformatique : Application de l'informatique à la biologie.

    • But : Stocker, extraire, organiser, et analyser des données biologiques (données omiques).

  • Nouvelles Technologies (NGS) : Génèrent d'énormes volumes de données, nécessitant des outils bioinformatiques pour l'analyse, l'organisation et la prédiction du comportement biologique.

Historique et Découverte de l'ADN

  • Avant 1944 : Inconnaissance du support de l'hérédité.

  • 1944 (O. Avery) : L'ADN est identifié comme responsable de la transmission des caractères (dégradation de l'ADN supprime le caractère pathogène).

  • 1953 (Watson et Crick) : Découverte de la structure en double hélice de l'ADN.

  • Conduit au développement de la génétique moléculaire.

Conformations de l'ADN

  • ADN-B :

    • Forme classique (Watson et Crick), la plus courante.

    • Double hélice droite.

    • Grand sillon large, petit sillon étroit et intermédiaire.

  • ADN-A :

    • Plus courte, plus large et plus compacte.

    • Se forme en conditions de déshydratation.

    • Conformation typique de l'ARN.

  • ADN-Z :

    • Structure en zigzag (hélice gauchère).

    • Plus étroite et plus longue par paire de bases que l'ADN-A et -B.

    • Rôle dans la libération des tensions lors du surenroulement.

    • Associée à la méthylation des cytosines dans les régions actives de transcription.

Organisation du Génome : Procaryotes vs Eucaryotes

Caractéristique

Génome Procaryote

Génome Eucaryote

Structure Principale

Une seule molécule d'ADN circulaire.

Plusieurs chromosomes linéaires.

Localisation

Dans le nucléoïde (région irrégulière du cytoplasme).

Dans un noyau délimité par une membrane.

Noyau

Pas de vrai noyau délimité.

Noyau présent avec enveloppe nucléaire.

ADN Supplémentaire

Plasmides (ADN circulaires ou linéaires, confèrent des avantages comme la résistance aux antibiotiques).

ADN dans les mitochondries (en plus du génome nucléaire).

Compaction

Associé à des protéines HU (histone-like proteins) pour la compaction.

Associé aux histones pour former la chromatine.

Gènes

Non mentionné spécifiquement, mais plus simple.

Gènes avec exons (codants) et introns (non codants, retirés lors de la transcription).

Séquences non codantes

Moins significatif.

Grande proportion de séquences non codantes.

Structure Fine de la Chromatide (Eucaryotes)

Généralités

  • L'ADN eucaryote n'est jamais nu, toujours associé à des protéines (et ARN).

  • Cet ensemble forme la chromatine.

  • Rôle des protéines de la chromatine : protection, réparation, pérennisation de l'information, et régulation de l'expression génique.

  • Diamètre de la fibre chromatinienne : 100 à 700 nm, pouvant atteindre 30 nm ou 11 nm.

Niveaux de Compaction de la Chromatide

  1. Collier de perles (Fibre de 11 nm) :

    • Structure de base, visible après digestion ménagée par la nucléase micrococcale.

    • Unités répétées : Nucléosomes.

    • Chaque nucléosome est constitué de :

      • ~200 pb d'ADN.

      • Octamère d'histones (2 H2A, 2 H2B, 2 H3, 2 H4). Le cœur est un tétramère (H3-H4)2 flanqué de deux dimères H2A-H2B.

      • 146 pb s'enroulent autour de l'octamère (1,7 tours).

      • Quelques protéines non histones.

    • Les nucléosomes sont séparés par de l'ADN lieur (20 à 100 pb).

    • Histone H1 : Se lie aux sites d'entrée/sortie de l'ADN, stabilisation des structures d'ordre supérieur.

  2. Fibre de 30 nm :

    • Le collier de perles (fibre de 11 nm) se bobine en hélice torsadée.

    • Environ six nucléosomes par tour d'hélice.

    • Stabilisée par l'histone H1.

  3. Boucles radiales de 300 nm :

    • Les fibres de 30 nm se replient en boucles (rosettes).

    • Chaque boucle peut contenir jusqu'à 100 000 pb.

    • Associées à un squelette central protéique (échafaudage).

    • Niveau de compaction pour le rangement de l'ADN en interphase et maximum en mitose.

  4. Rosettes empilées (700 nm) :

    • Le superenroulement des boucles de 300 nm.

    • L'empilement de rosettes forme une fibre de 700 nm (avant la compaction finale en chromosomes mitotiques de 1400 nm).

Histones et leurs modifications

  • Histone Fold : Motif structurel conservé dans les histones, caractérisé par des hélices alpha séparées par deux boucles, facilitant la formation de l'octamère.

  • Modifications post-traductionnelles :

    • Méthylation, Acétylation, Phosphorylation, Ubiquitination.

    • Rôle : Régulation de la structure de la chromatine et de l'expression des gènes.

Chromosomes en écouvillon

  • Visibles au stade diplotène de la méiose (ovocytes).

  • Forme étendue (10 à 100 fois celle des chromosomes mitotiques) en forme de chapelets de chromomères.

  • Grandes boucles sortent radialement, représentant des régions de chromatine décondensée et transcrite.

  • Preuve de l'organisation du génome en boucles.

Superenroulement de l'ADN Procaryote

  • L'ADN circulaire procaryote doit être compacté.

  • Superenroulement (surenroulement) : La double hélice est enroulée plusieurs fois sur elle-même.

  • Facilite l'empilement dans le nucléotide.

  • Régule l'expression des gènes.

  • Types :

    • Positif : ADN enroulé plus étroitement (selon le sens de l'hélice).

    • Négatif : ADN enroulé moins étroitement (torsion vers la gauche, nécessaire pour la réplication et la transcription).

  • Enzymes régulatrices : Topoisomérases.

    • ADN gyrase (topoisomérase de classe II) : Spécifique aux procaryotes, introduit des super-tours négatifs (processus énergivore via ATP).

Fonctions Biologiques des Chromosomes

  • Perpétuer le matériel héréditaire : Via réplication et répartition égale (mitose).

  • Assurer le brassage du matériel héréditaire : Via méiose et recombinaison.

Squelette Chromosomique Eucaryote

  • L'aspect en X des chromosomes mitotiques est transitoire.

  • Après dissociation des histones, il reste un squelette protéique auquel l'ADN est attaché.

  • Protéine majeure : Topoisomérase II.

  • Trois classes de séquences d'ADN essentielles : Centromères, Télomères, Origines de réplication.

Les Centromères

  • Éléments d'ADN actifs en cis, responsables de la ségrégation des chromosomes.

  • Chaque chromosome a un seul centromère (constriction primaire), essentiel à la ségrégation.

  • Fragments acentriques (sans centromère) sont perdus.

Rôle dans la Division Cellulaire

  • En prophase, formation d'une paire de kinétochores (assemblage protéique de +100 protéines) au niveau de chaque centromère.

  • Chaque kinétochore est attaché à une chromatide sœur.

  • Les microtubules du centrosome s'attachent aux kinétochores, créant un lien physique avec les pôles du fuseau mitotique.

  • En anaphase, les kinétochores tirent les chromatides vers les pôles par polymérisation/dépolymérisation des microtubules.

Séquence des Centromères (Ex: Levure)

  • Les régions CEN ne s'hybrident pas mais partagent :

    • Deux courtes régions homologues (éléments I et III).

    • Une région II riche en A-T (80-90%).

  • Fonctionnalité :

    • Mitotique : Dépend fortement de la région III, moins des régions I et II.

    • Méiotique : Dépend de l'intégrité des trois éléments.

  • Les centromères fonctionnels ne sont pas spécifiques d'un chromosome.

Chromatine Centromérique (Chromatine CEN)

  • Propriétés épigénétiques conservées :

    • Présence de la protéine CenH3 (variant d'histone H3), spécifique à cette chromatine. Forme un nucléosome distinct.

    • Hypo-acétylation des histones (comme l'hétérochromatine).

    • Flanquée d'hétérochromatine péricentromérique.

  • ADN -satellite :

    • Motifs répétés d'un monomère de 171 pb, organisés en HOR

(Higher Order Repeat).

  • Contient la CENP-B Box (17 pb), se liant à la protéine CENP-B, essentielle à la formation du kinétochore.

  • La fonction et position du centromère ne sont pas déterminées par la séquence nucléotidique seule (ex: néocentromères). L'identité dépend d'une structure chromatinienne spécialisée (modifications épigénétiques).

Les Télomères

  • Extrémités des chromosomes linéaires eucaryotes.

  • Fonctions multiples :

    • Protection contre la dégradation par les nucléases.

    • Maintien de la longueur des chromosomes lors de la réplication.

    • Rôle dans l'organisation de la chromatine (attachement à la membrane nucléaire).

    • Influence sur l'expression des gènes à proximité.

  • Structure :

    • Longs brins de séquences répétées (chez l'homme : 2-50 kb, 300-800 répétitions).

    • Brin riche en TG (extrémité 3'), brin complémentaire riche en CA (extrémité 5').

    • Séquences hautement conservées au cours de l'évolution (ex: TTAGGG chez l'homme).

    • Le fragment 3' se recourbe en épingle, protégé de la dégradation par les DNAses.

Problème de la Réplication (Énigme)

  • Les ADN polymérases ne peuvent pas répliquer l'extrémité 5' du brin naissant, conduisant à un raccourcissement à chaque division.

  • Stabilité des extrémités : Les télomères empêchent la dégradation ou la fusion des chromosomes.

Raccourcissement et Vieillissement

  • Les répétitions télomériques sont lentement érodées au cours des divisions cellulaires.

  • Ce raccourcissement est lié au vieillissement cellulaire et limite le nombre de divisions.

Télomérase

  • DNA polymérase ARN-dépendante (désoxynucléotidyl transférase terminale).

  • Comprend un ARN-guide (ex: 5'-CUAACCCUAAC...) qui sert de modèle pour ajouter des unités TTAGGG à l'extrémité 3' du brin matrice.

  • Permet d'allonger les télomères, compensant le raccourcissement.

  • Expression :

    • Normalement active dans les cellules souches (germinales et certaines adultes).

    • Non exprimée dans les cellules somatiques différenciées.

    • Activité élevée dans les cellules cancéreuses (cible thérapeutique).

Les Origines de Réplication (ORI)

  • Nécessaires pour initier la réplication de l'ADN et maintenir le nombre de copies.

  • Contrôle précis : L'ADN ne se réplique qu'une seule fois par cycle cellulaire.

  • Impliquent des séquences clés actives en cis (site de fixation pour protéines trans).

Chez la Levure (*Saccharomyces cerevisiae*)

  • Identification par test génétique (plasmide bactérien + fragment d'ADN de levure).

  • Nécessitent des séquences de réplication autonome (ARS) pour la réplication plasmidique et chromosomique.

  • Séquence consensus conservée de 11 pb : 5'-(A/T)TTTAT(A/G)TTT(A/T)-3'.

  • Les ARS (environ 50 pb) sont riches en A-T et contiennent un site de liaison pour un facteur de transcription et un complexe multiprotéique.

Chez les Mammifères

  • Mieux définies, absence de test génétique simple.

  • Hypothèse de multiples sites d'initiation sur des régions de dizaines de kilobases.

  • Séquences consensus identifiées : WAWTTDDWWWDHWGWHMAWTT.

Chromosomes Artificiels de Levure (YAC)

  • Outils de clonage permettant d'insérer de grands fragments d'ADN (140 à 1000 Kb).

  • Constitués de :

    • Une origine de réplication (ORI).

    • Une région centromérique (CEN).

    • Deux télomères.

    • Un site de clonage (ex: EcoR I).

    • Un ou plusieurs marqueurs de sélection.

  • Se comportent comme des mini-chromosomes dans la levure hôte.

Taille du Génome et Paradoxe de la Valeur C

  • Valeur C : Quantité totale d'ADN dans un génome haploïde (ex: 3,1 GB pour l'humain).

  • Exprimée en paires de bases (pb) ou en picogrammes (1 pg 1 milliard de pb).

  • Valeur G : Nombre de gènes dans un génome haploïde.

Observation

  • La taille du génome n'est pas nécessairement corrélée à la complexité de l'organisme.

  • Ex: Levure (eucaryote) ≈ 5x *E. coli* (procaryote).

  • Paradoxe C : L'absence de corrélation simple entre la taille du génome et la complexité ou la position phylogénétique.

    • Ex: Drosophile (180 Mb) vs Sauterelle (18000 Mb) ; différence de 100x.

  • Une grande partie de cet "excès" d'ADN est due aux introns et aux séquences non codantes.

  • Le faible nombre de gènes fonctionnels chez les mammifères (20 000-30 000) soulève la question de la fonction de l'ADN non codant.

Organisation des Gènes Eucaryotes (Cas Humain)

  • Pas de structure absolue définie pour un gène (ne se limite pas à sa partie codante).

  • L'information est souvent morcelée (introns).

Composants d'un gène eucaryote type

  • Séquence régulatrice enhancere (5' non transcrite) : Nécessaire pour une transcription normale (quantitative et qualitative).

  • Région promotrice (-100 par rapport au site d'initiation) : Fixation de l'ARN polymérase II.

    • Séquence CAAT (-70 à -80) : Fixation de facteurs protéiques de transcription.

    • TATA box (-25 à -30) : Site de fixation du facteur TFB D (l'ARN polymérase ne se fixe pas directement). L'absence de TATA box n'est pas rédhibitoire (remplacée par GC box dans les gènes housekeeping).

  • Site d'initiation de la transcription : Souvent une purine (A ou G).

  • 5'UTR (Untranslated Region) : Partie non codante avant le codon ATG.

  • Codon ATG : Début de la traduction.

  • Alternance d'exons (présents dans l'ARNm mature, peuvent contenir des parties non codantes) et d

'introns (éliminés par épissage).

  • Séquence AATAAA : 10-20 bases avant la fin du dernier exon, reconnaissance pour la coupure du transcrit primaire.

  • 3'UTR : Région terminale non codante.

Classification des Gènes par Nombre de Copies

1. Gènes uniques ou quasi-uniques

  • Majorité des gènes.

  • Structure correspondant au modèle décrit.

  • Parfois dupliqués :

    • Copies interchangeables (ex: gènes de la globine).

    • Copies divergentes (protéines proches mais différentes, expression selon tissu/stade).

2. Familles multigéniques

  • Résultent de duplications/divergences multiples.

  • Série de gènes codant pour des protéines analogues.

  • Expression dépendante du type ou de l'état cellulaire.

  • Ex: familles des gènes globine, actine, myosine.

3. Superfamilles de gènes

  • Duplications/divergences très anciennes dans l'évolution.

  • Relation difficile à établir due à une forte divergence.

  • Ce qui est conservé : la structure tertiaire de l'unité de base.

  • Ex: superfamille des récepteurs nucléaires aux hormones, superfamille des gènes de l'immunité.

4. Gènes housekeeping (domestiques)

  • Codent pour des protéines ubiquitaires, indispensables à la survie cellulaire.

  • Caractéristiques :

    • Taux de transcription faible et continu.

    • Absence de TATA box (souvent).

    • Présence de GC box (GGGCGGG) en 5'.

    • Richesse en séquences CG hypo-méthylées (îlots CpG).

5. Pseudogènes

  • Copie non fonctionnelle d'un gène.

  • Deux types :

    • Pseudogène conventionnel : Gène dupliqué ayant perdu sa fonctionnalité par mutations (perte d'ATG, promoteur, apparition de codon stop). Contient des introns.

    • Pseudogène processé : Provient de la réintégration dans le génome d'un ADNc (rétrotranscription d'un ARNm). Manque d'introns et de promoteur, donc non fonctionnel.

Homologie Moléculaire

  • Gènes homologues : Partagent une origine commune (grand degré d'homologie de séquence).

  • Gènes orthologues : Versions d'un même gène ayant la même fonction dans deux espèces différentes.

  • Gènes paralogues : Au sein d'une même espèce. Peuvent avoir des fonctions identiques (redondantes) ou différentes.

  • Crossing-over inégal : Mécanisme d'amplification génique, peut entraîner des duplications en tandem.

Exemple : Famille des Globines Humaines

  • Deux familles de globines ( et ) s'associant pour former l'hémoglobine.

  • Expression des gènes fonctionnels varie au cours de la vie (embryon, fœtus, adulte).

  • Les gènes de globine contiennent deux introns dont la position est conservée, mais pas la taille.

  • Maladies (ex: hémoglobine Lepore, Kenya) résultent souvent de crossing-over inégaux entre gènes paralogues.

Gènes d'Histones

  • Gènes codant les histones conventionnelles sont généralement en multiples copies organisées en clusters.

  • Caractéristiques atypiques pour des eucaryotes : absence d'introns et terminaison signalée par une structure en boucle (stem-loop), non polyadénylée.

Gènes ARNt et ARNr

  • Plusieurs copies

de gènes pour ARNt et ARNr dans tous les génomes.
  • Opéron d'ADN ribosomique : Répétition en tandem de domaines (NTS, ETS, 18S, ITS1, 5,8S, ITS2, 28S).
  • Chez l'homme, les gènes d'ARNr sont sur les chromosomes acrocentriques (13, 14, 15, 21, 22).
  • Séquences Non Codantes Répétées en Tandem

    1. ADN Satellite

    • Principalement centromérique.
    • Blocs de 100 kb à plusieurs Mb.
    • Densité différente du reste de l'ADN.
    • Représente 3-5% du DNA de chaque chromosome.

    2. Microsatellites (STR ou SSR)

    • Motifs de 2, 3 ou 4 nucléotides répétés en tandem.
    • Très nombreux dans le génome humain (env. 50 000).
    • Le nombre de répétitions varie (polymorphisme), mais généralement stable à la transmission.
    • Ex: (CA)n le plus abondant (tous les 25-100 kb).
    • Utilisés pour le typage génétique (PCR des microsatellites).

    3. Minisatellites (VNTR)

    • Motifs de 10 à 100 nucléotides répétés en tandem.
    • Le nombre de répétitions est très variable d'un individu à l'autre.
    • Hautement polymorphes.
    • Utilisés pour le DNA fingerprinting (empreinte génétique) et les tests de paternité.

    Répétitions de trinucleotides instables

    • Peuvent entraîner des maladies humaines (ex: Huntington, Kennedy, dystrophie myotonique).
    • Répétitions (CAG)n dans la séquence codante (pathologiques si > 40-100 répétitions).
    • Répétitions (CGG)n dans les séquences non codantes peuvent s'étendre (méthylation de l'ADN, fragilité chromosomique, inhibition du gène).
    • Répétitions (CTG)n dans les régions 3' UTR (ex: dystrophie myotonique, > 200 répétitions pathologiques).

    Réarrangements Génomiques : Éléments Transposables (ETs)

    • Découverte par Barbara McClintock (1950s) chez le maïs ("éléments de contrôle").
    • Vision du génome passe de statique à dynamique.
    • ETs : Séquences moyennement répétées capables de se déplacer dans le génome.
    • Autonomes (codent pour les protéines de leur déplacement) ou non-autonomes.

    Impact des ETs

    • Mutations : Peuvent s'insérer dans des gènes ou régions régulatrices (délétères ou non).
    • Rangements chromosomiques : Délétions, inversions, translocations (ex: 80% des mutations chez la drosophile, 0,1-0,3% des maladies humaines par Alu).
    • Source de variations génétiques importantes (jouent un rôle dans l'évolution).
    • Présents dans tous les organismes vivants (3% chez la levure, >50% chez le maïs, 15% du génome humain).

    Mécanisme de Transposition

    • Insertion s'accompagne de la duplication d'une courte séquence d'ADN au site cible.
    • Résulte de coupures décalées au site d'insertion.
    • Les ETs sont des familles de séquences répétées dispersées, causant des recombinaisons homologues non alléliques.

    Catégories d'Éléments Transposables

    1. Éléments Transposables ADN ("Cut and Paste")
    • Moins répandus que les rétrotransposons chez les eucaryotes supérieurs.
    • Classe 1 :
      • Éléments de type bactérien ou à TIR (Terminal Inverted Repeats).
      • Codent pour une transposase.
      • Ex: Transposons d'insertion (IS), transposons composites (Tn), transposons non-composites (Tn3).
      • Ex: Éléments Ac/Ds chez le maïs (Ac autonome, Ds non-autonome).
    • Classe 2 (rolling-circle) :
      • Moins complexes, retrouvés chez plantes et animaux.
      • Pas de TIR ni de duplication de site d'insertion typique.
      • Ex: Hélitrons (mécanisme de réplication en cercle roulant, peuvent capturer des gènes).
      • Ex: Polintons (Mavericks, grands transposons d'ADN, jusqu'à 40kb, codent pour ADN polymérase et intégrase).
    2. Rétrotransposons (Intermédiaire ARN, "Copy and Paste")
    • Spécifiquement eucaryotes.
    • Utilisent une reverse transcriptase pour produire un ADNc qui s'insère dans le génome.
    • Ne quittent pas leur site d'origine, font une copie.
    • On distingue :
      • Avec LTR (Long Terminal Repeats) : Structure similaire aux rétrovirus, codent pour Gag (protéines structurales) et Pol (reverse transcriptase, intégrase). Ex: Ty1/copia, Ty3/gypsy.
      • Sans LTR :
        • LINE (Long Interspersed Elements) : Plusieurs milliers de nucléotides (ex: LINE-1, 7000 pb). Codent ORF1 (fixe ARNm) et ORF2 (endonucléase + reverse transcriptase).
        • SINE (Small Interspersed Elements) : Quelques centaines de nucléotides (ex: Alu, 300 pb). Ne codent pas de protéines; dérivés d'ARN (ex: Alu dérive de l'ARN 7SL).
    • Les rétrotransposons LTR et les LINE/SINE constituent environ 25% et 15% du génome humain respectivement.
    3. Rétrogènes
    • Pseudogènes maturés.
    • Formés par rétrotranscription d'un ARNm fonctionnel (après épissage), puis intégration aléatoire dans le génome.
    • Dépourvus d'introns et généralement non fonctionnels car sans promoteur propre.

    Start een quiz

    Test je kennis met interactieve vragen