Capture-Marquage-Recapture estimation d'effectifs

Nessuna carta

Méthode de capture, marquage et recapture pour estimation d'effectifs écologiques.

Voici un résumé des cours, structuré pour être une fiche de révision rapide.

1. Méthode Capture-Marquage-Recapture (CMR)

La méthode CMR est utilisée pour estimer l'abondance () d'une population animale dans un milieu donné, par exemple le nombre de truites dans un lac.

Principe

  1. Première étape : Capture et Marquage (M)

    • On capture un nombre d'animaux.

    • On les marque (bague, couleur, transpondeur).

    • On les relâche dans le milieu.

  2. Deuxième étape : Recapture (n, m)

    • Après un certain temps, on capture un nouvel échantillon de taille .

    • On compte le nombre d'animaux marqués dans ce second échantillon.

Formule d'estimation

Hypothèse clé : la proportion d'animaux marqués est la même dans le nouvel échantillon que dans la population totale.

D'où l'estimation de l'abondance :

Exemple : truites marquées, truites recapturées, truites marquées dans le second échantillon.

> truites.

Conditions d'efficacité

  • Population stable : Pas de migration, naissances ou décès significatifs entre les captures.

  • Marquage inoffensif : Les marques n'affectent pas le comportement ni la survie des animaux, et ne sont pas perdues.

  • Probabilité de capture uniforme : Un animal marqué a la même chance d'être capturé qu'un non marqué.

Limites de la méthode

  • Difficulté de capture : Certaines catégories (ex: jeunes) sont difficiles à échantillonner.

  • Impact du marquage : Peut rendre les animaux plus vulnérables ou modifier leur comportement.

  • Méfiance des animaux : Un animal déjà capturé peut être plus difficile à recapturer.

2. Fluctuation d'échantillonnage et Intervalle de Confiance

La proportion d'animaux marqués dans un échantillon () varie d'un échantillon à l'autre. C'est la fluctuation d'échantillonnage.

Approximation de la proportion

  • est une bonne approximation de si (taille du second échantillon) est grand.

Intervalle de confiance (niveau 95%)

La proportion réelle appartient à l'intervalle suivant dans 95% des cas :

  • Marge d'erreur : L'écart entre la fréquence observée et la proportion réelle est inférieure à .

  • Amplitude : L'amplitude de l'intervalle est .

  • Précision : L'encadrement est d'autant plus précis que est grand (l'amplitude diminue).

Détermination de la taille de l'échantillon pour une marge d'erreur

Pour obtenir une marge d'erreur inférieure à une valeur , il faut choisir tel que :

Exemple : Pour une marge d'erreur (), il faut .

3. Génétique des Populations : Lois de Hardy-Weinberg

Étude des fréquences des allèles et des génotypes sur plusieurs générations dans une population.

Allèles et Génotypes

  • Dans un gène avec deux allèles ( et ), il existe 3 génotypes :

    • AA (homozygote)

    • Aa (hétérozygote)

    • aa (homozygote)

Fréquences

  • Fréquences génotypiques : Proportion d'individus possédant un génotype donné (ex: , , ).

  • Fréquences alléliques : Proportion de gènes portant un allèle donné (ex: , ).

Relations entre fréquences

Si , , sont les fréquences génotypiques, alors les fréquences alléliques sont :

Note : et .

Équilibre de Hardy-Weinberg

Dans certaines conditions, les fréquences alléliques et génotypiques atteignent un équilibre.

Calcul des fréquences depuis

  • Si est la fréquence de et celle de à la génération :

Propriétés clés à l'équilibre (dès la génération 1 pour les génotypes, dès la génération 0 pour les allèles)

  • Les fréquences alléliques sont constantes de génération en génération (, ).

  • Les fréquences génotypiques sont constantes à partir de la génération 1 (, , ).

  • Relations spécifiques à l'équilibre :

Hypothèses du modèle de Hardy-Weinberg

  • Population très grande.

  • Caractère lié à des cellules diploïdes.

  • Population panmictique (reproduction sexuée, accouplements aléatoires, transmission aléatoire des allèles).

  • Absence de forces évolutives : ni sélection, ni mutation, ni migration.

  • Pas de reproduction intergénérationnelle.

  • Tous les génotypes sont viables et féconds.

Écarts à l'équilibre : Forces évolutives

Si les fréquences observées ne correspondent pas à l'équilibre de Hardy-Weinberg, cela indique la présence de forces évolutives :

  • Dérive génétique : Fluctuations aléatoires des fréquences alléliques, plus marquées dans les petites populations, pouvant mener à la disparition d'un allèle.

  • Sélection naturelle : Avantage reproductif pour certains génotypes, modifiant les proportions au fil des générations (ex: pinsons des Galapagos).

  • Mutation génétique : Apparition de nouveaux allèles ou changement d'allèles existants.

4. Histoire de l'Informatique et Architecture des Ordinateurs

De l'âge des machines mécaniques aux ordinateurs modernes.

Origines (avant 1900)

  • 1642-1645 : Pascaline (Pascal) - première machine à calculer.

  • 1671-1694 : Leibniz construit une machine à multiplier.

  • 1725-1801 : Métiers à tisser programmables (Bouchon, Falcon, Vaucanson, Jacquard) utilisant des rubans ou cartes perforées.

>XIXe siècle : Charles Babbage et la machine analytique (calculs exacts, impression). Idée d'utiliser des cartes perforées (inspiration Jacquard).

  • 1843 : Ada Lovelace publie le premier algorithme (nombres de Bernoulli) pour la machine de Babbage, introduisant la boucle conditionnelle et une forme d'écriture spécifique à la machine.

  • Fin XIXe siècle : Herman Hollerith développe des machines à lire/trier des cartes perforées pour le recensement américain (6 ans au lieu de 10). Fonde l'entreprise qui deviendra IBM.

Fondements théoriques et Architecture (XXe siècle)

  • 1936 : Alan Turing publie un article définissant la machine de Turing (concept théorique d'algorithme et de calculabilité effective).

    • Idées clés : nécessité de mémoriser les informations (mémoire) et une machine universelle capable de simuler toute autre machine de Turing.

  • 1945 : John von Neumann pose les bases de l'architecture des ordinateurs (machine universelle contrôlée par un programme, instructions codées numériquement et stockées en mémoire).

Modèle de von Neumann : 4 éléments principaux

  • Unité Arithmétique et Logique (UAL) : Opérations arithmétiques élémentaires.

  • Unité de Commande : Séquençage des opérations.

  • Mémoire : Stocke à la fois les données et le programme.

  • Unités d'entrée/sortie (E/S) : Communication avec le monde extérieur.

Premiers ordinateurs opérationnels

  • 1949 : EDSAC (Cambridge) et Manchester Mark 1 (Victoria University).

  • 1951 : Premiers ordinateurs commerciaux : Ferranti Mark 1 et UNIVAC (1500 exemplaires vendus, 13 tonnes).

5. Stockage des Données

Comment l'information numérique est conservée et gérée.

Unité de mémoire : le Bit et l'Octet

  • Bit (binary digit) : Unité élémentaire de mémoire, peut être dans 2 états (0 ou 1).

  • Octet : Agrégat de 8 bits. Peut coder valeurs différentes.

  • La taille de la mémoire est généralement donnée en octets (ko, Mo, Go, To, Po).

unité

kilooctet (ko)

mégaoctet (Mo)

gigaoctet (Go)

teraoctet (To)

pétaoctet (Po)

en octets

Supports de stockage : Évolution

  • 1ère génération : Rubans et cartes perforées.

  • 2ème génération : Supports magnétiques.

    • 1928 : Bandes magnétiques.

    • Années 1950 : Disques durs.

Années 1960 : Cassettes et disquettes (8'', 5'¼, 3'½).

  • 3ème génération : Supports optiques.

    • Début Années 1980 : CD (682 Mo).

    • Milieu Années 1990 : DVD (4,7 à 17 Go).

    • Milieu Années 2000 : Blu-Ray.

  • 4ème génération : Mémoires flash (clés USB, cartes SD, SSD).

    • Fin Années 1980 : Technologie coûteuse au début.

    • Années 2000-2010 : Démocratisation et amélioration (SSD jusqu'à 16 To en 2019).

6. Formats de Fichiers et Taille

Les données sont numérisées (transformées en bits) et stockées selon des formats spécifiques.

Types de fichiers numériques

  • Fichiers exécutables : Logiciels, programmes (langage machine ou interprétable).

  • Fichiers non exécutables : Nécessitent un logiciel spécifique pour être lus/modifiés (texte, image, son, vidéo).

Extensions courantes

extension

.txt

.docx

.odt

.jpeg

.png

.mp3

.wav

.avi

.mp4

nature

texte

texte

texte

image

image

son

son

vidéo

vidéo

Taille des fichiers

  • Varie selon le format et les méthodes de compression (ex: mp3 ignore fréquences inaudibles).

  • Ordres de grandeur :

    • Texte : Ordre du ko.

    • Son ou image : Ordre du Mo.

    • Vidéo : Ordre de quelques centaines de Mo à Go.

Codage ASCII pour .txt

  • Chaque caractère (lettre, espace, ponctuation) correspond à un nombre.

  • Version initiale : 0 à 127 (codé sur 7 bits).

  • Version étendue : 0 à 255 (codé sur 8 bits = 1 octet).

  • Taille d'un fichier .txt = nombre de caractères (en octets).

  • Exemple : "Quelle est la taille de ce texte ?" (34 caractères) = 34 octets.

7. Intelligence Artificielle (IA)

L'IA vise à permettre aux machines d'accomplir des tâches humaines.

Définition (Yann Le Cun)

L'IA est un ensemble de techniques permettant à des machines d'accomplir des tâches et de résoudre des problèmes normalement réservés à des humains et à certains animaux.

  • But : Reproduire activités humaines (compréhension, perception, décision).

  • Exemples : Reconnaissance d'objets, apprentissage de jeux (échecs), pilotage de voiture, traduction, diagnostic médical.

Apprentissage Machine (Machine Learning)

Domaine de recherche IA/statistiques où les programmes évoluent avec des données d'entraînement.

Principe général

  • Phase d'apprentissage/entraînement : La machine s'entraîne sur un grand volume de données pour déterminer un comportement.

  • Phase d'inférence : La machine applique ce comportement sur de nouvelles données.

  • Note : Une machine a besoin de beaucoup plus de données qu'un humain pour apprendre une tâche (ex: milliers d'images de chats vs. 10 pour un enfant).

Types d'apprentissage machine

  • Apprentissage supervisé :

    • Données d'entraînement étiquetées par l'homme (ex: images de chats identifiées comme "chat" ou "non-chat").

    • Exemple : Apprentissage profond (Deep Learning) - succession de modules inspirée du cerveau (réseaux de neurones artificiels).

  • Apprentissage non supervisé :

    • Données d'entraînement non étiquetées. La machine identifie elle-même des régularités, proximités, corrélations.

  • Apprentissage par renforcement :

    • La machine apprend par essais/erreurs avec un système de récompenses/punitions.

    • Exemple : Jeux (échecs, Go) - la machine joue contre elle-même pour trouver des stratégies optimales.

Outils mathématiques en apprentissage machine

  • Courbes d'ajustement : Trouver une fonction qui s'adapte le mieux aux données (ex: régression linéaire).

  • Méthode du k plus proches voisins (k-NN) : Classifier une nouvelle donnée en fonction de la majorité de ses voisins dans les données d'entraînement.

  • Inférence bayésienne : Déterminer les probabilités des causes à partir de celles de leurs effets.

8. Inférence Bayésienne

Basée sur le théorème de Bayes, permet de calculer des probabilités de causes à partir d'effets.

Principe

  • Méthode de calcul pour déterminer les probabilités des causes (ex: être malade) à partir des probabilités de leurs effets (ex: test positif).

  • Utilisée en IA pour la prise de décision (diagnostic médical, filtre anti-spam).

Exemple : Test de dépistage

Pour un test, on définit :

  • Sensibilité (Se) : Probabilité qu'une personne malade ait un résultat positif.

  • Spécificité (Sp) : Probabilité qu'une personne non malade ait un résultat négatif.

Ce qui importe est la valeur prédictive positive : probabilité qu'une personne testée positive soit réellement malade.

  • Cette valeur dépend fortement de la prévalence (p) de la maladie dans la population.

Formule de Bayes pour la valeur prédictive positive (V)

  • Conclusion : Même avec une bonne sensibilité et spécificité, la valeur prédictive positive est faible si la prévalence de la maladie est faible.

Application aux filtres anti-spam

  • Principe : Les mots ont des probabilités différentes d'apparaître dans les spams vs. courriers légitimes.

  • Phase d'apprentissage : Le filtre évalue ces probabilités en observant les classements manuels des utilisateurs.

  • Phase d'inférence : Utilise la formule de Bayes pour calculer la probabilité qu'un message soit un spam sachant qu'il contient un mot . Si cette probabilité dépasse un seuil, le message est classé comme spam.

Inizia un quiz

Testa le tue conoscenze con domande interattive