Concepts de base des bases de données et systèmes de gestion
30 cards30 cards
Les bases de données sont essentielles pour stocker et récupérer des informations rapidement et facilement, étant omniprésentes dans la vie quotidienne, de la vérification de la disponibilité d'un livre à la gestion des dossiers hospitaliers. Cette unité explore les concepts fondamentaux du stockage d'informations, en se concentrant sur les systèmes d'information, les fichiers, les systèmes de gestion de bases de données (SGBD), l'architecture ANSI SPARC, les modèles de bases de données, les bases de données centralisées et distribuées, les bases de données non relationnelles, le Big Data, la Business Intelligence et les réglementations légales sur la protection des données.
1. Concepts de base
Un système d'information est un ensemble d'activités qui gèrent les informations pertinentes d'une entité, en les distribuant, partageant et stockant sur des supports appropriés. L'unité la plus petite est le bit (0 ou 1), suivi de l'octet (8 bits). Un champ est une donnée référencée, composée d'octets. Les données d'une entité sont regroupées en un enregistrement, identifié par un champ clé. L'ensemble des enregistrements de même type forme un fichier, et l'ensemble des fichiers constitue une base de données.
1.2 Structure de stockage de base : le fichier
Les fichiers de données sont stockés dans des enregistrements logiques, composés de champs. Leurs caractéristiques principales sont :
Résident sur un support externe, leur existence n'est pas limitée à l'exécution du programme.
Capacité de stockage illimitée, pouvant être répartis sur plusieurs supports.
Les données peuvent être transportées d'un ordinateur à un autre.
Les fichiers sont classés par fonction :
Permanents (fichiers maîtres) :
Situation : reflètent l'état actuel d'une entité.
Constantes : informations peu modifiées, utilisées comme fichiers de référence.
Historiques : données obtenues à partir de documents antérieurs pour des études statistiques.
Mouvements : stockent temporairement les informations pour mettre à jour les fichiers de situation.
Fichiers intermédiaires : temporaires, créés et généralement supprimés à la fin d'un programme.
Les opérations sur les fichiers incluent : Créer, Ouvrir, Lire, Écrire, Modifier, Supprimer, Renommer, Copier, Fermer et Indexer.
2. Accès à l'information contenue dans les dossiers
Il existe trois principaux modes d'accès aux enregistrements :
Accès séquentiel : opérations de lecture/écriture sur l'enregistrement adjacent au dernier utilisé.
Accès direct : lecture/écriture directe à l'emplacement physique de l'enregistrement.
Accès à l'index : la clé est recherchée séquentiellement dans un index, qui pointe vers l'adresse réelle de l'enregistrement.
3. Gestion des fichiers sur les supports
La gestion des fichiers dépend du type de support :
Séquentiel : les données sont enregistrées les unes après les autres (ex: bande magnétique).
Adressable : l'espace de stockage est divisé en espaces adressables individuellement, permettant un accès direct (ex: CD-ROM, DVD).
Les informations sont principalement stockées sur des supports adressables. Les méthodes d'allocation de blocs sur disque sont :
Allocation contiguë : tous les blocs d'un fichier occupent des positions contiguës.
Allocation chaînée : les blocs sont répartis aléatoirement, chaque bloc stockant l'adresse du suivant.
Allocation indexée : tous les pointeurs sont regroupés dans un bloc d'index.
4. Fichiers plats
Les fichiers plats (ou fichiers texte) sont des structures de données simples, lisibles par l'homme (ex: texte brut, CSV). Leurs caractéristiques :
Définition : contiennent des informations dans un format lisible par l'homme.
Structure : linéaire, sans structure de données complexe.
Facilité d'utilisation : faciles à créer et modifier avec un éditeur de texte.
Intégrité des données : pas de mécanismes intrinsèques, la cohérence est à la charge du programmeur.
Évolutivité : la gestion devient complexe avec l'augmentation des données.
Exemple d'utilisation : scénarios simples avec peu de données.
Les fichiers plats sont utiles pour des situations simples, tandis que les bases de données sont préférables pour des applications complexes nécessitant une gestion efficace de grands volumes d'informations.
5. Systèmes de gestion de bases de données (SGBD)
Une base de données est un ensemble de données stockées de manière organisée et structurée. Un SGBD est un ensemble de programmes permettant l'administration et la gestion des informations d'une base de données. Il fournit des niveaux d'abstraction de l'information, masquant les détails de stockage et de récupération.
5.1 Objectifs
Les objectifs d'un SGBD sont :
Réduire la redondance des informations.
Assurer l'indépendance des données (physique et logique).
Contrôler l'intégrité des informations.
Fournir des mécanismes de sauvegarde.
Assurer la protection des données contre les accès non autorisés.
Fournir des mécanismes de suivi des opérations.
Offrir une polyvalence dans la recherche d'informations.
Garantir un temps de réponse court.
Résoudre les problèmes de concurrence (mises à jour incorrectes, blocages).
5.2 Composants
Un SGBD est divisé en quatre modules :
Noyau : coordonne et contrôle le fonctionnement du SGBD.
Langages :
Langage de description de données (DDL) : définit les schémas conceptuels et externes.
Langage de manipulation de données (DML) : gère les informations (ajout, suppression, modification, récupération).
Utilitaires : applications simplifiant le travail des utilisateurs et programmeurs avec des interfaces intuitives.
Dictionnaire de données : référentiel intégré stockant toutes les informations relatives à la description, gestion et implémentation de la base de données. Il est structuré en trois couches :
Globale : informations communes à tous les utilisateurs.
Intermédiaire : organise les relations entre les couches globale et locale (vues).
Locale : données représentées sous forme de groupes d'informations spécifiques.
6. Architecture ANSI SPARC
Proposée en 1975, cette architecture à trois niveaux vise à séparer les programmes applicatifs de la base de données physique, offrant une vue abstraite des informations.
Indépendance physique : possibilité de modifier le schéma interne sans affecter le schéma conceptuel.
Indépendance logique : possibilité de modifier le schéma conceptuel sans affecter les schémas externes ou les programmes d'application.
6.1 Niveau interne
Décrit la structure physique de la base de données, incluant les détails de stockage et les méthodes d'accès (type et longueur des enregistrements, organisation des fichiers, etc.).
6.2 Niveau conceptuel
Décrit la structure de la base de données pour une communauté d'utilisateurs, masquant les détails de stockage et se concentrant sur les entités, leurs attributs, relations, opérations et contraintes.
6.3 Niveau externe
Décrit les perceptions individuelles de la base de données (sous-schémas ou vues). Chaque schéma externe décrit la partie de la base de données qui intéresse un groupe spécifique d'utilisateurs.
7. Modèles de bases de données
Les modèles de données logiques sont divisés en deux groupes : basés sur les enregistrements et orientés objet.
7.1 Modèles basés sur les enregistrements
Décrivent les données aux niveaux conceptuel et physique, structurant la base de données en enregistrements de différents types avec un nombre fixe de champs.
Modèle hiérarchique : utilise des structures arborescentes (nœuds, segments) où chaque nœud a un seul parent.
Modèle réseau : structure de nœuds interconnectés, où un nœud peut avoir plusieurs parents, permettant des relations plusieurs-à-plusieurs.
Modèle relationnel : constitué de tables (structures bidimensionnelles) de même type d'enregistrements. Les tables ne peuvent pas contenir d'enregistrements ou de champs répétés et ont un champ clé unique.
7.2 Modèles orientés objet
Les systèmes de gestion de bases de données orientés objet (SGBDO) modélisent chaque entité du monde réel comme un objet avec un identifiant unique, un état (attributs) et un comportement (méthodes). Le modèle de données repose sur les concepts de classe, d'objet et de fonction. Les caractéristiques incluent :
Objets et identité : chaque entité est un objet unique.
Encapsulation : chaque objet contient ses méthodes et une interface d'accès.
Classes : ensemble d'objets avec les mêmes attributs et méthodes.
Héritage : une sous-classe hérite des attributs et méthodes de ses superclasses.
Objets complexes : les valeurs des attributs peuvent être des objets.
Surcharge : une opération peut avoir plusieurs méthodes associées.
8. Bases de données centralisées
Les bases de données centralisées stockent toutes les informations en un seul emplacement physique ou logique, gérées par un serveur central.
Caractéristiques :
Architecture monolithique : tout le système sur une seule machine.
Contrôle et sécurité centralisés : gestion simplifiée mais plus vulnérable.
Maintenance plus facile : administration, sauvegarde et mises à jour simplifiées.
Inconvénients :
Évolutivité limitée : problèmes de performance avec l'augmentation des données ou utilisateurs.
Latence : accrue pour les utilisateurs éloignés du serveur.
Risque de perte de données : plus élevé en cas de défaillance du serveur central.
9. Bases de données distribuées
Une base de données distribuée (DDB) est un ensemble de données réparties sur différents nœuds d'un réseau informatique. Chaque site est autonome et coopère via un sous-système de communication.
9.1 Avantages et inconvénients des systèmes distribués
Avantages :
Meilleure tolérance aux pannes.
Accès aux données plus rapide.
Traitement rapide.
Inconvénients :
Contrôle et manipulation des données plus compliqués.
Complexité de garantir l'intégrité des informations.
9.2 Système de gestion de base de données distribuée
Un système de gestion de base de données distribuée (DDBS) gère la DDB. Il établit des stratégies d'exécution de requêtes, décide des copies de données répliquées, stocke le schéma de distribution, maintient la cohérence des copies et effectue la récupération après pannes.
Les DDB peuvent être :
Homogène : tous les sites ont le même SGBD et coopèrent.
Hétérogène : chaque site peut avoir un SGBD et des schémas différents, avec une coopération limitée.
9.2.1 Problèmes à résoudre dans les bases de données distribuées
Les problèmes incluent la fragmentation (comment diviser la base de données) et l'affectation (où chaque partie est située et si elle est répliquée).
Aspects à prendre en compte :
Fragmentation : partitionnement des informations pour les distribuer sur différents sites.
Allocation : stockage de chaque fragment dans un emplacement basé sur une distribution optimale.
Réplication : le SGBD peut conserver une copie d'un fragment dans différents sites.
9.2.2 Les 12 règles d'un SGBD
La règle zéro stipule qu'un système distribué doit être identique à un système non distribué du point de vue de l'utilisateur. Les autres règles incluent l'autonomie locale, l'indépendance de localisation, l'indépendance de la fragmentation, l'indépendance de la réplication, le traitement distribué des requêtes, la gestion des transactions distribuées, l'indépendance de l'ordinateur, l'indépendance du système d'exploitation, l'indépendance du réseau, l'indépendance du SGBD et le fonctionnement continu.
10. Bases de données non relationnelles
Les bases de données non relationnelles, ou NoSQL, ne suivent pas le modèle relationnel traditionnel et n'utilisent pas le langage SQL. Elles sont utiles pour :
Stocker et accéder rapidement à de grandes quantités d'informations.
Stocker différents types d'informations grâce à leur flexibilité.
Stocker de grandes quantités de données.
Les types incluent les bases de données clé-valeur, document, graphique et orientées objet (ex: Cassandra, Redis, MongoDB, CouchDB).
11. Big Data
Le Big Data désigne de grands ensembles de données qui dépassent la capacité de traitement des outils traditionnels, ainsi que les technologies et processus pour collecter, stocker et analyser ces données.
11.1 Les cinq V du Big Data
Volume : grande quantité de données générées et compilées.
Rapidité : données générées et mises à jour à un rythme rapide.
Variété : données structurées, semi-structurées ou non structurées.
Véracité : intégrité et précision des données.
Valeur : la valeur que cette quantité de données peut apporter aux entreprises.
11.2 Analyse des données
Processus d'examen, d'interprétation et d'extraction d'informations pertinentes à partir de vastes ensembles de données. Techniques principales :
Analyse prédictive : utilise des algorithmes pour prédire des événements futurs (ex: exploration de données).
Text Mining : analyse de données non structurées (documents, e-mails).
Machine learning : développement d'algorithmes apprenant des données pour faire des prédictions.
11.3 Business Intelligence
La Business Intelligence (BI) est l'ensemble des processus, méthodologies, outils et technologies pour transformer des données brutes en informations pertinentes, souvent visualisées graphiquement. La BI implique l'accès à des données déjà stockées et organisées, tandis que le Big Data vise à stocker et traiter de grands volumes de données en temps réel provenant de sources diverses.
12. Réglementations légales sur la protection des données
La Loi organique 3/2018 du 5 décembre relative à la protection des données personnelles et à la garantie des droits numériques (LOPDGDD) est l'adaptation espagnole du Règlement général sur la protection des données (RGPD) de l'UE.
Points clés :
Portée : s'applique à tout traitement de données personnelles en Espagne.
Principes de protection des données : légalité, loyauté, transparence, exactitude, intégrité et confidentialité.
Consentement : doit être libre, éclairé, spécifique et univoque.
Droits des personnes : accès, rectification, annulation, limitation du traitement et portabilité.
Mesures de sécurité : les responsables doivent mettre en œuvre des mesures techniques appropriées.
Transferts internationaux : réglementés pour garantir un niveau de protection adéquat.
Registre des activités de traitement : les responsables doivent tenir un registre.
Autorité de contrôle : l'Agence espagnole de protection des données (AEPD) contrôle et fait respecter la loi.
Start a quiz
Test your knowledge with interactive questions