Concepts de base des bases de données et systèmes de gestion

30 cards

Review

Question

Quelle est la plus petite unité de représentation de l'information?

Answer

Le bit est la plus petite unité de représentation de l'information.

Question

Quelles sont les trois principales opérations sur un fichier?

Answer

Les trois principales opérations sur un fichier sont : Créer, Lire et Écrire.

Question

Décrivez l'accès séquentiel aux informations.

Answer

L'accès séquentiel consiste à lire ou écrire des enregistrements dans un fichier en accédant à l'enregistrement adjacent au dernier utilisé. C'était le mode d'accès principal avec les premiers supports de stockage comme les bandes magnétiques.

Question

Quelle est la différence entre un support de stockage séquentiel et adressable?

Answer

Les supports de stockage séquentiels enregistrent les données les unes après les autres, nécessitant de parcourir toutes les données précédentes pour accéder à une information spécifique (ex: bande magnétique). Les supports adressables divisent l'espace de stockage en unités adressables individuellement, permettant un accès direct aux données à leur adresse sans parcourir les données précédentes (ex: disque dur, SSD).

Question

Citez deux caractéristiques des fichiers plats.

Answer

Les fichiers plats sont faciles à créer et à modifier, mais leur évolutivité est limitée et ils manquent de mécanismes pour garantir l'intégrité des données.

Question

Qu'est-ce qu'un champ clé dans un enregistrement?

Answer

Un champ clé est un champ ou un groupe de champs qui identifie de manière unique chaque enregistrement d'un fichier.

Question

Quel est le rôle principal d'un SGBD?

Answer

Le rôle principal d'un SGBD est de gérer et d'administrer les informations contenues dans une base de données, en assurant leur stockage, leur récupération et leur sécurité.

Question

Expliquez la méthode d'allocation de blocs contigus.

Answer

L'allocation contiguë exige que tous les blocs d'un fichier occupent des positions contiguës sur le disque. L'accès séquentiel et direct est simple, mais elle pose le problème de la fragmentation externe.

Question

Qu'est-ce que l'indépendance physique des données?

Answer

L'indépendance physique des données signifie que le schéma interne (structure de stockage physique) peut être modifié sans affecter le schéma conceptuel ou les programmes d'application.

Question

Quel est le rôle du DDL dans un SGBD?

Answer

Le DDL (Data Definition Language) est utilisé pour définir la structure de la base de données, y compris la création, la modification et la suppression de tables, d'index et d'autres objets.

Question

Qu'est-ce que le dictionnaire de données dans un SGBD?

Answer

Le dictionnaire de données, aussi appelé catalogue système, est un référentiel qui stocke toutes les informations relatives à la description, gestion et implémentation d'une base de données.

Question

Qu'est-ce qu'un fichier plat?

Answer

Un fichier plat est une structure de données simple contenant des informations en texte brut ou CSV, sans organisation complexe. Il est facile à créer mais peut devenir difficile à gérer avec de grands volumes de données.

Question

Quel est l'objectif de l'architecture ANSI SPARC?

Answer

L'architecture ANSI SPARC vise à séparer les programmes applicatifs de la base de données physique en utilisant trois niveaux : externe, conceptuel et interne.

Question

Qu'est-ce que l'indépendance logique des données?

Answer

L'indépendance logique des données permet de modifier le schéma conceptuel sans avoir à modifier les schémas externes ou les programmes d'application.

Question

Citez une caractéristique clé du modèle relationnel.

Answer

Dans le modèle relationnel, les données sont organisées en tables avec des lignes et des colonnes prédéfinies.

Question

Quel est le principe du modèle hiérarchique de base de données?

Answer

Le modèle hiérarchique organise les données sous forme d\'arbre, avec une racine et des nœuds enfants, où chaque nœud a un seul parent.

Question

Décrivez le niveau conceptuel de l'architecture ANSI SPARC.

Answer

Le niveau conceptuel de l'architecture ANSI SPARC décrit la structure globale de la base de données, incluant les entités, leurs attributs et les relations entre elles, indépendamment du stockage physique.

Question

Quel est un inconvénient majeur des bases de données centralisées?

Answer

Un inconvénient majeur des bases de données centralisées est leur vulnérabilité. Une défaillance du serveur unique peut entraîner une perte de données ou une indisponibilité totale du système.

Question

Qu'est-ce que l'encapsulation dans les modèles orientés objet?

Answer

L'encapsulation dans les modèles orientés objet consiste à regrouper les données (attributs) et les méthodes (fonctions) qui opèrent sur ces données au sein d'un même objet, contrôlant ainsi l'accès externe.

Question

Qu'est-ce qu'une base de données distribuée?

Answer

Une base de données distribuée est un ensemble de données réparties sur différents nœuds d'un réseau informatique, où chaque site est autonome et peut exécuter des applications locales ou globales.

Question

Quelle est la règle zéro d'un SGBD distribué?

Answer

Du point de vue de l'utilisateur, un système distribué doit être identique à un système non distribué.

Question

Qu'est-ce qu'une base de données NoSQL?

Answer

Les bases de données NoSQL sont des systèmes de stockage d'informations qui n'utilisent pas le langage SQL traditionnel. Elles sont flexibles et permettent de gérer de grands volumes de données rapidement.

Question

Qu'est-ce que la fragmentation horizontale des données?

Answer

La fragmentation horizontale divise une base de données en sous-ensembles de lignes, basés sur des critères spécifiques, pour être stockés sur différents nœuds.

Question

Citez un avantage des systèmes distribués.

Answer

Un avantage des systèmes distribués est une meilleure tolérance aux pannes, car la défaillance d'un seul nœud a peu de chances d'affecter l'ensemble du système.

Question

Qu'est-ce que la variété dans le contexte du Big Data?

Answer

Dans le contexte du Big Data, la variété fait référence à la diversité des formats de données, qu'elles soient structurées, semi-structurées ou non structurées.

Question

Quel est l'objectif de la Business Intelligence?

Answer

L'objectif de la Business Intelligence est de transformer des données brutes en informations pertinentes pour faciliter la prise de décision, souvent via des représentations graphiques.

Question

Citez un principe de protection des données selon la LOPDGDD.

Answer

Les principes clés incluent la légalité, la loyauté, la transparence, l'exactitude, l'intégrité et la confidentialité des données.

Question

Définissez l'analyse prédictive dans le Big Data.

Answer

L'analyse prédictive utilise des algorithmes et des modèles statistiques pour anticiper des événements futurs.

Question

Citez une situation où une base de données NoSQL est particulièrement utile.

Answer

Les bases de données NoSQL sont particulièrement utiles pour stocker de grandes quantités de données rapidement et pour gérer des informations non structurées ou semi-structurées avec flexibilité.

Question

Quelle est la loi française régissant la protection des données personnelles?

Answer

La loi française régissant la protection des données personnelles est la loi organique 3/2018 du 5 décembre relative à la protection des données personnelles et à la garantie des droits numériques (LOPDGDD), qui adapte le RGPD européen.

Les bases de données sont essentielles pour stocker et récupérer des informations rapidement et facilement, étant omniprésentes dans la vie quotidienne, de la vérification de la disponibilité d'un livre à la gestion des dossiers hospitaliers. Cette unité explore les concepts fondamentaux du stockage d'informations, en se concentrant sur les systèmes d'information, les fichiers, les systèmes de gestion de bases de données (SGBD), l'architecture ANSI SPARC, les modèles de bases de données, les bases de données centralisées et distribuées, les bases de données non relationnelles, le Big Data, la Business Intelligence et les réglementations légales sur la protection des données.

1. Concepts de base

Un système d'information est un ensemble d'activités qui gèrent les informations pertinentes d'une entité, en les distribuant, partageant et stockant sur des supports appropriés. L'unité la plus petite est le bit (0 ou 1), suivi de l'octet (8 bits). Un champ est une donnée référencée, composée d'octets. Les données d'une entité sont regroupées en un enregistrement, identifié par un champ clé. L'ensemble des enregistrements de même type forme un fichier, et l'ensemble des fichiers constitue une base de données.

1.2 Structure de stockage de base : le fichier

Les fichiers de données sont stockés dans des enregistrements logiques, composés de champs. Leurs caractéristiques principales sont :

Résident sur un support externe, leur existence n'est pas limitée à l'exécution du programme.
Capacité de stockage illimitée, pouvant être répartis sur plusieurs supports.
Les données peuvent être transportées d'un ordinateur à un autre.

Les fichiers sont classés par fonction :

Permanents (fichiers maîtres) :
- Situation : reflètent l'état actuel d'une entité.
- Constantes : informations peu modifiées, utilisées comme fichiers de référence.
- Historiques : données obtenues à partir de documents antérieurs pour des études statistiques.
Mouvements : stockent temporairement les informations pour mettre à jour les fichiers de situation.
Fichiers intermédiaires : temporaires, créés et généralement supprimés à la fin d'un programme.

Les opérations sur les fichiers incluent : Créer, Ouvrir, Lire, Écrire, Modifier, Supprimer, Renommer, Copier, Fermer et Indexer.

2. Accès à l'information contenue dans les dossiers

Il existe trois principaux modes d'accès aux enregistrements :

Accès séquentiel : opérations de lecture/écriture sur l'enregistrement adjacent au dernier utilisé.
Accès direct : lecture/écriture directe à l'emplacement physique de l'enregistrement.
Accès à l'index : la clé est recherchée séquentiellement dans un index, qui pointe vers l'adresse réelle de l'enregistrement.

3. Gestion des fichiers sur les supports

La gestion des fichiers dépend du type de support :

Séquentiel : les données sont enregistrées les unes après les autres (ex: bande magnétique).
Adressable : l'espace de stockage est divisé en espaces adressables individuellement, permettant un accès direct (ex: CD-ROM, DVD).

Les informations sont principalement stockées sur des supports adressables. Les méthodes d'allocation de blocs sur disque sont :

Allocation contiguë : tous les blocs d'un fichier occupent des positions contiguës.
Allocation chaînée : les blocs sont répartis aléatoirement, chaque bloc stockant l'adresse du suivant.
Allocation indexée : tous les pointeurs sont regroupés dans un bloc d'index.

4. Fichiers plats

Les fichiers plats (ou fichiers texte) sont des structures de données simples, lisibles par l'homme (ex: texte brut, CSV). Leurs caractéristiques :

Définition : contiennent des informations dans un format lisible par l'homme.
Structure : linéaire, sans structure de données complexe.
Facilité d'utilisation : faciles à créer et modifier avec un éditeur de texte.
Intégrité des données : pas de mécanismes intrinsèques, la cohérence est à la charge du programmeur.
Évolutivité : la gestion devient complexe avec l'augmentation des données.
Exemple d'utilisation : scénarios simples avec peu de données.

Les fichiers plats sont utiles pour des situations simples, tandis que les bases de données sont préférables pour des applications complexes nécessitant une gestion efficace de grands volumes d'informations.

5. Systèmes de gestion de bases de données (SGBD)

Une base de données est un ensemble de données stockées de manière organisée et structurée. Un SGBD est un ensemble de programmes permettant l'administration et la gestion des informations d'une base de données. Il fournit des niveaux d'abstraction de l'information, masquant les détails de stockage et de récupération.

5.1 Objectifs

Les objectifs d'un SGBD sont :

Réduire la redondance des informations.
Assurer l'indépendance des données (physique et logique).
Contrôler l'intégrité des informations.
Fournir des mécanismes de sauvegarde.
Assurer la protection des données contre les accès non autorisés.
Fournir des mécanismes de suivi des opérations.
Offrir une polyvalence dans la recherche d'informations.
Garantir un temps de réponse court.
Résoudre les problèmes de concurrence (mises à jour incorrectes, blocages).

5.2 Composants

Un SGBD est divisé en quatre modules :

Noyau : coordonne et contrôle le fonctionnement du SGBD.
Langages :
- Langage de description de données (DDL) : définit les schémas conceptuels et externes.
- Langage de manipulation de données (DML) : gère les informations (ajout, suppression, modification, récupération).
Utilitaires : applications simplifiant le travail des utilisateurs et programmeurs avec des interfaces intuitives.
Dictionnaire de données : référentiel intégré stockant toutes les informations relatives à la description, gestion et implémentation de la base de données. Il est structuré en trois couches :
- Globale : informations communes à tous les utilisateurs.
- Intermédiaire : organise les relations entre les couches globale et locale (vues).
- Locale : données représentées sous forme de groupes d'informations spécifiques.

6. Architecture ANSI SPARC

Proposée en 1975, cette architecture à trois niveaux vise à séparer les programmes applicatifs de la base de données physique, offrant une vue abstraite des informations.

Indépendance physique : possibilité de modifier le schéma interne sans affecter le schéma conceptuel.
Indépendance logique : possibilité de modifier le schéma conceptuel sans affecter les schémas externes ou les programmes d'application.

6.1 Niveau interne

Décrit la structure physique de la base de données, incluant les détails de stockage et les méthodes d'accès (type et longueur des enregistrements, organisation des fichiers, etc.).

6.2 Niveau conceptuel

Décrit la structure de la base de données pour une communauté d'utilisateurs, masquant les détails de stockage et se concentrant sur les entités, leurs attributs, relations, opérations et contraintes.

6.3 Niveau externe

Décrit les perceptions individuelles de la base de données (sous-schémas ou vues). Chaque schéma externe décrit la partie de la base de données qui intéresse un groupe spécifique d'utilisateurs.

7. Modèles de bases de données

Les modèles de données logiques sont divisés en deux groupes : basés sur les enregistrements et orientés objet.

7.1 Modèles basés sur les enregistrements

Décrivent les données aux niveaux conceptuel et physique, structurant la base de données en enregistrements de différents types avec un nombre fixe de champs.

Modèle hiérarchique : utilise des structures arborescentes (nœuds, segments) où chaque nœud a un seul parent.
Modèle réseau : structure de nœuds interconnectés, où un nœud peut avoir plusieurs parents, permettant des relations plusieurs-à-plusieurs.
Modèle relationnel : constitué de tables (structures bidimensionnelles) de même type d'enregistrements. Les tables ne peuvent pas contenir d'enregistrements ou de champs répétés et ont un champ clé unique.

7.2 Modèles orientés objet

Les systèmes de gestion de bases de données orientés objet (SGBDO) modélisent chaque entité du monde réel comme un objet avec un identifiant unique, un état (attributs) et un comportement (méthodes). Le modèle de données repose sur les concepts de classe, d'objet et de fonction. Les caractéristiques incluent :

Objets et identité : chaque entité est un objet unique.
Encapsulation : chaque objet contient ses méthodes et une interface d'accès.
Classes : ensemble d'objets avec les mêmes attributs et méthodes.
Héritage : une sous-classe hérite des attributs et méthodes de ses superclasses.
Objets complexes : les valeurs des attributs peuvent être des objets.
Surcharge : une opération peut avoir plusieurs méthodes associées.

8. Bases de données centralisées

Les bases de données centralisées stockent toutes les informations en un seul emplacement physique ou logique, gérées par un serveur central.

Caractéristiques :

Architecture monolithique : tout le système sur une seule machine.
Contrôle et sécurité centralisés : gestion simplifiée mais plus vulnérable.
Maintenance plus facile : administration, sauvegarde et mises à jour simplifiées.

Inconvénients :

Évolutivité limitée : problèmes de performance avec l'augmentation des données ou utilisateurs.
Latence : accrue pour les utilisateurs éloignés du serveur.
Risque de perte de données : plus élevé en cas de défaillance du serveur central.

9. Bases de données distribuées

Une base de données distribuée (DDB) est un ensemble de données réparties sur différents nœuds d'un réseau informatique. Chaque site est autonome et coopère via un sous-système de communication.

9.1 Avantages et inconvénients des systèmes distribués

Avantages :

Meilleure tolérance aux pannes.
Accès aux données plus rapide.
Traitement rapide.

Inconvénients :

Contrôle et manipulation des données plus compliqués.
Complexité de garantir l'intégrité des informations.

9.2 Système de gestion de base de données distribuée

Un système de gestion de base de données distribuée (DDBS) gère la DDB. Il établit des stratégies d'exécution de requêtes, décide des copies de données répliquées, stocke le schéma de distribution, maintient la cohérence des copies et effectue la récupération après pannes.

Les DDB peuvent être :

Homogène : tous les sites ont le même SGBD et coopèrent.
Hétérogène : chaque site peut avoir un SGBD et des schémas différents, avec une coopération limitée.

9.2.1 Problèmes à résoudre dans les bases de données distribuées

Les problèmes incluent la fragmentation (comment diviser la base de données) et l'affectation (où chaque partie est située et si elle est répliquée).

Aspects à prendre en compte :

Fragmentation : partitionnement des informations pour les distribuer sur différents sites.
Allocation : stockage de chaque fragment dans un emplacement basé sur une distribution optimale.
Réplication : le SGBD peut conserver une copie d'un fragment dans différents sites.

9.2.2 Les 12 règles d'un SGBD

La règle zéro stipule qu'un système distribué doit être identique à un système non distribué du point de vue de l'utilisateur. Les autres règles incluent l'autonomie locale, l'indépendance de localisation, l'indépendance de la fragmentation, l'indépendance de la réplication, le traitement distribué des requêtes, la gestion des transactions distribuées, l'indépendance de l'ordinateur, l'indépendance du système d'exploitation, l'indépendance du réseau, l'indépendance du SGBD et le fonctionnement continu.

10. Bases de données non relationnelles

Les bases de données non relationnelles, ou NoSQL, ne suivent pas le modèle relationnel traditionnel et n'utilisent pas le langage SQL. Elles sont utiles pour :

Stocker et accéder rapidement à de grandes quantités d'informations.
Stocker différents types d'informations grâce à leur flexibilité.
Stocker de grandes quantités de données.

Les types incluent les bases de données clé-valeur, document, graphique et orientées objet (ex: Cassandra, Redis, MongoDB, CouchDB).

11. Big Data

Le Big Data désigne de grands ensembles de données qui dépassent la capacité de traitement des outils traditionnels, ainsi que les technologies et processus pour collecter, stocker et analyser ces données.

11.1 Les cinq V du Big Data

Volume : grande quantité de données générées et compilées.
Rapidité : données générées et mises à jour à un rythme rapide.
Variété : données structurées, semi-structurées ou non structurées.
Véracité : intégrité et précision des données.
Valeur : la valeur que cette quantité de données peut apporter aux entreprises.

11.2 Analyse des données

Processus d'examen, d'interprétation et d'extraction d'informations pertinentes à partir de vastes ensembles de données. Techniques principales :

Analyse prédictive : utilise des algorithmes pour prédire des événements futurs (ex: exploration de données).
Text Mining : analyse de données non structurées (documents, e-mails).
Machine learning : développement d'algorithmes apprenant des données pour faire des prédictions.

11.3 Business Intelligence

La Business Intelligence (BI) est l'ensemble des processus, méthodologies, outils et technologies pour transformer des données brutes en informations pertinentes, souvent visualisées graphiquement. La BI implique l'accès à des données déjà stockées et organisées, tandis que le Big Data vise à stocker et traiter de grands volumes de données en temps réel provenant de sources diverses.

12. Réglementations légales sur la protection des données

La Loi organique 3/2018 du 5 décembre relative à la protection des données personnelles et à la garantie des droits numériques (LOPDGDD) est l'adaptation espagnole du Règlement général sur la protection des données (RGPD) de l'UE.

Points clés :

Portée : s'applique à tout traitement de données personnelles en Espagne.
Principes de protection des données : légalité, loyauté, transparence, exactitude, intégrité et confidentialité.
Consentement : doit être libre, éclairé, spécifique et univoque.
Droits des personnes : accès, rectification, annulation, limitation du traitement et portabilité.
Mesures de sécurité : les responsables doivent mettre en œuvre des mesures techniques appropriées.
Transferts internationaux : réglementés pour garantir un niveau de protection adéquat.
Registre des activités de traitement : les responsables doivent tenir un registre.
Autorité de contrôle : l'Agence espagnole de protection des données (AEPD) contrôle et fait respecter la loi.

Start a quiz

Test your knowledge with interactive questions