Premessa

Portale di appartenenza: Basi di dati.

Cosa troverai in questa nota:

Il modello relazionale, dalle origini concettuali di Codd fino ad arrivare alla definizione formale di base di dati.

I vari tipi di vincoli di integrità, compresi il vincolo locale di chiave primaria e il vincolo globale di integrità referenziale.

Prerequisiti: per comprendere pienamente il contenuto di questa nota, oltre le conoscenze minime che do per scontato che tu sappia già, ti consiglio di aver letto in precedenza queste altre note:

Basi di dati.

Buona lettura! ☝️🤓

Definizione: modello relazionale

Il modello relazionale è un modello logico per l’organizzazione e la gestione dei dati nei database, basato sulla teoria degli insiemi e sulla logica matematica proposto da Edgar F. Codd nel 1970.

I DBMS basati sul modello relazionale vengono detti RDBMS.

Definizione: RDBMS

Il RDBMS (Relational DataBase Management System) è un particolare tipo di DBMS basato sul modello relazionale.

1 - Introduzione di Codd sul modello relazionale

Edgar F. Codd, nel suo articolo scientifico in cui ha introdotto le basi del modello relazionale (e che puoi trovare integralmente qui, o tradotto in italiano qui) pubblicato nel 1970, spiega i motivi che lo hanno portato allo sviluppo di questo modello come alternativa al modello reticolare o al modello a grafo molto diffusi in quel periodo. In particolare, i vantaggi del modello relazionale introdotto da Codd sono:

Indipendenza (logica e fisica) dei dati: nei modelli precedenti, la struttura fisica dei dati influenzava direttamente il modo in cui essi venivano interrogati e manipolati, mentre nel modello relazionale i dati sono organizzati in tabelle e possono essere modificati senza impattare le applicazioni che li usano.
Semplicità concettuale: le relazioni sono intuitive e basate su concetti matematici solidi (come la teoria degli insiemi e l’algebra relazionale), mentre i modelli gerarchico e reticolare richiedevano una gestione complessa dei puntatori e dei percorsi di accesso ai dati.
Eliminazione della ridondanza e maggiore integrità dei dati: il modello relazionale introduce il concetto di normalizzazione che aiuta a ridurre la ridondanza e i problemi di inconsistenza dei dati, mentre nei modelli precedenti la duplicazione dei dati era comune e poteva causare incongruenze.
Facilità di manutenzione ed evoluzione: l’architettura relazionale permette di modificare la struttura dei dati senza riscrivere il codice delle applicazioni, mentre nei modelli precedenti ogni modifica poteva richiedere una riscrittura significativa del software.

2 - Introduzione alle relazioni e alle tabelle

Il modello relazionale si basa su due concetti fondamentali: relazione e tabella, che, pur essendo diversi nella loro natura, sono strettamente collegati. La relazione deriva dalla matematica, in particolare dalla teoria degli insiemi e dal concetto di relazione $n$ -aria, e rappresenta un oggetto matematico definito come un sottoinsieme del prodotto cartesiano di una famiglia di insiemi, ognuno dei quali viene detto dominio del prodotto.

Ad esempio, dati gli insiemi (domini) $A = {1, 2, 4}$ e $B = {a, b}$ , il prodotto cartesiano $A \times B$ è l’insieme di tutte le coppie possibili in cui il primo elemento appartiene ad $A$ e il secondo a $B$ . Poiché $A$ ha tre elementi e $B$ ne ha due, abbiamo sei coppie:

{(1, a), (1, b), (2, a), (2, b), (4, a), (4, b)}

Una tabella, al contempo, è una particolare rappresentazione di una relazione in forma matriciale, in cui ogni riga corrisponde a un elemento della relazione e ogni colonna a un dominio del prodotto. Per esempio, riprendendo la relazione $A \times B = {1, 2, 4} \times {a, b}$ , una sua rappresentazione tabellare è la seguente:

112244 a b a b a b

Si può notare come ogni riga contenga un elemento (es. nella prima riga c’è l’elemento $(1, a)$ , nella seconda $(1, b)$ e così via), mentre in ognuna delle due colonne c’è ognuno dei due domini $A$ e $B$ che compongono il prodotto cartesiano.

2.1 - Relazioni per la rappresentazione di dati

Le relazioni (e le loro corrispondenti tabelle) possono essere usate per rappresentare dati schematicamente.

Per esempio, la seguente tabella contiene i risultati di un insieme di partite di calcio:

Real Madrid Liverpool Torino Roma Liverpool Milan Juventus Milan 32101011

Ogni riga rappresenta una partita di calcio in cui la squadra nella prima colonna ha segnato il numero di gol nella terza colonna e la squadra nella seconda colonna il numero di gol nella quarta. Ad esempio, la prima riga $(Real Madrid, Liverpool, 3, 1)$ indica che la partita Real Madrid - Liverpool si è conclusa con un 3 a 1 per il Real Madrid. Possiamo notare come i dati in questa tabella (relazione) appartengano a due domini: quello delle stringhe e quello dei numeri interi. Infatti questa relazione è un sottoinsieme del prodotto cartesiano:

Stringhe \times Stringhe \times Interi \times Interi

Ricordiamo che le relazioni sono formate da tuple ordinate, cioè in una $n$ -upla $⟨ v_{1}, v_{2}, \dots, v_{n} ⟩$ ogni elemento $v_{i}$ appartiene al suo corrispondente dominio $D_{i}$ , per ogni $i$ compreso tra $1$ ed $n$ (estremi inclusi). Inoltre, una relazione è un insieme, e quindi:

Non esiste un ordine definito tra le tuple: nelle tabelle che le rappresentano c’è ovviamente un ordine di “presentazione”, ma esso è irrilevante, poiché due tabelle con le stesse righe, ma in ordine diverso, rappresentano la stessa relazione.
Le tuple di una relazione sono tutte distinte: in un insieme non possono esistere due elementi identici, quindi una tabella può rappresentare una relazione solo se le sue righe sono tutte diverse tra loro.

Possiamo anche notare come l’importanza dell’ordine degli elementi nelle tuple si può anche evincere dalla tabella precedente: se scambiassimo di posto le ultime due colonne, pur essendo entrambe rappresentate dal dominio dei numeri interi, falseremmo i risultati delle partite. Questo ordinamento tra i domini di una relazione corrisponde in realtà a una caratteristica insoddisfacente del concetto di relazione, così come è definito in matematica, per quanto riguarda la possibilità di organizzare e utilizzare i dati. Infatti, in informatica si tende a preferire notazioni non posizionali a quelle posizionali:

Le notazioni non posizionali permettono di fare riferimento agli elementi di una tupla mediante nomi simbolici.
Le notazioni posizionali, invece, fanno riferimento ai campi attraverso il loro ordine, e dovrebbero essere utilizzate solo quando l’ordinamento corrisponde a una caratteristica intrinseca, come accade, ad esempio, nei problemi di analisi numerica, dove gli array offrono una rappresentazione ovvia e diretta di vettori e matrici.

Per questo motivo, introduciamo una notazione non posizionale, associando nomi ai domini di una relazione, detti attributi, che descrivono i “ruoli” svolti dai domini stessi. Ad esempio, per la relazione relativa alle partite, possiamo usare nomi come $SquadraInCasa$ , $SquadraOspite$ , $GoalInCasa$ , $GoalOspiti$ . Nella rappresentazione tabellare, gli attributi possono essere utilizzati come intestazioni delle colonne:

$SquadraInCasa$	$SquadraOspite$	$GoalInCasa$	$GoalOspiti$
$Real Madrid$	$Liverpool$	$3$	$1$
$Liverpool$	$Milan$	$2$	$0$
$Torino$	$Juventus$	$1$	$1$
$Roma$	$Milan$	$0$	$1$

Dato che è necessario identificare in modo univoco le componenti, gli attributi di una relazione (e quindi le intestazioni delle colonne) devono essere tutti diversi tra loro.

Modificando la definizione di relazione con l’introduzione degli attributi, e ancora prima di fornire una definizione formale, possiamo osservare che l’ordinamento degli attributi (e quindi delle colonne nella rappresentazione tabellare) è irrilevante: non è più necessario parlare di primo dominio, secondo dominio, e così via; è sufficiente fare riferimento agli attributi stessi. Ad esempio, la seguente rappresentazione tabellare della relazione è equivalente alla precedente, con gli attributi (e quindi le colonne) in un ordine diverso, seguendo lo stile americano, in cui la squadra di casa viene mostrata dopo la squadra ospite.

$SquadraOspite$	$SquadraInCasa$	$GoalOspiti$	$GoalInCasa$
$Liverpool$	$Real Madrid$	$1$	$3$
$Milan$	$Liverpool$	$0$	$2$
$Juventus$	$Torino$	$1$	$1$
$Milan$	$Roma$	$1$	$0$

3 - Definizione formale di relazione

Dopo aver introdotto informalmente i concetti riguardanti il modello relazionale, ora ci tocca introdurli da un punto di vista formale, rigoroso e matematico.

3.1 - Definizione di tipi di dati, attributi e schemi

Per arrivare a definire il concetto di relazione, dobbiamo partire dalle fondamenta del modello relazionale, definendo formalmente cosa sono i tipi dei dati e i relativi attributi.

Definizione: tipo di dato

Un tipo di dato (o semplicemente tipo) $T$ è un insieme di valori possibili che un dato può assumere.

Definiamo quindi i tipi di dato classici che si possono trovare solitamente all’interno dei RDBMS.

Definizione: tipo di dato $Int$

$Int$ è un tipo di dato rappresentante l’insieme dei numeri interi $Z$ nei RDBMS:
$Int = {0, 1, - 1, 2, - 2, \dots}$

Definizione: tipo di dato $Float$

$Float$ è un tipo di dato rappresentante l’insieme dei numeri reali $R$ nei RDBMS:
$Float = {0, 1.3, 3.14159, - 741.57, \dots}$

Definizione: tipo di dato $String$

$String$ è un tipo di dato rappresentante l’insieme delle stringhe nei RDBMS:
$String = {"Ciao", "str1ng4!", "stringa composta da pi \overset{u}{ˋ} parole", \dots}$

Definizione: tipo di dato $Char$

$Char$ è un tipo di dato rappresentante l’insieme delle stringhe di lunghezza $1$ (cioè i singoli caratteri) nei RDBMS:
$Char = {’N’, ’1’, ’g’, ’_’, \dots}$

Definizione: tipo di dato $Date$

$Date$ è un tipo di dato rappresentante l’insieme delle date nei RDBMS:
$Date = {2025-07-02, 2004-06-22, \dots}$

Definizione: tipo di dato $Bool$

$Bool$ è un tipo di dato rappresentante l’insieme dei due valori booleani $True$ e $False$ nei RDBMS:
$Bool = {True, False}$

I tipi dei dati vengono utilizzati all’interno degli attributi di una relazione.

Definizione: attributo

Un attributo $A$ è un sottoinsieme di un tipo di dato $T$ e si dice che $A$ è di tipo $T$ :
$A \subseteq T$

Esempi di attributi

Esempi di attributi potrebbero essere:

Un attributo $Nome$ di tipo $String$ che può avere come valori associati tutti i possibili nomi validi, come $Alice$ , $Marco$ , $Giulia$ , e così via: $Nome = {Alice, Marco, Giulia, \dots} \subseteq String$

Un attributo $Et \overset{a}{ˋ}$ di tipo $Int$ che può avere come valori associati tutti i numeri interi da $0$ fino a un massimo accettabile (come $120$ ): $Et \overset{a}{ˋ} = {0, 1, 2, \dots, 120} \subseteq Int$

Notazione: unione di attributi

Dati due attributi $A$ e $B$ , la notazione $A B$ rappresenta l’unione insiemistica $A \cup B$ .

Cosa succede se, nel momento in cui devo inserire un dato, non ne conosco il suo valore? È possibile inserire dei valori “mancanti” in una relazione? La risposta è che ci sono diversi modi per farlo:

Usando un particolare valore appartenente a quel tipo di dato, in modo tale che quel valore sia convenzionalmente interpretato come un segnaposto e privandolo del suo valore effettivo.

Esempio di valore segnaposto

In un attributo $Et \overset{a}{ˋ}$ di tipo $Int$ in cui vanno inserite le età di diverse persone, posso scegliere per esempio di assegnare il valore $0$ a quelle persone di cui non conosco l’età, ma ciò mi rende impossibile allora usare il valore $0$ nel suo significato concreto, per esempio non posso assegnarlo come valore all’età di un neonato. Un’alternativa potrebbe essere usare un valore che sicuramente non mi servirebbe assegnare a nessuno, come $200$ o $- 1$ .

Usando un valore creato ad hoc, ossia un valore nullo usato specificatamente per questo ruolo.

Definizione: valore nullo

Il valore nullo, denotato con $null$ , è un elemento presente in ogni tipo di dato che rappresenta un valore sconosciuto nell’attributo.

Gli attributi sono raggruppati in schemi.

Definizione: schema di una relazione

Uno schema di una relazione (o semplicemente schema) $A$ è un insieme di attributi ${A_{1}, A_{2}, \dots, A_{n}}$ :
$A = {A_{1}, A_{2}, \dots, A_{n}}$

Esempio di schema

Un esempio di schema potrebbe essere l’insieme di attributi che identificano gli studenti di un’università:
$A = {Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea}$
dove:

$Matricola$ è un attributi di tipo $String$ che rappresenta un identificatore univoco per lo studente.

$Cognome$ è un attributo di tipo $String$ che rappresenta il cognome dello studente.

$Nome$ è un attributo di tipo $String$ che rappresenta il nome dello studente.

$DataDiNascita$ è un attributo di tipo $Date$ che rappresenta la data di nascita dello studente.

$CorsoDiLaurea$ è un attributo di tipo $String$ che indica il corso di laurea a cui è iscritto lo studente.

Rappresentazione di uno schema in D2
Tramite il linguaggio dichiarativo D2, progettato per la creazione di diagrammi in modo semplice e leggibile, è possibile avere una rappresentazione di uno schema facilmente consultabile, con la lista degli attributi e i loro relativi tipi.

Per esempio, consideriamo lo schema dell’esempio precedente. Tramite D2, si può ottenere la seguente rappresentazione:

Il codice per ottenerlo è il seguente (puoi testarlo sul D2 Playground):
A: {
  shape: sql_table
  Matricola: string
  Cognome: string
  Nome: string
  DataDiNascita: date
  CorsoDiLaurea: string
}
 

Possiamo fare alcune osservazioni sulla definizione di schema.

Osservazione: duplicati e ordine in uno schema

Uno schema, essendo un insieme, per definizione non ammette duplicati: ciò significa che non possono esserci all’interno di uno stesso schema due attributi con lo stesso nome.

Ovviamente, però, ciò non vieta l’esistenza di due attributi con nomi diversi ma stesso tipo di dato (es. $Cognome$ e $Nome$ sono entrambi di tipo $String$ ).

Allo stesso modo, ricordiamo che in un insieme anche l’ordine non conta, quindi gli schemi
$A = {Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea}$
e
$A^{'} = {Matricola, CorsoDiLaurea, Nome, Cognome, DataDiNascita}$
sono equivalenti:
$A = A^{'}$

3.2 - Definizione di record e istanze

Una volta che abbiamo introdotto la definizione di schema, possiamo ora introdurre quelle definizioni che ci servono per arrivare al concetto di relazione.

Definizione: record

Dato uno schema $A$ , un record $t$ è una $n$ -upla $⟨ v_{1}, v_{2}, \dots, v_{n} ⟩$ (e per questo viene anche chiamato tupla) della relazione $n$ -aria $A_{1} \times A_{2} \times \dots \times A_{n}$ , in cui ogni $v_{i}$ è un valore dell’attributo $A_{i}$ .

Notazione: valori di un record

Per indicare il valore di un record $t = ⟨ v_{1}, v_{2}, \dots, v_{n} ⟩$ in corrispondenza di un attributo $A_{i}$ di uno schema $A$ , si utilizza la notazione:
$v_{i} = t [A_{i}]$
Per indicare invece i valori di un record $t = ⟨ v_{1}, v_{2}, \dots, v_{n} ⟩$ in corrispondenza di multipli attributi $A_{i}, A_{j}, A_{k}$ di uno schema $A$ , si utilizza la notazione:
$⟨ v_{i}, v_{j}, v_{k} ⟩ = t [A_{i}, A_{j}, A_{k}]$

Esempio di record

Dato uno schema $A = {Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea}$ , possibili record sono:

$t_{1} = ⟨ 1298309, Rossi, Mario, 14/03/2001, Informatica ⟩$ e

$t_{2} = ⟨ 7521238, Verdi, Sofia, 30/01/2004, Psicologia ⟩$

con

$t_{1} [Nome] = Mario$ e

$t_{2} [Matricola, DataDiNascita, CorsoDiLaurea] = ⟨ 7521238, 30/01/2004, Psicologia ⟩$ .

Osservazione: record come funzione

Ogni record $t = ⟨ v_{1}, v_{2}, \dots, v_{n} ⟩$ può essere rappresentato come una funzione che fa corrispondere a ogni attributo $A_{i}$ di uno schema $A$ il corrispettivo valore $v_{i}$ :
$t : A_{i} \mapsto v_{i}$

Definizione: istanza di una relazione

Dato uno schema $A$ , un’istanza di una relazione (o semplicemente istanza, anche detta stato) $R$ è l’insieme di tutti i record $t_{1}, t_{2}, \dots, t_{n}$ dove ogni $t_{i} \in R$ è compatibile con $A$ :
$A = {t_{1}, t_{2}, \dots, t_{n}}$

Notazione: valori di una tupla in corrispondenza di un insieme di attributi

Data un’istanza $R$ e una tupla $t = ⟨ v_{1}, v_{2}, \dots, v_{n} ⟩ \in R$ , se si vogliono ottenere i valori $⟨ v_{i}, v_{j}, \dots, v_{k} ⟩$ di $t$ in corrispondenza degli attributi $A_{i}, A_{j}, \dots, A_{k}$ dello schema $A$ si può usare la seguente notazione:
$⟨ v_{i}, v_{j}, \dots, v_{k} ⟩ = t [A_{i}, A_{j}, \dots, A_{k}]$

Così come per gli schemi, anche per le istanze non bisogna tenere conto di elementi duplicati e dell’ordine degli elementi.

Osservazione: duplicati e ordine in un'istanza

Un’istanza, essendo un insieme, per definizione non ammette duplicati: ciò significa che non possono esserci all’interno di una stessa istanza due record uguali.

Allo stesso modo, ricordiamo che in un insieme anche l’ordine non conta, quindi le istanze
$R = {⟨ a_{1}, a_{2} ⟩, ⟨ b_{1}, b_{2} ⟩}$
e
$R^{'} = {⟨ b_{1}, b_{2} ⟩, ⟨ a_{1}, a_{2} ⟩}$
sono equivalenti:
$R = R^{'}$

Osservazione: istanza come insieme di funzioni

Dato che ogni record può essere rappresentato come una funzione, l’istanza può essere intesa come un insieme di funzioni tutte distinte tra loro (sempre perché in un insieme gli elementi sono unici e, essendo l’istanza un insieme per definizione, non può contenere record duplicati).

3.2.1 - Compatibilità di un record

Per capire se un record appartiene a un dato schema, dobbiamo verificarne la compatibilità.

Definizione: compatibilità di un record in uno schema

Un record $t = ⟨ v_{1}, v_{2}, \dots, v_{n} ⟩$ si dice compatibile con uno schema $A$ se ogni valore $v_{i}$ del record $t$ appartiene al relativo attributo $A_{i}$ , ossia se il record $t$ è una funzione totale sullo schema $A$ (come visto nell’osservazione precedente).

Esempio di compatibilità di record

Dato uno schema
$A = {Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea}$
un possibile record compatibile è
$t_{1} = ⟨ 1298309, Rossi, Mario, 14/03/2001, Informatica ⟩$
Al contrario, il record
$t_{2} = ⟨ Verdi, Sofia, 7521238, 30/01/2004, Psicologia ⟩$
non è compatibile in quanto ogni valore $v_{i}$ di $t_{2}$ non appartiene al relativo attributo $A_{i}$ .

Similmente, il record
$t_{3} = ⟨ 1298309, Rossi, Informatica, 14/03/2001, Mario ⟩$
non è compatibile perché, pur essendo il terzo e l’ultimo valore entrambi dello stesso tipo $String$ , gli attributi sono diversi. Infatti, il terzo valore dovrebbe essere un nome proprio di persona e appartenere all’attributo $Nome$ , mentre l’ultimo valore dovrebbe essere l’elenco dei corsi di laurea dell’università appartenere all’attributo $CorsoDiLaurea$ :
$Nome = {Mario, Sofia Giulio, Rebecca, \dots} CorsoDiLaurea = {Informatica, Psicologia, Biologia, \dots}$

3.3 - Definizione di relazione

Ora che abbiamo sputato sangue per definire cosa sono uno schema e un’istanza, possiamo finalmente definire cos’è una relazione.

Definizione: relazione

Una relazione $R (A)$ (o anche semplicemente $R$ ) è un’istanza $R$ associata a uno schema $A$ in cui ogni record $t_{i} \in R$ è compatibile con $A$ .

Esempio di relazione

Un esempio di relazione potrebbe essere l’istanza
$R = {⟨ 1298309, Rossi, Mario, 14/03/2001, Informatica ⟩, ⟨ 7521238, Verdi, Sofia, 30/01/2004, Psicologia ⟩}$
associata allo schema
$A = {Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea}$
che dà origine alla relazione $R (A)$ , in cui entrambe le tuple di $R$ sono compatibili con $A$ .

Osservazione: differenza tra relazione matematica e relazione di Codd

In matematica, una relazione $n$ -aria $A \times B$ è diversa da $B \times A$ perché non vale la proprietà commutativa del prodotto cartesiano, ovvero le relazioni $n$ -arie sono strettamente legate all’ordine degli insiemi.

Nel modello relazionale di Codd, invece, l’ordine degli attributi $A_{1}, A_{2}, \dots, A_{n}$ di uno schema $A$ è irrilevante (e ciò deriva dal fatto che lo schema è un insieme che, per definizione, non è ordinato), quindi le relazioni
$R (A_{1}, A_{2}, \dots, A_{n})$
e
$R^{'} (A_{n}, \dots, A_{2}, A_{1})$
sono equivalenti:
$R = R^{'}$

Come già visto nell’introduzione di questa pagina, una relazione si può rappresentare in forma tabellare.

Notazione: rappresentazione tabellare di una relazione

Una relazione $R (A)$ può essere rappresentata in forma tabellare, dove:

Le colonne rappresentano gli attributi $A_{1}, A_{2}, \dots, A_{n}$ dello schema $A$ .

Le righe rappresentano i record dell’istanza $R$ .

Esempio di rappresentazione tabellare di una relazione

Una relazione $R (Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea)$ con istanza
$R = {⟨ 1298309, Rossi, Mario, 14/03/2001, Informatica ⟩, ⟨ 7521238, Verdi, Sofia, 30/01/2004, Psicologia ⟩}$
può essere rappresentata come la tabella

$Matricola$ $Cognome$ $Nome$ $DataDiNascita$ $CorsoDiLaurea$
$1298309$ $Rossi$ $Mario$ $14/03/2001$ $Informatica$
$7521238$ $Verdi$ $Sofia$ $30/01/2004$ $Psicologia$

$Matricola$	$Cognome$	$Nome$	$DataDiNascita$	$CorsoDiLaurea$
$1298309$	$Rossi$	$Mario$	$14/03/2001$	$Informatica$
$7521238$	$Verdi$	$Sofia$	$30/01/2004$	$Psicologia$

Definizione: grado di una relazione

Data una relazione $R (A)$ , il suo grado $∣ A ∣$ è la cardinalità del suo schema $A$ , ossia il numero dei suoi attributi.

Osservazione: grado di una relazione sempre $\geq 1$

In una relazione $R (A)$ , l’insieme degli attributi $A_{1}, A_{2}, \dots, A_{n}$ è sempre non vuoto, quindi il suo grado $∣ A ∣$ è sempre $\geq 1$ .

Definizione: cardinalità di una relazione

Data una relazione $R (A)$ , la sua cardinalità $∣ R ∣$ è la cardinalità della sua istanza $R$ , ossia il numero dei suoi record.

Osservazione: cardinalità di una relazione sempre $\geq 0$

Contrariamente a quanto accade per lo schema, in una relazione $R (A)$ la sua istanza $R$ può essere un insieme vuoto (cioè può non contenere alcun record), quindi la sua cardinalità $∣ R ∣$ è sempre $\geq 0$ (perché può assumere il valore $0$ nel caso dell’insieme vuoto).

3.4 - Definizione di basi di dati

Potremmo quindi definire una base di dati nel modello relazionale come un insieme di relazioni.

Definizione: base di dati

Una base di dati $D B$ è un insieme di relazioni $R_{1} (A), R_{2} (B), \dots, R_{n} (Z)$ :
$D B = {R_{1} (A), R_{2} (B), \dots, R_{n} (Z)}$

Consiglio: criterio per l'assegnazione di nomi agli attributi

Per la costruzione di una buona base di dati $D B = {R_{1} (A), R_{2} (B), \dots, R_{n} (Z)}$ , un criterio da tenere a mente durante la progettazione degli schemi $A, B, \dots, Z$ è quello che, in caso di attributi omonimi in diverse relazioni, il concetto che esprimono deve essere lo stesso e il tipo deve essere lo stesso.

Quindi:

Evitare omonimie, ossia l’uso di stessi nomi per concetti diversi (es. un attributo denominato $Nome$ sia per indicare il nome proprio di una persona che per il nome di un prodotto).

Evitare sinonimie, ossia nomi diversi per stessi concetti (es. due attributi denominati $Corso$ e $Insegnamento$ per indicare un’unità didattica).

4 - Vincoli di integrità e chiavi

Fondamentale nel modello relazionale è l’uso dei vincoli di integrità per assicurarsi della correttezza dei dati. Essi possono essere di due tipi: locali o globali.

4.1 - Vincoli locali

Definizione: vincolo locale

Un vincolo locale (o vincolo intrarelazionale) è un vincolo posto sui valori possibili dei record di una relazione in modo che tali valori rispettino (non siano in contrasto con) la realtà che si vuole rappresentare.

Definizione: vincolo locale di dominio

Data una relazione $R (A)$ , il vincolo locale di dominio stabilisce che per ogni attributo $A_{1}, A_{2}, \dots, A_{n} \in A$ esiste un insieme ben definito (anche infinito) di valori possibili che ognuno di essi può assumere, detto appunto dominio.

Esempio di vincolo locale di dominio

Data una relazione $STUDENTI (Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea, MediaVoti)$ , possibili vincoli locali di dominio potrebbero essere:

L’attributo $Matricola$ deve essere un numero intero positivo.

Gli attributi $Cognome$ e $Nome$ devono essere stringhe di testo (es. massimo 50 caratteri).

L’attributo $DataDiNascita$ deve essere una data valida nel formato YYYY-MM-DD.

L’attributo $CorsoDiLaurea$ può assumere solo un valore tra un insieme predefinito di corsi validi (es. Informatica, Medicina, Psicologia, Ingegneria, ecc.).

L’attributo $MediaVoti$ deve essere un numero reale compreso tra $18$ e $30$ (valori ammessi per la media dei voti universitari in Italia).

Definizione: vincolo locale sui valori nulli

Data una relazione $R (A)$ , il vincolo locale sui valori nulli su un determinato attributo $A_{i} \in A$ stabilisce che, per ogni record $t \in R$ , il valore $t [A_{i}]$ non deve essere il valore nullo.

4.2 - Vincoli globali

Per poter definire in maniera formale i vincoli globali, dobbiamo introdurre prima le nozioni di superchiave, utile a descrivere la connessione tra le varie relazioni di una base di dati.

4.2.1 - Superchiavi

Definizione: superchiave

Data una relazione $R (A)$ , un sottoinsieme di attributi $s k \subseteq A$ è una superchiave di $R (A)$ se, quando due record $t_{i}, t_{j} \in R$ assumono gli stessi valori per tutti gli attributi di $s k$ , allora sono in realtà lo stesso record:
$\forall t_{i}, t_{j} \in R (t_{i} [s k] = t_{j} [s k]) ⟹ t_{i} [A] = t_{j} [A]$
Ossia, una superchiave è un insieme di attributi che identifica univocamente ogni record della relazione.

Esempio di superchiave

Sia $STUDENTI (Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea)$ la seguente relazione.

$Matricola$ $Cognome$ $Nome$ $DataDiNascita$ $CorsoDiLaurea$
$1298309$ $Rossi$ $Mario$ $14/03/2001$ $Informatica$
$7521238$ $Verdi$ $Sofia$ $30/01/2004$ $Psicologia$
$1239002$ $Rossi$ $Francesco$ $04/20/2003$ $Informatica$

Possiamo notare come l’insieme degli attributi ${Matricola, Cognome, CorsoDiLaurea}$ forma una superchiave, in quanto le triple di valori associati a questi attributi non sono duplicate:

$Matricola$ $Cognome$ $CorsoDiLaurea$
$1298309$ $Rossi$ $Informatica$
$7521238$ $Verdi$ $Psicologia$
$1239002$ $Rossi$ $Informatica$

Al contrario, l’insieme ${Cognome, CorsoDiLaurea}$ non può rappresentare una superchiave perché i valori $⟨ Rossi, Informatica ⟩$ sono duplicati:

$Cognome$ $CorsoDiLaurea$
$Rossi$ $Informatica$
$Verdi$ $Psicologia$
$Rossi$ $Informatica$

$Matricola$	$Cognome$	$Nome$	$DataDiNascita$	$CorsoDiLaurea$
$1298309$	$Rossi$	$Mario$	$14/03/2001$	$Informatica$
$7521238$	$Verdi$	$Sofia$	$30/01/2004$	$Psicologia$
$1239002$	$Rossi$	$Francesco$	$04/20/2003$	$Informatica$

$Matricola$	$Cognome$	$CorsoDiLaurea$
$1298309$	$Rossi$	$Informatica$
$7521238$	$Verdi$	$Psicologia$
$1239002$	$Rossi$	$Informatica$

$Cognome$	$CorsoDiLaurea$
$Rossi$	$Informatica$
$Verdi$	$Psicologia$
$Rossi$	$Informatica$

Proprietà: monotonicità delle superchiavi

Data una relazione $R (A)$ , se un sottoinsieme di attributi $s k \subseteq A$ è una superchiave di $R (A)$ , allora ogni insieme $w$ che la contiene (ossia $s k \subseteq w \subseteq A$ ) è a sua volta una superchiave.

Osservazione: lo schema è una superchiave

Data una relazione $R (A)$ , come conseguenza della proprietà di monotonicità delle superchiavi, otteniamo che anche lo schema $A$ stesso è una superchiave di $R (A)$ .

4.2.1 - Chiavi candidate

Definizione: chiave candidata

Data una relazione $R (A)$ , un sottoinsieme di attributi $k \subseteq A$ è una chiave candidata se:

$k$ è una superchiave di $R (A)$ .

$k$ è minimale, ossia ogni sottoinsieme proprio $k^{'} ⊊ k$ non deve essere a sua volta una superchiave.

Esempio di chiave candidata

Sia $STUDENTI (Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea)$ la seguente relazione.

$Matricola$ $Cognome$ $Nome$ $DataDiNascita$ $CorsoDiLaurea$
$1298309$ $Rossi$ $Mario$ $14/03/2001$ $Informatica$
$7521238$ $Verdi$ $Sofia$ $30/01/2004$ $Psicologia$
$1239002$ $Rossi$ $Francesco$ $04/20/2003$ $Informatica$

Delle chiavi candidate di questa relazione potrebbero essere gli attributi $Matricola$ e $DataDiNascita$ , oppure l’insieme ${Cognome, CorsoDiLaurea}$ che al suo interno non contiene altre superchiavi.

Al contrario, l’insieme ${Cognome, Nome}$ non può essere una chiave candidata perché l’attributo $Nome$ è a sua volta una superchiave.

$Matricola$	$Cognome$	$Nome$	$DataDiNascita$	$CorsoDiLaurea$
$1298309$	$Rossi$	$Mario$	$14/03/2001$	$Informatica$
$7521238$	$Verdi$	$Sofia$	$30/01/2004$	$Psicologia$
$1239002$	$Rossi$	$Francesco$	$04/20/2003$	$Informatica$

Osservazione: esistenza di una chiave candidata nella relazione

Data una relazione $R (A)$ , essendo lo schema $A$ una superchiave, la relazione conterrà sempre almeno una chiave candidata (che, al più, sarà lo schema stesso della relazione).

4.2.2 - Chiavi primarie

Il progettista deve sempre scegliere tra le chiavi candidate una chiave primaria che permetterà a ogni record di poter essere identificato univocamente.

Definizione: chiave primaria

Data una relazione $R (A)$ , una chiave primaria $\underline{P K}$ (anche detta chiave principale) è una particolare chiave candidata $\underline{P K} \subseteq A$ scelta che rispetta il vincolo locale sui valori nulli in ogni suo attributo.

Esempio di chiave primaria

Sia $STUDENTI (Matricola, Cognome, Nome, DataDiNascita, CorsoDiLaurea)$ la seguente relazione.

$Matricola$ $Cognome$ $Nome$ $DataDiNascita$ $CorsoDiLaurea$
$1298309$ $Rossi$ $Mario$ $14/03/2001$ $Informatica$
$7521238$ $Verdi$ $Sofia$ $30/01/2004$ $Psicologia$
$1239002$ $null$ $Francesco$ $04/20/2003$ $Informatica$

Una chiave primaria di questa relazione potrebbe essere l’attributo $Matricola$ , mentre non può esserlo l’attributo $Cognome$ perché il terzo record ha un valore nullo.

$Matricola$	$Cognome$	$Nome$	$DataDiNascita$	$CorsoDiLaurea$
$1298309$	$Rossi$	$Mario$	$14/03/2001$	$Informatica$
$7521238$	$Verdi$	$Sofia$	$30/01/2004$	$Psicologia$
$1239002$	$null$	$Francesco$	$04/20/2003$	$Informatica$

Osservazione: nesso tra chiave primaria, chiave candidata e superchiave

Una chiave primaria, per definizione, è una chiave candidata che rispetta il vincolo locale sui valori nulli in ogni suo attributo. A sua volta, una chiave candidata è per definizione una superchiave (un insieme di attributi che identifica univocamente ogni record della relazione) minimale.

Queste tre definizioni sono collegate da relazioni di inclusione stretta:
$Chiavi primarie ⊊ Chiavi candidate ⊊ Superchiavi$
Ciò significa che una chiave primaria è automaticamente una superchiave, ma non è necessariamente vero il contrario.

Se consideriamo inoltre una relazione $R (A)$ , possiamo quindi dire che i requisiti che un insieme di attributi $\underline{P K} \subseteq A$ deve rispettare per essere considerato una chiave primaria sono tre:

Ogni record della relazione deve essere identificato univocamente da $\underline{P K}$ (requisito della superchiave).

$\underline{P K}$ deve essere minimale (requisito della chiave candidata).

$\underline{P K}$ deve rispettare il vincolo locale sui valori nulli in ogni suo attributo (requisito della chiave primaria).

Esercizio

Si consideri la seguente relazione $EPISODI$ :

$ID$ $Serie$ $NumStagione$ $NumEpisodio$ $TitoloEpisodio$
$1$ $Breaking Bad$ $1$ $1$ $Pilot$
$2$ $Breaking Bad$ $1$ $2$ $Cat’s in the bag \dots$
$3$ $Breaking Bad$ $2$ $1$ $Seven thirty-seven$
$4$ $Better Call Saul$ $1$ $1$ $Pilot$
$5$ $Better Call Saul$ $1$ $NULL$ $NULL$

Quali dei seguenti insiemi di attributi possono essere scelti come chiave primaria di $EPISODI$ ? Scegli una o più alternative:

${Serie, NumStagione, NumEpisodio}$

${ID}$

${ID, Serie}$

${ID, Serie, NumStagione, NumEpisodio}$

Soluzione

Per stabilire se ogni opzione è una potenziale chiave primaria di $EPISODI$ , verifichiamo se rispetta i tre requisiti.

Partendo dal primo requisito, quello della superchiave, possiamo scartare gli insiemi di attributi che non identificano univocamente la relazione. Abbiamo che tutte le opzioni rispettano questo requisito, quindi passiamo avanti.

Per il secondo requisito, quello della chiave candidata, possiamo scartare gli insiemi di attributi che non sono minimali. Abbiamo che l’opzione 3 non è minimale perché l’attributo $ID$ da solo è una superchiave e l’opzione 4 non è minimale perché contiene la superchiave ${ID, Serie}$ (che, tra l’altro, corrisponde all’opzione 3):

${Serie, NumStagione, NumEpisodio}$

${ID}$

${ID, Serie}$

${ID, Serie, NumStagione, NumEpisodio}$

Per il terzo requisito, quello della chiave primaria, possiamo scartare gli insiemi di attributi che non rispettano il vincolo locale sui valori nulli in ogni suo attributo (requisito della chiave primaria). Abbiamo che l’opzione 1 contiene l’attributo $NumEpisodio$ che non rispetta il vincolo locale sui valori nulli:

${Serie, NumStagione, NumEpisodio}$

${ID}$

${ID, Serie}$

${ID, Serie, NumStagione, NumEpisodio}$

L’unica opzione accettabile, quindi, è la 2.

$ID$	$Serie$	$NumStagione$	$NumEpisodio$	$TitoloEpisodio$
$1$	$Breaking Bad$	$1$	$1$	$Pilot$
$2$	$Breaking Bad$	$1$	$2$	$Cat’s in the bag \dots$
$3$	$Breaking Bad$	$2$	$1$	$Seven thirty-seven$
$4$	$Better Call Saul$	$1$	$1$	$Pilot$
$5$	$Better Call Saul$	$1$	$NULL$	$NULL$

Rappresentazione di una chiave primaria in D2
In D2 è possibile specificare qual è la chiave primaria di una relazione aggiungendo il vincolo locale di chiave primaria all’attributo in questione.

Per esempio, consideriamo la relazione $STUDENTI$ dell’esempio della chiave primaria. Tramite D2, si può ottenere la seguente rappresentazione:

Il codice per ottenerlo è il seguente (puoi testarlo sul D2 Playground):
STUDENTI: {
  shape: sql_table
  Matricola: string {constraint: primary_key}
  Cognome: string
  Nome: string
  DataDiNascita: date
  CorsoDiLaurea: string
}
 

4.3 - Vincoli globali

Definizione: vincolo globale

Un vincolo globale (o vincolo interrelazionale) è un vincolo posto sui valori possibili dei record delle relazioni di una base di dati in modo che tali valori rispettino (non siano in contrasto con) la realtà che si vuole rappresentare.

Ora possiamo definire in particolare quali sono i vincoli globali.

Definizione: vincolo globale di integrità referenziale

Il vincolo globale di integrità referenziale (o di chiave esterna) stabilisce che, date due relazioni $R (\underline{P K}, \dots)$ (dove $\underline{P K}$ è la chiave primaria di $R$ ) e $S (\dots, F K, \dots)$ (dove $F K \subseteq S$ è detto chiave esterna), per ogni record $t_{i} \in S$ esiste almeno un record $t_{j} \in R$ tale che il valore degli attributi $F K$ corrisponde al valore della chiave primaria $\underline{P K}$ in $t_{j}$ :
$\forall t_{i} \in S, \exists t_{j} \in R (t_{i} [F K] = t_{j} [\underline{P K}])$

Esempio di vincolo globale di integrità referenziale

Sia $PAZIENTI$ la seguente relazione.

$\underline{Codice}$ $Cognome$ $Nome$ $Residenza$ $AnnoNascita$
$A102$ $Necchi$ $Luca$ $TO$ $1950$
$B372$ $Rossigni$ $Piero$ $NO$ $1940$
$B543$ $Missoni$ $Nadia$ $TO$ $1960$
$B444$ $Missoni$ $Luigi$ $VC$ $2000$
$S555$ $Rossetti$ $Gino$ $AT$ $2010$

Sia $RICOVERI$ la seguente relazione.

$\underline{Paziente}$ $\underline{Inizio}$ $Fine$ $Reparto$
$A102$ $02/05/2014$ $19/05/2014$ $A$
$A102$ $02/12/2004$ $22/01/2005$ $A$
$S555$ $05/10/2014$ $03/12/2014$ $B$
$B444$ $11/12/2004$ $02/01/2005$ $B$
$S555$ $16/09/2015$ $21/11/2015$ $A$

In questa situazione, l’attributo $\underline{Paziente}$ in $RICOVERI$ funge da chiave esterna che fa riferimento alla chiave primaria $\underline{Codice}$ in $PAZIENTI$ : infatti, per ogni valore di $Paziente$ in $RICOVERI$ si trova un corrispondente in $Codice$ in $PAZIENTI$ .

$\underline{Codice}$	$Cognome$	$Nome$	$Residenza$	$AnnoNascita$
$A102$	$Necchi$	$Luca$	$TO$	$1950$
$B372$	$Rossigni$	$Piero$	$NO$	$1940$
$B543$	$Missoni$	$Nadia$	$TO$	$1960$
$B444$	$Missoni$	$Luigi$	$VC$	$2000$
$S555$	$Rossetti$	$Gino$	$AT$	$2010$

$\underline{Paziente}$	$\underline{Inizio}$	$Fine$	$Reparto$
$A102$	$02/05/2014$	$19/05/2014$	$A$
$A102$	$02/12/2004$	$22/01/2005$	$A$
$S555$	$05/10/2014$	$03/12/2014$	$B$
$B444$	$11/12/2004$	$02/01/2005$	$B$
$S555$	$16/09/2015$	$21/11/2015$	$A$

Osservazione: condizioni necessarie per il vincolo globale di integrità referenziale

Per far sì che il vincolo globale di integrità referenziale possa valere, i valori degli attributi in $\underline{P K}$ devono essere gli stessi valori degli attributi in $F K$ .

Rappresentazione di una chiave esterna in D2
In D2 è possibile specificare qual è la chiave esterna di una relazione aggiungendo il vincolo globale di integrità referenziale all’attributo in questione.

Per esempio, consideriamo l’esempio di vincolo di integrità referenziale precedente. Tramite D2, si può ottenere la seguente rappresentazione:

Il codice per ottenerlo è il seguente (puoi testarlo sul D2 Playground):
PAZIENTI: {
  shape: sql_table
  Codice: string {constraint: primary_key}
  Cognome: string
  Nome: string
  Residenza: string
  AnnoNascita: int
}
 
RICOVERI: {
  shape: sql_table
  Paziente: string {constraint: [primary_key; foreign_key]}
  Inizio: time_stamp {constraint: primary_key}
  Fine: time_stamp
  Reparto: string
}
 
RICOVERI.Paziente -> PAZIENTI.Codice
 

4.4 - Correttezza dei dati

Il rispetto dei vincoli assicura la correttezza della relazione e, in generale, di tutta la base di dati.

Definizione: correttezza di una relazione

Una relazione $R (A)$ è detta corretta se sono soddisfatti tutti i vincoli locali.

Definizione: correttezza di una base di dati

Una base di dati $D B = {R_{1} (A), R_{2} (B), \dots, R_{n} (Z)}$ è detta corretta se ogni relazione $R_{1} (A), R_{2} (B), \dots, R_{n} (Z) \in D B$ è corretta e se sono soddisfatti tutti i vincoli globali.

Approfondimento

Fonti:

🏫 Lezioni e slide del Prof. Pensa Ruggero Gaetano del corso di Basi di Dati (canale B), Corso di Laurea in Informatica presso l’Università di Torino, A.A. 2024-25:

2. Il modello relazionale.

Quiz sul modello relazionale

🏫 Appunti di Luca Barra del corso di Basi di Dati, Corso di Laurea in Informatica presso l’Università di Torino, A.A. 2022-23 (caricati sul repository GitHub del Team Studentesco Informatica).

🪴 Giardino Digitale di Rexus752

Vista grafo

Indice

Modello relazionale

1 - Introduzione di Codd sul modello relazionale

2 - Introduzione alle relazioni e alle tabelle

2.1 - Relazioni per la rappresentazione di dati

3 - Definizione formale di relazione

3.1 - Definizione di tipi di dati, attributi e schemi

3.2 - Definizione di record e istanze

3.2.1 - Compatibilità di un record

3.3 - Definizione di relazione

3.4 - Definizione di basi di dati

4 - Vincoli di integrità e chiavi

4.1 - Vincoli locali

4.2 - Vincoli globali

4.2.1 - Superchiavi

4.2.1 - Chiavi candidate

4.2.2 - Chiavi primarie

4.3 - Vincoli globali

4.4 - Correttezza dei dati

Indice