Premessa

Portale di appartenenza: Basi di dati.

Cosa troverai in questa nota:

La normalizzazione e del vincolo locale di dipendenza funzionale.

Gli assiomi di Armstrong con le relative regole di inferenza derivanti.

I concetti collegati alle dipendenze funzionali come la chiusura di un insieme di dipendenze funzionali e la chiusura di un insieme di attributi e come essi possano essere usati nella progettazione delle relazioni.

La decomposizione di una relazione, i vari tipi (senza perdita di informazioni e che mantiene le dipendenze) e le relative restrizioni.

Le forme normali (1NF, 2NF, 3NF e BCNF).

Prerequisiti: per comprendere pienamente il contenuto di questa nota, oltre le conoscenze minime che do per scontato che tu sappia già, ti consiglio di aver letto in precedenza queste altre note:

Modello relazionale.

Problemi in una base di dati.

Operatori derivati.

Buona lettura! ☝️🤓

Definizione: normalizzazione

La normalizzazione è il processo di trasformazione di una base di dati relazionale in una equivalente, con l’obiettivo di eliminare ridondanze, minimizzare anomalie di modifica e garantire la consistenza dei dati contenuti al suo interno.

1 - Le dipendenze funzionali

In particolare, alla base del processo di normalizzazione si colloca il processo di rilevamento delle dipendenze funzionali, che permettono di capire i collegamenti tra i vari dati presenti all’interno di un database.

Definizione: vincolo locale di dipendenza funzionale

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , il vincolo locale di dipendenza funzionale (o più semplicemente dipendenza funzionale), denotato con $X \to Y$ (si legge $X$ determina $Y$ ), è soddisfatto se e solo se, per ogni coppia di tuple distinte $t_{i}, t_{j}$ in $R$ , se vale $t_{i} [X] = t_{j} [X]$ , allora vale anche $t_{i} [Y] = t_{j} [Y]$ :
$X \to Y ⟺ \forall t_{i}, t_{j} \in R (t_{i} [X] = t_{j} [X] ⟹ t_{i} [Y] = t_{j} [Y])$

Esempio di dipendenze funzionali

Consideriamo la relazione $STUDENTI (Matricola, Corso, Docente)$ con la seguente istanza:

$Matricola$ $Corso$ $Docente$
$1023932$ $Basi di Dati$ $Prof. Pensa$
$2019349$ $Sistemi Operativi$ $Prof. Schifanella$
$2109322$ $Sistemi Operativi$ $Prof. Schifanella$
$2109322$ $Basi di Dati$ $Prof. Pensa$

Possiamo per esempio chiederci: vale la dipendenza funzionale $Corso \to Docente$ ? Per verificarlo, applichiamo la definizione e verifichiamo se, per ogni coppia di tuple distinte $t_{i}, t_{j}$ in $STUDENTI$ vale:
$t_{i} [Corso] = t_{j} [Corso] ⟹ t_{i} [Docente] = t_{j} [Docente]$
Vediamo che, per esempio, nella prima e nell’ultima tupla il valore di $Corso$ è $Basi di Dati$ e in $Docente$ hanno entrambe valore $Prof. Pensa$ . Allo stesso tempo, le altre due tuple hanno lo stesso valore in $Corso$ (cioè $Sistemi Operativi$ ) e in $Docente$ corrisponde ( $Prof. Schifanella$ ). Possiamo quindi confermare che $Corso \to Docente$ è una dipendenza funzionale.

Possiamo ora chiederci: vale la dipendenza funzionale $Matricola \to Corso$ ? In questo caso, dobbiamo verificare che:
$t_{i} [Matricola] = t_{j} [Matricola] ⟹ t_{i} [Corso] = t_{j} [Corso]$
Possiamo notare che le ultime due tuple hanno lo stesso valore in $Matricola$ (cioè $2109322$ ), ma i valori in $Corso$ non corrispondono: ciò significa che la dipendenza funzionale $Matricola \to Corso$ non può essere valida.

$Matricola$	$Corso$	$Docente$
$1023932$	$Basi di Dati$	$Prof. Pensa$
$2019349$	$Sistemi Operativi$	$Prof. Schifanella$
$2109322$	$Sistemi Operativi$	$Prof. Schifanella$
$2109322$	$Basi di Dati$	$Prof. Pensa$

Definizione: dipendenza funzionale non banale

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , una dipendenza funzionale $X \to Y$ è detta non banale se $Y ⊈ X$ .

2.1 - Assiomi di Armstrong

Il matematico e informatico canadese William W. Armstrong nel 1974 ha proposto un insieme di assiomi che permettono di comprendere le implicazioni logiche che intercorrono tra dipendenze funzionali.

Definizione: assiomi di Armstrong

Gli assiomi di Armstrong (o regole di inferenza di Armstrong) sono un insieme di assiomi utilizzati per dedurre dipendenze funzionali a partire da un insieme dato di dipendenze funzionali in una relazione.

Essi sono tre: assioma di riflessività, assioma di aumento e assioma di transitività.

Assioma di riflessività di Armstrong

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , se $Y$ è sottoinsieme di $X$ , allora $X$ determina $Y$ :
$Y \subseteq X X \to Y$

Assioma di aumento di Armstrong

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y$ , allora $XZ$ ¹ determina $Y Z$ ¹:
$X \to Y XZ \to Y Z$

Assioma di transitività di Armstrong

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $Y$ determina $Z$ , allora $X$ determina $Z$ :
$X \to Y Y \to Z X \to Z$

2.1.1 - Regole di inferenza addizionali

Dagli assiomi di Armstrong vengono derivate altre regole di inferenza addizionali.

Regola di decomposizione

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y Z$ ¹, allora $X$ determina $Y$ e $Z$ :
$X \to Y Z X \to Y X \to Z$

Regola di composizione (o del prodotto)

Data una relazione $R (A)$ e quattro sottoinsiemi di attributi $W, X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $W$ determina $Z$ , allora $X W$ ¹ determina $Y Z$ ¹:
$X \to Y W \to Z X W \to Y Z$

Regola di unione

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $Z$ , allora $X$ determina $Y Z$ ¹:
$X \to Y X \to Z X \to Y Z$

Regola di pseudo-transitività

Data una relazione $R (A)$ e quattro sottoinsiemi di attributi $W, X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $Y Z$ ¹ determina $W$ , allora $XZ$ ¹ determina $W$ :
$X \to Y Y Z \to W XZ \to W$

Regola di estensibilità

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , se $X$ determina $Y$ , allora $X$ determina $X Y$ ¹:
$X \to Y X \to X Y$

Regola di monotonicità

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ con $X = Z$ , se $X$ determina $Y$ , allora $XZ$ ¹ determina $Y$ :
$X \to Y XZ \to Y$

Regola di auto-determinazione

Data una relazione $R (A)$ e un sottoinsieme di attributi $X \subseteq A$ , $X$ determina se stesso:
$X X \to X$

2.2 - Gli attributi estranei

Definizione: attributo estraneo

Data una relazione $R (A)$ con un insieme $F$ di dipendenze funzionali su $R$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , un attributo $B \in X$ si dice estraneo nella dipendenza funzionale $(X \to Y) \in F$ se è possibile ottenere $X \to Y$ anche senza il suo uso, utilizzando le restanti dipendenze funzionali in $F$ (cioè $F^{'} = F - {X \to Y}$ ) e la dipendenza modificata togliendo $B$ (cioè $f^{'} = (X - {B}) \to Y$ ):
$(F^{'} F - {X \to Y}) \cup {f^{'} (X - {B}) \to Y} ⊨ X \to Y$

Esempio di attributo estraneo

Consideriamo la relazione $R (A_{1}, A_{2}, A_{3}, A_{4})$ con l’insieme di dipendenze funzionali
$F = {A_{1} A_{2} \to A_{3}, A_{1} \to A_{3}, A_{3} \to A_{4}}$
Esaminiamo la dipendenza $A_{1} A_{2} \to A_{3}$ per verificare se $A_{2}$ è un attributo estraneo attraverso la sua definizione:
$(F^{'} F - {A_{1} A_{2} \to A_{3}}) \cup {f^{'} (A_{1} A_{2} - {A_{2}}) \to A_{3}} ⊨ A_{1} A_{2} \to A_{3}$
Calcoliamo prima $F^{'}$ , cioè l’insieme di dipendenze funzionali $F$ privato della dipendenza che stiamo esaminando:
$F^{'} = F - {A_{1} A_{2} \to A_{3}} = {A_{1} A_{2} \to A_{3}, A_{1} \to A_{3}, A_{3} \to A_{4}} - {A_{1} A_{2} \to A_{3}} = {A_{1} \to A_{3}, A_{3} \to A_{4}}$
Ora calcoliamo $f^{'}$ , cioè la dipendenza modificata togliendo quello che vogliamo provare essere un attributo estraneo:
$f^{'} = (A_{1} A_{2} - {A_{2}}) \to A_{3} = A_{1} \to A_{3}$
Ora chiediamoci: è possibile dedurre $A_{1} A_{2} \to A_{3}$ dall’unione di $F^{'}$ e $f^{'}$ ?
$F^{'} \cup {f^{'}} = {A_{1} \to A_{3}, A_{3} \to A_{4}} \cup {A_{1} \to A_{3}} = {A_{1} \to A_{3}, A_{3} \to A_{4}} ⊨ A_{1} A_{2} \to A_{3}$
Questo è vero, perché $A_{1} \to A_{3}$ implica $A_{1} A_{2} \to A_{3}$ per la regola di monotonicità, quindi possiamo concludere che $A_{2}$ è estraneo nella dipendenza funzionale $A_{1} A_{2} \to A_{3}$ .

2.3 - Chiusura di un insieme di dipendenze funzionali

Definizione: chiusura di un insieme di dipendenze funzionali

Data una relazione $R (A)$ con un insieme $F$ di dipendenze funzionali su $R$ , una chiusura $F^{+}$ è un insieme di dipendenze funzionali su $R$ tali che ogni $f^{+} \in F^{+}$ è derivabile da $F$ :
$F^{+} = {f^{+} = X \to Y ∣ X, Y \subseteq R \land F ⊨ X \to Y}$

Esempio di chiusura di un insieme di dipendenze funzionali

Consideriamo una relazione $R (A, B, C)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C}$
Un esempio di una sua chiusura $F^{+}$ , ovvero di un insieme di tutte le dipendenze funzionali che si possono derivare logicamente da $F$ , può essere la seguente:
$F^{+} = {A \to C, B \to BC, A B \to A C}$
Possiamo notare infatti come ogni $f^{+} \in F^{+}$ è derivabile da $F$ :

$A \to C$ : derivabile secondo l’assioma di transitività:

$A \to B B \to C A \to C$

$B \to BC$ : derivabile secondo la regola di estensibilità:

$B \to C B \to BC$

$A B \to A C$ : derivabile secondo l’assioma di aumento:

$B \to C A B \to A C$

Osservazione: utilità della chiusura di un insieme di dipendenze funzionali

Conoscere la chiusura $F^{+}$ di un insieme $F$ di dipendenze funzionali significa conoscere tutte le dipendenze funzionali valide in $F$ perché sono deducibili a partire da quelle contenute in $F$ stesso.

Osservazione: crescita esponenziale della cardinalità di una chiusura

Una chiusura $F^{+}$ di un insieme di dipendenze funzionali $F$ può includere dipendenze del tipo $X \to Y$ su ogni possibile coppia di sottoinsiemi di attributi $X, Y \subseteq A$ . Sappiamo che il numero di sottoinsiemi di $A$ possibili è $2^{∣ A ∣}$ e, avendo questa possibilità sia per $X$ che per $Y$ , abbiamo che il numero potenziale di dipendenze è $2^{∣ A ∣} \cdot 2^{∣ A ∣} = 4^{∣ A ∣}$ , che è esponenziale nella dimensione dello schema $A$ .

Dunque, elencare o costruire tutte le dipendenze funzionali di $F^{+}$ è computazionalmente impraticabile anche per schemi moderatamente grandi (per esempio, se $∣ A ∣ = 10$ , ci sono fino a $4^{10} = 1.048.576$ possibili dipendenze funzionali).

2.4 - Equivalenza di insiemi di dipendenze funzionali

Osservazione: le dipendenze funzionali non sono uniche

In una relazione, non c’è unicità nelle dipendenze funzionali che possono essere soddisfatte in essa.

Esempio di non-unicità delle dipendenze funzionali

Consideriamo la relazione $BIBLIOTECA (Libro, Autore, CasaEditrice)$ con la seguente istanza:

$Libro$ $Autore$ $CasaEditrice$ $AnnoDiPubblicazione$
$Divina Commedia$ $Dante Alighieri$ $Adelphi$ $2017$
$I Promessi Sposi$ $Alessandro Manzoni$ $Adelphi$ $2017$
$Lezioni Americane$ $Italo Calvino$ $Laterza$ $2023$
$Vita Nova$ $Dante Alighieri$ $Adelphi$ $2017$
$Se una notte...$ $Italo Calvino$ $Laterza$ $2023$

Posso considerare due insiemi diversi di dipendenze funzionali che agiscono su questa relazione:

L’insieme $F = {Autore \to CasaEditrice, Autore \to AnnoDiPubblicazione}$ .

L’insieme $G = {CasaEditrice \to AnnoDiPubblicazione}$ .

Questi due insiemi sono ugualmente validi e dipendono solamente dal punto di vista del progettista che sceglie come descrivere le dipendenze funzionali che insistono su questa relazione.

$Libro$	$Autore$	$CasaEditrice$	$AnnoDiPubblicazione$
$Divina Commedia$	$Dante Alighieri$	$Adelphi$	$2017$
$I Promessi Sposi$	$Alessandro Manzoni$	$Adelphi$	$2017$
$Lezioni Americane$	$Italo Calvino$	$Laterza$	$2023$
$Vita Nova$	$Dante Alighieri$	$Adelphi$	$2017$
$Se una notte...$	$Italo Calvino$	$Laterza$	$2023$

Questo concetto potrebbe sembrare molto banale, ma in realtà, grazie anche alla definizione formale di chiusura, ora possiamo caratterizzare dal punto di vista teorico il concetto di equivalenza tra insiemi di dipendenze funzionali.

Definizione: equivalenza di insiemi di dipendenze funzionali

Data una relazione $R (A)$ con due insiemi $F$ e $G$ di dipendenze funzionali su $R$ , $F$ si dice equivalente a $G$ (e si denota " $F \equiv G$ ") se le loro chiusure $F^{+}$ e $G^{+}$ sono uguali:
$F \equiv G ⟺ F^{+} = G^{+}$

Abbiamo ricondotto l’equivalenza ad un’uguaglianza insiemistica: se tutte le dipendenze derivate dall’insieme $F$ sono uguali a tutte le dipendenze derivate da $G$ , le due basi di dati evolvono allo stesso modo.

Tuttavia, come già detto, risulta però complesso costruire per intero le chiusure $F^{+}$ e $G^{+}$ per verificare l’equivalenza. Fortunatamente, esiste una proprietà che porta al medesimo risultato.

Proprietà dell'equivalenza di insiemi di dipendenze funzionali

Data una relazione $R (A)$ con due insiemi $F$ e $G$ di dipendenze funzionali su $R$ , $F$ è equivalente a $G$ se e solo se $G$ è deducibile da $F$ e $F$ è deducibile da $G$ :
$F \equiv G ⟺ F ⊨ G \land G ⊨ F$

Esempio di equivalenza di insiemi di dipendenze funzionali

Consideriamo una relazione $R (A, B, C)$ con due insiemi di dipendenze funzionali:

$F = {A \to BC}$ .

$G = {A \to B, A \to C}$ .

Per verificare l’equivalenza $F \equiv G$ , dobbiamo verificare se ogni $f \in F$ è deducibile da $G$ e, viceversa, se ogni $g \in G$ è deducibile da $F$ .

Verifichiamo il primo caso ( $G ⊨ F$ ):

$G = {A \to B, A \to C} ⊨ A \to BC$ : deducibile per la regola di unione.

Ora verifichiamo il secondo caso ( $F ⊨ G$ ):

$F = {A \to BC} ⊨ A \to B$ : deducibile per la regola di decomposizione.

$F = {A \to BC} ⊨ A \to C$ : deducibile per la regola di decomposizione.

Abbiamo concluso che $F ⊨ G$ e $G ⊨ F$ e, per la proprietà dell’equivalenza di insiemi di dipendenze funzionali, possiamo confermare che vale l’equivalenza $F \equiv G$ .

2.5 - Chiusura di un insieme di attributi

Definizione: chiusura di un insieme di attributi

Data una relazione $R (A)$ con un sottoinsieme di attributi $X \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, una chiusura $X_{F}^{+}$ è un insieme di attributi $A_{i} \in A$ tali che la dipendenza funzionale $X \to A_{i}$ è deducibile da $F$ :
$X_{F}^{+} = {A_{i} \in A ∣ F ⊨ X \to A_{i}}$

Esempio di chiusura di un insieme di attributi

Consideriamo una relazione $R (A, B, C, D)$ con l’insieme di dipendenze funzionali
$F = {A \to B, A \to D, C \to D}$
e considero $X = {A}$ .

Una possibile chiusura $X_{F}^{+}$ di $X$ è:
$X_{F}^{+} = {B, D}$
Infatti, per ogni attributo $x$ in $X_{F}^{+}$ , la dipendenza funzionale $X = {A} \to x$ è deducibile da $F$ :

$X = {A} \to B$ : è deducibile perché $A \to B$ è già un elemento di $F$ .

$X = {A} \to D$ : è deducibile perché $A \to D$ è già un elemento di $F$ .

Possiamo confermare che la chiusura $X_{F}^{+} = {B, D}$ è valida.

Algoritmo per il calcolo della chiusura di un insieme di attributi

Data una relazione $R (A)$ con due sottoinsieme di attributi $X, Z \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, la chiusura $X_{F}^{+}$ è calcolata nel seguente modo:

Assegna $X$ a $X_{F}^{+}$ e $F$ a $F^{'}$ .

Esiste in $F^{'}$ una dipendenza funzionale $Y \to Z$ tale che $Y \subseteq X_{F}^{+}$ ?

Se sì, unisci $Z$ a $X_{F}^{+}$ e rimuovi $Y \to Z$ da $F^{'}$ .

Se no, stop.

Esempio di uso dell'algoritmo per il calcolo della chiusura di un insieme di attributi

Consideriamo una relazione $R (A, B, C, D, E, G)$ con l’insieme di dipendenze funzionali
$F = {A D \to B, D \to A C, D \to G, E \to G}$
e considero $X = {A, D}$ . Proviamo a calcolare la chiusura $X_{F}^{+}$ usando l’algoritmo per il calcolo della chiusura di un insieme di attributi:

Passo 1: $X_{F}^{+} = {A, D}$ e $F^{'} = {A D \to B, D \to A C, D \to G, E \to G}$ .

Passo 2: in $F^{'}$ c’è la dipendenza funzionale $A D \to B$ (dove $Y = A D \subseteq X_{F}^{+}$ e $Z = B$ ).

Passo 3: $X_{F}^{+} = {A, D} \cup {B} = {A, B, D}$ e $F^{'} = {A D \to B, D \to A C, D \to G, E \to G} - {A D \to B} = {D \to A C, D \to G, E \to G}$ .

Passo 2: in $F^{'}$ c’è la dipendenza funzionale $D \to A C$ (dove $Y = D \subseteq X_{F}^{+}$ e $Z = A C$ ).

Passo 3: $X_{F}^{+} = {A, B, D} \cup {A, C} = {A, B, C, D}$ e $F^{'} = {D \to A C, D \to G, E \to G} - {D \to A C} = {D \to G, E \to G}$ .

Passo 2: in $F^{'}$ c’è la dipendenza funzionale $D \to G$ (dove $Y = D \subseteq X_{F}^{+}$ e $Z = G$ ).

Passo 3: $X_{F}^{+} = {A, B, C, D} \cup {G} = {A, B, C, D, G}$ e $F^{'} = {D \to G, E \to G} - {D \to G} = {E \to G}$ .

Passo 2: in $F^{'}$ non ci sono più dipendenze funzionali valide.

Dopo aver eseguito l’algoritmo, abbiamo trovato che la chiusura $X_{F}^{+}$ contiene i seguenti attributi:
$X_{F}^{+} = {A, B, C, D, G}$

Proprietà 1 sulla chiusura di un insieme di attributi

Data una relazione $R (A)$ con due sottoinsiemi di attributi $X, Y \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, la dipendenza funzionale $X \to Y$ è deducibile da $F$ se e solo se $Y$ è un sottoinsieme di $X_{F}^{+}$ :
$F ⊢ X \to Y ⟺ Y \subseteq X_{F}^{+}$

Osservazione: usare la proprietà 1 per verificare la validità delle dipendenze funzionali

Possiamo notare come, se una dipendenza funzionale è deducibile da un insieme di dipendenze, allora è valida. Ciò significa che è possibile usare la proprietà 1 per verificare la validità di una dipendenza funzionale.

Esempio di uso della proprietà 1 per verificare la validità delle dipendenze funzionali

Consideriamo una relazione $R (A, B, C, D, E, G)$ con l’insieme di dipendenze funzionali
$F = {A D \to B, D \to A C, D \to G, E \to G}$
Vogliamo verificare la validità della dipendenza $A D \to G$ (quindi $X = A D$ e $Y = G$ ). Per fare ciò, dobbiamo calcolare la chiusura $X_{F}^{+}$ e verificare se in essa è presente $G$ . Nell’esempio precedente avevamo già calcolato questa chiusura e abbiamo ottenuto:
$X_{F}^{+} = {A, B, C, D, G}$
Dal momento che ${G} \subseteq X_{F}^{+}$ , possiamo confermare che la dipendenza $A D \to G$ è valida.

Vogliamo ora verificare la validità della dipendenza $A \to G$ (quindi $X = A$ e $Y = G$ ). Per fare ciò, dobbiamo calcolare la chiusura $X_{F}^{+}$ e verificare se in essa è presente $G$ . Applicando l’algoritmo, notiamo subito che stavolta la chiusura $X_{F}^{+}$ contiene solo $A$ (perché non ci sono dipendenze con attributi deducibili unicamente da $A$ ).

Dal momento che ${G} ⊈ X_{F}^{+} = {A}$ , la dipendenza $A \to G$ NON è valida.

Una riformulazione che si trova spesso in giro della proprietà 1 è quella che viene detta proprietà di membership.

Proprietà di membership sulla chiusura di un insieme di attributi

Data una relazione $R (A)$ con due sottoinsiemi di attributi $X, Y \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, la dipendenza funzionale $X \to Y$ è contenuta nella chiusura $F^{+}$ se e solo se $Y$ è un sottoinsieme di $X_{F}^{+}$ :
$(X \to Y) \in F^{+} ⟺ Y \subseteq X_{F}^{+}$

Osservazione: usare la proprietà di membership per verificare la validità delle dipendenze funzionali

Similmente a quanto avviene per la proprietà 1, possiamo usare anche la proprietà di membership, collegandoci a quanto detto sopra, per chiarire subito se una dipendenza è valida o no semplicemente controllando se è presente nella chiusura dell’insieme di dipendenze a cui si riferisce.

Proprietà 2 sulla chiusura di un insieme di attributi

Data una relazione $R (A)$ con un sottoinsieme di attributi $X \subseteq A$ su cui sono definiti due insiemi $F$ e $G$ di dipendenze funzionali, le chiusure $X_{F}^{+}$ e $X_{G}^{+}$ sono uguali.

2.6 - Uso della dipendenza funzionale nelle superchiavi

Il concetto di dipendenza funzionale può essere usato per dare una nuova definizione di superchiave.

Definizione: superchiave

Data una relazione $R (A)$ , un sottoinsieme di attributi $s k \subseteq A$ è una superchiave se e solo se determina $A$ (cioè vale la dipendenza funzionale $s k \to A$ ).

Osservazione: verificare una superchiave con la sua chiusura

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, per verificare se un sottoinsieme di attributi $s k \subseteq A$ è una superchiave basterà calcolare la sua chiusura $s k_{F}^{+}$ e vedere se questa coincide con lo schema $A$ .

Esempio di verifica di una superchiave con la sua chiusura

Consideriamo una relazione $R (A, B, C, D, E)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C, A C \to D}$
Vogliamo verificare se il sottoinsieme di attributi $s k = {A, E}$ è una superchiave di $R$ . Per fare ciò, dobbiamo calcolare la chiusura $s k_{F}^{+}$ e verificare se essa è uguale allo schema ${A, B, C, D, E}$ . Usando l’algoritmo, possiamo calcolare subito la chiusura che risulta essere:
$s k_{F}^{+} = {A, B, C, D, E}$
Dal momento che $s k_{F}^{+} = {A, B, C, D, E}$ è proprio lo schema della relazione $R$ , possiamo confermare che il sottoinsieme di attributi $s k = {A, E}$ è una superchiave di $R$ .

Osservazione: attributi fuori dall'insieme di dipendenze funzionali fanno parte della superchiave

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, se un attributo $A_{i} \in A$ non è determinato da nessuna dipendenza funzionale presente in $F$ , allora questo dovrà necessariamente far parte della superchiave che si sta cercando.

Esempio di attributo fuori dall'insieme di dipendenze funzionali che fa parte della superchiave

Consideriamo una relazione $R (A, B, C, D, E)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C, A C \to D}$
Vogliamo verificare se il sottoinsieme di attributi $s k = {A}$ è una superchiave di $R$ . Per fare ciò, dobbiamo calcolare la chiusura $s k_{F}^{+}$ e verificare se essa è uguale allo schema ${A, B, C, D, E}$ . Usando l’algoritmo, possiamo calcolare subito la chiusura che risulta essere:
$s k_{F}^{+} = {A, B, C, D}$
Possiamo notare che in $F$ non è presente alcuna dipendenza funzionale che determina $E$ e, per questo, $E$ non fa parte della chiusura $s k_{F}^{+}$ .

Per rendere la chiusura $s k_{F}^{+}$ una superchiave, bisogna includere anche $E$ in $s k$ : infatti, se $s k = {A, E}$ , allora $s k_{F}^{+} = {A, B, C, D, E}$ che corrisponde allo schema di $R$ e rende $s k$ una superchiave.

2.7 - Le dipendenze ridondanti

Definizione: dipendenza ridondante

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una dipendenza funzionale $f = X \to Y \in F$ si dice che è una dipendenza ridondante se, rimuovendola da $F$ , rimane comunque derivabile dalla chiusura $F^{+}$ delle altre dipendenze presenti:
$f \in F^{+} = (F ∖ {f})^{+}$

Insieme in forma canonica

Definizione: insieme di dipendenze funzionali in forma canonica

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, $F$ si dice che è in forma canonica se, per ogni dipendenza funzionale non banale $(X \to Y) \in F$ (con $X, Y \subseteq A$ ), $Y$ è un singoletto, cioè un singolo attributo.

2.8 - Insieme di copertura minimale

Definizione: insieme di copertura minimale

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali in forma canonica, un sottoinsieme $F^{'} \subseteq F$ si dice che è un insieme di copertura minimale se, per ogni dipendenza funzionale non banale $(X \to Y) \in F^{'}$ (con $X, Y \subseteq A$ ):

$X$ non contiene attributi estranei.

$X \to Y$ non è una dipendenza ridondante.

Algoritmo per il calcolo di un insieme di copertura minimale

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali in forma canonica, questo algoritmo calcola l’insieme di copertura minimale $F^{'} \subseteq F$ .

I passi da seguire sono i seguenti:

Assegna $F$ a $F^{'}$ :

$F^{'} := F$

Per ogni dipendenza funzionale $X \to A_{i}$ in $F^{'}$ e per ogni $B \in X$ , se $A_{i}$ è nella chiusura di $X$ tolto $B$ , allora cancella $B$ da $X$ :

$\forall X \to A_{i} \in F, \forall B \in X (A_{i} \in (X ∖ {B})_{F^{'}}^{+} ⟹ X := X ∖ {B})$

Per ogni dipendenza funzionale $X \to A_{i}$ in $F^{'}$ , se $A_{i}$ è nella chiusura di $X$ rispetto all’insieme $F^{⋆} = F^{'} ∖ {X \to A_{i}}$ di dipendenze funzionali, allora assegna $F^{⋆}$ a $F^{'}$ :

$\forall X \to A_{i} \in F, \forall B \in X (A_{i} \in X_{F^{⋆}}^{+} ⟹ F^{'} := F^{⋆})$

3 - Decomposizione di relazioni

Ora introduciamo un altro concetto alla base della normalizzazione: la decomposizione di una relazione.

Definizione: decomposizione

Data una relazione $R (A)$ e un ricoprimento ${X, Y}$ dello schema $A$ (cioè $X, Y \subseteq A$ e $X \cup Y = A$ ), l’insieme di relazioni ${R_{1} (X), R_{2} (Y)}$ (dove $R_{i} (S) = π_{S} (R)$ ) è una decomposizione di $R (A)$ e ogni $R_{i}$ viene detto sottoschema di $R$ .

Esempio di decomposizione

Consideriamo una relazione $R (A, B, C, D, E)$ . Una sua decomposizione potrebbe essere:
${R_{1} (A, C, D), R_{2} (B, C, E)}$
Infatti, ${A, C, D} \cup {B, C, E} = {A, B, C, D, E}$ che corrisponde proprio allo schema della relazione. In particolare:

Il sottoschema $R_{1} (A, C, D)$ corrisponde alla proiezione $π_{A, C, D} (R)$ .

Il sottoschema $R_{2} (B, C, E)$ corrisponde alla proiezione $π_{B, C, E} (R)$ .

3.1 - Decomposizione senza perdita di informazioni

Definizione: decomposizione senza perdita di informazioni

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ è detta senza perdita di informazioni se si ha che:
$π_{X} (R) ⋈ π_{Y} (R) = R$

Esempio di decomposizione senza perdita di informazioni

Consideriamo una relazione $STUDENTE (Matricola, Nome, Corso)$ con l’insieme di dipendenze funzionali
$F = {Matricola \to Nome}$
e consideriamo la sua istanza che soddisfa le dipendenze funzionali contenute in $F$ (infatti a ogni matricola corrisponde sempre lo stesso nome):

$Matricola$ $Nome$ $Corso$
$1213812$ $Rossi Mario$ $Basi di Dati$
$2813923$ $Bianchi Gaia$ $Sistemi Operativi$
$2813923$ $Bianchi Gaia$ $Basi di Dati$
$1213812$ $Rossi Mario$ $Sistemi Operativi$

Consideriamo la decomposizione
${R_{1} (Matricola,Nome), R_{2} (Corso)}$
dove il sottoschema $R_{1} (Matricola,Nome)$ rappresenta la proiezione $π_{Matricola,Nome} (STUDENTE)$ ²:

$Matricola$ $Nome$
$1213812$ $Rossi Mario$
$2813923$ $Bianchi Gaia$

e il sottoschema $R_{2} (Corso)$ rappresenta la proiezione $π_{Corso} (STUDENTE)$ ²:

$Corso$
$Basi di Dati$
$Sistemi Operativi$

Se effettuiamo il natural-join tra il due sottoschemi $R_{1}$ ed $R_{2}$ otteniamo:

$Matricola$ $Nome$ $Corso$
$1213812$ $Rossi Mario$ $Basi di Dati$
$2813923$ $Bianchi Gaia$ $Sistemi Operativi$
$2813923$ $Bianchi Gaia$ $Basi di Dati$
$1213812$ $Rossi Mario$ $Sistemi Operativi$

Questa istanza corrisponde proprio all’istanza della relazione $STUDENTE$ da cui siamo partiti, quindi si può concludere che la decomposizione ${R_{1} (Matricola,Nome), R_{2} (Corso)}$ è senza perdita di informazioni.

$Matricola$	$Nome$	$Corso$
$1213812$	$Rossi Mario$	$Basi di Dati$
$2813923$	$Bianchi Gaia$	$Sistemi Operativi$
$2813923$	$Bianchi Gaia$	$Basi di Dati$
$1213812$	$Rossi Mario$	$Sistemi Operativi$

$Matricola$	$Nome$
$1213812$	$Rossi Mario$
$2813923$	$Bianchi Gaia$

$Corso$
$Basi di Dati$
$Sistemi Operativi$

$Matricola$	$Nome$	$Corso$
$1213812$	$Rossi Mario$	$Basi di Dati$
$2813923$	$Bianchi Gaia$	$Sistemi Operativi$
$2813923$	$Bianchi Gaia$	$Basi di Dati$
$1213812$	$Rossi Mario$	$Sistemi Operativi$

A partire dalla nozione di decomposizione senza perdita di informazioni, possiamo ricavarci un importante teorema.

Teorema sulla decomposizione senza perdita di informazioni

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ è senza perdita di informazioni se si ha che l’intersezione $X \cap Y$ determina o $X$ o $Y$ :
$(X \cap Y) \to X \lor (X \cap Y) \to Y$

Esempio di uso del teorema sulla decomposizione senza perdita di informazioni

Consideriamo una relazione $STUDENTE (Matricola, Nome, Corso)$ con l’insieme di dipendenze funzionali
$F = {Matricola \to Nome}$
e consideriamo la sua istanza $r$ che soddisfa le dipendenze funzionali contenute in $F$ (infatti a ogni matricola corrisponde sempre lo stesso nome):

$Matricola$ $Nome$ $Corso$
$1213812$ $Rossi Mario$ $Basi di Dati$
$2813923$ $Bianchi Gaia$ $Sistemi Operativi$
$2813923$ $Bianchi Gaia$ $Basi di Dati$
$1213812$ $Rossi Mario$ $Sistemi Operativi$

Consideriamo la decomposizione
${R_{1} (Matricola,Nome), R_{2} (Matricola, Corso)}$
dove il sottoschema $R_{1} (Matricola,Nome)$ rappresenta la proiezione $π_{Matricola,Nome} (STUDENTE)$ ²:

$Matricola$ $Nome$
$1213812$ $Rossi Mario$
$2813923$ $Bianchi Gaia$

e il sottoschema $R_{2} (Matricola, Corso)$ rappresenta la proiezione $π_{Matricola, Corso} (STUDENTE)$ ²:

$Matricola$ $Corso$
$1213812$ $Basi di Dati$
$2813923$ $Sistemi Operativi$
$2813923$ $Basi di Dati$
$1213812$ $Sistemi Operativi$

Secondo il teorema, se l’intersezione ${Matricola, Nome} \cap {Matricola, Corso} = {Matricola}$ può determinare ${Matricola, Nome}$ o ${Matricola, Corso}$ a partire da $F$ , allora questa decomposizione è senza perdita di informazioni.

Verifichiamo prima ${Matricola} \to {Matricola, Nome}$ :

Abbiamo la dipendenza ${Matricola} \to {Nome}$ già presente in $F$ .

Avendo ${Matricola, Nome}$ dal passaggio precedente, ricaviamo ${Matricola} \to {Matricola, Nome}$ per la regola di estensibilità.

Abbiamo verificato, quindi, che ${Matricola} \to {Matricola, Nome}$ (cioè che $X \cap Y \to X$ ): possiamo quindi confermare che la decomposizione ${R_{1} (Matricola,Nome), R_{2} (Matricola, Corso)}$ è senza perdita di informazioni.

$Matricola$	$Nome$	$Corso$
$1213812$	$Rossi Mario$	$Basi di Dati$
$2813923$	$Bianchi Gaia$	$Sistemi Operativi$
$2813923$	$Bianchi Gaia$	$Basi di Dati$
$1213812$	$Rossi Mario$	$Sistemi Operativi$

$Matricola$	$Nome$
$1213812$	$Rossi Mario$
$2813923$	$Bianchi Gaia$

$Matricola$	$Corso$
$1213812$	$Basi di Dati$
$2813923$	$Sistemi Operativi$
$2813923$	$Basi di Dati$
$1213812$	$Sistemi Operativi$

Ovviamente, il teorema può facilmente essere riformulato sulla base della definizione di superchiave.

Corollario sulla decomposizione senza perdita di informazioni

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ è senza perdita di informazioni se si ha che l’intersezione $X \cap Y$ è superchiave o di $X$ o di $Y$ .

3.2 - Restrizione di un insieme di dipendenze funzionali

Immaginiamo di avere una relazione su cui è definito un insieme di dipendenze funzionali. Dopo aver decomposto questa relazione, vogliamo “decomporre” anche l’insieme delle dipendenze funzionali sulle due decomposizioni: ecco il concetto di restrizione.

Definizione: restrizione di un insieme di dipendenze funzionali

Data una decomposizione ${R_{i} (A_{i})}$ di una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una restrizione $F_{i}$ di un sottoschema $R_{i}$ è l’insieme di dipendenze funzionali contenute nella chiusura $F^{+}$ di $F$ che riguardano solo gli attributi $A_{i}$ :
$F_{i} = {X \to Y \in F^{+} ∣ X, Y \subseteq A_{i}}$

Esempio di restrizione di un insieme di dipendenze funzionali

Consideriamo una relazione $R (A, B, C)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C}$
Gli elementi della chiusura $F^{+}$ di $F$ sono:
$F^{+} = {A \to B, B \to C, A \to C}$
Ora decomponiamo $R$ in
${R_{1} (A, B), R_{2} (B, C)}$
Calcoliamo la restrizione $F_{1}$ sul sottoschema $R_{1} (A, B)$ a partire dagli elementi della chiusura $F^{+}$ :

$A \to B$ : ✅ può essere un elemento di $F_{1}$ perché ${A, B} \subseteq {A, B}$ .

$B \to C$ : ❌ non può essere un elemento di $F_{1}$ perché ${B, C} ⊈ {A, B}$ .

$A \to C$ : ❌ non può essere un elemento di $F_{1}$ perché ${A, C} ⊈ {A, B}$ .

E così via per tutti gli altri elementi non elencati della chiusura $F^{+}$ .

Quindi possiamo concludere che la restrizione $F_{1}$ sul sottoschema $R_{1} (A, B)$ è:
$F_{1} = {A \to B}$
Ora calcoliamo la restrizione $F_{2}$ sul sottoschema $R_{2} (B, C)$ a partire dagli elementi della chiusura $F^{+}$ :

$A \to B$ : ❌ non può essere un elemento di $F_{2}$ perché ${A, B} ⊈ {B, C}$ .

$B \to C$ : ✅ può essere un elemento di $F_{2}$ perché ${B, C} \subseteq {B, C}$ .

$A \to C$ : : ❌ non può essere un elemento di $F_{2}$ perché ${A, C} ⊈ {B, C}$ .

Quindi possiamo concludere che la restrizione $F_{2}$ sul sottoschema $R_{2} (B, C)$ è:
$F_{2} = {B \to C}$

3.3 - Decomposizione che mantiene le dipendenze

Dal concetto di restrizione si può ricavare quello di una decomposizione che “mantiene” le dipendenze.

Definizione: decomposizione che mantiene le dipendenze

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ si dice che mantiene le dipendenze se $F$ è deducibile dall’unione delle restrizioni $F_{1}$ ed $F_{2}$ (rispettivamente dei sottoschemi $R_{1}$ ed $R_{2}$ ):
$F_{1} \cup F_{2} ⊨ F$

Esempio di decomposizione che mantiene le dipendenze

Consideriamo una relazione $R (A, B, C)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C}$
Gli elementi della chiusura $F^{+}$ di $F$ sono:
$F^{+} = {A \to B, B \to C, A \to C}$
Ora decomponiamo $R$ in
${R_{1} (A, B), R_{2} (B, C)}$
Troviamo che la restrizione $F_{1}$ sul sottoschema $R_{1} (A, B)$ è:
$F_{1} = {A \to B}$
Mentre, la restrizione $F_{2}$ sul sottoschema $R_{2} (B, C)$ è:
$F_{2} = {B \to C}$
Facendo l’unione delle due restrizioni $F_{1}$ ed $F_{2}$ , abbiamo:
$F_{1} \cup F_{2} = {A \to B} \cup {B \to C} = {A \to B, B \to C}$
Possiamo facilmente verificare che da $F_{1} \cup F_{2}$ è deducibile l’insieme di dipendenze funzionali $F$ perché l’unico elemento mancante, $A \to C$ , è deducibile dall’assioma di transitività:
$A \to B B \to C A \to C$
Si può quindi dire che la decomposizione ${R_{1} (A, B), R_{2} (B, C)}$ di $R$ mantiene le dipendenze.

3.4 - Decomposizione che mantiene la località delle dipendenze

Possiamo ulteriormente approfondire il concetto di decomposizione che mantiene le dipendenze se teniamo conto del fatto che queste dipendenze funzionali possono essere verificate guardando solo una singola relazione della decomposizione, cioè non è necessario combinare tra loro più relazioni per controllarla.

Definizione: decomposizione che mantiene la località delle dipendenze

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali e un insieme di copertura minimale $F^{'} \subseteq F$ , una decomposizione che mantiene le dipendenze ${R_{i} (X_{i})}_{i \in I}$ di $R$ si dice che mantiene la località delle dipendenze se, per ogni dipendenza funzionale $(X \to Y) \in F^{'}$ , esiste una relazione nella decomposizione ${R_{i} (X_{i})}_{i \in I}$ che contiene gli attributi $X$ e $Y$ :
$\forall (X \to Y) \in F^{'}, \exists i \in I (X \cup Y \subseteq R_{i})$

4 - Forme normali

Esistono delle “ricette” per la buona progettazione di una base di dati per limitare l’ammissibilità di dipendenze funzionali tra gli attributi, con l’obiettivo di eliminare o ridurre ridondanze e anomalie di modifica: le forme normali.

Definizione: forma normale

Una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali si dice essere in una forma normale $FN$ se soddisfa i vincoli specifici di quella forma normale rispetto a $F$ . ^definizione-forma-normale

4.1 - 1ª Forma Normale (1NF)

La 1ª Forma Normale (1NF) si basa sull’uso di attributi con valori indivisibli, detti atomici.

Definizione: attributo atomico

Un attributo atomico è un attributo di una relazione il cui dominio è composto unicamente da valori indivisibili.

Esempi di attributi atomici

Consideriamo una relazione $STUDENTE (Matricola, Nome, Corso)$ . Supponiamo che i domini dei suoi attributi siano i seguenti:

$Matricola$ di tipo intero (numero identificativo univoco).

$Nome$ di tipo stringa (stringa che rappresenta nome e cognome).

$Corso$ di tipo stringa (nome di un singolo insegnamento).

Se ogni attributo assume un solo valore indivisibile per ogni tupla, allora tali attributi sono atomici.

Ad esempio, l’istanza:

$Matricola$ $Nome$ $Corso$
$12345$ $Mario Rossi$ $Basi di Dati$
$67890$ $Anna Verdi$ $Sistemi Operativi$

contiene solo attributi atomici, in quanto:

$12345$ è un singolo numero (intero).

$Mario Rossi$ è una stringa indivisibile nel contesto.

$Basi di Dati$ è una singola unità di informazione.

Se invece $Corso$ contenesse un insieme di valori, come ${Basi di Dati, Reti}$ , oppure $Nome$ fosse codificato come una struttura {"nome": "Mario", "cognome": "Rossi"}, gli attributi non sarebbero più atomici.

$Matricola$	$Nome$	$Corso$
$12345$	$Mario Rossi$	$Basi di Dati$
$67890$	$Anna Verdi$	$Sistemi Operativi$

Definizione: 1ª Forma Normale (1NF)

Una relazione $R (A)$ si dice in 1ª Forma Normale (1NF, 1ˢᵗ Normal Form) se tutti i suoi attributi sono atomici.

4.2 - 2ª Forma Normale (2NF)

Definizione: 2ª Forma Normale (2NF)

Una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali si dice in 2ª Forma Normale (2NF, 2ⁿᵈ Normal Form) se è in 1ª Forma Normale e ogni attributo non chiave $A_{i} \in A$ non dipende da un sottoinsieme proprio $X$ di una chiave candidata $k \subseteq A$ :
$\forall A_{i} \in A, ∄ X ⊊ k \subseteq A (X \to A_{i})$

Esempio di relazione in 2ª Forma Normale (2NF)

Consideriamo la seguente relazione:
$ISCRIZIONE (Matricola, CodCorso, NomeStudente, NomeCorso)$
e l’insieme $F$ di dipendenze funzionali:
$F = {(Matricola, CodCorso) \to NomeStudente, (Matricola, CodCorso) \to NomeCorso, Matricola \to NomeStudente, CodCorso \to NomeCorso}$
Possiamo considerare la chiave candidata ${Matricola, CodCorso}$ . In questo caso, le dipendenze $Matricola \to NomeStudente$ e $CodCorso \to NomeCorso$ indicano che gli attributi non chiave $NomeStudente$ e $NomeCorso$ dipendono solo da una parte della chiave (cioè rispettivamente solo da $Matricola$ e da $CodCorso$ ), quindi questa relazione viola la 2NF.

Si può però decomporre $ISCRIZIONE (Matricola, CodCorso, NomeStudente, NomeCorso)$ nelle seguenti tre relazioni:

$ISCRIZIONE2 (Matricola, CodCorso)$ con la restrizione $F_{1} = \emptyset$ e chiave candidata ${Matricola, CodCorso}$ .

$STUDENTE (Matricola, NomeStudente)$ con la restrizione $F_{2} = {Matricola \to NomeStudente}$ e chiave candidata ${Matricola}$ .

$CORSO (CodCorso, NomeCorso)$ con la restrizione $F_{3} = {CodCorso \to NomeCorso}$ e chiave candidata ${CodCorso}$ .

In questa nuova decomposizione, ogni attributo non chiave dipende interamente dalla chiave candidata e, quindi, ognuna di queste tre nuove relazioni è in 2NF.

4.3 - 3ª Forma Normale (3NF)

Definizione: 3ª Forma Normale (3NF)

Una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali si dice in 3ª Forma Normale (3NF, 3ʳᵈ Normal Form) se è in 2ª Forma Normale e, per ogni dipendenza funzionale non banale $X \to A_{i}$ (con $X \subseteq A$ e $A_{i} \in A$ ) contenuta nella chiusura $F^{+}$ di $F$ , si verifica almeno una delle seguenti condizioni:

$X$ è una superchiave di $R$ .

$A_{i}$ è parte di almeno una chiave candidata.

Esempio di relazione in 3ª Forma Normale (3NF)

Consideriamo la relazione:
$IMPIEGATO (CF, Nome, Dipartimento, Responsabile)$
su cui è definito il seguente insieme di dipendenze funzionali:
$F = {CF \to (Nome, Dipartimento), Dipartimento \to Responsabile}$
Considerando come chiave candidata $CF$ , la relazione è in 2NF perché ogni attributo non chiave dipende interamente dalla chiave candidata.

Tuttavia, la relazione $IMPIEGATO$ viola la 3NF perché (considerando solo le dipendenze funzionali di $F$ e tralasciando quelle della sua chiusura $F^{+}$ per questioni pratiche):

L’attributo $Dipartimento$ non è una superchiave (perché non determina l’intero schema della relazione), violando così la condizione 1 della definiizone della 3NF.

Gli attributi $Nome$ , $Dipartimento$ e $Responsabile$ non fanno parte di almeno una chiave candidata, essendo questa composta unicamente da $CF$ e violando così la condizione 2 della definiizone della 3NF.

Si può però decomporre $IMPIEGATO (CF, Nome, Dipartimento, Responsabile)$ nelle seguenti due relazioni:

$R_{1} (CF, Nome, Dipartimento)$ con la restrizione $F_{1} = {CF \to (Nome, Dipartimento)}$ e chiave candidata $CF$ .

$R_{2} (Dipartimento, Responsabile)$ con la restrizione $F_{2} = {Dipartimento \to Responsabile}$ e chiave candidata $Dipartimento$ .

In questa nuova decomposizione, per ogni dipendenza funzionale non banale $X \to A_{i}$ contenuta nella chiusura $F^{+}$ di $F$ , viene rispettata la condizione 1 della definizione secondo cui $X$ è una superchiave di $R$ (infatti, $CF$ e $Dipartimento$ sono anche chiavi candidate dei rispettivi sottoschemi e per definizione di chiave candidata sono anche superchiavi).

Quindi, possiamo concludere che ognuna di queste due nuove relazioni è in 3NF.

4.3.1 - Algoritmo di normalizzazione in 3NF

Possiamo costruire un algoritmo che ci permette di normalizzare una relazione in 3NF attraverso dei passaggi ben definiti.

Algoritmo di normalizzazione di una relazione in 3NF

Input: una relazione $R (A)$ su cui è definito l’insieme $F$ di dipendenze funzionali.

Output: una base di dati $D B$ con relazioni in 3NF che corrisponde a una decomposizione senza perdita di informazioni di $R (A)$ .

Procedimento:

Calcolo l’insieme di copertura minimale $F^{'}$ di $F$ : $F^{'} = {X_{1} \to A_{1}, X_{2} \to A_{2}, \dots, X_{n} \to A_{n}} = {X_{i} \to A_{i}}_{i \in I}$

Costruisco una base di dati $D B$ con $D B = {R_{1} (X_{1} A_{1}), R_{2} (X_{2} A_{2}), \dots, R_{n} (X_{n} A_{n})} = {R_{i} (X_{i} A_{i})}_{i \in I}$

Se nessuna relazione $R_{i} \in D B$ contiene una chiave candidata $k$ qualsiasi di $R (A)$ , aggiungo a $D B$ una nuova relazione $R_{n + 1} (k)$ : $D B := D B \cup {R_{n + 1} (k)}$

Durante l’esecuzione dell’algoritmo di normalizzazione di una relazione in 3NF, consideriamo una qualsiasi relazione $R_{i} (X_{i} A_{i})$ risultante dal passo 2 del procedimento: questa relazione è stata generata dalla dipendenza funzionale $X_{i} \to A_{i}$ , quindi $X_{i}$ è una superchiave di $R_{i}$ per la nuova definizione di superchiave, ma possiamo dimostrare che $X_{i}$ è anche una chiave candidata di $R_{i}$ perché è minimale.

Proprietà di generazione di chiavi candidate dell'algoritmo di normalizzazione di una relazione in 3NF

Durante l’esecuzione dell’algoritmo di normalizzazione di una relazione in 3NF, per una qualsiasi relazione $R_{i} (X_{i} A_{i})$ risultante dal passo 2 del procedimento, $X_{i}$ è una chiave candidata di $R_{i}$ .

Dimostrazione della proprietà di generazione di chiavi candidate dell'algoritmo di normalizzazione di una relazione in 3NF

Facciamo una dimostrazione per assurdo.

Supponiamo che $X_{i}$ sia solo superchiave di $R_{i}$ (e che quindi non sia minimale), ciò vuol dire che esiste un sottoinsieme proprio $W ⊊ X_{i}$ tale che $F^{'} ⊢ W \to A_{i}$ . Allora, per l’assioma di riflessività, abbiamo che $X_{i} \to W$ e, per l’assioma di transitività, se $X_{i} \to W$ e $W \to A_{i}$ , allora $X_{i} \to A_{i}$ .

Ciò implica che quindi $X_{i} \to A_{i}$ sia una dipendenza ridondante perché è derivabile da queste altre dipendenze funzionali, ma ciò non è possibile perché dal passo 1 dell’algoritmo di normalizzazione in 3NF otteniamo un insieme di copertura minimale in cui non sono presenti dipendenze funzionali.

Di conseguenza, $W \to A_{i}$ non può esistere e $X_{i}$ deve essere per forza minimale, quindi è una chiave candidata.

Proprietà di mantenimento della località delle dipendenze dell'algoritmo di normalizzazione di una relazione in 3NF

Durante l’esecuzione dell’algoritmo di normalizzazione di una relazione in 3NF, ogni dipendenza funzionale $(X_{i} \to A_{i}) \in F^{'}$ risultante dal passo 1 del procedimento si trova nella restrizione della corrispondente relazione $R_{i} (X_{i} A_{i})$ per costruzione, quindi la decomposizione $D B = {R_{i} (X_{i} A_{i})}_{i \in I}$ è una decomposizione che mantiene la località delle dipendenze.

Proprietà di mantenimento di informazioni dell'algoritmo di normalizzazione di una relazione in 3NF

L’esecuzione dell’algoritmo di normalizzazione di una relazione in 3NF su una relazione $R (A)$ genera una decomposizione $D B = {R_{i} (X_{i} A_{i})}_{i \in I}$ che è senza perdite di informazioni, ossia:
$R (A) = i \in I ⋈ R_{i} (X_{i} A_{i}) = R_{1} (X_{1} A_{1}) ⋈ R_{2} (X_{2} A_{2}) ⋈ \dots ⋈ R_{n} (X_{n} A_{n})$

4.4 - Forma Normale di Boyce-Codd (BCNF)

Definizione: Forma Normale di Boyce-Codd (BCNF)

Una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali si dice in Forma Normale di Boyce-Codd (BCNF, Boyce-Codd Normal Form) se è in 3ª Forma Normale e, per ogni dipendenza funzionale non banale $X \to Y$ (con $X, Y \subseteq A$ ) contenuta nella chiusura $F^{+}$ di $F$ , $X$ è una superchiave.

Esempio di relazione in Forma Normale di Boyce-Codd (BCNF)

Consideriamo la relazione:
$R (Studente, Corso, Docente)$
su cui è definito il seguente insieme di dipendenze funzionali:
$F = {(Studente, Corso) \to Docente, Docente \to Corso}$
Considerando come chiave candidata $(Studente, Corso)$ , la relazione è in 3NF perché ogni attributo non chiave (in questo caso solo $Docente$ ) dipende interamente dalla chiave candidata.

Tuttavia, la relazione $R$ viola la BCNF perché l’attributo $Docente$ non è una superchiave (perché non determina l’intero schema della relazione).

Si può però decomporre $R (Studente, Corso, Docente)$ nelle seguenti due relazioni:

$R_{1} (Studente, Docente)$ con la restrizione $F_{1} = \emptyset$ e chiave candidata $Studente$ .

$R_{2} (Corso, Docente)$ con la restrizione $F_{2} = {Docente \to Corso}$ e chiave candidata $Docente$ .

In questa nuova decomposizione, per ogni dipendenza funzionale non banale $X \to Y$ contenuta nella chiusura $F^{+}$ di $F$ , $X$ è una superchiave di $R$ (infatti, $Docente$ è chiave candidata del sottoschema $R_{2}$ e, per definizione di chiave candidata, è anche una superchiave).

Quindi, possiamo concludere che ognuna di queste due nuove relazioni è in BCNF.

Osservazione: la BCNF è una restrizione sulla condizione 1 della 3NF

Osservando la definizione della BCNF, si può osservare come questa sia una “restrizione” sulla condizione 1 della 3NF, nel senso che, mentre nella 3NF viene richiesto che la relazione rispetti almeno una delle due condizioni, nella BCNF si chiede che la condizione 1 venga necessariamente rispettata.

Osservazione: la BCNF impedisce le anomalie di modifica

La normalizzazione di una relazione in BCNF elimina la possibilità di avere anomalie di modifica di qualsiasi tipo: questo accade perché, in ogni dipendenza funzionale non banale $X \to Y$ , si ha che $X$ è una superchiave che, per definizione, impedisce la ridondanza e assicura che ogni dato sia rappresentato una sola volta.

Bisogna sottolineare però che, ovviamente, ciò vale solo all’interno delle singole relazioni, non globalmente all’interno dell’intera base di dati.

4.4.1 - Algoritmo di normalizzazione in BCNF

Algoritmo di normalizzazione di una base di dati in BCNF

Input: base di dati $D B (SC)$ composto dalle relazioni $R_{i} (A_{i})$ su ognuna delle quali è definito l’insieme di dipendenze funzionali $F_{i}$ .

Output: $D B (SC)$ con le relazioni tutte in BCNF.

Cercare all’interno di $D B$ una relazione $R_{i} (A_{i})$ non in BCNF, ossia cercare nel corrispondente insieme di dipendenze funzionali $F_{i}$ una dipendenza funzionale non banale $X \to Y$ (con $X, Y \subseteq A_{i}$ ) tale che $X$ non è superchiave di $R_{i} (A_{i})$ .

Se non esiste una $X \to Y$ del genere, allora l’algoritmo termina (perché $D B$ sarà già in BCNF).

Se esiste, modificare $D B$ :

Eliminare la relazione $R_{i} (A_{i})$ da $D B$ :

$D B := D B ∖ R_{i} (A_{i})$

Aggiungere a $D B$ due nuove relazioni:

La relazione $R_{1} (A_{i} ∖ Y)$ (dal cui schema $A_{i}$ rimuovere $Y$ ) su cui è definita la restrizione $F_{1}$ di $F_{i}$ in $A_{i} ∖ Y$ :

$D B := D B \cup R_{1} (A_{i} ∖ Y)$

La relazione $R_{2} (X \cup Y)$ (con schema l’unione di $X$ e $Y$ ) su cui è definita la restrizione $F_{2}$ di $F_{i}$ in $X \cup Y$ :

$D B := D B \cup R_{2} (X \cup Y)$

Ricominciare dal passo 1.

Osservazione: l'algoritmo produce una decomposizione senza perdita di informazioni

L’algoritmo di normalizzazione di una base di dati in BCNF produce una decomposizione senza perdita di informazioni, dimostrabile tramite il teorema: infatti, $R_{i} (A_{i})$ viene decomposto in ${R_{1} (A_{i} ∖ Y), R_{2} (X \cup Y)}$ e, dato che $A_{i} ∖ Y = X$ (proprio perché $X \subseteq A_{i}$ ), l’intersezione $(A_{i} ∖ Y) \cap (X \cup Y) = X \cap (X \cup Y) = X$ determina $A_{i} ∖ Y = X$ (cioè vale $X \to X$ ).

Esempio di uso dell'algoritmo di normalizzazione di una base di dati in BCNF

Consideriamo la base di dati $D B$ composta dalle seguenti relazioni:

La relazione $R_{1} (A_{1}, A_{2}, A_{3})$ con chiave candidata $(A_{1}, A_{2})$ su cui è definito il seguente insieme di dipendenze funzionali: $F_{1} = {(A_{1}, A_{2}) \to A_{3}, A_{3} \to A_{1}}$ Possiamo confermare che è in 3NF perché ogni attributo non chiave (in questo caso solo $A_{3}$ ) dipende interamente dalla chiave candidata, ma non è in BCNF perché non tutte le dipendenze funzionali non banali $X \to Y \in F_{1}$ (con $X, Y \subseteq {A_{1}, A_{2}, A_{3}}$ ) sono tali che $X$ è superchiave (in questo caso, per la dipendenza $A_{3} \to A_{1}$ , $A_{3}$ non è superchiave).

La relazione $R_{2} (B_{1}, B_{2}, B_{3}, B_{4})$ con chiave candidata $B_{1}$ su cui è definito il seguente insieme di dipendenze funzionali: $F_{2} = {B_{4} \to B_{1}, B_{1} \to B_{3}, (B_{2}, B_{3}) \to B_{1}, B_{1} \to (B_{2}, B_{4})}$ Possiamo confermare che è in 3NF perché ogni attributo non chiave (in questo caso $B_{2}, B_{3}, B_{4}$ ) dipende interamente dalla chiave candidata, ma non è in BCNF perché non tutte le dipendenze funzionali non banali $X \to Y \in F_{2}$ (con $X, Y \subseteq {B_{1}, B_{2}, B_{3}, B_{4}}$ ) sono tali che $X$ è superchiave (in questo caso, per le dipendenze $B_{4} \to B_{1}$ e $(B_{2}, B_{3}) \to B_{1}$ , $B_{4}$ e $(B_{2}, B_{3})$ non sono superchiavi).

La relazione $R_{3} (C_{1}, C_{2})$ con chiave candidata $C_{2}$ su cui è definito il seguente insieme di dipendenze funzionali: $F_{3} = {C_{2} \to C_{1}}$ Possiamo confermare che è in 3NF perché ogni attributo non chiave (in questo caso $C_{1}$ ) dipende interamente dalla chiave candidata, ed è anche in BCNF perché tutte le dipendenze funzionali non banali $X \to Y \in F_{3}$ (con $X, Y \subseteq {C_{1}, C_{2}}$ ) sono tali che $X$ è superchiave (infatti $C_{2}$ è superchiave).

Possiamo quindi usare l’algoritmo per normalizzare la base di dati $D B$ in BCNF:

Passo 1: all’interno di $D B$ possiamo prendere la relazione $R_{1}$ che non è in BCNF, in particolare prendendo la dipendenza funzionale non banale $A_{3} \to A_{1} \in F_{1}$ in cui $A_{3}$ non è superchiave.

Passo 3: elimino la relazione $R_{1}$ da $D B$ e ci aggiungo la decomposizione ${R_{4} (A_{2}, A_{3}), R_{5} (A_{1}, A_{3})}$ in cui i due sottoschemi hanno rispettivamente come restrizioni $F_{4} = \emptyset$ e $F_{5} = {A_{3} \to A_{1}}$ , quindi ora $D B$ conterrà le seguenti relazioni con i rispettivi insiemi di dipendenze funzionali:

$R_{2} (B_{1}, B_{2}, B_{3}, B_{4}) R_{3} (C_{1}, C_{2}) R_{4} (A_{2}, A_{3}) R_{5} (A_{1}, A_{3}) F_{2} = {B_{4} \to B_{1}, B_{1} \to B_{3}, (B_{2}, B_{3}) \to B_{1}, B_{1} \to (B_{2}, B_{4})} F_{3} = {C_{2} \to C_{1}} F_{4} = \emptyset F_{5} = {A_{3} \to A_{1}}$

Passo 1: all’interno di $D B$ possiamo prendere la relazione $R_{2}$ che non è in BCNF, in particolare prendendo la dipendenza funzionale non banale $B_{4} \to B_{1} \in F_{2}$ in cui $B_{4}$ non è superchiave.

Passo 3: elimino la relazione $R_{2}$ da $D B$ e ci aggiungo la decomposizione ${R_{6} (B_{2}, B_{3}, B_{4}), R_{7} (B_{1}, B_{4})}$ in cui i due sottoschemi hanno rispettivamente come restrizioni $F_{6} = \emptyset$ e $F_{7} = {B_{4} \to B_{1}}$ , quindi ora $D B$ conterrà le seguenti relazioni con i rispettivi insiemi di dipendenze funzionali:

$R_{3} (C_{1}, C_{2}) R_{4} (A_{2}, A_{3}) R_{5} (A_{1}, A_{3}) R_{6} (B_{2}, B_{3}, B_{4}) R_{7} (B_{1}, B_{4}) F_{3} = {C_{2} \to C_{1}} F_{4} = \emptyset F_{5} = {A_{3} \to A_{1}} F_{6} = \emptyset F_{7} = {B_{4} \to B_{1}}$

Passo 2: non ci sono più relazioni nella base di dati $D B$ che non siano in BCNF.

Osservazione: la terminazione dell'algoritmo è garantita

Ci sono condizioni per cui, usando l’algoritmo di normalizzazione di una base di dati in BCNF, si entra in un loop senza fine? No, la terminazione è garantita dal passo di decomposizione, infatti:

Consideriamo la relazione $R_{i} (A_{i})$ in 3NF ma non in BCNF su cui è definito un insieme $F$ di dipendenze funzionali.

Eseguendo l’algoritmo, prendiamo in considerazione la dipendenza funzionale non banale $X \to Y$ (con $X, Y \subseteq A_{i}$ ) su cui effettuiamo la decomposizione ${R_{1} (A_{i} ∖ Y), R_{2} (X \cup Y)}$ .

Consideriamo il grado delle relazioni $R_{i}, R_{1}, R_{2}$ : abbiamo banalmente che $∣ A_{i} ∖ Y ∣ < ∣ A_{i} ∣$ , cioè $R_{1}$ ha sicuramente meno attributi di $R_{i}$ . Possiamo confermare però che anche $R_{2}$ ha meno attributi di $R_{i}$ (cioè $∣ X \cup Y ∣ < ∣ A_{i} ∣$ )?

Partiamo dall’ipotesi che $∣ X \cup Y ∣ = ∣ A_{i} ∣$ e, dato che $(X \cup Y) \subseteq A_{i}$ allora $X \cup Y = A_{i}$ .

Abbiamo però che la dipendenza funzionale non banale $X \to Y$ per la regola di estensibilità implica $X \to X Y$ e, avendo $X \cup Y = X Y = A_{i}$ , abbiamo che $X \to A_{i}$ .

Con $X \to A_{i}$ possiamo dire che, per definizione, $X$ è una superchiave perché determina l’intero schema, ma abbiamo una contraddizione perché siamo partiti dal presupposto che $R_{i} (A_{i})$ non fosse in BCNF perché, nella dipendenza funzionale non banale $X \to Y$ , $X$ non è una superchiave.

Abbiamo quindi che i gradi di $R_{1}$ ed $R_{2}$ sono strettamente minori di quello di $R_{i}$ (cioè $∣ A_{i} ∖ Y ∣ < ∣ A_{i} ∣$ e $∣ X \cup Y ∣ < ∣ A_{i} ∣$ ), quindi dopo ripetute iterazioni dell’algoritmo di normalizzazione ci ritroveremo man mano con relazioni con sempre meno attributi, fino ad arrivare una relazione del tipo $R_{n} ({A, B})$ (dove $A$ e $B$ sono due singoli attributi).

Le dipendenze funzionali di $R_{n}$ dovranno essere necessariamente della forma $A \to B$ o $B \to A$ , analizziamo entrambi i casi:

Se abbiamo la dipendenza $A \to B$ , per la regola di estensibilità abbiamo $A \to A B$ e, dato che $A$ determina l’intero schema, per definizione avremo che $A$ sarà una superchiave.

Viceversa, se abbiamo la dipendenza $B \to A$ , per la regola di estensibilità abbiamo $B \to A B$ e, dato che $B$ determina l’intero schema, per definizione avremo che $B$ sarà una superchiave.

In entrambi i casi, l’unica dipendenza funzionale di $R_{n}$ avrà come determinante una superchiave, rispettando così le condizioni della BCNF.

Abbiamo visto quindi come, iterando l’algoritmo di normalizzazione, arriveremo necessariamente prima o poi a una relazione in BCNF.

4.5 - 4ª Forma Normale (4NF)

4.6 - 5ª Forma Normale o Forma Normale di Proiezione-Join (5NF o PJNF)

4.7 - 6ª Forma Normale o Forma Normale di Dominio-Chiave (6NF o DKNF)

Approfondimento

Fonti:

🏫 Lezioni e slide del Prof. Pensa Ruggero Gaetano del corso di Basi di Dati (canale B), Corso di Laurea in Informatica presso l’Università di Torino, A.A. 2024-25:

8. La normalizzazione.

9. La normalizzazione, seconda parte.

Questa è la notazione per l’unione di attributi. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
Ricordiamo che, nel caso della proiezione, può esserci un collasso delle tuple duplicate. ↩ ↩² ↩³ ↩⁴

🪴 Giardino Digitale di Rexus752

Vista grafo

Indice

Normalizzazione

1 - Le dipendenze funzionali

2.1 - Assiomi di Armstrong

2.1.1 - Regole di inferenza addizionali

2.2 - Gli attributi estranei

2.3 - Chiusura di un insieme di dipendenze funzionali

2.4 - Equivalenza di insiemi di dipendenze funzionali

2.5 - Chiusura di un insieme di attributi

2.6 - Uso della dipendenza funzionale nelle superchiavi

2.7 - Le dipendenze ridondanti

Insieme in forma canonica

2.8 - Insieme di copertura minimale

3 - Decomposizione di relazioni

3.1 - Decomposizione senza perdita di informazioni

3.2 - Restrizione di un insieme di dipendenze funzionali

3.3 - Decomposizione che mantiene le dipendenze

3.4 - Decomposizione che mantiene la località delle dipendenze

4 - Forme normali

4.1 - 1ª Forma Normale (1NF)

4.2 - 2ª Forma Normale (2NF)

4.3 - 3ª Forma Normale (3NF)

4.3.1 - Algoritmo di normalizzazione in 3NF

4.4 - Forma Normale di Boyce-Codd (BCNF)

4.4.1 - Algoritmo di normalizzazione in BCNF

4.5 - 4ª Forma Normale (4NF)

4.6 - 5ª Forma Normale o Forma Normale di Proiezione-Join (5NF o PJNF)

4.7 - 6ª Forma Normale o Forma Normale di Dominio-Chiave (6NF o DKNF)

Indice

🪴 Giardino Digitale di Rexus752

Vista grafo

Indice

Normalizzazione

1 - Le dipendenze funzionali

2.1 - Assiomi di Armstrong

2.1.1 - Regole di inferenza addizionali

2.2 - Gli attributi estranei

2.3 - Chiusura di un insieme di dipendenze funzionali

2.4 - Equivalenza di insiemi di dipendenze funzionali

2.5 - Chiusura di un insieme di attributi

2.6 - Uso della dipendenza funzionale nelle superchiavi

2.7 - Le dipendenze ridondanti

Insieme in forma canonica

2.8 - Insieme di copertura minimale

3 - Decomposizione di relazioni

3.1 - Decomposizione senza perdita di informazioni

3.2 - Restrizione di un insieme di dipendenze funzionali

3.3 - Decomposizione che mantiene le dipendenze

3.4 - Decomposizione che mantiene la località delle dipendenze

4 - Forme normali

4.1 - 1ª Forma Normale (1NF)

4.2 - 2ª Forma Normale (2NF)

4.3 - 3ª Forma Normale (3NF)

4.3.1 - Algoritmo di normalizzazione in 3NF

4.4 - Forma Normale di Boyce-Codd (BCNF)

4.4.1 - Algoritmo di normalizzazione in BCNF

4.5 - 4ª Forma Normale (4NF)

4.6 - 5ª Forma Normale o Forma Normale di Proiezione-Join (5NF o PJNF)

4.7 - 6ª Forma Normale o Forma Normale di Dominio-Chiave (6NF o DKNF)

Footnotes

Indice