Premessa

Portale di appartenenza: Basi di dati.

Cosa troverai in questa nota:

Un’introduzione al concetto di normalizzazione e del vincolo locale di dipendenza funzionale.

Una presentazione degli assiomi di Armstrong con le relative regole di inferenza derivanti.

Prerequisiti: per comprendere pienamente il contenuto di questa nota, oltre le conoscenze minime che do per scontato che tu sappia già, ti consiglio di aver letto in precedenza queste altre note:

Modello relazionale.

Problemi in una base di dati.

Operatori derivati.

Buona lettura! ☝️🤓

Definizione: normalizzazione

La normalizzazione è il processo di trasformazione di una base di dati relazionale in una equivalente, con l’obiettivo di eliminare ridondanze, minimizzare anomalie di modifica e garantire la consistenza dei dati contenuti al suo interno.

1 - Le dipendenze funzionali

In particolare, alla base del processo di normalizzazione si colloca il processo di rilevamento delle dipendenze funzionali, che permettono di capire i collegamenti tra i vari dati presenti all’interno di un database.

Definizione: vincolo locale di dipendenza funzionale

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , il vincolo locale di dipendenza funzionale, denotato con $X \to Y$ ¹, è soddisfatto se e solo se, per ogni coppia di tuple distinte $t_{i}, t_{j}$ in $R$ , se vale $t_{i} [X] = t_{j} [X]$ , allora vale anche $t_{i} [Y] = t_{j} [Y]$ :
$X \to Y ⟺ \forall t_{i}, t_{j} \in R (t_{i} [X] = t_{j} [X] ⟹ t_{i} [Y] = t_{j} [Y])$

Esempio di dipendenze funzionali

Consideriamo la relazione $STUDENTI (Matricola, Corso, Docente)$ con la seguente istanza:

$Matricola$ $Corso$ $Docente$
$1023932$ $Basi di Dati$ $Prof. Pensa$
$2019349$ $Sistemi Operativi$ $Prof. Schifanella$
$2109322$ $Sistemi Operativi$ $Prof. Schifanella$
$2109322$ $Basi di Dati$ $Prof. Pensa$

Possiamo per esempio chiederci: vale la dipendenza funzionale $Corso \to Docente$ ? Per verificarlo, applichiamo la definizione e verifichiamo se, per ogni coppia di tuple distinte $t_{i}, t_{j}$ in $STUDENTI$ vale:
$t_{i} [Corso] = t_{j} [Corso] ⟹ t_{i} [Docente] = t_{j} [Docente]$
Vediamo che, per esempio, nella prima e nell’ultima tupla il valore di $Corso$ è $Basi di Dati$ e in $Docente$ hanno entrambe valore $Prof. Pensa$ . Allo stesso tempo, le altre due tuple hanno lo stesso valore in $Corso$ (cioè $Sistemi Operativi$ ) e in $Docente$ corrisponde ( $Prof. Schifanella$ ). Possiamo quindi confermare che $Corso \to Docente$ è una dipendenza funzionale.

Possiamo ora chiederci: vale la dipendenza funzionale $Matricola \to Corso$ ? In questo caso, dobbiamo verificare che:
$t_{i} [Matricola] = t_{j} [Matricola] ⟹ t_{i} [Corso] = t_{j} [Corso]$
Possiamo notare che le ultime due tuple hanno lo stesso valore in $Matricola$ (cioè $2109322$ ), ma i valori in $Corso$ non corrispondono: ciò significa che la dipendenza funzionale $Matricola \to Corso$ non può essere valida.

$Matricola$	$Corso$	$Docente$
$1023932$	$Basi di Dati$	$Prof. Pensa$
$2019349$	$Sistemi Operativi$	$Prof. Schifanella$
$2109322$	$Sistemi Operativi$	$Prof. Schifanella$
$2109322$	$Basi di Dati$	$Prof. Pensa$

2 - Assiomi di Armstrong

Il matematico e informatico canadese William W. Armstrong nel 1974 ha proposto un insieme di assiomi che permettono di comprendere le implicazioni logiche che intercorrono tra dipendenze funzionali.

Definizione: assiomi di Armstrong

Gli assiomi di Armstrong (o regole di inferenza di Armstrong) sono un insieme di assiomi utilizzati per dedurre dipendenze funzionali a partire da un insieme dato di dipendenze funzionali in una relazione.

Essi sono tre: assioma di riflessività, assioma di aumento e assioma di transitività.

Assioma di riflessività di Armstrong

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , se $Y$ è sottoinsieme di $X$ , allora $X$ determina $Y$ :
$Y \subseteq X X \to Y$

Assioma di aumento di Armstrong

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y$ , allora $XZ$ ² determina $Y Z$ ²:
$X \to Y XZ \to Y Z$

Assioma di transitività di Armstrong

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $Y$ determina $Z$ , allora $X$ determina $Z$ :
$X \to Y Y \to Z X \to Z$

2.1 - Regole di inferenza addizionali

Dagli assiomi di Armstrong vengono derivate altre regole di inferenza addizionali.

Regola di decomposizione

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y Z$ ², allora $X$ determina $Y$ e $Z$ :
$X \to Y Z X \to Y X \to Z$

Regola di composizione (o del prodotto)

Data una relazione $R (A)$ e quattro sottoinsiemi di attributi $W, X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $W$ determina $Z$ , allora $X W$ ² determina $Y Z$ ²:
$X \to Y W \to Z X W \to Y Z$

Regola di unione

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $Z$ , allora $X$ determina $Y Z$ ²:
$X \to Y X \to Z X \to Y Z$

Regola di pseudo-transitività

Data una relazione $R (A)$ e quattro sottoinsiemi di attributi $W, X, Y, Z \subseteq A$ , se $X$ determina $Y$ e $Y Z$ ² determina $W$ , allora $XZ$ ² determina $W$ :
$X \to Y Y Z \to W XZ \to W$

Regola di estensibilità

Data una relazione $R (A)$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , se $X$ determina $Y$ , allora $X$ determina $X Y$ ²:
$X \to Y X \to X Y$

Regola di monotonicità

Data una relazione $R (A)$ e tre sottoinsiemi di attributi $X, Y, Z \subseteq A$ con $X = Z$ , se $X$ determina $Y$ , allora $XZ$ ² determina $Y$ :
$X \to Y XZ \to Y$

Regola di auto-determinazione

Data una relazione $R (A)$ e un sottoinsieme di attributi $X \subseteq A$ , $X$ determina se stesso:
$X X \to X$

2.2 - Gli attributi estranei

Definizione: attributo estraneo

Data una relazione $R (A)$ con un insieme $F$ di dipendenze funzionali su $R$ e due sottoinsiemi di attributi $X, Y \subseteq A$ , un attributo $X_{1} \in X$ si dice estraneo nella dipendenza funzionale $(X \to Y) \in F$ se è possibile ottenere $X \to Y$ anche senza il suo uso, utilizzando le restanti dipendenze funzionali in $F$ (cioè $F^{'} = F - {X \to Y}$ ) e la dipendenza modificata togliendo $B$ (cioè $f^{'} = (X - {B}) \to Y$ ):
$(F^{'} F - {X \to Y}) \cup {f^{'} (X - {B}) \to Y} ⊨ X \to Y$

Esempio di attributo estraneo

Consideriamo la relazione $R (A_{1}, A_{2}, A_{3}, A_{4})$ con l’insieme di dipendenze funzionali
$F = {A_{1} A_{2} \to A_{3}, A_{1} \to A_{3}, A_{3} \to A_{4}}$
Esaminiamo la dipendenza $A_{1} A_{2} \to A_{3}$ per verificare se $A_{2}$ è un attributo estraneo attraverso la sua definizione:
$(F^{'} F - {A_{1} A_{2} \to A_{3}}) \cup {f^{'} (A_{1} A_{2} - {A_{1}}) \to A_{3}} ⊨ A_{1} A_{2} \to A_{3}$
Calcoliamo prima $F^{'}$ , cioè l’insieme di dipendenze funzionali $F$ privato della dipendenza che stiamo esaminando:
$F^{'} = F - {A_{1} A_{2} \to A_{3}} = {A_{1} A_{2} \to A_{3}, A_{1} \to A_{3}, A_{3} \to A_{4}} - {A_{1} A_{2} \to A_{3}} = {A_{1} \to A_{3}, A_{3} \to A_{4}}$
Ora calcoliamo $f^{'}$ , cioè la dipendenza modificata togliendo quello che vogliamo provare essere un attributo estraneo:
$f^{'} = (A_{1} A_{2} - {A_{2}}) \to A_{3} = A_{1} \to A_{3}$
Ora chiediamoci: è possibile dedurre $A_{1} A_{2} \to A_{3}$ dall’unione di $F^{'}$ e $f^{'}$ ?
$F^{'} \cup {f^{'}} = {A_{1} \to A_{3}, A_{3} \to A_{4}} \cup {A_{1} \to A_{3}} = {A_{1} \to A_{3}, A_{3} \to A_{4}} ⊨ A_{1} A_{2} \to A_{3}$
Questo è vero, perché $A_{1} \to A_{3}$ implica $A_{1} A_{2} \to A_{3}$ per la regola di monotonicità, quindi possiamo concludere che $A_{2}$ è estraneo nella dipendenza funzionale $A_{1} A_{2} \to A_{3}$ .

2.3 - Chiusura di un insieme di dipendenze funzionali

Definizione: chiusura di un insieme di dipendenze funzionali

Data una relazione $R (A)$ con un insieme $F$ di dipendenze funzionali su $R$ , una chiusura $F^{+}$ è un insieme di dipendenze funzionali su $R$ tali che ogni $f^{+} \in F^{+}$ è derivabile da $F$ :
$F^{+} = {f^{+} = X \to Y ∣ X, Y \subseteq R \land F ⊨ X \to Y}$

Esempio di chiusura di un insieme di dipendenze funzionali

Consideriamo una relazione $R (A, B, C)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C}$
Un esempio di una sua chiusura $F^{+}$ , ovvero di un insieme di tutte le dipendenze funzionali che si possono derivare logicamente da $F$ , può essere la seguente:
$F^{+} = {A \to C, B \to BC, A B \to A C}$
Possiamo notare infatti come ogni $f^{+} \in F^{+}$ è derivabile da $F$ :

$A \to C$ : derivabile secondo l’assioma di transitività:

$A \to B B \to C A \to C$

$B \to BC$ : derivabile secondo la regola di estensibilità:

$B \to C B \to BC$

$A B \to A C$ : derivabile secondo l’assioma di aumento:

$B \to C A B \to A C$

Osservazione: utilità della chiusura di un insieme di dipendenze funzionali

Conoscere la chiusura $F^{+}$ di un insieme $F$ di dipendenze funzionali significa conoscere tutte le dipendenze funzionali valide in $F$ perché sono deducibili a partire da quelle contenute in $F$ stesso.

Osservazione: crescita esponenziale della cardinalità di una chiusura

Una chiusura $F^{+}$ di un insieme di dipendenze funzionali $F$ può includere dipendenze del tipo $X \to Y$ su ogni possibile coppia di sottoinsiemi di attributi $X, Y \subseteq A$ . Sappiamo che il numero di sottoinsiemi di $A$ possibili è $2^{∣ A ∣}$ e, avendo questa possibilità sia per $X$ che per $Y$ , abbiamo che il numero potenziale di dipendenze è $2^{∣ A ∣} \cdot 2^{∣ A ∣} = 4^{∣ A ∣}$ , che è esponenziale nella dimensione dello schema $A$ .

Dunque, elencare o costruire tutte le dipendenze funzionali di $F^{+}$ è computazionalmente impraticabile anche per schemi moderatamente grandi (per esempio, se $∣ A ∣ = 10$ , ci sono fino a $4^{10} = 1.048.576$ possibili dipendenze funzionali).

2.4 - Equivalenza di insiemi di dipendenze funzionali

Osservazione: le dipendenze funzionali non sono uniche

In una relazione, non c’è unicità nelle dipendenze funzionali che possono essere soddisfatte in essa.

Esempio di non-unicità delle dipendenze funzionali

Consideriamo la relazione $BIBLIOTECA (Libro, Autore, CasaEditrice)$ con la seguente istanza:

$Libro$ $Autore$ $CasaEditrice$ $AnnoDiPubblicazione$
$Divina Commedia$ $Dante Alighieri$ $Adelphi$ $2017$
$I Promessi Sposi$ $Alessandro Manzoni$ $Adelphi$ $2017$
$Lezioni Americane$ $Italo Calvino$ $Laterza$ $2023$
$Vita Nova$ $Dante Alighieri$ $Adelphi$ $2017$
$Se una notte...$ $Italo Calvino$ $Laterza$ $2023$

Posso considerare due insiemi diversi di dipendenze funzionali che agiscono su questa relazione:

L’insieme $F = {Autore \to CasaEditrice, Autore \to AnnoDiPubblicazione}$ .

L’insieme $G = {CasaEditrice \to AnnoDiPubblicazione}$ .

Questi due insiemi sono ugualmente validi e dipendono solamente dal punto di vista del progettista che sceglie come descrivere le dipendenze funzionali che insistono su questa relazione.

$Libro$	$Autore$	$CasaEditrice$	$AnnoDiPubblicazione$
$Divina Commedia$	$Dante Alighieri$	$Adelphi$	$2017$
$I Promessi Sposi$	$Alessandro Manzoni$	$Adelphi$	$2017$
$Lezioni Americane$	$Italo Calvino$	$Laterza$	$2023$
$Vita Nova$	$Dante Alighieri$	$Adelphi$	$2017$
$Se una notte...$	$Italo Calvino$	$Laterza$	$2023$

Questo concetto potrebbe sembrare molto banale, ma in realtà, grazie anche alla definizione formale di chiusura, ora possiamo caratterizzare dal punto di vista teorico il concetto di equivalenza tra insiemi di dipendenze funzionali.

Definizione: equivalenza di insiemi di dipendenze funzionali

Data una relazione $R (A)$ con due insiemi $F$ e $G$ di dipendenze funzionali su $R$ , $F$ si dice equivalente a $G$ (e si denota " $F \equiv G$ ") se le loro chiusure $F^{+}$ e $G^{+}$ sono uguali:
$F \equiv G ⟺ F^{+} = G^{+}$

Abbiamo ricondotto l’equivalenza ad un’uguaglianza insiemistica: se tutte le dipendenze derivate dall’insieme $F$ sono uguali a tutte le dipendenze derivate da $G$ , le due basi di dati evolvono allo stesso modo.

Tuttavia, come già detto, risulta però complesso costruire per intero le chiusure $F^{+}$ e $G^{+}$ per verificare l’equivalenza. Fortunatamente, esiste una proprietà che porta al medesimo risultato.

Proprietà dell'equivalenza di insiemi di dipendenze funzionali

Data una relazione $R (A)$ con due insiemi $F$ e $G$ di dipendenze funzionali su $R$ , $F$ è equivalente a $G$ se e solo se $G$ è deducibile da $F$ e $F$ è deducibile da $G$ :
$F \equiv G ⟺ F ⊨ G \land G ⊨ F$

Esempio di equivalenza di insiemi di dipendenze funzionali

Consideriamo una relazione $R (A, B, C)$ con due insiemi di dipendenze funzionali:

$F = {A \to BC}$ .

$G = {A \to B, A \to C}$ .

Per verificare l’equivalenza $F \equiv G$ , dobbiamo verificare se ogni $f \in F$ è deducibile da $G$ e, viceversa, se ogni $g \in G$ è deducibile da $F$ .

Verifichiamo il primo caso ( $G ⊨ F$ ):

$G = {A \to B, A \to C} ⊨ A \to BC$ : deducibile per la regola di unione.

Ora verifichiamo il secondo caso ( $F ⊨ G$ ):

$F = {A \to BC} ⊨ A \to B$ : deducibile per la regola di decomposizione.

$F = {A \to BC} ⊨ A \to C$ : deducibile per la regola di decomposizione.

Abbiamo concluso che $F ⊨ G$ e $G ⊨ F$ e, per la proprietà dell’equivalenza di insiemi di dipendenze funzionali, possiamo confermare che vale l’equivalenza $F \equiv G$ .

2.5 - Chiusura di un insieme di attributi

Definizione: chiusura di un insieme di attributi

Data una relazione $R (A)$ con un sottoinsieme di attributi $X \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, una chiusura $X_{F}^{+}$ è un insieme di attributi $A_{i} \in A$ tali che la dipendenza funzionale $X \to A_{i}$ è deducibile da $F$ :
$X_{F}^{+} = {A_{i} \in A ∣ F ⊨ X \to A_{i}}$

Esempio di chiusura di un insieme di algoritmi

Consideriamo una relazione $R (A, B, C, D)$ con l’insieme di dipendenze funzionali
$F = {A \to B, A \to D, C \to D}$
e considero $X = {A}$ .

Una possibile chiusura $X_{F}^{+}$ di $X$ è:
$X_{F}^{+} = {B, D}$
Infatti, per ogni attributo $x$ in $X_{F}^{+}$ , la dipendenza funzionale $X = {A} \to x$ è deducibile da $F$ :

$X = {A} \to B$ : è deducibile perché $A \to B$ è già un elemento di $F$ .

$X = {A} \to D$ : è deducibile perché $A \to D$ è già un elemento di $F$ .

Possiamo confermare che la chiusura $X_{F}^{+} = {B, D}$ è valida.

Algoritmo per il calcolo della chiusura di un insieme di attributi

Data una relazione $R (A)$ con due sottoinsieme di attributi $X, Z \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, la chiusura $X_{F}^{+}$ è calcolata nel seguente modo:

Assegna $X$ a $X_{F}^{+}$ e $F$ a $F^{'}$ .

Esiste in $F^{'}$ una dipendenza funzionale $Y \to Z$ tale che $Y \subseteq X_{F}^{+}$ ?

Se sì, unisci $Z$ a $X_{F}^{+}$ e rimuovi $Y \to Z$ da $F^{'}$ .

Se no, stop.

Esempio di uso dell'algoritmo per il calcolo della chiusura di un insieme di attributi

Consideriamo una relazione $R (A, B, C, D, E, G)$ con l’insieme di dipendenze funzionali
$F = {A D \to B, D \to A C, D \to G, E \to G}$
e considero $X = {A, D}$ . Proviamo a calcolare la chiusura $X_{F}^{+}$ usando l’algoritmo per il calcolo della chiusura di un insieme di attributi:

Passo 1: $X_{F}^{+} = {A, D}$ e $F^{'} = {A D \to B, D \to A C, D \to G, E \to G}$ .

Passo 2: in $F^{'}$ c’è la dipendenza funzionale $A D \to B$ (dove $Y = A D \subseteq X_{F}^{+}$ e $Z = B$ ).

Passo 3: $X_{F}^{+} = {A, D} \cup {B} = {A, B, D}$ e $F^{'} = {A D \to B, D \to A C, D \to G, E \to G} - {A D \to B} = {D \to A C, D \to G, E \to G}$ .

Passo 2: in $F^{'}$ c’è la dipendenza funzionale $D \to A C$ (dove $Y = D \subseteq X_{F}^{+}$ e $Z = A C$ ).

Passo 3: $X_{F}^{+} = {A, B, D} \cup {A, C} = {A, B, C, D}$ e $F^{'} = {D \to A C, D \to G, E \to G} - {D \to A C} = {D \to G, E \to G}$ .

Passo 2: in $F^{'}$ c’è la dipendenza funzionale $D \to G$ (dove $Y = D \subseteq X_{F}^{+}$ e $Z = G$ ).

Passo 3: $X_{F}^{+} = {A, B, C, D} \cup {G} = {A, B, C, D, G}$ e $F^{'} = {D \to G, E \to G} - {D \to G} = {E \to G}$ .

Passo 2: in $F^{'}$ non ci sono più dipendenze funzionali valide.

Dopo aver eseguito l’algoritmo, abbiamo trovato che la chiusura $X_{F}^{+}$ contiene i seguenti attributi:
$X_{F}^{+} = {A, B, C, D, G}$

Proprietà 1 sulla chiusura di un insieme di attributi

Data una relazione $R (A)$ con due sottoinsiemi di attributi $X, Y \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, la dipendenza funzionale $X \to Y$ è deducibile da $F$ se e solo se $Y$ è un sottoinsieme di $X_{F}^{+}$ :
$F ⊢ X \to Y ⟺ Y \subseteq X_{F}^{+}$

Osservazione: usare la proprietà 1 per verificare la validità delle dipendenze funzionali

Possiamo notare come, se una dipendenza funzionale è deducibile da un insieme di dipendenze, allora è valida. Ciò significa che è possibile usare la proprietà 1 per verificare la validità di una dipendenza funzionale.

Esempio di uso della proprietà 1 per verificare la validità delle dipendenze funzionali

Consideriamo una relazione $R (A, B, C, D, E, G)$ con l’insieme di dipendenze funzionali
$F = {A D \to B, D \to A C, D \to G, E \to G}$
Vogliamo verificare la validità della dipendenza $A D \to G$ (quindi $X = A D$ e $Y = G$ ). Per fare ciò, dobbiamo calcolare la chiusura $X_{F}^{+}$ e verificare se in essa è presente $G$ . Nell’esempio precedente avevamo già calcolato questa chiusura e abbiamo ottenuto:
$X_{F}^{+} = {A, B, C, D, G}$
Dal momento che ${G} \subseteq X_{F}^{+}$ , possiamo confermare che la dipendenza $A D \to G$ è valida.

Vogliamo ora verificare la validità della dipendenza $A \to G$ (quindi $X = A$ e $Y = G$ ). Per fare ciò, dobbiamo calcolare la chiusura $X_{F}^{+}$ e verificare se in essa è presente $G$ . Applicando l’algoritmo, notiamo subito che stavolta la chiusura $X_{F}^{+}$ contiene solo $A$ (perché non ci sono dipendenze con attributi deducibili unicamente da $A$ ).

Dal momento che ${G} ⊈ X_{F}^{+} = {A}$ , la dipendenza $A \to G$ NON è valida.

Una riformulazione che si trova spesso in giro della proprietà 1 è quella che viene detta proprietà di membership.

Proprietà di membership sulla chiusura di un insieme di attributi

Data una relazione $R (A)$ con due sottoinsiemi di attributi $X, Y \subseteq A$ su cui è definito un insieme $F$ di dipendenze funzionali, la dipendenza funzionale $X \to Y$ è contenuta nella chiusura $F^{+}$ se e solo se $Y$ è un sottoinsieme di $X_{F}^{+}$ :
$(X \to Y) \in F^{+} ⟺ Y \subseteq X_{F}^{+}$

Osservazione: usare la proprietà di membership per verificare la validità delle dipendenze funzionali

Similmente a quanto avviene per la proprietà 1, possiamo usare anche la proprietà di membership, collegandoci a quanto detto sopra, per chiarire subito se una dipendenza è valida o no semplicemente controllando se è presente nella chiusura dell’insieme di dipendenze a cui si riferisce.

Proprietà 2 sulla chiusura di un insieme di attributi

Data una relazione $R (A)$ con un sottoinsieme di attributi $X \subseteq A$ su cui sono definiti due insiemi $F$ e $G$ di dipendenze funzionali, le chiusure $X_{F}^{+}$ e $X_{G}^{+}$ sono uguali.

2.6 - Uso della dipendenza funzionale nelle superchiavi

Il concetto di dipendenza funzionale può essere usato per dare una nuova definizione di superchiave.

Definizione: superchiave

Data una relazione $R (A)$ , un sottoinsieme di attributi $s k \subseteq A$ è una superchiave se e solo se determina $A$ .

Osservazione: verificare una superchiave con la sua chiusura

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, per verificare se un sottoinsieme di attributi $s k \subseteq A$ è una superchiave basterà calcolare la sua chiusura $s k_{F}^{+}$ e vedere se questa coincide con lo schema $A$ .

Esempio di verifica di una superchiave con la sua chiusura

Consideriamo una relazione $R (A, B, C, D, E)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C, A C \to D}$
Vogliamo verificare se il sottoinsieme di attributi $s k = {A, E}$ è una superchiave di $R$ . Per fare ciò, dobbiamo calcolare la chiusura $s k_{F}^{+}$ e verificare se essa è uguale allo schema ${A, B, C, D, E}$ . Usando l’algoritmo, possiamo calcolare subito la chiusura che risulta essere:
$s k_{F}^{+} = {A, B, C, D, E}$
Dal momento che $s k_{F}^{+} = {A, B, C, D, E}$ è proprio lo schema della relazione $R$ , possiamo confermare che il sottoinsieme di attributi $s k = {A, E}$ è una superchiave di $R$ .

Osservazione: attributi fuori dall'insieme di dipendenze funzionali fanno parte della superchiave

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, se un attributo $A_{i} \in A$ non è determinato da nessuna dipendenza funzionale presente in $F$ , allora questo dovrà necessariamente far parte della superchiave che si sta cercando.

Esempio di attributo fuori dall'insieme di dipendenze funzionali che fa parte della superchiave

Consideriamo una relazione $R (A, B, C, D, E)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C, A C \to D}$
Vogliamo verificare se il sottoinsieme di attributi $s k = {A}$ è una superchiave di $R$ . Per fare ciò, dobbiamo calcolare la chiusura $s k_{F}^{+}$ e verificare se essa è uguale allo schema ${A, B, C, D, E}$ . Usando l’algoritmo, possiamo calcolare subito la chiusura che risulta essere:
$s k_{F}^{+} = {A, B, C, D}$
Possiamo notare che in $F$ non è presente alcuna dipendenza funzionale che determina $E$ e, per questo, $E$ non fa parte della chiusura $s k_{F}^{+}$ .

Per rendere la chiusura $s k_{F}^{+}$ una superchiave, bisogna includere anche $E$ in $s k$ : infatti, se $s k = {A, E}$ , allora $s k_{F}^{+} = {A, B, C, D, E}$ che corrisponde allo schema di $R$ e rende $s k$ una superchiave.

3 - Decomposizione di relazioni

Ora introduciamo un altro concetto alla base della normalizzazione: la decomposizione di una relazione.

Definizione: decomposizione

Data una relazione $R (A)$ e un ricoprimento ${X, Y}$ dello schema $A$ (cioè $X, Y \subseteq A$ e $X \cup Y = A$ ), l’insieme di relazioni ${R_{1} (X), R_{2} (Y)}$ (dove $R_{i} = π_{X} (R)$ ) è una decomposizione di $R (A)$ e ogni $R_{i}$ viene detto sottoschema di $R$ .

Esempio di decomposizione

Consideriamo una relazione $R (A, B, C, D, E)$ . Una sua decomposizione potrebbe essere:
${R_{1} (A, C, D), R_{2} (B, C, E)}$
Infatti, ${A, C, D} \cup {B, C, E} = {A, B, C, D, E}$ che corrisponde proprio allo schema della relazione. In particolare:

Il sottoschema $R_{1} (A, C, D)$ corrisponde alla proiezione $π_{A, C, D} (R)$ .

Il sottoschema $R_{2} (B, C, E)$ corrisponde alla proiezione $π_{B, C, E} (R)$ .

3.1 - Decomposizione senza perdita di informazioni

Definizione: decomposizione senza perdita di informazioni

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ è detta senza perdita di informazioni se, per ogni istanza $r$ di $R (A)$ che soddisfa le dipendenze funzionali contenute in $F$ , si ha che³:
$π_{X} (r) ⋈ π_{Y} (r) = r$

Esempio di decomposizione senza perdita di informazioni

Consideriamo una relazione $STUDENTE (Matricola, Nome, Corso)$ con l’insieme di dipendenze funzionali
$F = {Matricola \to Nome}$
e consideriamo la sua istanza $r$ che soddisfa le dipendenze funzionali contenute in $F$ (infatti a ogni matricola corrisponde sempre lo stesso nome):

$Matricola$ $Nome$ $Corso$
$1213812$ $Rossi Mario$ $Basi di Dati$
$2813923$ $Bianchi Gaia$ $Sistemi Operativi$
$2813923$ $Bianchi Gaia$ $Basi di Dati$
$1213812$ $Rossi Mario$ $Sistemi Operativi$

Consideriamo la decomposizione
${R_{1} (Matricola,Nome), R_{2} (Corso)}$
dove il sottoschema $R_{1} (Matricola,Nome)$ rappresenta la proiezione $π_{Matricola,Nome} (STUDENTE)$ ⁴:

$Matricola$ $Nome$
$1213812$ $Rossi Mario$
$2813923$ $Bianchi Gaia$

e il sottoschema $R_{2} (Corso)$ rappresenta la proiezione $π_{Corso} (STUDENTE)$ ⁴:

$Corso$
$Basi di Dati$
$Sistemi Operativi$

Se effettuiamo il natural-join tra il due sottoschemi $R_{1}$ ed $R_{2}$ otteniamo:

$Matricola$ $Nome$ $Corso$
$1213812$ $Rossi Mario$ $Basi di Dati$
$2813923$ $Bianchi Gaia$ $Sistemi Operativi$
$2813923$ $Bianchi Gaia$ $Basi di Dati$
$1213812$ $Rossi Mario$ $Sistemi Operativi$

Questa istanza corrisponde proprio all’istanza $r$ di partenza, quindi si può concludere che la decomposizione ${R_{1} (Matricola,Nome), R_{2} (Corso)}$ è senza perdita di informazioni.

$Matricola$	$Nome$	$Corso$
$1213812$	$Rossi Mario$	$Basi di Dati$
$2813923$	$Bianchi Gaia$	$Sistemi Operativi$
$2813923$	$Bianchi Gaia$	$Basi di Dati$
$1213812$	$Rossi Mario$	$Sistemi Operativi$

$Matricola$	$Nome$
$1213812$	$Rossi Mario$
$2813923$	$Bianchi Gaia$

$Corso$
$Basi di Dati$
$Sistemi Operativi$

$Matricola$	$Nome$	$Corso$
$1213812$	$Rossi Mario$	$Basi di Dati$
$2813923$	$Bianchi Gaia$	$Sistemi Operativi$
$2813923$	$Bianchi Gaia$	$Basi di Dati$
$1213812$	$Rossi Mario$	$Sistemi Operativi$

A partire dalla nozione di decomposizione senza perdita di informazioni, possiamo ricavarci un importante teorema.

Teorema sulla decomposizione senza perdita di informazioni

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ è senza perdita di informazioni se, per ogni istanza $r$ di $R (A)$ che soddisfa le dipendenze funzionali contenute in $F$ , si ha che l’intersezione $X \cap Y$ determina o $X$ o $Y$ :
$X \cap Y \to X \lor X \cap Y \to Y$

Esempio di uso del teorema sulla decomposizione senza perdita di informazioni

Consideriamo una relazione $STUDENTE (Matricola, Nome, Corso)$ con l’insieme di dipendenze funzionali
$F = {Matricola \to Nome}$
e consideriamo la sua istanza $r$ che soddisfa le dipendenze funzionali contenute in $F$ (infatti a ogni matricola corrisponde sempre lo stesso nome):

$Matricola$ $Nome$ $Corso$
$1213812$ $Rossi Mario$ $Basi di Dati$
$2813923$ $Bianchi Gaia$ $Sistemi Operativi$
$2813923$ $Bianchi Gaia$ $Basi di Dati$
$1213812$ $Rossi Mario$ $Sistemi Operativi$

Consideriamo la decomposizione
${R_{1} (Matricola,Nome), R_{2} (Matricola, Corso)}$
dove il sottoschema $R_{1} (Matricola,Nome)$ rappresenta la proiezione $π_{Matricola,Nome} (STUDENTE)$ ⁴:

$Matricola$ $Nome$
$1213812$ $Rossi Mario$
$2813923$ $Bianchi Gaia$

e il sottoschema $R_{2} (Matricola, Corso)$ rappresenta la proiezione $π_{Matricola, Corso} (STUDENTE)$ ⁴:

$Matricola$ $Corso$
$1213812$ $Basi di Dati$
$2813923$ $Sistemi Operativi$
$2813923$ $Basi di Dati$
$1213812$ $Sistemi Operativi$

Secondo il teorema, se l’intersezione ${Matricola, Nome} \cap {Matricola, Corso} = {Matricola}$ può determinare ${Matricola, Nome}$ o ${Matricola, Corso}$ a partire da $F$ , allora questa decomposizione è senza perdita di informazioni.

Verifichiamo prima ${Matricola} \to {Matricola, Nome}$ :

Abbiamo la dipendenza ${Matricola} \to {Nome}$ già presente in $F$ .

Avendo ${Matricola, Nome}$ dal passaggio precedente, ricaviamo ${Matricola} \to {Matricola, Nome}$ per la regola di estensibilità.

Abbiamo verificato, quindi, che ${Matricola} \to {Matricola, Nome}$ (cioè che $X \cap Y \to X$ ): possiamo quindi confermare che la decomposizione ${R_{1} (Matricola,Nome), R_{2} (Matricola, Corso)}$ è senza perdita di informazioni.

$Matricola$	$Nome$	$Corso$
$1213812$	$Rossi Mario$	$Basi di Dati$
$2813923$	$Bianchi Gaia$	$Sistemi Operativi$
$2813923$	$Bianchi Gaia$	$Basi di Dati$
$1213812$	$Rossi Mario$	$Sistemi Operativi$

$Matricola$	$Nome$
$1213812$	$Rossi Mario$
$2813923$	$Bianchi Gaia$

$Matricola$	$Corso$
$1213812$	$Basi di Dati$
$2813923$	$Sistemi Operativi$
$2813923$	$Basi di Dati$
$1213812$	$Sistemi Operativi$

Ovviamente, il teorema può facilmente essere riformulato sulla base della definizione di superchiave.

Corollario sulla decomposizione senza perdita di informazioni

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ è senza perdita di informazioni se, per ogni istanza $r$ di $R (A)$ che soddisfa le dipendenze funzionali contenute in $F$ , si ha che l’intersezione $X \cap Y$ è superchiave o di $X$ o di $Y$ .

3.2 - Restrizione di un insieme di dipendenze funzionali

Immaginiamo di avere una relazione su cui è definito un insieme di dipendenze funzionali. Dopo aver decomposto questa relazione, vogliamo “decomporre” anche l’insieme delle dipendenze funzionali sulle due decomposizioni: ecco il concetto di restrizione.

Definizione: restrizione di un insieme di dipendenze funzionali

Data una decomposizione ${R_{i} (A_{i})}$ di una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una restrizione $F_{i}$ di un sottoschema $R_{i}$ è l’insieme di dipendenze funzionali contenute nella chiusura $F^{+}$ di $F$ che riguardano solo gli attributi $A_{i}$ :
$F_{i} = {X \to Y \in F^{+} ∣ X, Y \subseteq A_{i}}$

Esempio di restrizione di un insieme di dipendenze funzionali

Consideriamo una relazione $R (A, B, C)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C}$
Gli elementi della chiusura $F^{+}$ di $F$ sono:
$F^{+} = {A \to B, B \to C, A \to C}$
Ora decomponiamo $R$ in
${R_{1} (A, B), R_{2} (B, C)}$
Calcoliamo la restrizione $F_{1}$ sul sottoschema $R_{1} (A, B)$ a partire dagli elementi della chiusura $F^{+}$ :

$A \to B$ : ✅ può essere un elemento di $F_{1}$ perché ${A, B} \subseteq {A, B}$ .

$B \to C$ : ❌ non può essere un elemento di $F_{1}$ perché ${B, C} ⊈ {A, B}$ .

$A \to C$ : ❌ non può essere un elemento di $F_{1}$ perché ${A, C} ⊈ {A, B}$ .

E così via per tutti gli altri elementi non elencati della chiusura $F^{+}$ .

Quindi possiamo concludere che la restrizione $F_{1}$ sul sottoschema $R_{1} (A, B)$ è:
$F_{1} = {A \to B}$
Ora calcoliamo la restrizione $F_{2}$ sul sottoschema $R_{2} (B, C)$ a partire dagli elementi della chiusura $F^{+}$ :

$A \to B$ : ❌ non può essere un elemento di $F_{2}$ perché ${A, B} ⊈ {B, C}$ .

$B \to C$ : ✅ può essere un elemento di $F_{2}$ perché ${B, C} \subseteq {B, C}$ .

$A \to C$ : : ❌ non può essere un elemento di $F_{2}$ perché ${A, C} ⊈ {B, C}$ .

Quindi possiamo concludere che la restrizione $F_{2}$ sul sottoschema $R_{2} (B, C)$ è:
$F_{2} = {B \to C}$

Dal concetto di restrizione si può ricavare quello di una decomposizione che “mantiene” le dipendenze.

Definizione: decomposizione che mantiene le dipendenze

Data una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali, una decomposizione ${R_{1} (X), R_{2} (Y)}$ di $R$ si dice che mantiene le dipendenze se $F$ è deducibile dall’unione delle restrizioni $F_{1}$ ed $F_{2}$ (rispettivamente dei sottoschemi $R_{1}$ ed $R_{2}$ ):
$F_{1} \cup F_{2} ⊨ F$

Esempio di decomposizione che mantiene le dipendenze

Consideriamo una relazione $R (A, B, C)$ con l’insieme di dipendenze funzionali
$F = {A \to B, B \to C}$
Gli elementi della chiusura $F^{+}$ di $F$ sono:
$F^{+} = {A \to B, B \to C, A \to C}$
Ora decomponiamo $R$ in
${R_{1} (A, B), R_{2} (B, C)}$
Troviamo che la restrizione $F_{1}$ sul sottoschema $R_{1} (A, B)$ è:
$F_{1} = {A \to B}$
Mentre, la restrizione $F_{2}$ sul sottoschema $R_{2} (B, C)$ è:
$F_{2} = {B \to C}$
Facendo l’unione delle due restrizioni $F_{1}$ ed $F_{2}$ , abbiamo:
$F_{1} \cup F_{2} = {A \to B} \cup {B \to C} = {A \to B, B \to C}$
Possiamo facilmente verificare che da $F_{1} \cup F_{2}$ è deducibile l’insieme di dipendenze funzionali $F$ perché l’unico elemento mancante, $A \to C$ , è deducibile dall’assioma di transitività:
$A \to B B \to C A \to C$
Si può quindi dire che la decomposizione ${R_{1} (A, B), R_{2} (B, C)}$ di $R$ mantiene le dipendenze.

4 - Forme normali

Esistono delle “ricette” per la buona progettazione di una base di dati per limitare l’ammissibilità di dipendenze funzionali tra gli attributi, con l’obiettivo di eliminare o ridurre ridondanze e anomalie di modifica: le forme normali.

Definizione: forma normale

Una relazione $R (A)$ su cui è definito un insieme $F$ di dipendenze funzionali si dice essere in una forma normale $FN$ se soddisfa i vincoli specifici di quella forma normale rispetto a $F$ .

4.1 - 1ª Forma Normale (1NF)

4.2 - 2ª Forma Normale (2NF)

4.3 - 3ª Forma Normale (3NF)

4.4 - Forma Normale di Boyce-Codd (BCNF)

4.5 - 4ª Forma Normale (4NF)

4.6 - 5ª Forma Normale o Forma Normale di Proiezione-Join (5NF o PJNF)

4.7 - 6ª Forma Normale o Forma Normale di Dominio-Chiave (6NF o DKNF)

Fonti

🏫 Lezioni e slide del Prof. Pensa Ruggero Gaetano del corso di Basi di Dati (canale B), Corso di Laurea in Informatica presso l’Università di Torino, A.A. 2024-25:
- 8. La normalizzazione.
- 9. La normalizzazione, seconda parte.

Si legge ” $X$ determina $Y$ “. ↩
Questa è la notazione per l’unione di attributi. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
Qua è stato usato l’abuso di notazione sulle istanze, per cui è stato dato come argomento all’operatore di proiezione l’istanza $r$ e non la relazione $R (A)$ a cui si riferisce, così come viene considerato come risultato del natural-join un’istanza e non una relazione. ↩
Ricordiamo che, nel caso della proiezione, può esserci un collasso delle tuple duplicate. ↩ ↩² ↩³ ↩⁴

🪴 Giardino Digitale di Rexus752

Vista grafo

Indice

Normalizzazione

1 - Le dipendenze funzionali

2 - Assiomi di Armstrong

2.1 - Regole di inferenza addizionali

2.2 - Gli attributi estranei

2.3 - Chiusura di un insieme di dipendenze funzionali

2.4 - Equivalenza di insiemi di dipendenze funzionali

2.5 - Chiusura di un insieme di attributi

2.6 - Uso della dipendenza funzionale nelle superchiavi

3 - Decomposizione di relazioni

3.1 - Decomposizione senza perdita di informazioni

3.2 - Restrizione di un insieme di dipendenze funzionali

4 - Forme normali

4.1 - 1ª Forma Normale (1NF)

4.2 - 2ª Forma Normale (2NF)

4.3 - 3ª Forma Normale (3NF)

4.4 - Forma Normale di Boyce-Codd (BCNF)

4.5 - 4ª Forma Normale (4NF)

4.6 - 5ª Forma Normale o Forma Normale di Proiezione-Join (5NF o PJNF)

4.7 - 6ª Forma Normale o Forma Normale di Dominio-Chiave (6NF o DKNF)

Fonti

Indice

🪴 Giardino Digitale di Rexus752

Vista grafo

Indice

Normalizzazione

1 - Le dipendenze funzionali

2 - Assiomi di Armstrong

2.1 - Regole di inferenza addizionali

2.2 - Gli attributi estranei

2.3 - Chiusura di un insieme di dipendenze funzionali

2.4 - Equivalenza di insiemi di dipendenze funzionali

2.5 - Chiusura di un insieme di attributi

2.6 - Uso della dipendenza funzionale nelle superchiavi

3 - Decomposizione di relazioni

3.1 - Decomposizione senza perdita di informazioni

3.2 - Restrizione di un insieme di dipendenze funzionali

4 - Forme normali

4.1 - 1ª Forma Normale (1NF)

4.2 - 2ª Forma Normale (2NF)

4.3 - 3ª Forma Normale (3NF)

4.4 - Forma Normale di Boyce-Codd (BCNF)

4.5 - 4ª Forma Normale (4NF)

4.6 - 5ª Forma Normale o Forma Normale di Proiezione-Join (5NF o PJNF)

4.7 - 6ª Forma Normale o Forma Normale di Dominio-Chiave (6NF o DKNF)

Fonti

Footnotes

Indice