Modelowanie danych Model związków-encji


Plan wykładu




Celem wykładu jest omówienie metodyki modelowania danych. Wynik tej metodyki, czyli tzw. model konceptualny jest podstawą schematu bazy danych. W ramach wykładu zostaną omówione:

- wprowadzenie do modelowania i projektowania systemów informatycznych,


- model związków-encji, jako jeden z fundamentalnych modeli wykorzystywanych przy projektowaniu relacyjnych baz danych.


W szczególności, zostaną omówione obiekty modelu związków-encji, czyli encje i ich atrybuty i różnego typu związki pomiędzy encjami oraz hierarchie encji.



Modelowanie - modele




Każdy system informatyczny jest komputerową reprezentacją jakiegoś fragmentu świata rzeczywistego. Należy zatem zbudować taki model świata rzeczywistego, który łatwo i sensownie da się odzwierciedlić w system informatyczny. Budowaniem takich modeli zajmuje się dziedzina wiedzy zwana modelowaniem.


Wyróżnia się dwa podstawowe rodzaje modeli, tj. konceptualne i implementacyjne. Model konceptualny umożliwia reprezentowanie obiektów w uniwersalnym modelu niezależnym od modelu implementacyjnego. Wśród modeli konceptualnych najpopularniejszymi są model związków-encji i model UML.


Model implementacyjny (zwany również modelem danych) jest wykorzystywany na etapie implementacji systemu. Odzwierciedla on model konceptualny w konkretne struktury danych. Wśród modeli danych najpopularniejszymi obecnie są: relacyjny, obiektowy, obiektowo-relacyjny i semistrukturalny.



Cykl projektowy systemu informatycznego




Każdy system informatyczny projektuje się etapami. Do najważniejszych z nich należą: analiza, projektowanie, implementowanie, wdrożenie.

Etap analizy polega na zebraniu wymagań użytkowników odnośnie struktury i funkcjonalności SI. Wynikiem tej fazy są abstrakcyjne modele konceptualne. Modele te opisują najczęściej rodzaje i struktury informacji przetwarzanych w informatyzowanej instytucji oraz funkcjonalność oprogramowania przetwarzającego te informacje.


Etap projektowania polega na przejściu od abstrakcyjnych modeli konceptualnych do modeli implementacyjnych bazy danych i aplikacji.

Etap implementacji polega na zbudowaniu bazy danych w wybranej technologii implementacyjnej i zaimplementowaniu aplikacji.


Po przetestowaniu systemu jest on wdrażany u użytkownika. Po wdrożeniu do użytkowania, system należy utrzymywać w ciągłej, efektywnej i niezawodnej pracy.



Obiekty świata rzeszywistego




W informatyzowanym świecie rzeczywistym występują obiekty różnego typu. Wyróżnia się obiekty materialne i niematerialne. Przykładami tych pierwszych mogą być, np. samochody, budynki, sprzęt komputerowy, zasoby ludzkie (grupa pracowników). Przykładami tych drugich mogą być, np. wiedza (znajomość technologii), zdarzenia (otrzymanie nagrody, urlopu), stany rzeczywistości (stan rachunku bankowego, stan polisy ubezpieczeniowej).


Model związków-encji




Jak wspomniano, zadaniem modelu konceptualnego jest odzwierciedlenie obiektów świata rzeczywistego w inne abstrakcyjne obiekty, które w pewnym dalszym momencie da się reprezentować w systemie informatycznym. Jednym z fundamentalnych modeli konceptualnych wykorzystywanym w projektowaniu relacyjnych baz danych jest model związków-encji (ang. entity-relationship model - ER). W tym modelu, obiekty świata rzeczywistego są reprezentowane za pomocą encji (ang. entities), a powiązania między obiektami - za pomocą związków pomiędzy encjami (ang. relationships).

Model ER można przedstawić w wielu różnych notacjach graficznych. Najpopularniejszymi są tu notacja Chena i notacja Barkera (wykorzystywana w produktach Oracle). Notacja Barkera będzie wykorzystywana na wykładzie.



Encja




Encja reprezentuje zbiór obiektów opisany tymi samymi cechami (atrybutami, własnościami). Informacje o tych obiektach będą przechowywane w bazie danych.


Konkretny obiekt świata rzeczywistego jest reprezentowany jako wystąpienie encji (instancja encji).



Modelowanie encji




Jako przykład encji rozważmy następujący mikro-opis fragmentu pewnego świata rzeczywistego.

"Firma zatrudnia pracowników. Chcemy przechowywać informacje nt. danych personalnych pracowników (imię, nazwisko, adres i numer telefonu)."


Na podstawie tego opisu można zbudować prosty model encji. Ponieważ chcemy przechowywać dane na temat pracowników, obiektem modelu będzie encja o nazwie Pracownik. Ponieważ wszyscy pracownicy firmy mają takie same cechy, więc encja będzie posiadała 4 atrybuty: imię, nazwisko, adres, nr_telefonu. Encja ta będzie reprezentowała wszystkich pracowników firmy i aktualnie zatrudnionych i zatrudnianych w przyszłości. Wystąpieniami tej encji są konkretni pracownicy firmy, jak pokazano na slajdzie.





Jako kolejny przykład rozważmy następujący opis mikro-świata rzeczywistego.

"Parking firmy jest przeznaczony do parkowania wielu różnych samochodów. Chcemy przechowywać informacje o samochodach (marka, model, numer rejestracyjny), które mogą parkować na parkingu firmy."


Z tego opisu wynika, że najważniejszym obiektem modelu tego mikro-świata jest samochód opisany marką, modelem i numerem rejestracyjnym. Każdy samochód będzie więc reprezentowany za pomocą encji o nazwie Samochód z 3 atrybutami: marka, model, nr_rejestracyjny. Konkretne samochody na parkingu firmy będą wystąpieniami tej encji.





Modelując encje należy przestrzegać następujących reguł.

1. Każda encja posiada unikalną nazwę.


2. Każda encja posiada zbiór cech (atrybutów).


3. Encje wchodzą w związki z innymi encjami (wyjątkiem są encje reprezentujące dane słownikowe i konfiguracyjne).


4. Dowolna rzecz lub obiekt może być reprezentowana tylko przez jedną encję.


5. Nazwa encji powinna być rzeczownikiem w liczbie pojedynczej.



Atrybuty encji




Jak już wiemy, encja posiada atrybuty. Wyróżnia się dwa rodzaje atrybutów, tj. identyfikatory i deskryptory.

Identyfikator encji jest to atrybut lub zbiór atrybutów jednoznacznie identyfikujący wystąpienie encji. W skład identyfikatora mogą wchodzić również atrybuty i związki lub same związki.


Wyróżnia się identyfikatory naturalne np. PESEL, NIP, nr dowodu, nr paszportu, nr rejestracyjny, ISBN i identyfikatory sztuczne, np. numer pozycji katalogowej, identyfikator pracownika.





Deksryptory (atrybuty deskrypcyjne) są to wszystkie inne atrybuty poza identyfikatorami. Reprezentują one podstawowe cechy/własności encji (cechy te będą przechowywane w bazie danych). Wartości deskryptorów mogą być albo opcjonalne albo obowiązkowe. Wynika to z analizy potrzeb informacyjnych użytkowników.


Definicja atrybutu encji




Definicja pojedynczego atrybutu encji obejmuje:

- nazwę,


- dziedzinę definiującą: typ danych i maksymalny rozmiar, zbiór dozwolonych wartości lub zakres dozwolonych wartości,


- informację czy są dozwolone / niedozwolone wartości puste,


Opcjonalnie, dla atrybutu można zdefiniować unikalność wartości.



Atrybuty encji - przykład




Przykłady atrybutów opisujących każdego pracownika (czyli encji Pracownik) przedstawiono na slajdzie. Identyfikatorem encji jest atrybut PESEL. Identyfikator oznacza się poprzedzając nazwę atrybutu znakiem #. Adres i pensja zdefiniowano jako atrybuty z wartościami obowiązkowymi (gwiazdka przed nazwą atrybutu). Natomiast telefon zdefiniowano jako atrybut mogący przyjmować wartości puste (kółko przed nazwą atrybutu).


Związek




Kolejnym obiektem modelu ER jest związek, zwany również asocjacją. Reprezentuje on powiązania pomiędzy obiektami świata rzeczywistego. W modelu ER związek łączy encje. Przykładowo, jeśli klienci posiadają rachunki bankowe, to w modelu ER powiązanie encji Klient z encją Rachunek jest reprezentowane obiektem typu związek. Związek z każdego końca posiada krótki opis ułatwiający interpretację tego związku.


Modelowanie związków




Jako przykład związku rozważmy następujący mikro-opis fragmentu pewnego świata rzeczywistego.


"Pracownicy firmy posiadają różne samochody. Chcemy przechować informację na temat faktu posiadania samochodu przez pracownika."


Na podstawie tego opisu można zbudować prosty model związków-encji. Ponieważ chcemy przechowywać dane na temat pracowników i samochodów, obiektami modelu będą encje Pracownik i Samochód. Encje te będą połączone związkiem. Na slajdzie jest on reprezentowany jako linia przerywana łącząca obie encje. Dodaktowo, oba końce związku są opisane tekstami. Związek ten należy interpretować następująco: pracownik posiada samochód; samochód jest własnością pracownika. Opisy związków powinny być krótkie, zwykle powinny to być czasowniki lub rzeczowniki odczasownikowe.





Z poprzedniego opisu wiemy, że istnieje związek pomiędzy pracownikami a samochodami.

Chcielibyśmy dodatkowo wiedzieć:


Ile samochodów może posiadać pracownik?


Ilu pracowników może posiadać ten sam samochód?


Czy każdy samochód musi do kogoś należeć?


Czy każdy pracownik musi posiadać samochód?



Cechy związku




Każdy związek posiada trzy cechy, tj. stopień związku, typ asocjacji i istnienie. Stopień związku określa liczbę encji połączonych związkiem. Wyróżnia się związki unarne (łączące encję samą z sobą), binarne (łączące dwie encje), ternarne (łączące trzy encje) i n-arne (łączące n encji). Typ asocjacji, zwany kardynalnością związku, określa ile wystąpień jednej encji może być powiązanych z iloma wystąpieniami innej encji. Wyróżnia się związki 1:1, 1:M, M:N. Istnienie, zwane również klasą przynależności związku określa, czy związek jest opcjonalny, czy obowiązkowy.


Cechy związku - przykład




Jako przykład rozważmy następujący opis mikro-świata rzeczywistego.

"Pracownicy firmy posiadają samochody. W celu udostępnienia miejsca parkingowego należy zarejestrować pracownika i jego samochód. Każdy pracownik ma prawo parkować tylko jeden konkretny samochód. Nie każdy pracownik ma samochód. Zarejestrowany w rejestrze parkingowym samochód na pewno jest własnością jednego pracownika."





Z opisu tego wynika konieczność zbudowania modelu, w którym wystąpią encje: Pracownik i Samochód. Związek obu encji jest binarnym (łączy encję Pracownik i Samochód), opcjonalnym od strony encji Pracownik (pracownik może mieć samochód), obowiązkowy od strony encji Samochód (samochód musi być własnością pracownika), o typie asocjacji 1:1 (jeden pracownik posiada tylko jeden samochód i jeden samochód jest własnością tylko jednego pracownika).


Na diagramie opcjonalność związku jest oznaczana linią przerywaną, a obowiązkowość - liną ciągłą.



Typ asocjacji 1:1 - przykład




Jako przykład związku binarnego 1:1 rozważmy następujący opis mikro-świata.

"Każdy dział musi mieć kierownika, natomiast pracownik może być kierownikiem co najwyżej jednego działu."


Związek ten łączy encję Pracownik z encją Dział. Jest to związek 1:1 opcjonalny od strony pracownika (linia przerywana) i obowiązkowy - od strony działu (linia ciągła). Oznacza to, że spośród wszystkich pracowników tylko jeden jest kierownikiem konkretnego działu. Istnieją pracownicy, którzy nie są kierownikami żadnych działów. Z drugiej strony, każdy dział musi mieć dokładnie jednego kierownika, którym jest pracownik.





Podsumowanie omawianego przykładu przedstawiono na slajdzie.


Typ asocjacji 1:M




Jako przykład związku binarnego 1:M rozważmy następujący opis mikro-świata.

"Każdy pracownik pracuje dokładnie w jednym dziale. Dział może zatrudniać (ale nie koniecznie) wielu pracowników."


Związek ten łączy encję Pracownik z encją Dział. Jest to związek 1:M obowiązkowy od strony pracownika i opcjonalny - od strony działu. Oznacza to, że każdy pracownik musi pracować w jakimś dziale. Wielu pracowników pracuje w tym samym dziale. Z drugiej strony, każdy dział może zatrudniać przynajmniej jednego pracownika. Mogą istnieć działy, które nikogo nie zatrudniają.


Typ asocjacji "wiele" jest oznaczony na diagramie w postaci rozwidlającej się linii dochodzącej do encji, w naszym przykładzie - Pracownik. Jak się domyśliliśmy z poprzednich przykładów, typ asocjacji "jeden" jest reprezentowany jako normalna linia dochodząca do encji, w naszym przykładzie - Dział.





Podsumowanie omawianego przykładu przedstawiono na slajdzie.




Jako przykład kolejnego związku binarnego 1:M rozważmy związek encji Piłkarz z encją Drużyna. Jest to związek obustronnie obowiązkowy. Interpretacja tego związku jest następująca: drużyna piłkarska musi być złożona z zawodników. Innymi słowy, nie istnieje drużyna, która nie posiada zawodników. Każdy piłkarz należy do dokładnie jednej drużyny, a piłkarz, który nie należy do drużyny (nie gra) nie jest piłkarzem.




Jako przykład kolejnego związku binarnego 1:M rozważmy związek encji Rachunek z encją Operacja. Jest to również związek obustronnie obowiązkowy. Interpretacja tego związku jest następująca: z każdym rachunkiem bankowym musi być związana historia (przynajmniej jedna) operacji na nim. Istniejąca operacja musi dotyczyć konkretnego rachunku i nie istnieją operacje nie związanych z rachunkiem.


Typ asocjacji M:N




Jako przykład związku binarnego M:N rozważmy następujący opis mikro-świata.

"Pracownik może brać udział w jednym lub wielu projektach; może też nie brać udziału w żadnym projekcie. Każdy projekt realizuje przynajmniej jeden pracownik."


Związek ten łączy encję Pracownik z encją Projekt. Jest to związek M:N opcjonalny od strony pracownika i obowiązkowy - od strony projektu. Oznacza to, że każdy pracownik może realizować jeden lub wiele projektów. Mogą również istnieć pracownicy nie realizujący żadnego projektu. Z drugiej strony, każdy projekt musi być realizowany przez jednego lub wielu pracowników.





Podsumowanie omawianego przykładu przedstawiono na slajdzie.




Kolejnym przykładem związku M:N jest związek studenta z organizacją. Jest to związek obustronnie opcjonalny. Interpretacja tego związku jest następująca:

- każdy student może należeć do jednej lub wielu organizacji studenckich,


- mogą istnieć studenci nie należący do żadnej organizacji,


- dana organizacja może zrzeszać jednego lub wielu studentów,


- mogą istnieć organizacje, które nie zrzeszają żadnego studenta.



Atrybuty związku




Związek może mieć również swoje atrybuty (cechy). Poniższy opis ilustruje konieczność wprowadzenia związku z atrybutami.

"Pracownik może brać udział w jednym lub wielu projektach; może też nie brać udziału w żadnym projekcie. Każdy projekt realizuje przynajmniej jeden pracownik. Dla pracowników, którzy biorą udział w projektach należy zapamiętać ich funkcję, wynagrodzenie oraz daty początku i końca ich udziału w projekcie."


Z poniższego opisu wynika konieczność wprowadzenia encji Pracownik i Projekt powiązanych tak jak poprzednio związkiem M:N opcjonalnym od strony pracownika i obowiązkowym od strony projektu. Dodatkowo, udział pracownika w projekcie jest opisany funkcją pracownika, wynagrodzeniem oraz datą początku i końca uczestnictwa. Są to cechy związku.





Omawiana notacja Barkera nie umożliwia wiązania atrybutów ze związkami. Konstrukcją modelującą takie przypadki jest dodatkowa encja pośrednia pomiędzy oryginalnym encjiami.

W naszym przykładzie, należy wprowadzić encję Realizacja z atrybutami: funkcja, wynagrodzenie, od, do, reprezentującymi cechy związku. Do encji Realizacja dochodzą związki typu wiele, oba obowiązkowe od strony tej encji. Interpretacja obowiązkowości tych związków jest następująca:


- jeśli istnieje wystąpienie encji Realizacja, to musi ono dotyczyć jakiegoś projektu i pracownika,


- nie może istnieć realizacja bez pracownika i projektu.



Encja słaba




W modelu ER wyróżnia się tzw. encje słabe (ang. weak entity). Encja słaba nie posiada swojego identyfikatora, a jej wystąpienia mogą istnieć tylko w kontekście wystąpień encji z nią powiązanych. Przykładowo, konkretne wystąpienie encji Realizacja może wystąpić wyłącznie w kontekście konkretnego pracownika i konkretnego projektu.


Identyfikator encji słabej




Identyfikatorem encji słabej są wszystkie związki, w które wchodzi ta encja z innymi encjami. Związek wchodzący w skład identyfikatora encji jest oznaczany na diagramie jako krótka linia prostopadła do związku umieszczona przy końcu związku. W przykładzie ze slajdu, w skład identyfikatora encji Realizacja wchodzą związki z encją Pracownik i Projekt.


Związek binarny rekursywny




Związek binarny rekursywny określa powiązanie pomiędzy określonym wystąpieniem encji a innym wystąpieniem tej samej encji.

Przykładem takiego związku jest model zależności służbowych, w których pracownicy posiadają swoich kierowników. Z jednej strony pracownik może mieć kierownika, tj. nie wszyscy pracownicy mają kierowników. Przykładowo, kierownik nie ma nad sobą kierownika. Z drugiej strony istnieją pracownicy, którzy nie są kierownikami.


Tego typu związek modelujący zależności hierarchiczne musi być opcjonalnym z obu stron. W przeciwnym przypadku, powstałaby hierarchia nieskończona.





Innym przykładem związku binarnego rekursywnego jest model podzespołów złożonych, dla poniższego opisu mikro-świata.

"Istnieją podzespoły elementarne, niedekomponowalne i podzespoły złożone. Podzespół złożony składa się z kolejnych podzespołów. Każdy z kolejnych podzespołów może być złożony z innych podzespołów. Poziom złożoności podzespołów może być dowolny."


W modelu ze slajdu, encja Podzespół jest powiązana sama z sobą związkiem 1:M opcjonalnym z obu stron. Oznacza to, że każdy podzespół może się składać z wielu innych podzespołów. Z drugiej strony, każdy podzespół może być częścią innego podzespołu złożonego.



Związeki ternarne




Związek ternarny łączy 3 encje. Jako przykład takiego związku rozważmy model dla poniższego opisu mikro-świata.

"Kierowca może otrzymać mandat za popełnione wykroczenie. Mandat jest wystawiany przez konkretnego policjanta."


W modelu dla tego opisu należy wykorzystać trzy encje: Kierowca, Policjant, Wykroczenie. Związek ternarny łączy wystąpienia tych trzech encji, jak pokazano na slajdzie.





W omawianej notacji Barkera związek ternarny jest reprezentowany jako encja (w naszym przykładzie Mandat). Do encji Mandat dochodzą związki obowiązkowe o kardynalności "wiele". Ich interpretacja jest następująca: jeśli wystawiono mandat to jest on dla konkretnej osoby, został wystawiony przez konkretnego policjanta i dotyczy konkretnego wykroczenia.


Związki ternarne przykład rozszerzony




Poprzedni przykład, rozszerzony o atrybuty encji przedstawia slajd. Jak widać, encja mandat posiada swoje atrybuty, tj. kwota i data wystawienia mandatu.


Związki wyłączne




Związki wyłączne (ang. exclusive relationships) stosuje się wtedy, gdy konkretne wystąpienie encji może w danym momencie wchodzić tylko w jeden z ze związków. Jako przykład takiego związku rozważmy model ze slajdu, w którym encja "Rachunek bankowy" wchodzi w związek z encją "Osoba fizyczna" lub "Osoba prawna". Oznacza to, że konkretny rachunek może być własnością albo osoby fizycznej albo osoby prawnej, ale nigdy nie będzie własnością obu tych osób jednocześnie. Związek wyłączny oznacza się w notacji Barkera jako łuk łączący związki wyłączne.


Hierarchia encji/generalizacja




Kolejną konstrukcją modelu jest związek generalizacji, zwany również hierarchią encji, hierarchią generalizacji, lub hierarchią specjalizacji. Określa on, że pewne encje o wspólnym zbiorze atrybutów można uogólnić i stworzyć encję wyższego poziomu - encję generalizacji, zwaną często nadencją. Encje niższego poziomu w hierarchii generalizacji to tzw. encje specjalizacji, zwane również podencjami.


Hierarchia encji




Jako przykład ilustrujący hierarchię encji rozważmy model dla poniższego opisu mikro-świata.

"Firma zatrudnia pracowników kontraktowych i godzinowych. Wszyscy pracownicy posiadają pewien zbiór wspólnych atrybutów (PESEL, imię, nazwisko, adres). Pracownicy kontraktowi i godzinowi posiadają specyficzne dla siebie atrybuty. Dla pracowników kontraktowych jest to numer kontraktu, a dla pracowników godzinowych są to: liczba godzin pracy w tygodniu i stawka godzinowa."


W proponowanym modelu wyróżnia się encję generalizacji o nazwie Pracownik i dwie encje specjalizacji: Kontraktowy i Godzinowy. Encja generalizacji Pracownik posiada atrybuty wspólne dla wszystkich pracowników, tj. i kontraktowych i godzinowych. Atrybutami wspólnymi są: PESEL, Imię, Nazwisko. Encja Kontraktowy posiada jeden atrybut, który jest specyficzny wyłącznie dla pracowników kontraktowych, tj. numer kontraktu. Encja Godzinowy posiada dwa atrybuty specyficzne tylko dla pracowników godzinowych, tj. atrybut liczba godzin i stawka.





Interpretacja hierarchii encji jest następująca.

- podencje dziedziczą wszystkie atrybuty swojej nadencji,


- każde wystąpienie nadencji jest zawsze wystąpieniem jednej podencji,


- semantyka związku generalizacji oznacza, że każde wystąpienie podencji JEST wystąpieniem nadencji; przykładowo, pracownik kontraktowy JEST pracownikiem, pracownik godzinowy JEST pracownikiem,


- identyfikator nadencji jest wspólny dla wszystkich jej podencji,


- podencje nie posiadają swoich identyfikatorów.





Oprócz atrybutów, nadencja może posiadać związki wspólne dla wszystkich jej podencji.

Związek encji KLIENT z encją DYSPONENT dotyczy zarówno klientów osoby fizyczne jak i klientów osoby prawne. Jest więc związkiem wspólnym dla wszystkich podencji encji KLIENT. Podobnie jest w przypadku związku encji RACHUNEK z encją DYSPONENT.


Ponadto, podencje mogą wchodzić w związki specyficzne wyłącznie dla siebie. Związek podencji ROR z encją HIST_OPERACJI jest związkiem specyficznym dla ROR, tj. obowiązuje tylko dla tej podencji.



Związki niedozwolone




W modelu ER związki przedstawione na slajdzie nie występują. Przypadek 1, czyli związek M:N obustronnie obowiązkowy w praktyce nie występuje.

Przypadek 2, czyli związek rekursywny 1:M obustronnie obowiązkowy jest niepoprawny ponieważ modeluje hierarchię nieskończoną "w górę" i "w dół". Gdyby zamodelować hierarchię jednostek organizacyjnych w taki sposób, wówczas każda jednostka musiałaby mieć jednostkę nadrzędną i podrzędną. Każda z jednostek nadrzędnych musiałaby mieć kolejną jednostkę nadrzędną itd. Podobnie byłoby w przypadku jednostek podrzędnych.


Przypadek 3 ilustruje błędny model hierarchii nieskończonej "w dół", a przypadek 4 ilustruje błędny model hierarchii nieskończonej "w górę".