seminář "Moderní databáze 2001"
Srby, hotel Asta, 17.-18. 5. 2001


 

OLTP Dimenzionální Model a ochrana osobních údajů

Ing. Petr Vršek - SOFTMODEL, Dobrovského 32, 170 00 PRAHA 7

vrsek@softmodel.cz

 

Klíčová slova: temporární databáze, dimenze, dimenzionální prvek, fakt, dimenzionální model (DM), datový sklad, On Line Transaction Processing Dimensional Model (OLTP DM), On Line Transaction Processing Data Warehouse (OLTP DW), ochrana osobních údajů

Abstract: Na loňském semináři MD2000 byla v mém příspěvku popsána vhodnost rozšíření dimenzionálního modelu (DM) na On Line Transaction Processing Dimensional Model (OLTP DM). Po stručném zopakování principů tohoto paradigmatu a doplnění aktuálních vlastností tohoto řešení bude diskutována problematika ochrany osobních údajů nad schématem demonstračního datového skladu (OLTP DW = OLTP Data Warehouse) budovaném na principech OLTP DM. Nad tímto schématem, jako velmi vhodným aparátem pro tento účel, jsou diskutována některá rozporná ustanovení "Zákona o ochraně osobních údajů" 101/2000 Sb. jak z hlediska logického tak technického. Dále je demonstrována pružnost OLTP DM, který je svou podstatou schopen vyhovět řadě protichůdných požadavků na evidenci dat.


1. Vysvětlení pojmů OLTP DM


2. Demonstrační schéma OLTP DW

obr. 1: typizace dimenzionálních prvků prostřednictvím typizačních faktů

 

obr. 2: závislost faktů na dimenzionálních prvcích

 

Na obrázcích je znázorněno demonstrační schéma části běžné provozní databáze vytvořené dle pravidel OLTP DM realizované prostřednictvím běžného komerčního RDBMS.

Předmětnou oblast reality modelujeme dvouúrovňovým modelem, kde jednou úrovní jsou dimenze a druhou úrovní fakty. Dimenze jsou na obrázcích znázorněny jako elipsy, fakty jako obdélníky se zaoblenými rohy.

Každá dimenze obsahuje dimenzionální prvky s nekonečnou platností, které jsou jednoznačně identifikovány generovanými kódy IDP (identifikátor dimenzionálního prvku).

Obr. 1 znázorňuje některé fakty, které typizují příslušné dimenzionální prvky. Všimněme si, že typizace mohou být konjunktní (fyzická osoba, ekonomický subjekt, subjekt zapsaný do obchodního rejstříku) nebo disjunktní (fyzická osoba, právnická osoba). Všechny potřebné typizace eviduje analytik v metaschématu OLTP DW.

Proces založení dimenzionálního prvku v databázi je podmíněn existencí určitých variantních množin chrakteristických faktů evidovaných též v metaschématu OLTP DW, které s vysokou pravděpodobností zaručují jednoznačné přiřazení identity prvku reálného světa identitě dimenzionálního prvku, což je obraz identity prvku reálného světa evidovaný v databázi. Pro fyzickou osobu mohou být tyto variantní množiny například následující:


3. Zákon o ochraně osobních údajů, relační databáze, SQL a Internet

Zákon 101/2000 Sb. se snaží v dobré víře ochránit osobní údaje o fyzických osobách. Tvůrci zákona ovšem neberou na vědomí principy ukládání dat v dobře navržené relační databázi, datovou integritu, Internet a ustrnuli v představě, že data se evidují buď v sešitě nebo v jednoduchých datových souborech.

Důsledné dodržování litery tohoto zákona vytváří z odpovědných tvůrců a správců databází potencionální zločince, kteří se musí neustále třást před sankcemi za to, že svou práci dělají odpovědně a správně.

Naopak, tvůrci mnoha neintegrovaných jednoúčelových databází jsou tímto zákonem vlastně chváleni, protože nevytvářejí integrovanou kvalitní podnikovou databázi, ale množinu různých chaotických nesouvisejících souborů či databázových tabulek s neintegrovanými údaji bez historie.

V době rozvinuté infomační společnosti, která nechce občanům jen škodit, jak zákonodárce pravděpodobně předpokládá, ale velmi často jim i sloužit a pomáhat (viz např. veřejná správa a nejrůznější služby, kde se vytvářejí pro tyto účely relační databáze s dotazovacím jazykem SQL přístupné přes webovský server a internetový prohlížeč), působí tento zákon v mnoha ustanoveních nedomyšleně a kontraproduktivně. V budoucnu jistě dozná řady novelizací, resp. se budou vytvářet nové speciální zákony, např. [7], které svým zněním zákon 101/2000 eliminují.

Jak vyplývá z [8], v Německu mají veřejnoprávní instituce v oblasti ochrany osobních údajů větší práva než běžné komerční subjekty, což v  našem zákoně neplatí.

Připomeňme si některá ustanovení zákona 101/2000, která jsou zajímavá z hlediska relačních databází a jazyka SQL. Kurzívou komentáře autora příspěvku:

Anonymizace je operace snadno proveditelná v OLTP DW. Bude vysvětleno ve zvláštní kapitole.

Zpracovávat pravdivé a přesné osobní údaje je jedině správné. Této činnosti ovšem podstatně brání § 5 (1) e) a § 5 (1) h).

Pravdivé a přesné údaje můžeme evidovat pouze tak, že se snažíme dozvědět se o jejich změně co možná nejdříve, údaje při změně co nejdříve aktualizovat a historii těchto hodnot evidovat a ne mazat.

Existují totiž přirozené dlouhodobé až kontinuální obchodní a správní procesy vzájemně se překrývající, při nichž se musí pracovat jak s daty aktuálními, tak s  daty historickými používanými v těchto procesech paralelně s hodnotami aktuálními.

Abychom to mohli realizovat, musíme využít jakékoliv možné příležitosti, jak získat informace o tom, že se sledovaný údaj změnil. Tuto příležitost poskytuje (mimo jiné věrohodné zdroje) především fyzická osoba samotná, která v rámci jednoho podniku řeší své různé nesouvisející záležitosti, např.:

Údaj se nejlépe a přirozeně aktualizuje při přímém styku podniku s osobou (Internet, email, telefon, osobně, písemně), i když kontakt může být z jakéhokoliv důvodu. Příkladem je aktualizace emailových adres, telefonních čísel, adresy bydliště, kontaktní adresy, příjmení u vdávajících se žen atd.

Změní-li se z rozhodnutím Obecního Zastupitelstva jméno nějaké ulice, promítne se to v integrovaném systému do všech osobních dat všech tím "postižených" občanů, aniž tito musí běhat po různých odborech Úřadu a zbytečně ztrácet čas.

Příjde-li si občan na Městský Úřad vyřídit změnu bydliště, nechce běhat po všech zákonně izolovaných odborech Úřadu jenom proto, abych si tuto záležitost všude zákonně izolovaně vyřídil: "registr nájemních obecních bytů", "volební registr", "živnostenský registr", "registr majitelů psů", "registr parkovacích karet",.....

Izolovaných "registrů" (= izolovaných pytlů dat bez historie) dnes všeobecně velmi přibývá. Čím více jich je, tím méně pravdivé a aktuální údaje obsahují.

Správce může ověřit zda jsou osobní údaje pravdivé a přesné nejlépe tak, že bude stejné údaje ukládat na jednom místě a tam aktualizovat, ať již je důvod aktualizace jakýkoliv.

Při implementaci OLTP DW můžeme vytvořit systém s hybridním chováním: Možnost vytvoření systému evidence jak integrovaných subjektů a údajů tak i neintegrovaných subjektů a údajů v rámci jedné databáze, přičemž tento systém může stabilně pracovat i pod tlakem stálých legislativních změn.

Viz komentář k § 5 (1) c)

Tento požadavek je možno optimálně splnit pro jednotlivé údaje při implementaci OLTP DW

Dispozitivní možnost souhlasu subjektu údajů ke zpracování osobních údajů v rámci podnikového integrovaného informačního systému je jediná záchrana legálního rozvoje moderní informatiky. Subjekt údajů podepíše, že chce mít údaje uložené v příslušné podnikové databázi jako integrované údaje, že se v rámci podniku budou jeho osobní údaje poskytnuté k rozdílným účelům sdružovat, že se bude na jejich zpracování používat jazyk SQL a že podnik ručí za to, že se tyto údaje nedostanou mimo podnik.

Ten, kdo toto prohlášení nepodepíše, bude chodit všude s jednotlivými papíry, lhůty vyřízení se prodlouží a ceny za takováto vyřízení budou řádově vyšší. Ceny musí být podstatně vyšší i proto, že kvůli individuálním "papírovým" řízením musí podnik zaměstnávat zcela zbytečně řadu zaměstnanců.

Dříve než subjekt údajů podepíše, že souhlasí s tím, aby jím poskytnuté údaje byly uloženy v příslušné podnikové integrované relační databázi pro jakékoliv další potřeby klienta a pro zkvalitnění jemu poskytovaných služeb, informuje jej podnik otevřeně o veškerých svých činnostech a vysvětlí mu srozumitelně důvod provozování integrované relační databáze.

Viz komentář k § 5 (1) c)

Principiální návrhy na novelizaci zákona tak, aby vyhovoval provozu moderních informačních systémů:

Příklady "podnikových integrovaných informačních systémů" (PIIS): Ministerstva vnitra ČR, Pardubického kraje, Ministerstva práce a sociálních věcí, Všeobecné zdravotní pojišťovny, Obce Louny, ABCD a.s., QWER s.r.o., Josef Vomáčka – INTERNETBOOK,....


4. Řešení požadavků na ochranu osobních údajů v OLTP DW

V minulé kapitole byl diskutován zákon a byly k němu vzneseny výhrady. Jelikož ovšem zákon platí, je povinností jej respekovat, i když to přináší obrovské problémy stávajícím (většinou bohužel těm kvalitním podnikovým integrovaným) informačním systémům.

Paradigma OLTP DM / OLTP DW je schopno stoprocentně respektovat jak stávající zákon, tak je připraveno se okamžitě adaptovat na jakékoliv legislativní změny v oblasti ochrany osobních údajů, jestliže nastanou. Investice do informačního systému vytvořeného dle tohoto paradigmatu bude jistě perspektivní. Podívejme se ještě jednou podrobně na obr.2:

Fakty s vazbou na SFO+ se souhlasem (dále FSFO+) zpracováváme jako F pouze s tím omezením, že podléhají přísnému režimu přístupových práv (klient sám a všichni referenti zpracovávající v podniku tento fakt v jakýchkoliv souvislostech) a že je nesmíme replikovat mimo PIIS.

Po ukončení obchodního případu budou veškeré fakty závislé na SFO- anonymizovány, což bude popsáno ve zvláštní kapitole.

SFO- označíme zvláštním typizačním faktem, aby tyto dimenzionální prvky byly vždy jasně odlišitelné od unikátních SFO+ .

Jak pro SFO- , tak pro fakty s vazbou na SFO- bez souhlasu (dále FSFO-) platí jiná pravidla než pro SFO+ a FSFO+ :

Bude-li chtít osoba bez souhlasu znát osobní údaje, které se o ní evidují, musí osobně navštívit podnik, předložit platný občanský průkaz a sdělit jednoznačné číslo obchodního případu (prokázat se dokladem inicializujícím obchodní případ), aby bylo možno všechny FSFO- související s tímto případem vyhledat a jejich hodnoty vytisknout. Předkládání občanského průkazu a dokladu je nutné, protože identita osoby bez souhlasu není z OLTP DW jednoznačně zjistitelná – neexistuje certifikát, nemusí se evidovat údaje, které subjekt údajů jednoznačně identifikují.


5. Anonymizace v OLTP DW

Anonymizace je v OLTP DW velmi snadno a škálovatelně proveditelná podle zadaných typů faktů – osobních údajů - které v databázi anonymizujeme buď anonymizací odkazu nebo nahražením hodnoty prázdným řetězcem nebo obojím.

Podle účinnosti různých zákonů ovlivňujících tuto oblast můžeme fakty obsažené v OLTP DW kdykoliv řízeně a velmi jednoduše anonymizovat a zajistit přitom současně jejich veškerou vypovídací statistickou schopnost s tím, že bude zajištěno, že od okamžiku anonymizace nebude vůbec možné zjistit identitu subjektu údajů nebo že ke zjištění identity subjektu údajů bude třeba nepřiměřené množství času, úsilí či materiálních prostředků.

Podívejme se na obr.2. Předpokládejme, že nám nějaký zákon uloží anonymizovat pouze "RČ", "bydliště" a "pronajatou plochu".

Anonymizaci provedeme tak, že u všech anonymizovaných faktů "RČ", "bydliště", "pronajatá plocha" nahradíme cizí klíč IDP SFO (identifikátor dimenzionálního prvku – subjektu-fyzické osoby) odkazem na "anonymní subjekt – fyzickou osobu".

Jakýkoliv program operující nad OLTP DW může od tohoto okamžiku např. zjistit:


6. Závěr

Předkládaný příspěvek diskutuje přirozený, ale obtížně řešitelný rozpor mezi :

Příspěvek popisuje On Line Transaction Processing Dimensional Model (OLTP DM) a demonstruje jeho metodické a praktické využití v této oblasti.

Dále se navrhují jak legislativní úpravy, které umožní jak další existenci dosavadních kvalitních podnikových integrovaných informačních systémů, tak se popisují vlastnosti provozního datového skladu OLTP DW vybudovaného na principech OLPTP DM, který umožní budování podnikových integrovaných informačních systémů se stoprocentním respektováním současně platného "Zákona o ochraně osobních údajů" 101/2000 Sb. ze dne 4.dubna 2000

 

Literatura

[1] Kimball Ralph: A dimensional Modeling Manifesto. DBMS - August 1997

[2] Gardner Stephen: Data Warehouse Architectures. NCR Corporation 1997

[3] Vršek Petr: Quasi-nezávislé provozní databáze a dvouvrstvý datový sklad s využitím databází dimenzí. In: Sborník semináře "Datasem'99", Brno, hotel Santon, 24.-26.10.1999, http://www.softmodel.cz

[4] Vršek Petr: Archetypy v temporárních databázích. In: Sborník semináře "Moderní databáze", Mělník, 17. a 18.5.2000

[5] "Zákon o ochraně osobních údajů" 101/2000 Sb. ze dne 4.dubna 2000, stránky Úřadu na ochranu osobních údajů: http://www.uoou.cz

[6] "Zákon o svobodném přístupu k informacím" 106/1999 Sb. ze dne 11. května 1999

[7] ÚSIS, odbor koncepcí: "Věcný záměr zákona o registrech veřejné správy (návrh)", draft, verze 2.00 ze dne 1.11.2000

[8] "Bundesdatenschutzgesetz" (BDSG) ze dne 20.12.1990

[9] Carlo Zaniolo, Stefano Ceri, Christos Faloutsos, Richard T. Snodgrass, Roberto Zicari: "Advanced Database Systems", Morgan Kaufmann Publishers, ISBN 1-55860-443-X

 

Summary:

This paper is considering the On Line Transaction Processing Dimensional Model (OLTP DM) paradigm and its support of the Czech Act No. 101 of April 4, 2000 on the Protection of Personal Data. This paper drafts some Act No. 101 improvements to enable future usage of recent enterprise integrated information systems without legal problems. An exemplary On Line Transaction Processing Data Warehouse (OLTP DW) scheme is discussed to demonstrate the flexibility of this solution for the implementation of frequent legislation changes.