POSUDEK DIPLOMOVÉ PRÁCE 

Název práce: Vyhodnocení a porovnání metod zpracování dat 
Autor práce: Magdaléna Toman 

Posuzuje: doc. RNDr. Michal Krupka, Ph.D., oponent 

Posudek: 

Práce se zabývá nìkterými metodami zpracování dat, jejich aplikací na reálná data a porovnáním 
jejich výsledkù. Jako data byly vybrány výsledky dotazníkového etøení o pouívaných funkcích 
textových editorù. Pouitými metodami byly metody shlukování a formální konceptuální analýza 
(FCA). Závìrem práce je poznatek, e na daná data se dobøe hodily metody complete linkage a 
average linkage u hierarchického a K-means u nehierarchického shlukování. Naopak nepøíli 
úspìné autorce vyly single linkage a FCA. 


Ve druhé kapitole práce (první je úvod) autorka popisuje data pouitá k analýze. Bohuel neuvádí 
zdroj, ze kterého data získala, pøípadnì zda se na jejich získání nìjak podílela. 


Tøetí kapitola obsahuje popis pouitých metod. Úroveò této kapitoly je slabá. Ètenáøi, 
neobeznámenému s metodami (co byl pro shlukovací metody i mùj pøípad), bude dìlat potíe 
text pochopit, ani by si musel domýlet dùleité informace. Nìkolik pøíkladù: 
-v odstavci 3.1.1. Podobnost a vzdálenost objektù není vùbec zavedena mnoina, na které 


vzdálenost zavádíme, co vede k následným nejasnostem,
-u definice euklidovské a manhattanské metriky není øeèeno, kde se berou èísla x1,  , xn, y1,  , 
yn, 
-na zaèátku odstavce 3.1.2. se shlukování zavádí jako systém podmnoin (èeho?), o nìkolik øádkù 
dále u má ale jiný význam, 
-u pseudokódu K-Means algoritmu není vùbec popsáno pouité znaèení, ani tak základní vìc, e 

jedním ze vstupù je poadovaný poèet shlukù. Tento algoritmus jsem z práce nepochopil.
-U algoritmu NextClosure se definuje lexikografický následník, ale neøekne se, èeho, 
-chybí popis vstupù a výstupù algoritmu a co vlastnì dìlá. 


V poslední kapitole práce diplomantka popisuje, jak uvedené metody aplikovala na data a jaké 
informace se jí podaøilo získat. Typická èást vìnovaná konkrétní metodì shlukování obsahuje: 
-stanovení metody a jejích parametrù, 
-obrázek s dendrogramem, který metoda vrátila, 
-vytipování nìkolika nejvìtích shlukù, 
-popis vlastností objektù (respondentù) v jednotlivých shlucích a sloupcové grafy. 


Pro mìøení vzdáleností objektù je vdy pouita euklidovská metrika, vechny atributy objektù 
mají stejný význam. 


U algoritmu NextClosure chybí informace, jak diplomantka data z dotazníkù pro zpracování 
algoritmem upravila (pùvodní data nejsou bivalentní). Ohlednì výsledkù diplomantka uvádí, e 
algoritmus vrátil velký poèet formálních konceptù, a (v podstatì naivní) postup, kterým se mezi 
nimi snaila nalézt nìco zajímavého. Podaøilo se získat jednu skupinu podobných konceptù, 
obsahující ale pouze malý poèet respondentù. 


Nìkolik poznámek k výsledkùm práce: 


Pøi analýze dat je uiteèné nejprve stanovit, jaký typ informací chceme z dat získat, a podle toho 
pøípadnì zvolit vhodnou metodu. Pokud zkoumáme vhodnost pouití rùzných metod, mìli 
bychom to dìlat vzhledem ke stanovenému úèelu, za jakým data zpracováváme. Takový úèel 
autorka bohuel nestanovila. Její cíl byl pouze obecný: najít v datech nìjaké (jakékoliv) shluky. To 
se u vìtiny shlukovacích metod podaøilo splnit, ale není zøejmé, zda jsou nalezené shluky 
uiteèné jetì k nìèemu dalímu (napø. pro potøeby zjednoduení GUI textových editorù). Autorka 
ani neprovìøila, zda splòují základní poadavky, které sama zformulovala na zaèátku kapitoly 3. 


Pøi zpracování pomocí FCA se diplomantka omezila na první krok (nalezení konceptuálního
svazu), který nepøinesl nic uiteèného. Bohuel nevyzkouela pokroèilejí metody, jako napø. 
získání dùleitých konceptù pomocí AD formulí, nebo pouití fuzzy FCA s faktorizací. 


Shrnutí: 
-práce (zejména teoretická èást) obsahuje mnoho nepøesností, odborná úroveò je nízká, 
-metody zpracování dat jsou pouity mechanicky, bez hlubího porozumìní, 
-chybí dùkladnìjí interpretace výsledkù. 


Otázky k obhajobì: 


 
Vidíte nìjaký praktický pøínos výsledkù práce pro úpravu GUI textových editorù? 
 
Nebyly by výsledky z hlediska tvùrce textového editoru zajímavìjí, kdyby se pøi shlukování 
pøiloil vìtí význam atributùm vztahujícím se pøímo ke zpùsobu pouívání softwaru, ne 
vìku, vzdìlání apod.? Není moné, e data obsahují informace zajímavé z tohoto pohledu, 
které jste nenala? 
 
Jak jste zpracovala data z dotazníkù pro algoritmus NextClosure? 
Navrhované hodnocení práce: dobøe. 

 
25. srpna 2011 
Michal Krupka