POSUDEK DIPLOMOVÉ PRÁCE Název práce: Vyhodnocení a porovnání metod zpracování dat Autor práce: Magdaléna Toman Posuzuje: doc. RNDr. Michal Krupka, Ph.D., oponent Posudek: Práce se zabývá nìkterými metodami zpracování dat, jejich aplikací na reálná data a porovnáním jejich výsledkù. Jako data byly vybrány výsledky dotazníkového šetøení o používaných funkcích textových editorù. Použitými metodami byly metody shlukování a formální konceptuální analýza (FCA). Závìrem práce je poznatek, že na daná data se dobøe hodily metody complete linkage a average linkage u hierarchického a K-means u nehierarchického shlukování. Naopak nepøíliš úspìšné autorce vyšly single linkage a FCA. Ve druhé kapitole práce (první je úvod) autorka popisuje data použitá k analýze. Bohužel neuvádí zdroj, ze kterého data získala, pøípadnì zda se na jejich získání nìjak podílela. Tøetí kapitola obsahuje popis použitých metod. Úroveò této kapitoly je slabá. Ètenáøi, neobeznámenému s metodami (což byl pro shlukovací metody i mùj pøípad), bude dìlat potíže text pochopit, aniž by si musel domýšlet dùležité informace. Nìkolik pøíkladù: -v odstavci 3.1.1. „Podobnost a vzdálenost objektù“ není vùbec zavedena množina, na které vzdálenost zavádíme, což vede k následným nejasnostem, -u definice euklidovské a manhattanské metriky není øeèeno, kde se berou èísla x1, … , xn, y1, … , yn, -na zaèátku odstavce 3.1.2. se shlukování zavádí jako systém podmnožin (èeho?), o nìkolik øádkù dále už má ale jiný význam, -u pseudokódu K-Means algoritmu není vùbec popsáno použité znaèení, ani tak základní vìc, že jedním ze vstupù je požadovaný poèet shlukù. Tento algoritmus jsem z práce nepochopil. -U algoritmu NextClosure se definuje lexikografický následník, ale neøekne se, èeho, -chybí popis vstupù a výstupù algoritmu a co vlastnì dìlá. V poslední kapitole práce diplomantka popisuje, jak uvedené metody aplikovala na data a jaké informace se jí podaøilo získat. Typická èást vìnovaná konkrétní metodì shlukování obsahuje: -stanovení metody a jejích parametrù, -obrázek s dendrogramem, který metoda vrátila, -vytipování nìkolika nejvìtších shlukù, -popis vlastností objektù (respondentù) v jednotlivých shlucích a sloupcové grafy. Pro mìøení vzdáleností objektù je vždy použita euklidovská metrika, všechny atributy objektù mají stejný význam. U algoritmu NextClosure chybí informace, jak diplomantka data z dotazníkù pro zpracování algoritmem upravila (pùvodní data nejsou bivalentní). Ohlednì výsledkù diplomantka uvádí, že algoritmus vrátil velký poèet formálních konceptù, a (v podstatì naivní) postup, kterým se mezi nimi snažila nalézt nìco zajímavého. Podaøilo se získat jednu skupinu podobných konceptù, obsahující ale pouze malý poèet respondentù. Nìkolik poznámek k výsledkùm práce: Pøi analýze dat je užiteèné nejprve stanovit, jaký typ informací chceme z dat získat, a podle toho pøípadnì zvolit vhodnou metodu. Pokud zkoumáme vhodnost použití rùzných metod, mìli bychom to dìlat vzhledem ke stanovenému úèelu, za jakým data zpracováváme. Takový úèel autorka bohužel nestanovila. Její cíl byl pouze obecný: najít v datech nìjaké (jakékoliv) shluky. To se u vìtšiny shlukovacích metod podaøilo splnit, ale není zøejmé, zda jsou nalezené shluky užiteèné ještì k nìèemu dalšímu (napø. pro potøeby zjednodušení GUI textových editorù). Autorka ani neprovìøila, zda splòují základní požadavky, které sama zformulovala na zaèátku kapitoly 3. Pøi zpracování pomocí FCA se diplomantka omezila na první krok (nalezení konceptuálního svazu), který nepøinesl nic užiteèného. Bohužel nevyzkoušela pokroèilejší metody, jako napø. získání dùležitých konceptù pomocí AD formulí, nebo použití fuzzy FCA s faktorizací. Shrnutí: -práce (zejména teoretická èást) obsahuje mnoho nepøesností, odborná úroveò je nízká, -metody zpracování dat jsou použity mechanicky, bez hlubšího porozumìní, -chybí dùkladnìjší interpretace výsledkù. Otázky k obhajobì: • Vidíte nìjaký praktický pøínos výsledkù práce pro úpravu GUI textových editorù? • Nebyly by výsledky z hlediska tvùrce textového editoru zajímavìjší, kdyby se pøi shlukování pøiložil vìtší význam atributùm vztahujícím se pøímo ke zpùsobu používání softwaru, než vìku, vzdìlání apod.? Není možné, že data obsahují informace zajímavé z tohoto pohledu, které jste nenašla? • Jak jste zpracovala data z dotazníkù pro algoritmus NextClosure? Navrhované hodnocení práce: dobøe. 25. srpna 2011 Michal Krupka