Posudek diplomové práce Název práce: Vyhodnocení a porovnání metod zpracování dat Autor práce: Magdaléna Toman Struené zhodnocení diplomové práce: Cílem diplomové práce (na vlastní téma) byla experimentální studie porovnávající a vyhodnocuj ící pou3ití ruzných metod analýzy a zpracování dat (data mining) na vybraných reálných datech. Uva3ované metody byly: hierarchické algomerativní shlukování, optimalizaení shlukování K-means a formální konceptuální analýza (FCA). Vybranými reálnými daty je v práci jediný soubor dat získaný z dotazníku .návykù a zku1eností u3ivatelù s textovými editory. (poesniji procesory) z výzkumu dr. Dostála. Analyzována byla data zaznamenávající rozsah pou3ívání jednotlivých funkcí editoru u3ivateli – respondenty dotazníku. Pro aplikaci metod byl vyu3it software pro statistickou analýzu dat a jejich gra cké zpracování R. I když jsou v práci uvedené rozbory a porovnání výstupù metod spí1e popisy vytvooených grafù z výstupù než jejich souhrnnij1ími charakteristikami, výsledné vyhodnocení pou3ití metod je poínosné a hodnotné – nejzajímavij1ích výsledkù na pou3 itých datech bylo dosa3eno pomocí shlukovacích metod, naopak FCA ve své základní podobì se ukázala jako obtí3nì pou3itelná. Cíl práce pova3uji za splniný. Jak práce splnila cíle uvedené v zadání: Po strueném úvodu je nejprve proveden rozbor vstupních dat dle vybraných charakteristik, veetnì dále analyzovaného atributu rozsahu pou3ívání jednotlivých funkcí textového editoru, podle kategorií funkcí. Na konci rozboru by ale mila být je1tì informace, co chceme následnou analýzou zjistit – tedy zajímavé a významné skupiny respondentù a pou3ívaných funkcí editoru pro zamý1lené porovnání a vyhodnocení pou3ití metod. Následující popis potoebné teorie a algoritmù pou3itých metod shlukování, poesto3e obsahuje ukázkový poíklad, je spí1e poehledový a nikdy i nepoesný, popis FCA je naopak témiø bezchybný, pouze Ext (Int) znaeí mno3inu extentù (intentu) konceptu, a ne jen jeden extent (intent). V nejvit1í eásti práce, tedy rozboru a porovnání výstupù metod (shluku, formálních konceptu) dle charakteristik z rozboru vstupních dat, jsou duslednì rozebírány rozdíly mezi výstupy a je vidit snaha jít nad rámec popisu vytvooených grafù z výstupù a o nástin souhrnných charakteristik shluku. Bohu3el tato je pouze v první podkapitole vinované aglomerativnímu shlukování metodou prumirné vazby. Nutno také dodat, 3e nikteré charakteristiky nejsou poíliš informativní, napo. .o tomto shluku by se dalo oíct, 3e je takový prumirný. na stranì 25 textu. Také je 1koda, 3e poi aplikaci metod byla pou3ita pouze eukleidovská metrika, pro lep1í nální porovnání a vyhodnocení metod by stálo za to pou3ít i statistické míry, ne-metriky, napo. korelaení koe cient. V eásti vinované metodì FCA pak chybí popis zpusobu 1kálování numerických, resp. kategorick ých, atributù ze vstupních dat na binární atributy, což bylo jistì nutné poed analýzou pomocí FCA provést. Poiná1í práce nové výsledky? Jaké (teoretické, algoritmy, nový SW nástroj, experimenty apod.)? Práce poiná1í experimentální studii porovnávající a vyhodnocující pou3ití shlukovacích metod a metody FCA na data z dotazníku na textové editory. Jako nejlep1í byly vyhodnoceny aglomerativní shlukovací metody s ureením podobnosti shlukù metodou prumirné vazby a nejvzdálenij1ího souseda a metoda K-means, kdy byly odhaleny toi významné skupiny u3ivatelù a pou3ívaných funkcí editorù na základì znatelné podobnosti výsledkù metod. V záviru textu práce jsou uvedeny souhrnné charakteristiky skupin, zbývá skupiny už jen vhodnì pojmenovat, napo. .mladí a nezku1ení s Windows XP hojnì pou3ívající bi3né funkce editoruy, .star1í a zku1enij1í co se nebojí pou3ívat i jiné operaení systémy a pokroeilej1í funkce editoru. a .nejzku1enij1í pou3ívající ruzné operaení systémy zato 3ádný textový editor (resp. procesor)y. Metoda FCA (ve své základní podobi) byla vyhodnocena jako obtí3nì pou3itelná. Problém je, dle diplomantky, v rozsáhlosti výstupu, tj. obrovského mno3ství (formálních) konceptù (cituji: .výsledkem je hromada konceptuy, strana 52), obtí3nosti jejich zobrazení a zejména v úskalí výbiru jen zajímavých konceptù nebo jejich skupin. Poslední uvedené je poi aplikaci metody zásadní a je nutné to nijakým zpusobem zvolit a diplomantka zvolila kritéria pro koncept minimálnì 25 funkcí (atributu) a poté prvních 20 konceptù s nejvit1ím poetem objektu. Tato volba, kdy se nezajímáme o vztahy mezi koncepty, ale jen o jejich .velikosty, ale logicky vede k tomu, 3e výstupem bude pouze jediná skupina konceptu, což pak diplomantka v záviru práce mylnì a neobjektivnì vidí jako nedostatek metody jako takové (cituji: .ve výsledku nám toho metoda moc neposkytlay). Dal1ím problémem pro aplikaci FCA, dle diplomantky, je také nedostatek u3ivatelsky (relativni) snadno pou3itelného software, který je dostupný pro shlukovací metody (cituji: .nemusíme ztrácet eas a nervy s implementacíy). S uvedenými problémy aplikace FCA se mohu plnì ztoto3nit. Pro obecnij1í posouzení a doporueení vhodnosti pou3itelnosti metod na ruzná data, které milo být také výstupem práce, diplomantka správnì usuzuje, 3e k tomu je potoeba více ruzných souborù dat. Zde je ale nutné podotknout, 3e právì omezení se na jeden soubor dat by bylo mo3né nahlí3et jako nedostatek práce, kdy diplomantka mila analyzovat více souboru. U3iteeným výstupem práce je také vlastní implementace algoritmu NextClosure pro výpoeet konceptu álního svazu jako roz1íoení do software R. Jaká je jazyková úroveò práce? Jaké je formální zpracování (poeklepy a jiné formální nedostatky)? Jazyková úroveò práce je spí1e prumirná, v textu se vyskytují výrazy jako .stra1nì málo. nebo .do hromady. (psáno zvlá1») a velice eastý je obrat .Nyní se podíváme. nebo .Teï se podívámey. Text obsahuje poimioené mno3ství poeklepù a gramatických chyb. Dal1í (chyby, slabé a silné stránky práce, apod.): Dule3itou soueástí práce je textová poíloha postupù v softwaru R pro získání v1ech výsledkù prezentovaných v práci. Tím je umo3nina jejich reprodukce. Nakonec poznámka: NextClosure není metoda zpracování dat, pouze jeden z mnoha algoritmù pro výpoeet konceptuálního svazu, který je jedním z výstupù metody FCA. Navrhované hodnocení práce: Celkovì hodnotím víceménì samostatnou práci diplomantky známkou velmi doboe. Datum: 27. 8. 2011 Jméno:Mgr.JanOutrata,Ph.D.,KatedrainformatikyPoFUPvOlomouciPodpis: