Number of the records: 1
Imputace chybějících hodnot v rozsáhlých datových souborech
- Nárožná, Markéta
Imputace chybějících hodnot v rozsáhlých datových souborech [rukopis] / Markéta Nárožná. -- 2013. -- 64 s. : grafy. -- Ved. práce Karel Hron. -- Oponent Miroslav Otáhal. -- Abstract: Úvodní kapitola diplomové práce slouží k seznámení s šetřením Životní podmínky, s jeho průběhem i specifiky, jejichž znalost je pro další výklad o chybějících hodnotách a metodách imputace nezbytná. Následující kapitola pojednává o chybějících hodnotách, jsou zde definovány mechanismy vzniku chybějících hodnot. Třetí kapitola je věnována vizualizaci, jakožto modernímu přístupu k rozeznání mechanismů vzniku chybějících hodnot a také ke zvolení správné metody imputace. V úvodu čtvrté kapitoly, která nese název Imputace chybějících hodnot, najdeme klasifikaci metod imputace, dále jsou tu ve dvou podkapitolách popsány vybrané metody prosté imputace - nejprve metody jednorozměrné, poté vícerozměrné. Pátá kapitola podává stručný přehled o výskytu chybějících hodnot v šetření Životní podmínky z roku 2010. Poslední kapitola je věnována aplikaci získaných teoretických znalostí na reálná data poskytnutá Českým statistickým úřadem. Celá kapitola je přitom orientována na knihovnu VIM, jakožto na užitečný nástroj určený k vizualizaci a imputaci chybějících hodnot, který je volně dostupný v statistickém softwaru R.. -- Abstract: The first chapter of my thesis introduces database European Union - Statistics on Income and Living Conditions (EU-SILC). Knowledge of this background information is necessary for understanding to various methods of data imputation. The next chapter is focused on missing values. Mechanisms of missing values are defined there. The third chapter deals with vizualization as a modern attitude to recognition of mechanisms of missing values. The vizualization is also essential for choosing of appropriate imputation method. The fourth chapter named "Imputation of missing values" describes a classification of the various imputation methods. Moreover, there is information about simple imputation methods divided into univariate and multivariate methods. The fifth chapter provides overview of the missing values that appear in EU-SILC data set from 2010. Finally, the last chapter shows application of theoretical knowledge to real data provided by Czech statistical office. It is focused on package VIM. It has been shown to be useful tool for vizualization and missing values imputation.
Hron, Karel, 1981-. Otáhal, Miroslav. Univerzita Palackého. Katedra matematické analýzy a aplikací matematiky
Chybějící hodnoty. vizualizace. knihovna VIM. nahrazení průměrnou hodnotou. regresní imputace. hot-deck imputace. algoritmus k nejbližších sousedů. algoritmus IRMI. Missing values. visualization. package VIM. conditional mean imputation. unconditional mean imputation. hot-deck imputation. k-nearest neighbour algorithm. algorithm IRMI. diplomové práce
(043)378.2
Number of the records: 1