Number of the records: 1
Pokročilé metody analýzy kompozičních dat
Title statement Pokročilé metody analýzy kompozičních dat [rukopis] / Julie Jerónimo de sousa Additional Variant Titles Pokročilé metody analýzy kompozičních dat Personal name Rendlová, Julie (dissertant) Translated title Advanced methods of compositional data analysis Issue data 2023 Phys.des. 102 : il., grafy, tab. Note Ved. práce Karel Hron Another responsib. Hron, Karel, 1981- (thesis advisor) Another responsib. Univerzita Palackého. Katedra matematické analýzy a aplikací matematiky (degree grantor) Keywords kompoziční data * logpodílová metodika * centrované logpodílové koeficienty * pivotové souřadnice * vážené pivotové souřadnice * selektivní pivotové souřadnice * kompoziční tabulky * bayesovská statistika * robustní metoda hlavních komponent * vulkánový graf * metoda částečných nejmenších čtverců - diskriminační analýza * kompoziční biplot * metabolomická data * ekonomická data * compositional data * logratio methodology * centered logratio coefficients * pivot coordinates * weighted pivot coordinates * selective pivot coordinates * compositional tables * Bayesian statistics * robust principal component analysis * volcano plot * partial least squares discriminant analysis * compositional biplot compositional biplot * metabolomic data * economic data Form, Genre disertace dissertations UDC (043.3) Country Česko Language angličtina Document kind PUBLIKAČNÍ ČINNOST Title Ph.D. Degree program Doktorský Degree program Aplikovaná matematika Degreee discipline Aplikovaná matematika book
Kvalifikační práce Downloaded Size datum zpřístupnění 00219842-669882338.pdf 48 35.2 MB 30.03.2023 Posudek Typ posudku 00219842-opon-821628307.pdf Posudek oponenta 00219842-ved-657585470.pdf Posudek vedoucího 00219842-opon-634513223.pdf Posudek oponenta Průběh obhajoby datum zadání datum odevzdání datum obhajoby přidělená hodnocení typ hodnocení 00219842-prubeh-421936196.pdf 13.10.2016 30.03.2023 15.09.2023 S Hodnocení známkou
Celá škála vědeckých oborů produkuje data, u kterých je hlavním zájmem jejich relativní struktura, obsažená ze své podstaty v podílech mezi proměnnými. Pro libovolnou statistickou analýzu takových (kompozičních) dat je proto nezbytná správná volba souřadnic zastřešená logpodílovou metodikou. V této dizertační práci jsou představeny nové metody navázané zejména na využití pivotových souřadnic v různých oblastech výzkumu generujících datové soubory vyšší dimenzionality nebo komplexnosti. Jedním z nejzásadnějších úkolů v tzv. -omických vědách je nalezení statisticky významných rozdílů mezi skupinami pacientů a kontrol, které slouží k detekci biomarkerů různých onemocnění s využitím jednorozměrných i mnohorozměrných statistických metod. Je zde představen koncept b-hodnot spolu s bayesovskou verzí populárního nástroje založeného na mnohonásobném testování hypotéz, jež se nazývá vulkánový graf. Díky bayesovské modifikaci lze do grafu zahrnout rovněž zóny vzdálenosti intervalů nejvyšší hustoty (HDI) od nuly. Dále je navržen nový typ souřadnicové reprezentace kompozičních dat, jehož cílem je zlepšit identifikaci biomarkerů. V souladu se svým názvem jsou tyto selektivní pivotové souřadnice konstruovány tak, že "vodící" souřadnice reprezentující vždy vybranou kompoziční složku agreguje všechny párové logpodíly této složky s ostatními komponentami, s výjimkou aberantních logpodílů. Na souřadnice je následně jako zlatý standard mnohorozměrné analýzy -omických dat aplikována diskriminační analýza metodou částečných dílčích čtverců. A konečně, složitější struktury kompozičních dat uspořádané podle dvou faktorů lze často považovat za kompoziční tabulky. Pro tato data je v práci uvedena speciální volba pivotových souřadnic reflektující možný rozklad tabulky na její nezávislou a interakční část. Za účelem redukce dimenze je pak použita robustní metoda hlavních komponent, která prostřednictvím přímého vztahu představených souřadnic s centrovanými logpodílovými koeficienty umožňuje získat lepší vhled do vztahů mezi danými faktory. Teoretické poznatky jsou ilustrovány na analýze reálných datových souborů z metabolomiky a socioekonomie, stejně jako na simulačních studiích demonstrujících přínosy nově navržených nástrojů ve srovnání s těmi v příslušných oborech již etablovanými.An abundance of scientific fields produces data where their relative structure, which is inherently contained in ratios among variables, is of the main interest. Therefore, a proper choice of coordinates within the logratio framework is essential for any statistical analysis of such (compositional) data. In this thesis, novel methods linked particularly to the use of pivot coordinates are presented within different research areas generating data sets of higher dimensionality or complexity. One of the essential tasks in omics sciences is to find statistically significant differences between patient and control groups to detect biomarkers of particular diseases using both univariate and multivariate statistical methods. A concept of b-values is introduced together with a Bayesian version of a widespread tool based on multiple hypotheses testing, the so-called volcano plot, incorporating also distance levels of the posterior highest density intervals from zero. Next, a new type of coordinate representation aiming to enhance the identification of biomarkers is proposed. They are constructed so that the "pivoting" coordinate representing a certain compositional part aggregates all but the deviating pairwise logratios of that part to the remaining ones, in accord with the name selective pivot coordinates. They are further coupled with partial least squares discriminant analysis as a gold standard in the multivariate analysis of omics data. Finally, a data table arranged according to two factors can often be considered a compositional table. Hence, a special choice of pivot coordinates reflecting a decomposition process into independent and interactive parts is presented for compositional data comprising the two-factorial complexity. A robust principal component analysis is then performed for dimension reduction, allowing for investigation of the relationships between the given factors through a direct relation of the proposed coordinates to centered logratio coefficients. The theoretical background is illustrated using real data sets from metabolomics and socioeconomy, as well as simulation studies to demonstrate the benefits of the introduced approaches compared to well-established methods of the respective fields.
Number of the records: 1