Počet záznamů: 1
Mining of Biologically Relevant Patterns from QSAR Models
Údaje o názvu Mining of Biologically Relevant Patterns from QSAR Models [rukopis] / Mariia Matveieva Další variantní názvy Mining of Biologically Relevant Patterns from QSAR Models Osobní jméno Matveieva, Mariia, (autor diplomové práce nebo disertace) Překl.náz Mining of Biologically Relevant Patterns from QSAR Models Vyd.údaje 2022 Poznámka Ved. práce Pavlo Polishchuk Oponent Radka Svobodová Oponent Daniel Svozil Dal.odpovědnost Polishchuk, Pavlo, (školitel) Svobodová, Radka, (oponent) Svozil, Daniel, (oponent) Dal.odpovědnost Univerzita Palackého. Doktorské studijní programy LF (udelovatel akademické hodnosti) Klíč.slova interpretace modelů QSAR * vysvětlitelnost QSAR * syntetická datová sada * srovnávací úroveň * QSAR explainability * QSAR interpretation * Gaussian Mixture Modelling * QSAR interpretability * benchmark * synthetic data set Forma, žánr disertace dissertations MDT (043.3) Země vyd. Česko Jazyk dok. angličtina Druh dok. PUBLIKAČNÍ ČINNOST Titul Ph.D. Studijní program Doktorský Studijní program Pediatrie Studijní obor Pediatrie kniha
Kvalifikační práce Staženo Velikost datum zpřístupnění 00282864-242619918.pdf 0 7.3 MB 28.01.2022 Posudek Typ posudku 00282864-opon-984598914.pdf Posudek oponenta Průběh obhajoby datum zadání datum odevzdání datum obhajoby přidělená hodnocení typ hodnocení 00282864-prubeh-722024339.pdf 01.09.2016 28.01.2022 19.05.2022 S Hodnocení známkou
Disertační práce se zabývá problematikou strukturální interpretace modelů QSAR. Nejprve byl proveden vývoj validačního frameworku pro interpretační metody. Framework se skládá ze speciálně navržených datových souboru. Jsou určeny pro hodnocení schopnosti interpretačních přístupů vytěžovat data důležitá pro studovanou aktivitu malých molekul. Aplikovali jsme framework ke studiu nejpoužívanějších algoritmů strojového učení (ML), molekulárních deskriptorů a interpretačního přístupu: Univerzálního přístupu pro interpretaci modelů QSAR (UIA) (1, 2). Implementovali jsme nové rozšíření UIA, abychom zlepšili globální interpretaci pomoci tohoto přístupu. Výsledky produkované UIA ve formě příspěvků molekulárních fragmentu vykazují určitou variabilitu. Tato variabilita může být způsobena různými chemickými kontexty těchto fragmentů a je pozorována u většiny biologických aktivit. Rozšíření identifikuje skupiny sloučenin (shluky) obsahující stejný strukturní vzorec, kde vzorec má podstatně odlišný vliv na studovanou vlastnost, a vyhledá chemické souvislosti v rámci těchto shluků. Retrospektivní analýza toxicity pro Tetrahymena pyriformis ukázala, že technika shlukování vysvětluje distribuci příspěvků jednotlivých molekulárních skupin / fragmentů a zvyšuje vysvětlovací schopnost UIA. K řešení praktických aspektů interpretace modelu jsme aplikovali UIA a vyvinuté rozšíření na reálné datové soubory. Nejprve, jsme studovali vodní toxicitu. Výsledky umožnily seřadit příspěvky molekulárních vzorů (fragmentů) k toxicitě vůči třem různým vodním organismům. Studie potvrdila známé toxikofory a navrhla nové fragmenty stabilně ovlivňující všechny tři studované aktivity, čímž se prokázala užitečnost tohoto přístupu. Rozšíření bylo také aplikováno na modelování protirakovinné aktivity (toxicita malých molekul proti rakovinným buněčným liniím). Byly získány nové potenciálně důležité vzorce, které lze použít při optimalizaci sloučenin. Veškerá vyvinutá metodika byla implementována jako open-source software. Validační framework je dostupný na https://github.com/ci-lab-cz/ibenchmark. Rozšíření pro SPCI bylo implementováno v open-source R balíčku (https://github.com/DrrDom/rspci). V rámci projektu DeepChem byl navržen a implementován open-source interpretační nástroj pro grafové neuronové sítě využívající UIA.This report presents main results from the dissertation titled Mining of biologically relevant patterns from QSAR models, which elaborates on problems of structural interpretation of quantitative structure-activity relationship (QSAR) models and retrieval of useful knowledge from them. Development of the validation framework of interpretation methods was performed in the first place. The framework consists of specifically designed data sets. They are purposed for evaluation of the ability of interpretation approaches to retrieve patterns important for activity studied. We applied the framework to study the behavior of most used machine learning (ML) algorithms, molecular descriptors and an interpretation approach: Universal approach for interpretation of QSAR models (UIA) (1). We implemented a new Extension of UIA to improve global (data set level) interpretation by this approach. Results produced by UIA in the form of fragment contributions show certain variability. This variability can be caused by different chemical contexts of those fragments and is observed for the majority of biological end-points. The Extension identifies groups of compounds (clusters) comprising the same structural motif, where it has substantially different influence on a studied property, and retrieves chemical contexts within these clusters. Retrospective analysis of toxicity to Tetrahymena pyriformis showed that the clustering technique explains distribution of contributions of particular molecular groups/fragments and enhances explanatory power of the UIA. To address practical aspects of model interpretation we applied UIA and the Extension developed to real case data sets. First, we studied aquatic toxicity. The results made it possible to rank contributions of molecular patterns (fragments) to toxicity against three different aquatic organisms. The study confirmed known toxicophore features and proposed new fragments stably influencing all three studied endpoints, thus proving usefulness of the approach. The Extension was also applied to modeling of anticancer activity (toxicity of small molecules against cancer cell lines). Novel potentially important patterns have been retrieved which information can be used in compound optimization. All the methodology developed was implemented as open-source software. The benchmarking framework is available at https://github.com/ci-lab-cz/ibenchmark. The Extension to SPCI software was implemented in the open-source R package (https://github.com/DrrDom/rspci). An open-source interpretation tool for graph neural networks using UIA was proposed and implemented within DeepChem project (link).
Počet záznamů: 1