Počet záznamů: 1

Mining of Biologically Relevant Patterns from QSAR Models

Údaje o názvu	Mining of Biologically Relevant Patterns from QSAR Models [rukopis] / Mariia Matveieva
Další variantní názvy	Mining of Biologically Relevant Patterns from QSAR Models
Osobní jméno	Matveieva, Mariia, (autor diplomové práce nebo disertace)
Překl.náz	Mining of Biologically Relevant Patterns from QSAR Models
Vyd.údaje	2022
Poznámka	Ved. práce Pavlo Polishchuk
	Oponent Radka Svobodová
	Oponent Daniel Svozil
Dal.odpovědnost	Polishchuk, Pavlo, (školitel)
	Svobodová, Radka, (oponent)
	Svozil, Daniel, (oponent)
Dal.odpovědnost	Univerzita Palackého. Doktorské studijní programy LF (udelovatel akademické hodnosti)
Klíč.slova	interpretace modelů QSAR * vysvětlitelnost QSAR * syntetická datová sada * srovnávací úroveň * QSAR explainability * QSAR interpretation * Gaussian Mixture Modelling * QSAR interpretability * benchmark * synthetic data set
Forma, žánr	disertace dissertations
MDT	(043.3)
Země vyd.	Česko
Jazyk dok.	angličtina
Druh dok.	PUBLIKAČNÍ ČINNOST
Titul	Ph.D.
Studijní program	Doktorský
Studijní program	Pediatrie
Studijní obor	Pediatrie

kniha

Kvalifikační práce	Staženo	Velikost	datum zpřístupnění
00282864-242619918.pdf	0	7.3 MB	28.01.2022

Posudek	Typ posudku
00282864-opon-984598914.pdf	Posudek oponenta

Průběh obhajoby	datum zadání	datum odevzdání	datum obhajoby	přidělená hodnocení	typ hodnocení
00282864-prubeh-722024339.pdf	01.09.2016	28.01.2022	19.05.2022	S	Hodnocení známkou

Anotace
Citace PRO

Disertační práce se zabývá problematikou strukturální interpretace modelů QSAR. Nejprve byl proveden vývoj validačního frameworku pro interpretační metody. Framework se skládá ze speciálně navržených datových souboru. Jsou určeny pro hodnocení schopnosti interpretačních přístupů vytěžovat data důležitá pro studovanou aktivitu malých molekul. Aplikovali jsme framework ke studiu nejpoužívanějších algoritmů strojového učení (ML), molekulárních deskriptorů a interpretačního přístupu: Univerzálního přístupu pro interpretaci modelů QSAR (UIA) (1, 2). Implementovali jsme nové rozšíření UIA, abychom zlepšili globální interpretaci pomoci tohoto přístupu. Výsledky produkované UIA ve formě příspěvků molekulárních fragmentu vykazují určitou variabilitu. Tato variabilita může být způsobena různými chemickými kontexty těchto fragmentů a je pozorována u většiny biologických aktivit. Rozšíření identifikuje skupiny sloučenin (shluky) obsahující stejný strukturní vzorec, kde vzorec má podstatně odlišný vliv na studovanou vlastnost, a vyhledá chemické souvislosti v rámci těchto shluků. Retrospektivní analýza toxicity pro Tetrahymena pyriformis ukázala, že technika shlukování vysvětluje distribuci příspěvků jednotlivých molekulárních skupin / fragmentů a zvyšuje vysvětlovací schopnost UIA. K řešení praktických aspektů interpretace modelu jsme aplikovali UIA a vyvinuté rozšíření na reálné datové soubory. Nejprve, jsme studovali vodní toxicitu. Výsledky umožnily seřadit příspěvky molekulárních vzorů (fragmentů) k toxicitě vůči třem různým vodním organismům. Studie potvrdila známé toxikofory a navrhla nové fragmenty stabilně ovlivňující všechny tři studované aktivity, čímž se prokázala užitečnost tohoto přístupu. Rozšíření bylo také aplikováno na modelování protirakovinné aktivity (toxicita malých molekul proti rakovinným buněčným liniím). Byly získány nové potenciálně důležité vzorce, které lze použít při optimalizaci sloučenin. Veškerá vyvinutá metodika byla implementována jako open-source software. Validační framework je dostupný na https://github.com/ci-lab-cz/ibenchmark. Rozšíření pro SPCI bylo implementováno v open-source R balíčku (https://github.com/DrrDom/rspci). V rámci projektu DeepChem byl navržen a implementován open-source interpretační nástroj pro grafové neuronové sítě využívající UIA.This report presents main results from the dissertation titled Mining of biologically relevant patterns from QSAR models, which elaborates on problems of structural interpretation of quantitative structure-activity relationship (QSAR) models and retrieval of useful knowledge from them. Development of the validation framework of interpretation methods was performed in the first place. The framework consists of specifically designed data sets. They are purposed for evaluation of the ability of interpretation approaches to retrieve patterns important for activity studied. We applied the framework to study the behavior of most used machine learning (ML) algorithms, molecular descriptors and an interpretation approach: Universal approach for interpretation of QSAR models (UIA) (1). We implemented a new Extension of UIA to improve global (data set level) interpretation by this approach. Results produced by UIA in the form of fragment contributions show certain variability. This variability can be caused by different chemical contexts of those fragments and is observed for the majority of biological end-points. The Extension identifies groups of compounds (clusters) comprising the same structural motif, where it has substantially different influence on a studied property, and retrieves chemical contexts within these clusters. Retrospective analysis of toxicity to Tetrahymena pyriformis showed that the clustering technique explains distribution of contributions of particular molecular groups/fragments and enhances explanatory power of the UIA. To address practical aspects of model interpretation we applied UIA and the Extension developed to real case data sets. First, we studied aquatic toxicity. The results made it possible to rank contributions of molecular patterns (fragments) to toxicity against three different aquatic organisms. The study confirmed known toxicophore features and proposed new fragments stably influencing all three studied endpoints, thus proving usefulness of the approach. The Extension was also applied to modeling of anticancer activity (toxicity of small molecules against cancer cell lines). Novel potentially important patterns have been retrieved which information can be used in compound optimization. All the methodology developed was implemented as open-source software. The benchmarking framework is available at https://github.com/ci-lab-cz/ibenchmark. The Extension to SPCI software was implemented in the open-source R package (https://github.com/DrrDom/rspci). An open-source interpretation tool for graph neural networks using UIA was proposed and implemented within DeepChem project (link).

citace PRO

Počet záznamů: 1