Number of the records: 1  

Mining of Biologically Relevant Patterns from QSAR Models

  1. Title statementMining of Biologically Relevant Patterns from QSAR Models [rukopis] / Mariia Matveieva
    Additional Variant TitlesMining of Biologically Relevant Patterns from QSAR Models
    Personal name Matveieva, Mariia, 1987- (dissertant)
    Translated titleMining of Biologically Relevant Patterns from QSAR Models
    Issue data2022
    NoteVed. práce Pavlo Polishchuk
    Oponent Radka Svobodová
    Oponent Daniel Svozil
    Another responsib. Polishchuk, Pavlo, 1979 - (školitel)
    Svobodová, Radka, (opponent)
    Svozil, Daniel, 1971 - (opponent)
    Another responsib. Univerzita Palackého. Doktorské studijní programy LF (degree grantor)
    Keywords interpretace modelů QSAR * vysvětlitelnost QSAR * syntetická datová sada * srovnávací úroveň * QSAR explainability * QSAR interpretation * Gaussian Mixture Modelling * QSAR interpretability * benchmark * synthetic data set
    Form, Genre disertace dissertations
    UDC (043.3)
    CountryČesko
    Languageangličtina
    Document kindPUBLIKAČNÍ ČINNOST
    TitlePh.D.
    Degree programDoktorský
    Degree programPediatrie
    Degreee disciplinePediatrie
    book

    book

    Kvalifikační práceDownloadedSizedatum zpřístupnění
    00282864-242619918.pdf07.3 MB28.01.2022
    PosudekTyp posudku
    00282864-opon-984598914.pdfPosudek oponenta
    Průběh obhajobydatum zadánídatum odevzdánídatum obhajobypřidělená hodnocenítyp hodnocení
    00282864-prubeh-722024339.pdf01.09.201628.01.202219.05.2022SHodnocení známkou

    Disertační práce se zabývá problematikou strukturální interpretace modelů QSAR. Nejprve byl proveden vývoj validačního frameworku pro interpretační metody. Framework se skládá ze speciálně navržených datových souboru. Jsou určeny pro hodnocení schopnosti interpretačních přístupů vytěžovat data důležitá pro studovanou aktivitu malých molekul. Aplikovali jsme framework ke studiu nejpoužívanějších algoritmů strojového učení (ML), molekulárních deskriptorů a interpretačního přístupu: Univerzálního přístupu pro interpretaci modelů QSAR (UIA) (1, 2). Implementovali jsme nové rozšíření UIA, abychom zlepšili globální interpretaci pomoci tohoto přístupu. Výsledky produkované UIA ve formě příspěvků molekulárních fragmentu vykazují určitou variabilitu. Tato variabilita může být způsobena různými chemickými kontexty těchto fragmentů a je pozorována u většiny biologických aktivit. Rozšíření identifikuje skupiny sloučenin (shluky) obsahující stejný strukturní vzorec, kde vzorec má podstatně odlišný vliv na studovanou vlastnost, a vyhledá chemické souvislosti v rámci těchto shluků. Retrospektivní analýza toxicity pro Tetrahymena pyriformis ukázala, že technika shlukování vysvětluje distribuci příspěvků jednotlivých molekulárních skupin / fragmentů a zvyšuje vysvětlovací schopnost UIA. K řešení praktických aspektů interpretace modelu jsme aplikovali UIA a vyvinuté rozšíření na reálné datové soubory. Nejprve, jsme studovali vodní toxicitu. Výsledky umožnily seřadit příspěvky molekulárních vzorů (fragmentů) k toxicitě vůči třem různým vodním organismům. Studie potvrdila známé toxikofory a navrhla nové fragmenty stabilně ovlivňující všechny tři studované aktivity, čímž se prokázala užitečnost tohoto přístupu. Rozšíření bylo také aplikováno na modelování protirakovinné aktivity (toxicita malých molekul proti rakovinným buněčným liniím). Byly získány nové potenciálně důležité vzorce, které lze použít při optimalizaci sloučenin. Veškerá vyvinutá metodika byla implementována jako open-source software. Validační framework je dostupný na https://github.com/ci-lab-cz/ibenchmark. Rozšíření pro SPCI bylo implementováno v open-source R balíčku (https://github.com/DrrDom/rspci). V rámci projektu DeepChem byl navržen a implementován open-source interpretační nástroj pro grafové neuronové sítě využívající UIA.This report presents main results from the dissertation titled Mining of biologically relevant patterns from QSAR models, which elaborates on problems of structural interpretation of quantitative structure-activity relationship (QSAR) models and retrieval of useful knowledge from them. Development of the validation framework of interpretation methods was performed in the first place. The framework consists of specifically designed data sets. They are purposed for evaluation of the ability of interpretation approaches to retrieve patterns important for activity studied. We applied the framework to study the behavior of most used machine learning (ML) algorithms, molecular descriptors and an interpretation approach: Universal approach for interpretation of QSAR models (UIA) (1). We implemented a new Extension of UIA to improve global (data set level) interpretation by this approach. Results produced by UIA in the form of fragment contributions show certain variability. This variability can be caused by different chemical contexts of those fragments and is observed for the majority of biological end-points. The Extension identifies groups of compounds (clusters) comprising the same structural motif, where it has substantially different influence on a studied property, and retrieves chemical contexts within these clusters. Retrospective analysis of toxicity to Tetrahymena pyriformis showed that the clustering technique explains distribution of contributions of particular molecular groups/fragments and enhances explanatory power of the UIA. To address practical aspects of model interpretation we applied UIA and the Extension developed to real case data sets. First, we studied aquatic toxicity. The results made it possible to rank contributions of molecular patterns (fragments) to toxicity against three different aquatic organisms. The study confirmed known toxicophore features and proposed new fragments stably influencing all three studied endpoints, thus proving usefulness of the approach. The Extension was also applied to modeling of anticancer activity (toxicity of small molecules against cancer cell lines). Novel potentially important patterns have been retrieved which information can be used in compound optimization. All the methodology developed was implemented as open-source software. The benchmarking framework is available at https://github.com/ci-lab-cz/ibenchmark. The Extension to SPCI software was implemented in the open-source R package (https://github.com/DrrDom/rspci). An open-source interpretation tool for graph neural networks using UIA was proposed and implemented within DeepChem project (link).

Number of the records: 1  

  This site uses cookies to make them easier to browse. Learn more about how we use cookies.