Number of the records: 1  

Performance evaluation of Machine Learning approaches for identifying parts of scientific affiliations

  1. Title statementPerformance evaluation of Machine Learning approaches for identifying parts of scientific affiliations [rukopis] / Jan Macháň
    Additional Variant TitlesPerformance evaluation of Machine Learning approaches for identifying parts of scientific affiliations
    Personal name Macháň, Jan, (dissertant)
    Translated titlePerformance evaluation of Machine Learning approaches for identifying parts of scientific affiliations
    Issue data2023
    Phys.des.46 : grafy, schémata, tab.
    NoteVed. práce Karel Berka
    Oponent Martin Trnečka
    Another responsib. Berka, Karel, 1982- (thesis advisor)
    Trnečka, Martin (opponent)
    Another responsib. Univerzita Palackého. Katedra biochemie (degree grantor)
    Keywords afiliace * geolokalizace * embeddings * pre-trained word embeddings modely * modely strojového učení * klasifikace * statistické vyhodnocení * výběr vhodného modelu * analýza dat * affiliations * geo-localization * embeddings * pre trained word embeddings * machine learning models * classification * statistical evaluation * model selection * data analysis
    Form, Genre diplomové práce master's theses
    UDC (043)378.2
    CountryČesko
    Languageangličtina
    Document kindPUBLIKAČNÍ ČINNOST
    TitleMgr.
    Degree programNavazující
    Degree programBioinformatika
    Degreee disciplineBioinformatika
    book

    book

    Kvalifikační práceDownloadedSizedatum zpřístupnění
    00279172-769376153.pdf92.7 MB15.05.2023
    PosudekTyp posudku
    00279172-ved-530712776.pdfPosudek vedoucího
    00279172-opon-696483076.pdfPosudek oponenta
    Průběh obhajobydatum zadánídatum odevzdánídatum obhajobypřidělená hodnocenítyp hodnocení
    00279172-prubeh-251335408.pdf14.10.202115.05.202314.06.2023AHodnocení známkou

    Tato diplomová práce zkoumá vhodnost několika volně dostupných natrénovaných modelů ke tvorbě word embeddings pro úlohu geolokalizace částí vědeckých afiliací. Analýza využívá statistické metody, jako jsou PCA a ANOVA, k určení nejvhodnějšího embeddings modelu. Tyto modely se používají v kombinaci s modely strojového učení, jako jsou neuronové sítě a další klasifikátory. Jako nejvýkonnější se ukazuje kombinace modelů neuronové sítě + uncsd-BERT embeddings. Jeho přesnost a průběh procesu učení jsou dále prozkoumány. Práce je případovou studií ilustrující možný postup výběru nejlepšího modelu pro konkrétní klasifikační úlohu a poskytuje pohled na současný stav výkonnosti vybraných embeddings modelů v této úloze. Primárním cílem je vyvinout model strojového učení pro geolokalizaci afiliací, bez nutnosti spoléhat na komerční nástroje.This diploma thesis investigates the suitability of multiple freely available pre-trained word embeddings (PWE) models for the task of geo-localizing parts of affiliations. The analysis employs statistical methods, such as PCA and ANOVA, to identify the most suitable PWE model. PWE models are used in combination with ML classifiers such as Neural Networks, Random Forests, Support Vector Classifier, and K-Nearest Neighbors. The Neural Networks together with uncsd-BERT embeddings model emerges as the best performing combination. Its classification performance and learning process are further evaluated. The thesis serves as a case study illustrating the selection of the best model for a specific classification task, and it provides insights into the state of the art performance of selected embeddings models on this task. The primary goal is to develop a ML model for geo-localizing affiliations without commercial tools.

Number of the records: 1  

  This site uses cookies to make them easier to browse. Learn more about how we use cookies.