Počet záznamů: 1  

Performance evaluation of Machine Learning approaches for identifying parts of scientific affiliations

  1. Údaje o názvuPerformance evaluation of Machine Learning approaches for identifying parts of scientific affiliations [rukopis] / Jan Macháň
    Další variantní názvyPerformance evaluation of Machine Learning approaches for identifying parts of scientific affiliations
    Osobní jméno Macháň, Jan, (autor diplomové práce nebo disertace)
    Překl.názPerformance evaluation of Machine Learning approaches for identifying parts of scientific affiliations
    Vyd.údaje2023
    Fyz.popis46 : grafy, schémata, tab.
    PoznámkaVed. práce Karel Berka
    Oponent Martin Trnečka
    Dal.odpovědnost Berka, Karel, 1982- (vedoucí diplomové práce nebo disertace)
    Trnečka, Martin (oponent)
    Dal.odpovědnost Univerzita Palackého. Katedra biochemie (udelovatel akademické hodnosti)
    Klíč.slova afiliace * geolokalizace * embeddings * pre-trained word embeddings modely * modely strojového učení * klasifikace * statistické vyhodnocení * výběr vhodného modelu * analýza dat * affiliations * geo-localization * embeddings * pre trained word embeddings * machine learning models * classification * statistical evaluation * model selection * data analysis
    Forma, žánr diplomové práce master's theses
    MDT (043)378.2
    Země vyd.Česko
    Jazyk dok.angličtina
    Druh dok.PUBLIKAČNÍ ČINNOST
    TitulMgr.
    Studijní programNavazující
    Studijní programBioinformatika
    Studijní oborBioinformatika
    kniha

    kniha

    Kvalifikační práceStaženoVelikostdatum zpřístupnění
    00279172-769376153.pdf92.7 MB15.05.2023
    PosudekTyp posudku
    00279172-ved-530712776.pdfPosudek vedoucího
    00279172-opon-696483076.pdfPosudek oponenta
    Průběh obhajobydatum zadánídatum odevzdánídatum obhajobypřidělená hodnocenítyp hodnocení
    00279172-prubeh-251335408.pdf14.10.202115.05.202314.06.2023AHodnocení známkou

    Tato diplomová práce zkoumá vhodnost několika volně dostupných natrénovaných modelů ke tvorbě word embeddings pro úlohu geolokalizace částí vědeckých afiliací. Analýza využívá statistické metody, jako jsou PCA a ANOVA, k určení nejvhodnějšího embeddings modelu. Tyto modely se používají v kombinaci s modely strojového učení, jako jsou neuronové sítě a další klasifikátory. Jako nejvýkonnější se ukazuje kombinace modelů neuronové sítě + uncsd-BERT embeddings. Jeho přesnost a průběh procesu učení jsou dále prozkoumány. Práce je případovou studií ilustrující možný postup výběru nejlepšího modelu pro konkrétní klasifikační úlohu a poskytuje pohled na současný stav výkonnosti vybraných embeddings modelů v této úloze. Primárním cílem je vyvinout model strojového učení pro geolokalizaci afiliací, bez nutnosti spoléhat na komerční nástroje.This diploma thesis investigates the suitability of multiple freely available pre-trained word embeddings (PWE) models for the task of geo-localizing parts of affiliations. The analysis employs statistical methods, such as PCA and ANOVA, to identify the most suitable PWE model. PWE models are used in combination with ML classifiers such as Neural Networks, Random Forests, Support Vector Classifier, and K-Nearest Neighbors. The Neural Networks together with uncsd-BERT embeddings model emerges as the best performing combination. Its classification performance and learning process are further evaluated. The thesis serves as a case study illustrating the selection of the best model for a specific classification task, and it provides insights into the state of the art performance of selected embeddings models on this task. The primary goal is to develop a ML model for geo-localizing affiliations without commercial tools.

Počet záznamů: 1  

  Tyto stránky využívají soubory cookies, které usnadňují jejich prohlížení. Další informace o tom jak používáme cookies.