Počet záznamů: 1

Performance evaluation of Machine Learning approaches for identifying parts of scientific affiliations

Údaje o názvu	Performance evaluation of Machine Learning approaches for identifying parts of scientific affiliations [rukopis] / Jan Macháň
Další variantní názvy	Performance evaluation of Machine Learning approaches for identifying parts of scientific affiliations
Osobní jméno	Macháň, Jan, (autor diplomové práce nebo disertace)
Překl.náz	Performance evaluation of Machine Learning approaches for identifying parts of scientific affiliations
Vyd.údaje	2023
Fyz.popis	46 : grafy, schémata, tab.
Poznámka	Ved. práce Karel Berka
	Oponent Martin Trnečka
Dal.odpovědnost	Berka, Karel, 1982- (vedoucí diplomové práce nebo disertace)
	Trnečka, Martin (oponent)
Dal.odpovědnost	Univerzita Palackého. Katedra biochemie (udelovatel akademické hodnosti)
Klíč.slova	afiliace * geolokalizace * embeddings * pre-trained word embeddings modely * modely strojového učení * klasifikace * statistické vyhodnocení * výběr vhodného modelu * analýza dat * affiliations * geo-localization * embeddings * pre trained word embeddings * machine learning models * classification * statistical evaluation * model selection * data analysis
Forma, žánr	diplomové práce master's theses
MDT	(043)378.2
Země vyd.	Česko
Jazyk dok.	angličtina
Druh dok.	PUBLIKAČNÍ ČINNOST
Titul	Mgr.
Studijní program	Navazující
Studijní program	Bioinformatika
Studijní obor	Bioinformatika

kniha

Kvalifikační práce	Staženo	Velikost	datum zpřístupnění
00279172-769376153.pdf	9	2.7 MB	15.05.2023

Posudek	Typ posudku
00279172-ved-530712776.pdf	Posudek vedoucího
00279172-opon-696483076.pdf	Posudek oponenta

Průběh obhajoby	datum zadání	datum odevzdání	datum obhajoby	přidělená hodnocení	typ hodnocení
00279172-prubeh-251335408.pdf	14.10.2021	15.05.2023	14.06.2023	A	Hodnocení známkou

Anotace
Citace PRO

Tato diplomová práce zkoumá vhodnost několika volně dostupných natrénovaných modelů ke tvorbě word embeddings pro úlohu geolokalizace částí vědeckých afiliací. Analýza využívá statistické metody, jako jsou PCA a ANOVA, k určení nejvhodnějšího embeddings modelu. Tyto modely se používají v kombinaci s modely strojového učení, jako jsou neuronové sítě a další klasifikátory. Jako nejvýkonnější se ukazuje kombinace modelů neuronové sítě + uncsd-BERT embeddings. Jeho přesnost a průběh procesu učení jsou dále prozkoumány. Práce je případovou studií ilustrující možný postup výběru nejlepšího modelu pro konkrétní klasifikační úlohu a poskytuje pohled na současný stav výkonnosti vybraných embeddings modelů v této úloze. Primárním cílem je vyvinout model strojového učení pro geolokalizaci afiliací, bez nutnosti spoléhat na komerční nástroje.This diploma thesis investigates the suitability of multiple freely available pre-trained word embeddings (PWE) models for the task of geo-localizing parts of affiliations. The analysis employs statistical methods, such as PCA and ANOVA, to identify the most suitable PWE model. PWE models are used in combination with ML classifiers such as Neural Networks, Random Forests, Support Vector Classifier, and K-Nearest Neighbors. The Neural Networks together with uncsd-BERT embeddings model emerges as the best performing combination. Its classification performance and learning process are further evaluated. The thesis serves as a case study illustrating the selection of the best model for a specific classification task, and it provides insights into the state of the art performance of selected embeddings models on this task. The primary goal is to develop a ML model for geo-localizing affiliations without commercial tools.

citace PRO

Počet záznamů: 1