Počet záznamů: 1
Lingvistická analýza v typologii proteinů
Údaje o názvu Lingvistická analýza v typologii proteinů [rukopis] / Johana Lukovská Další variantní názvy Lingvistická analýza v typologii proteinů Osobní jméno Lukovská, Johana (autor diplomové práce nebo disertace) Překl.náz Linguistic analysis in the typology of proteins Vyd.údaje 2018 Fyz.popis 116 s. (170 980) : grafy + 0 Poznámka Ved. práce Dan Faltýnek Oponent Lukáš Zámečník Dal.odpovědnost Faltýnek, Dan, 1980- (vedoucí diplomové práce nebo disertace) Zámečník, Lukáš (oponent) Dal.odpovědnost Univerzita Palackého. Katedra obecné lingvistiky (udelovatel akademické hodnosti) Klíč.slova protein * klasifikace * typologie proteinů * aminokyseliny * funkce proteinů * Quita * Bag of Words * n-gramy * entropie * TTR * PCA * MDS * protein * typology of protein * amino acids * protein function * Quita * n-grams * Bag of Words * entropy * TTR * PCA * MDS Forma, žánr diplomové práce master's theses MDT (043)378.2 Země vyd. Česko Jazyk dok. čeština Druh dok. PUBLIKAČNÍ ČINNOST Titul Mgr. Studijní program Navazující Studijní program Filologie Studijní obor Obecná lingvistika a teorie komunikace kniha
Kvalifikační práce Staženo Velikost datum zpřístupnění 00224022-229605251.pdf 27 2.2 MB 21.08.2018 Posudek Typ posudku 00224022-ved-279341662.pdf Posudek vedoucího 00224022-opon-388674766.pdf Posudek oponenta Průběh obhajoby datum zadání datum odevzdání datum obhajoby přidělená hodnocení typ hodnocení 00224022-prubeh-181542931.pdf 16.05.2017 21.08.2018 03.09.2018 1 Hodnocení známkou
Cílem této práce je experimentální popis charakteristických znaků genetického textu proteinů. Řešení tohoto problému vyžaduje stanovení výchozí typologie proteinů na základě vhodně zvolené proteomeické literatury, v tomto případě se jedná o proteiny klasifikované podle biologické funkce. Dalším krokem bylo shromáždění dostatečného množství vzorků, které pocházejí z databáze Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) a jejich anotace. Data jsou zpracována kvantitativně lingvistickou analýzou pomocí programu Quantitative Index Text Analyzer (Quita), s jehož pomocí jsou sledovány n-gramy stringů a jejich projevy v modelu Bag of Words. Jednotlivé typy stringů jsou analyzovány ve skupinách s podobnou délkou tak, aby byl zohledněn vliv délky na jednotlivé lingvistické metriky, přičemž pro zajištění přesnějších výsledků je v analýze použita kosinovská vzdálenost. Analýza pracuje s vybranými indexy kvantitativní lingvistiky a zaměřuje se zejména na entropii, type token ratio, repeat rate atd. Jednotlivé lingvistické metriky dále slouží jako vlastnosti textu v data miningové analýze (Hclust, PCA, MDS atd.).The purpose of this experimental master theses is to describe a characteristics of genetic text of protein. To solve this problem, it is necessary to determine typology of protein based on chosen proteomic literature, in this case the classification is based on thein biological function. Next step was to gather appropriate number of protein samples using the database Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) and annotate the data. Obtained data are processed by quantitative linguistics analysis via Quantitative Index Text Analyzer (Quita) software. The analysis looks at n-grmas of protein strings and their demonstration shown Bag of Words model. The individual types of strings are analyzed in groups classified by lenght of single linguistics metrics and to ensure the most accurate outcome, the cosine distance is used. This analysis focuses especially on chosen indicies of quantitative linguistic, such as entropy, type token ratio, repeat rate etc. Single linguistics metrics than serve as features of the text in data mining analysis (Hclust, PCA, MDS).
Počet záznamů: 1