Počet záznamů: 1

Lingvistická analýza v typologii proteinů

Údaje o názvu	Lingvistická analýza v typologii proteinů [rukopis] / Johana Lukovská
Další variantní názvy	Lingvistická analýza v typologii proteinů
Osobní jméno	Lukovská, Johana (autor diplomové práce nebo disertace)
Překl.náz	Linguistic analysis in the typology of proteins
Vyd.údaje	2018
Fyz.popis	116 s. (170 980) : grafy + 0
Poznámka	Ved. práce Dan Faltýnek
	Oponent Lukáš Zámečník
Dal.odpovědnost	Faltýnek, Dan, 1980- (vedoucí diplomové práce nebo disertace)
	Zámečník, Lukáš (oponent)
Dal.odpovědnost	Univerzita Palackého. Katedra obecné lingvistiky (udelovatel akademické hodnosti)
Klíč.slova	protein * klasifikace * typologie proteinů * aminokyseliny * funkce proteinů * Quita * Bag of Words * n-gramy * entropie * TTR * PCA * MDS * protein * typology of protein * amino acids * protein function * Quita * n-grams * Bag of Words * entropy * TTR * PCA * MDS
Forma, žánr	diplomové práce master's theses
MDT	(043)378.2
Země vyd.	Česko
Jazyk dok.	čeština
Druh dok.	PUBLIKAČNÍ ČINNOST
Titul	Mgr.
Studijní program	Navazující
Studijní program	Filologie
Studijní obor	Obecná lingvistika a teorie komunikace

kniha

Kvalifikační práce	Staženo	Velikost	datum zpřístupnění
00224022-229605251.pdf	27	2.2 MB	21.08.2018

Posudek	Typ posudku
00224022-ved-279341662.pdf	Posudek vedoucího
00224022-opon-388674766.pdf	Posudek oponenta

Průběh obhajoby	datum zadání	datum odevzdání	datum obhajoby	přidělená hodnocení	typ hodnocení
00224022-prubeh-181542931.pdf	16.05.2017	21.08.2018	03.09.2018	1	Hodnocení známkou

Anotace
Citace PRO

Cílem této práce je experimentální popis charakteristických znaků genetického textu proteinů. Řešení tohoto problému vyžaduje stanovení výchozí typologie proteinů na základě vhodně zvolené proteomeické literatury, v tomto případě se jedná o proteiny klasifikované podle biologické funkce. Dalším krokem bylo shromáždění dostatečného množství vzorků, které pocházejí z databáze Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) a jejich anotace. Data jsou zpracována kvantitativně lingvistickou analýzou pomocí programu Quantitative Index Text Analyzer (Quita), s jehož pomocí jsou sledovány n-gramy stringů a jejich projevy v modelu Bag of Words. Jednotlivé typy stringů jsou analyzovány ve skupinách s podobnou délkou tak, aby byl zohledněn vliv délky na jednotlivé lingvistické metriky, přičemž pro zajištění přesnějších výsledků je v analýze použita kosinovská vzdálenost. Analýza pracuje s vybranými indexy kvantitativní lingvistiky a zaměřuje se zejména na entropii, type token ratio, repeat rate atd. Jednotlivé lingvistické metriky dále slouží jako vlastnosti textu v data miningové analýze (Hclust, PCA, MDS atd.).The purpose of this experimental master theses is to describe a characteristics of genetic text of protein. To solve this problem, it is necessary to determine typology of protein based on chosen proteomic literature, in this case the classification is based on thein biological function. Next step was to gather appropriate number of protein samples using the database Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) and annotate the data. Obtained data are processed by quantitative linguistics analysis via Quantitative Index Text Analyzer (Quita) software. The analysis looks at n-grmas of protein strings and their demonstration shown Bag of Words model. The individual types of strings are analyzed in groups classified by lenght of single linguistics metrics and to ensure the most accurate outcome, the cosine distance is used. This analysis focuses especially on chosen indicies of quantitative linguistic, such as entropy, type token ratio, repeat rate etc. Single linguistics metrics than serve as features of the text in data mining analysis (Hclust, PCA, MDS).

citace PRO

Počet záznamů: 1