Number of the records: 1

Lingvistická analýza v typologii proteinů

Title statement	Lingvistická analýza v typologii proteinů [rukopis] / Johana Lukovská
Additional Variant Titles	Lingvistická analýza v typologii proteinů
Personal name	Lukovská, Johana (dissertant)
Translated title	Linguistic analysis in the typology of proteins
Issue data	2018
Phys.des.	116 s. (170 980) : grafy + 0
Note	Ved. práce Dan Faltýnek
	Oponent Lukáš Zámečník
Another responsib.	Faltýnek, Dan, 1980- (thesis advisor)
	Zámečník, Lukáš (opponent)
Another responsib.	Univerzita Palackého. Katedra obecné lingvistiky (degree grantor)
Keywords	protein * klasifikace * typologie proteinů * aminokyseliny * funkce proteinů * Quita * Bag of Words * n-gramy * entropie * TTR * PCA * MDS * protein * typology of protein * amino acids * protein function * Quita * n-grams * Bag of Words * entropy * TTR * PCA * MDS
Form, Genre	diplomové práce master's theses
UDC	(043)378.2
Country	Česko
Language	čeština
Document kind	PUBLIKAČNÍ ČINNOST
Title	Mgr.
Degree program	Navazující
Degree program	Filologie
Degreee discipline	Obecná lingvistika a teorie komunikace

book

Kvalifikační práce	Downloaded	Size	datum zpřístupnění
00224022-229605251.pdf	25	2.2 MB	21.08.2018

Posudek	Typ posudku
00224022-ved-279341662.pdf	Posudek vedoucího
00224022-opon-388674766.pdf	Posudek oponenta

Průběh obhajoby	datum zadání	datum odevzdání	datum obhajoby	přidělená hodnocení	typ hodnocení
00224022-prubeh-181542931.pdf	16.05.2017	21.08.2018	03.09.2018	1	Hodnocení známkou

Resumé
Citace PRO

Cílem této práce je experimentální popis charakteristických znaků genetického textu proteinů. Řešení tohoto problému vyžaduje stanovení výchozí typologie proteinů na základě vhodně zvolené proteomeické literatury, v tomto případě se jedná o proteiny klasifikované podle biologické funkce. Dalším krokem bylo shromáždění dostatečného množství vzorků, které pocházejí z databáze Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) a jejich anotace. Data jsou zpracována kvantitativně lingvistickou analýzou pomocí programu Quantitative Index Text Analyzer (Quita), s jehož pomocí jsou sledovány n-gramy stringů a jejich projevy v modelu Bag of Words. Jednotlivé typy stringů jsou analyzovány ve skupinách s podobnou délkou tak, aby byl zohledněn vliv délky na jednotlivé lingvistické metriky, přičemž pro zajištění přesnějších výsledků je v analýze použita kosinovská vzdálenost. Analýza pracuje s vybranými indexy kvantitativní lingvistiky a zaměřuje se zejména na entropii, type token ratio, repeat rate atd. Jednotlivé lingvistické metriky dále slouží jako vlastnosti textu v data miningové analýze (Hclust, PCA, MDS atd.).The purpose of this experimental master theses is to describe a characteristics of genetic text of protein. To solve this problem, it is necessary to determine typology of protein based on chosen proteomic literature, in this case the classification is based on thein biological function. Next step was to gather appropriate number of protein samples using the database Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) and annotate the data. Obtained data are processed by quantitative linguistics analysis via Quantitative Index Text Analyzer (Quita) software. The analysis looks at n-grmas of protein strings and their demonstration shown Bag of Words model. The individual types of strings are analyzed in groups classified by lenght of single linguistics metrics and to ensure the most accurate outcome, the cosine distance is used. This analysis focuses especially on chosen indicies of quantitative linguistic, such as entropy, type token ratio, repeat rate etc. Single linguistics metrics than serve as features of the text in data mining analysis (Hclust, PCA, MDS).

citace PRO

Number of the records: 1