Number of the records: 1
Lingvistická analýza v typologii proteinů
Title statement Lingvistická analýza v typologii proteinů [rukopis] / Johana Lukovská Additional Variant Titles Lingvistická analýza v typologii proteinů Personal name Lukovská, Johana (dissertant) Translated title Linguistic analysis in the typology of proteins Issue data 2018 Phys.des. 116 s. (170 980) : grafy + 0 Note Ved. práce Dan Faltýnek Oponent Lukáš Zámečník Another responsib. Faltýnek, Dan, 1980- (thesis advisor) Zámečník, Lukáš (opponent) Another responsib. Univerzita Palackého. Katedra obecné lingvistiky (degree grantor) Keywords protein * klasifikace * typologie proteinů * aminokyseliny * funkce proteinů * Quita * Bag of Words * n-gramy * entropie * TTR * PCA * MDS * protein * typology of protein * amino acids * protein function * Quita * n-grams * Bag of Words * entropy * TTR * PCA * MDS Form, Genre diplomové práce master's theses UDC (043)378.2 Country Česko Language čeština Document kind PUBLIKAČNÍ ČINNOST Title Mgr. Degree program Navazující Degree program Filologie Degreee discipline Obecná lingvistika a teorie komunikace book
Kvalifikační práce Downloaded Size datum zpřístupnění 00224022-229605251.pdf 25 2.2 MB 21.08.2018 Posudek Typ posudku 00224022-ved-279341662.pdf Posudek vedoucího 00224022-opon-388674766.pdf Posudek oponenta Průběh obhajoby datum zadání datum odevzdání datum obhajoby přidělená hodnocení typ hodnocení 00224022-prubeh-181542931.pdf 16.05.2017 21.08.2018 03.09.2018 1 Hodnocení známkou
Cílem této práce je experimentální popis charakteristických znaků genetického textu proteinů. Řešení tohoto problému vyžaduje stanovení výchozí typologie proteinů na základě vhodně zvolené proteomeické literatury, v tomto případě se jedná o proteiny klasifikované podle biologické funkce. Dalším krokem bylo shromáždění dostatečného množství vzorků, které pocházejí z databáze Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) a jejich anotace. Data jsou zpracována kvantitativně lingvistickou analýzou pomocí programu Quantitative Index Text Analyzer (Quita), s jehož pomocí jsou sledovány n-gramy stringů a jejich projevy v modelu Bag of Words. Jednotlivé typy stringů jsou analyzovány ve skupinách s podobnou délkou tak, aby byl zohledněn vliv délky na jednotlivé lingvistické metriky, přičemž pro zajištění přesnějších výsledků je v analýze použita kosinovská vzdálenost. Analýza pracuje s vybranými indexy kvantitativní lingvistiky a zaměřuje se zejména na entropii, type token ratio, repeat rate atd. Jednotlivé lingvistické metriky dále slouží jako vlastnosti textu v data miningové analýze (Hclust, PCA, MDS atd.).The purpose of this experimental master theses is to describe a characteristics of genetic text of protein. To solve this problem, it is necessary to determine typology of protein based on chosen proteomic literature, in this case the classification is based on thein biological function. Next step was to gather appropriate number of protein samples using the database Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) and annotate the data. Obtained data are processed by quantitative linguistics analysis via Quantitative Index Text Analyzer (Quita) software. The analysis looks at n-grmas of protein strings and their demonstration shown Bag of Words model. The individual types of strings are analyzed in groups classified by lenght of single linguistics metrics and to ensure the most accurate outcome, the cosine distance is used. This analysis focuses especially on chosen indicies of quantitative linguistic, such as entropy, type token ratio, repeat rate etc. Single linguistics metrics than serve as features of the text in data mining analysis (Hclust, PCA, MDS).
Number of the records: 1