Počet záznamů: 1  

Lingvistická analýza v typologii proteinů

  1. Údaje o názvuLingvistická analýza v typologii proteinů [rukopis] / Johana Lukovská
    Další variantní názvyLingvistická analýza v typologii proteinů
    Osobní jméno Lukovská, Johana (autor diplomové práce nebo disertace)
    Překl.názLinguistic analysis in the typology of proteins
    Vyd.údaje2018
    Fyz.popis116 s. (170 980) : grafy + 0
    PoznámkaVed. práce Dan Faltýnek
    Oponent Lukáš Zámečník
    Dal.odpovědnost Faltýnek, Dan, 1980- (vedoucí diplomové práce nebo disertace)
    Zámečník, Lukáš (oponent)
    Dal.odpovědnost Univerzita Palackého. Katedra obecné lingvistiky (udelovatel akademické hodnosti)
    Klíč.slova protein * klasifikace * typologie proteinů * aminokyseliny * funkce proteinů * Quita * Bag of Words * n-gramy * entropie * TTR * PCA * MDS * protein * typology of protein * amino acids * protein function * Quita * n-grams * Bag of Words * entropy * TTR * PCA * MDS
    Forma, žánr diplomové práce master's theses
    MDT (043)378.2
    Země vyd.Česko
    Jazyk dok.čeština
    Druh dok.PUBLIKAČNÍ ČINNOST
    TitulMgr.
    Studijní programNavazující
    Studijní programFilologie
    Studijní oborObecná lingvistika a teorie komunikace
    kniha

    kniha

    Kvalifikační práceStaženoVelikostdatum zpřístupnění
    00224022-229605251.pdf232.2 MB21.08.2018
    PosudekTyp posudku
    00224022-ved-279341662.pdfPosudek vedoucího
    00224022-opon-388674766.pdfPosudek oponenta
    Průběh obhajobydatum zadánídatum odevzdánídatum obhajobypřidělená hodnocenítyp hodnocení
    00224022-prubeh-181542931.pdf16.05.201721.08.201803.09.20181Hodnocení známkou

    Cílem této práce je experimentální popis charakteristických znaků genetického textu proteinů. Řešení tohoto problému vyžaduje stanovení výchozí typologie proteinů na základě vhodně zvolené proteomeické literatury, v tomto případě se jedná o proteiny klasifikované podle biologické funkce. Dalším krokem bylo shromáždění dostatečného množství vzorků, které pocházejí z databáze Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) a jejich anotace. Data jsou zpracována kvantitativně lingvistickou analýzou pomocí programu Quantitative Index Text Analyzer (Quita), s jehož pomocí jsou sledovány n-gramy stringů a jejich projevy v modelu Bag of Words. Jednotlivé typy stringů jsou analyzovány ve skupinách s podobnou délkou tak, aby byl zohledněn vliv délky na jednotlivé lingvistické metriky, přičemž pro zajištění přesnějších výsledků je v analýze použita kosinovská vzdálenost. Analýza pracuje s vybranými indexy kvantitativní lingvistiky a zaměřuje se zejména na entropii, type token ratio, repeat rate atd. Jednotlivé lingvistické metriky dále slouží jako vlastnosti textu v data miningové analýze (Hclust, PCA, MDS atd.).The purpose of this experimental master theses is to describe a characteristics of genetic text of protein. To solve this problem, it is necessary to determine typology of protein based on chosen proteomic literature, in this case the classification is based on thein biological function. Next step was to gather appropriate number of protein samples using the database Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB) and annotate the data. Obtained data are processed by quantitative linguistics analysis via Quantitative Index Text Analyzer (Quita) software. The analysis looks at n-grmas of protein strings and their demonstration shown Bag of Words model. The individual types of strings are analyzed in groups classified by lenght of single linguistics metrics and to ensure the most accurate outcome, the cosine distance is used. This analysis focuses especially on chosen indicies of quantitative linguistic, such as entropy, type token ratio, repeat rate etc. Single linguistics metrics than serve as features of the text in data mining analysis (Hclust, PCA, MDS).

Počet záznamů: 1  

  Tyto stránky využívají soubory cookies, které usnadňují jejich prohlížení. Další informace o tom jak používáme cookies.