Методология

От методологическа гледна точка изследванията по проекта могат да бъдат обособени в две основни направления:

  1. Елиминиране на грешките в секвенционни данни и откриване на други структурни варианти
    • Ще бъдат разработени и използвани методи за числова оценка на грешките при данни, получени от хетерогенна среда. Тези методи ще използват разширена честота на срещане, претеглена на основата на сходството между двойките елементи от множеството данни. Ще бъдат разработени различни модификации – основани на локална функция за сходство при силно вариращи метагеномни данни с дълги прочити или основани на глобална експоненциално намаляваща функция на сходство при изследване на полиплоидни геноми.
    • Ще бъдат използван апаратът на невронните мрежи за откриване на грешки в използваните множества от данни и справяне с естествената вариация, като невронната мрежа ще бъде моделирана да приема входни данни, класифицирани на базата на отделните различия между двойките прочити в секвенционните данни.
    • Ще бъде приложен апаратът на размитите множества при използване на оценките за грешки при работните данни, където голямата степен на вариация намалява достоверността на оценките и затруднява директното им приложение.
    • Усъвършенстваната схема за откриване на грешките ще бъде използвана, за да се премахне нуждата от долен праг при търсенето на структурни варианти като единични мутации, чието съществуване е проблем при наличие на множество сходни прочити, какъвто е случаят при метагеномните данни и полиплоидни геноми.
    • Ще бъдат разработени оригинални подходи за индиректна валидация на методите за различаване на грешки от други структурни варианти при данни с висока вариация, основани на симулация на грешки на базата на статистически профили на грешките, получени при секвениране на данни с ниска вариация.
    • На базата на статистическите оценки, получени след картирането на прочити, ще бъдат разработени евристични подходи за изчисление на променливи прагове, разграничаващи отделните структурни варианти на базата на вероятностните оценки за принадлежност към различни подгеноми при изследването на сложни полиплоидни геноми.
  2. Интелигентни методи за изследване на данните от първоначалния анализ
    • Откритите единични мутации ще бъдат анотирани автоматично и ще бъдат съпоставени със съществуващи анотации за сходни видове с цел извличане на знания за потенциални връзки тях.
    • Ще бъде извършен анализ на експресията на гени на различните стадии на развитие на изследваните видове и резултатите ще бъдат съпоставени статистически с тези за други видове.
    • Ще бъдат изследвани закономерностите, които се откриват в резултатите от предсказване на единичните мутации, статистическите данни за генната експресия, междувидовото съпоставяне.
    • Ще бъде извършен еволюционен анализ набазата на йерархично клъстериране върху филогенетични дървета на гени при различни растителни видове. Ще бъде извършено евристично оценяване на гените, които са отговорни за проявата на определени свойства.
    • На базата на научните хипотези за еволюцията на функционалните различия, свързани с определен важен биологичен признак като фотосинтезата, ще бъде изграден евристичен метод за изследване на закономерностите във филогенетичните дървета на релевантните гени, получени след йерархично клъстериране.
    • Ще бъде извършено автоматизирано функционално анотиране на гени, като те ще бъдат картирани към различни уеб достъпни онтологии, откъдето ще бъдат извлечени знания за тяхната функция, след което получените знания ще бъдат разширени, използвайки статистически профили на генната експресия, както и еволюционен анализ (йерархично клъстериране и оценка на сходството на разстоянията).
© Valeriya Simeonova 2015