Изследванията по проекта са насочени към разработване, усъвършенстване и валидиране на различни подходи за анализ на големи масиви от секвенционни данни с помощта на методи и алгоритми за класификационен анализ, клъстерен анализ, търсене и извличане на закономерности от данни. Основна цел на проекта е усъвършенстването на използвани в практиката и разработването на нови методи за анализ на големи масиви секвенционни данни и извличане на закономерности от тях.
Работата по проекта обхваща две основни направления на изследване: предварителна подготовка и анализ на големи масиви от секвенционни данни и последващо търсене, клъстеризация и отстраняване на грешки с цел извличане на закономерности, в което се състои и целта на изпозлването на технологиите за паралелно секвениране в съвременните медико-биологични изследвания.
Цялостният анализ на големи масиви от секвенционни данни включва няколко етапа, като: откриване на грешки, асемблиране, съпоставяне, откриване на структурни варианти, анотиране и валидиране на получените резултати.
Асемблирането на големи масиви от секвенционни данни се основава предимно на търсене на оптимални Ойлерови пътища в свързани ориентирани графи, докато методите, свързани със съпоставянето на вече асемблирани фрагменти, се основават на използването на различни методи за определяне на разстояния между символни низове и статистическо оценяване.
Откриването на структурни варианти в големи масиви от секвенционни данни и тяхното функционално анотиране е дейността с най-голямо предизвикателство от методична гледна точка в изпълнението на проекта, особено що се отнася до използването на подходящи алгоритми за машинно самообучение.
Получените резултати ще представят нови знания относно функционалните характеристики на анализирана секвенционна информация.