Обзор

Бързият прогрес в развитието на новото, високопродуктивно поколение технологи за геномно секвениране в последните пет години генерира огромни масиви от данни, които се нуждаят от съхраняване, интегриране, анализ, визуализация, разпространение. Генерирането и анализът на такива данни представлява като аспект на съвременното развитие на естествените науки дял с най-голяма стойност, влияние върху фундаментални научни открития (като човешкия геном например) и бързо приложение в съвременните био и медицински изследвания Цената на свързаното с всичко това информационно обслужване заема до 80% от общата сума за секвениране и това е едно сериозно предизвикателство към съществуващите за тези цели методи, алгоритми и информационни технологии.

Oгромното количество секвенционни данни, които се генерират постоянно, значително превишава възможностите те да бъдат използвани ефективно без помощта на специализирани и мощни средства за анализ. Анализът на тези данни е многоетапен процес който има за цел да преодолее ситуация, описвана като „богата на данни, но бедна на информация”. Този процес изисква прилагане на разнообразни методи и алгоритми от различни области на математиката и информатиката. В частност, целесъобразно е използването на методи от областите “извличане на информация” и “извличане на закономерности от данни”. Като резултат се очаква да бъдат получени нови знания, съвързани с изследваните био-медицински обекти. 

Обвързаността на анализа на секвенционна информация с развитието на нови методи за извличане на закономерности е предмет на изследователска работа в световен мащаб. Използването на информационни и комуникационни технологии прави тази задача отворена, корпоративна и достъпна до различни изследователски групи. 

В България с тези проблеми се занимават от около пет години на академично ниво групата университетски преподаватели, изследователи, докторанти и студенти-магистранти, представящи настоящия проект. Резултатите на групата са отразени в повече от 30 публикации. Свидетелство за тяхното качество са международните контакти, в това число участието на групата в две COST акции: COST акцията BM 1006 (Next Generation Sequencing Data Analysis Network) и COST акцията TD 0801 (Statistical Challenges On The 1000 Euro Genome Sequences In Plants). Особен интерес в развитието на методите за анализ на секвенционни данни представлява работата на колектива – изпълнител на настоящия проект, свързана с откриване на грешки, асемблиране, сравняване, откриване на образци, анотиране и извличане на знания в специфичната предметна област.

© Valeriya Simeonova 2015