В ходе работы на языке программирования Java был написан плагин к бесплатно распространяющейся системе формального описания и симуляции сложных биологических систем BioUML (<http://www.biouml.org/>). Плагин представляет собой встроенную в BioUML программу по анализу данных микрочиповых экспериментов. Для начала работы необходимо импортировать микрочиповую таблицу в BioUML (папка microarray) , далее запустить плагин, выбрать вид анализа, задать все необходимые (для каждого метода анализа свои) параметры. Результат в виде таблицы вычисленных параметров (скор, коэффициенты модели ит.п.) также доступен к просмотру в BioUML (папка microarray results). Плагин разработан с возможностью легко добавлять новые методы анализа, список которых со временем пополняется. Ниже перечислены все доступные на данный момент методы анализа:
- Анализ с помощью статистики Стьюдента.
- Анализ с помощью статистики Вилкоксона
- Анализ с помощью теста Лемана-Розенблатта.
- Анализ с помощью теста Колмогорова-Смирнова.
- Гипергеометрический тест.
- Мета анализ с помощью гипергеометрического теста.
- Анализ с помощью множественной регрессии.
- Построение линейной модели регуляции.
- Построение стохастической модели регуляции.
Программа имеет унифицированный для всех методов анализа пользовательский интерфейс, представленный на рисунке в приложении 1. Слева вверху находится выпадающий список для переключения между различными методами. Ниже находится окно с набором параметров (своим для каждого метода). Справа - описание текущего метода анализа. Под окном параметров - полоса прогресса, отражающая степень законченности анализа. Под ней динамически выводится информация о начале нового анализа, о возникших в процессе ошибках, либо успешном завершении анализа. Справа под описанием выводится java-script код для данного метода с текущими параметрами. Все методы также допускают запуск напрямую через консоль BioUML с помощью java-script кода.
Кроме того, плагин позволяет проводить корреляционный анализ данных, а так же пересекать таблицы данных. Доступны левое, правое, включающее и исключающее пересечения.
ЗАКЛЮЧЕНИЕ
Реконструкция генных сетей на основе микрочиповых данных - глобальная и сложная задача, на данный момент не существует однозначных методов ее решения. Возможным подходом является комбинирование различных моделей, однако решать какая модель адекватнее можно только исходя из биологических или эксперементальных соображений. В данной работе рассматриваются методы, включающие статистический анализ микрочиповых таблиц и модели регуляции с помощью дифференциальных уравнений. Статистический метод разработан специально для анализа данных микрочиповых экспериментов и уже зарекомендовал себя, как достаточно надежный. В качестве моделей регуляции рассмотрена самая простая линейная модель с задержкой и взятая из литературы стохастическая. Модели регуляции рассмотрены исключительно с математической точки зрения, конечно для полноценного анализа необходимо также привлечение биологии.
Основные результаты
. Рассмотрены стандартные статистические методы, применительно к данной задаче. Предложен гипергеометрический алгоритм, разработанный специально для анализа микрочиповых экспериментов.
2. Рассмотрены модели регуляции генной экспрессии, предложена простая линейная модель, исследованы варианты реализации модели - различные методы сглаживания дискретных профилей.
. Проведен анализ конкретных данных с помощью предложенных методов.
. Все описанные методы реализованы в программу для анализа данных микрочиповых экспериментов, которая встроена в систему BioUML.
ПРИЛОЖЕНИЕ 1
ПРИЛОЖЕНИЕ 2
Ниже приведены графики для построенных линейной и стохастической моделей. Отобраны 6 лучших приближений профиля экспрессии среди всех построенных с помощью линейной модели, для этих случаев построены приближения стохастическим алгоритмом.
Везде ниже на графиках, если не указано иное:
|