Модели тестировались на данных по генной экспрессии дрожжей [14], доступных по адресу <http://www.csie.ntu.edu.tw/~b89x035/yeast/>. Были выбраны именно эти данные для сравнения с результатами, полученными в статье [12]. Данные представляют собой замеры экспрессии по времени с интервалом в 7 минут, всего 18 замеров, первый в точке 0 минут, последний в точке 119 минут. Пропущенные в таблице значения восстанавливались с помощью сглаживания коридорным сплайном. Всего генов мишеней - 5943, из них потенциальных генов-регуляторов - 217.
В ходе работы строились линейные модели со следующими параметрами:
Варианты сглаживания: коридорный сплайн с ошибками 0.01 и 0.05, ядерное сглаживание с размерами окон для значений самой функции и ее первой производной и , сплайн с постоянным весом.
Целевая функция: коэффициент детерминации регрессии и среднеквадратичное отклонение интеграла правой части от исходных данных.
Метод интегрирования: алгоритм Дорманда-Принца.
Кроме того, строилась стохастическая модель для 1 регулятора.
Следует отметить, что, в отобранных потенциальных генах-регуляторах достаточно много генов регуляторов с сильно коррелирующими профилями экспрессии. На рисунках 11,12 приведены наиболее сильно коррелированные профили потенциальных генов-регуляторов. Это сильно осложнило анализ, так как уже при небольших изменениях параметров, модель выбирала другой регулятор в качестве лучшего. В таблице 5 приведено количество одинаковых отобранных регуляторов при различных вариантах реализации линейной модели (из общего числа - 5943).
Таблица 5
Количество совпавших регуляторов при разных методах сглаживания |
Ядро (7,15) |
Ядро (8,15) |
Сплайн 0.01 |
Сплайн 0.05 |
Сплайн с постоянным весом |
Ядро (7,15) |
- |
4861 |
143 |
128 |
268 |
Ядро (8,15) |
- |
- |
158 |
146 |
288 |
Сплайн 0.01 |
- |
- |
- |
2271 |
2642 |
Сплайн 0.05 |
- |
- |
- |
- |
1821 |
Из таблицы 6 видно, что лучшие результаты по приближению производной (погрешность и качество регрессии) демонстрирует ядерное сглаживание с параметрами 8,15. Однако, завышенные скоры здесь могут свидетельствовать о сильном сглаживании производной. Лучшее приближение интеграла получается при сглаживании сплайном с постоянным весом. “Коридорный” сплайн занимает промежуточное положение. Также из таблицы 6 видно, что стохастическая модель в среднем приближает профиль экспрессии даже хуже чем линейная модель с ядерным сглаживанием и параметрами (7,15). В последней графе таблицы приведено среднее время в секундах, за которое строится приближение для одного гена с помощью одного регулятора (т.е. множество потенциальных регуляторов состояло из 1 элемента). Видно, что здесь бесспорным лидером является стохастическая модель, работающая в среднем в 10 раз быстрее линейной, это в первую очередь связано с необходимостью численно интегрировать правую часть в линейной модели.
Перейти на страницу: 1 2 3
|