Задача выявления генов изменивших свою экспрессию вследствие некоего воздействия либо в течение клеточного цикла очень важна, т.к. позволяет выявить например последствия приема того или иного лекарства или отобрать гены с отличающимся поведением для последующего анализа. Перед тем как начинать строить зависимости между генами необходимо отобрать те из них, которые нас интересуют, а именно гены, изменившие свою экспрессию. Т.к. работать с целым списком (обычно порядка 40000 клонов) слишком трудоемко и к тому же бессмысленно. Опишем те методы, которые были реализованы в плагине и использовались для анализа.
Напомним, что исходными данными являются матрицы значений экспрессии генов:
Строка соответствует отдельной пробе (гену, либо его участку).
- экспрессия i-той пробы в условиях эксперимента j. Основными типами данных являются повременные замеры экспрессии ( - экспрессия в момент времени ) и замеры у разных пациентов ( - экспрессия у j-того пациента).
Задача ставится следующим образом: необходимо выделить из общей группы те пробы, которые значимо изменили свою экспрессию либо с течением клеточного цикла, либо в результате воздействия на пациентов. Часто данные представляют собой отношение экспрессии объекта у пациента к экспрессии данного объекта в норме.
В этом случае задача сводится к выявлению того, насколько значимо отклоняется от единицы в ту или иную сторону.
В противном случае приходится сравнивать экспрессию пробы в исследуемой ткани с экспрессией у некоторой контрольной группы, например в качестве этой группы может браться экспрессия той же пробы, но в нулевой момент времени. В этом случае необходимо сравнить насколько значимо различаются данные нам значения и .
Решать эту задачу будем с точки зрения статистического подхода. При этом проба рассматривается как случайная величина.
Замер экспрессии у j-того пациента, соответственно - реализация случайной величины.
В случае повременных замеров имеем случайный процесс:
Таким образом, мы имеем в качестве исходных данных выборки для некоторых случайных величин с неизвестным распределением. Требуется либо сравнить значения в выборке с некоторым фиксированным значением
(
либо сравнить экспрессию в норме и патологии, при этом нужно иметь несколько реализаций объекта в норме для успешного статистического анализа. Т.е. здесь сравниваются две выборки, и оценивается различие между ними. Рассмотрим некоторые стандартные методы, которые могут применяться к этой задаче.
Перейти на страницу: 1 2 3 4
|