Важным моментом является то, что мы предполагаем (а обычно так и есть), что большая часть генов действительно не изменила своей экспрессии и отклоняется от некоторого среднего уровня только случайно или из-за погрешностей в измерении и поэтому правомерно использовать значения как некоторую “кучу” из которой можно брать случайные значения, характерные для экспрессии генов в данном эксперименте. Хотя количество данных в строке может быть каким угодно, но чем больше значений, тем достовернее результаты теста. При анализе данных, в которых для каждого объекта есть всего одно измерении экспрессии, тест вырождается в простое ранжирование объектов и выборе в качестве изменивших свою экспрессию объектов с большими значениями экспрессии.
В качестве BV можно выбирать, например 1 (когда данные уже представляют собой отношение паталогии к норме), уровень экспрессии в норме (для каждого объекта выбирается своё BV), усредненная экспрессия контрольной группы или средняя экспрессия самого гена (тогда исследуется отклонения гена от его среднего сзначения).
Минусом метода является относительно большая вычислительная сложность: . Плюсами - робастность, гибкость, возможность анализировать таблицы с разным числом значений для разных проб, в том числе и равных 1 (это важно т.к. часто микрочиповые таблицы содержат пропущенные значения) а также возможность проведения мета-анализа. Кроме того, в отличие от статистики Стьюдента, гипергеометрический тест использует информацию не только о средних значениях. Робастность метода заключается в устойчивости к случайным выбросам в данных, гипергеометрический метод учитывает все данные при обработке каждого отдельного гена. В этих данных неизбежно присутствует некоторое количество выбросов связанных с допущенными ошибками в эксперименте. В связи с этим вероятность того что в наугад выбранной строке будет, например, один выброс довольно высока.
Мета-анализ
Часто бывает нужно проанализировать сразу несколько разнотипных микрочиповых таблицы, например, для больных разными типами рака или для экспериментов, проведенных в разных лабораториях. С целью выявления некоторых общих тенденций и наиболее устойчивых факторов. Результаты такого анализа являются более общими, содержат меньше информации, но в то же время более обобщенные и надежные. Кроме того, объектами в микрочиповых таблицах часто являются не сами гены, а их участки и, таким образом несколько объектов могут соответствовать одному и тому же гену. В таком случае после анализа мы получаем несколько скоров для одного гена, а нам необходимо принять одно решение для гена - либо он повысил свою экспрессию, либо понизил, либо не изменил. Для этих целей, в частности и был разработан гипергеометрический тест, т.к. он позволяет проводить мета-анализ.
В качестве входных данных мы имеем несколько микрочиповых таблиц . Ключами в которых являются объекты, а значениями - замеры экспрессии для них.
Проводится гипергеометрический анализ каждой таблицы отдельно.
На выходе для каждой имеем таблицу .
Для каждого исследованного объекта с помощью баз данных находим соответствующий ему ген. И объединяем все полученные таблицы в одну. Ключами в ней служат уже гены, а значениями - скоры полученные в разных таблицах либо в одной и той же таблице для разных участков данного гена.
Перейти на страницу: 1 2 3 4
|