molbiol.ru -> Причиной 65% онкологии являются случайные мутациии (Статья в Science)

> Все форумы > Тематические форумы > Биофизика и матметоды в биологии

Zbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ

Правила FAQ* Поиск* Участники* Календарь* Избранные темы* Форум Форумов*

Темы за 24 часа [ Вход* | Регистрация* ]

Форум:

* Причиной 65% онкологии являются случайные мутациии (Статья в Science) -- Критика статьи в блогах очень жесткая --
Чёрный список: гости
NB! в теме нельзя обсуждать тех, кто внесён в чёрный список
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* [ Схема ] · Стандартный · +Перв.сообщ.

molecbiolog

03.01.2015 14:35

URL #1

В журнале Science опубликована статья, где ученые обнаружили корреляцию между вероятностью возникновения опухоли в данном органе и суммарным числом делений стволовых клеток данного органа. Корреляция равна r=0.81. После чего авторы возвели это число в квадрат, получили 0.65, и интерпретируют эту цифру как доля всех случаев онкологии вызванных случайными мутациями (а не образом жизни, курением, радиацией и.т.д.)

http://news.sciencemag.org/biology/2015/01...et-cancer?rss=1

Некоторые ученые, однако, указывают на грубые ошибки в данной статье. http://ameyer.me/science/2015/01/02/vogel.html

Речь идет о простейшей математике. В частности, о том, что если корреляцию считать для двух переменных построенных на графике в логарифмическом масштабе, то это не эквивалентно обычной корреляции.

Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо).

Сообщение было отредактировано molecbiolog - 03.01.2015 14:57

Поблагодарили (1): Priamo

Ответы

Den-N
Постоянный участник

09.01.2015 19:15

URL #2

(molecbiolog @ 03.01.2015 17:35)

Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо).

Насчёт "детально" - нет, но опыт есть.
1) Коэффициент корреляции в квадрате, как уже указывалось выше - коэффициент детерминации. Это - стандартный показатель качества подгонки модели в регрессионном анализе, поэтому с ним всё в порядке. Обычно он интерпретируется как доля дисперсии, объясняемая зависимостью у от х. В действительности это доля общей дисперсии, т.к. R² регрессии "у по х" и "х по у" совпадают, хотя соответствующие регрессии различны. Интерпретация авторов логичная.

2) С логарифмированием сложнее. Сама природа данных, процессов, которые их порождают могут быть такими, что нормального распределения быть не может. Например, даже чисто теоретически необоснованно ждать нормального распределения от площади: т.к. при увеличении длины и ширины на 1 ед., площадь увеличится на 1 ед², при увеличении на 2 - на 4, при увеличении на 3 - на 9 и т.д. Т.е. при варьировании по нормальному закону длины и ширины, в распределении соответствующих площадей появится положительная асимметрия - хвост справа будет длиннее. А вот для квадратного корня из площади ждать нормального распределения логично, т.е. для площадей показателем более "отвечающим природе данных" будет квадратный корень из неё. Аналогично, для объёмов это будет кубический корень. Для многих же процессов в природе такой функцией является логарифм (почитайте про логнормальное распределение). Это все скорости, процессы во времени, активности, концентрации, численности организмов и многое другое. К сожалению, необходимость логарифмирования не всегда очевидна и здесь возможны некие ошибки анализа, порождаемые так называемым "эффектом шкалы", поскольку разные статистические техники по-разному обрабатывают шкалы. Чтобы избежать таких ошибок я всегда смотрю исходные распределения, остатки регресии, распределения главных компонент - чтобы обнаружить возможную асимметрию и либо (1) бороться с ней преобразованием исходных данных, либо (2) использовать более устойчивые техники, например, ранговые.
Применительно к обсуждаемым данным логарифмирование видится мне вполне удачной процедурой приближения к "внутренней природе данных". Например, ранговая корреляция Спирмена и для исходных, и для логарифмированных данных r_s=0,809; р=3,6 х 10^-8, т.е. связь достаточно сильная и значимая. Корреляция Пирсона для исходных данных r=0,533; р=0,002, для логарифмированных - r=0,804, р=5,1 х 10^-8. Т.е. логарифмирование дало практически ту же корреляцию, что и ранговый метод (+ при желании есть возможность работать с этими данными параметрическими техниками).

3) Можно попробовать сделать такое преобразование исходных данных, чтобы распределения х и у стали настолько нормальными, насколько это только возможно (с двумерным нормальным возиться не стал, можно, но сложнее). Для этого сделал преобразование Бокса-Кокса отдельно для х и у. Параметр лямбда для x=0,038, для у=-0,013, т.е. оба очень близки к 0, что указывает на то, что если выбирать для этих данных какое-либо жёсткое преобразование, то это будет логарифм, т.е. исходные распределения более близки к логнормальным. Т.е. с преобразованием логарифма авторы угадали.

4) Посмотрел распределения логарифмированных и преобразованных по Боксу-Коксу данных. Они были похожи, поэтому на рис. оставил только Бокса-Кокса. Настораживает возможная бимодальность. Если это так, то наблюдаемая корреляция может быть артефактом парадокса Симпсона (парадокса объединений). Смысл - в данных, например, может быть 2 группы с нулевой или даже отрицательной корреляцией (как на этом рисунке: http://www.frontiersin.org/files/Articles/...-00513-g001.jpg ), которые вместе дают положительную. Проблема в том, что мы не знаем однородны данные или нет, вдруг авторы не учли какой-нибудь источник неоднородности, а кластеры расположены очень близко. Поэтому построил график двумерной плотности распределения в пакете ks (среда R) по образцу отсюда: http://en.wikipedia.org/wiki/Multivariate_...sity_estimation (см. нижний рис). Видно, что оба преобразования дают сходную картину, для Бокса-Кокса она даже чётче. Т.е. у меня есть основания предполагать, что данные неоднородны и состоят из 2 подгрупп опухолей (определить их принадлежность можно по картинкам). Т.е. это не я назначил 2 группы, так плотность распределилась сама! Однако внутри каждой группы корреляция не менее сильная (если не более, лень возиться с разделёнными группами), чем в общей выборке и совпадает по направлению связи.

5) Мой вердикт: гипотеза авторов интересная и вполне обоснованная; обсуждать полезно, нужно далее проверять. Если в действительности данные авторов состоят из двух подгрупп опухолей, то им повезло: связь всё равно есть и такая-же, а не является артефактом парадокса Симпсона.

PS > PS2004R Благодарю за цифры, интересно покрутить оказалось. Чем оцифровывали график?

Сообщение было отредактировано Den-N - 09.01.2015 19:49

Картинки:
картинка: cancer1.png

cancer1.png — (307.01к)

Поблагодарили (2): molecbiolog, amaxa

Сообщения этой темы

molecbiolog Причиной 65% онкологии являются случайные мутациии (Статья в Science) 03.01.2015 14:35

Esya а мне их вывод кажется интуитивно правильным, и им... 03.01.2015 16:22

Esya имхо, мальчег (по ссылке) слишком рано начал ... 03.01.2015 16:30

molecbiolog Я тоже так подумал :) Но обратите внимание, что ... 03.01.2015 17:41

Esya вот и хорошо для журнала, много ссылок будет :) 03.01.2015 18:04

Guest Да уж для рака легких некурящих и курящих число де... 03.01.2015 17:39

molecbiolog Еще один вопросик хотелось бы добавить, насчет о... 03.01.2015 17:44

Guest Если построить не в логарифимческом масштабе то бу... 03.01.2015 17:50

igm В статье проведен вполне корректный анализ: 1) Воз... 03.01.2015 18:03

Guest "Pretty much anything complex plotted log-log... 03.01.2015 18:32

Guest http://www.tylervigen.com/ 03.01.2015 18:34

Guest http://www.technologyreview.com/view/51378...origi... 04.01.2015 19:09

PS2004R рациональнее посчитать регрессию и r^2 для неё PS... 05.01.2015 00:40

Nastja Скоро будет важно не то, сколько на статью ссылок ... 07.01.2015 21:38

PS2004R Ну поскольку действительно пока никаких оснований ... 08.01.2015 19:21

Guest Вы не могли бы пояснить Ваш расчет? Получается, ... 09.01.2015 00:43

Guest RE: Причиной 65% онкологии являются случайные мутациии (Статья в Science) 09.01.2015 00:44

PS2004R 1) не корреляция, а доля объясняемой вариации 2... 09.01.2015 10:29

Den-N Насчёт "детально" - нет, но опыт есть. ... 09.01.2015 19:15

PS2004R 1) Таблица выкушена из pdf вспомогательных материа... 09.01.2015 21:00

Den-N Когда начинаю думать в числах и долях - начинаю п... 09.01.2015 22:35

Aglaya Не надо метить спамом посты, таковыми не являющиес... 17.01.2015 15:57

redomonayalga а мутации откуда ? ... так что пишите сразу первои... 22.01.2015 13:32

Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.

Имя:

Отправка сообщений использует JavaScript операции. В вашем броузере не
установлено/отключено выполнение JavaScript программ. Используйте Netscape Navigator
или Internet Explorer (не ранее 3 версии); убедитесь, что выполнение JavaScript
программ разрешено в настройках вашего броузера.