Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 


Щёлкните, чтобы внести в Избранные Темы* Причиной 65% онкологии являются случайные мутациии (Статья в Science) -- Критика статьи в блогах очень жесткая --
Чёрный список: гости
     NB! в теме нельзя обсуждать тех, кто внесён в чёрный список
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* [ Схема ] · Стандартный · +Перв.сообщ.


Участник оффлайн! molecbiolog




 прочитанное сообщение 03.01.2015 14:35     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #1 множественное цитирование

user posted image

В журнале Science опубликована статья, где ученые обнаружили корреляцию между вероятностью возникновения опухоли в данном органе и суммарным числом делений стволовых клеток данного органа. Корреляция равна r=0.81. После чего авторы возвели это число в квадрат, получили 0.65, и интерпретируют эту цифру как доля всех случаев онкологии вызванных случайными мутациями (а не образом жизни, курением, радиацией и.т.д.)

http://news.sciencemag.org/biology/2015/01...et-cancer?rss=1

Некоторые ученые, однако, указывают на грубые ошибки в данной статье. http://ameyer.me/science/2015/01/02/vogel.html

Речь идет о простейшей математике. В частности, о том, что если корреляцию считать для двух переменных построенных на графике в логарифмическом масштабе, то это не эквивалентно обычной корреляции.

Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо).

Сообщение было отредактировано molecbiolog - 03.01.2015 14:57

Всего благодарностей: 1Поблагодарили (1): Priamo
 
Добавить сообщение в темуСоздать новую темуСоздать голосование
Ответы
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 09.01.2015 19:15     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #2 множественное цитирование

(molecbiolog @ 03.01.2015 17:35)
Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо).

Насчёт "детально" - нет, но опыт есть.
1) Коэффициент корреляции в квадрате, как уже указывалось выше - коэффициент детерминации. Это - стандартный показатель качества подгонки модели в регрессионном анализе, поэтому с ним всё в порядке. Обычно он интерпретируется как доля дисперсии, объясняемая зависимостью у от х. В действительности это доля общей дисперсии, т.к. R2 регрессии "у по х" и "х по у" совпадают, хотя соответствующие регрессии различны. Интерпретация авторов логичная.

2) С логарифмированием сложнее. Сама природа данных, процессов, которые их порождают могут быть такими, что нормального распределения быть не может. Например, даже чисто теоретически необоснованно ждать нормального распределения от площади: т.к. при увеличении длины и ширины на 1 ед., площадь увеличится на 1 ед2, при увеличении на 2 - на 4, при увеличении на 3 - на 9 и т.д. Т.е. при варьировании по нормальному закону длины и ширины, в распределении соответствующих площадей появится положительная асимметрия - хвост справа будет длиннее. А вот для квадратного корня из площади ждать нормального распределения логично, т.е. для площадей показателем более "отвечающим природе данных" будет квадратный корень из неё. Аналогично, для объёмов это будет кубический корень. Для многих же процессов в природе такой функцией является логарифм (почитайте про логнормальное распределение). Это все скорости, процессы во времени, активности, концентрации, численности организмов и многое другое. К сожалению, необходимость логарифмирования не всегда очевидна и здесь возможны некие ошибки анализа, порождаемые так называемым "эффектом шкалы", поскольку разные статистические техники по-разному обрабатывают шкалы. Чтобы избежать таких ошибок я всегда смотрю исходные распределения, остатки регресии, распределения главных компонент - чтобы обнаружить возможную асимметрию и либо (1) бороться с ней преобразованием исходных данных, либо (2) использовать более устойчивые техники, например, ранговые.
Применительно к обсуждаемым данным логарифмирование видится мне вполне удачной процедурой приближения к "внутренней природе данных". Например, ранговая корреляция Спирмена и для исходных, и для логарифмированных данных rs=0,809; р=3,6 х 10-8, т.е. связь достаточно сильная и значимая. Корреляция Пирсона для исходных данных r=0,533; р=0,002, для логарифмированных - r=0,804, р=5,1 х 10-8. Т.е. логарифмирование дало практически ту же корреляцию, что и ранговый метод (+ при желании есть возможность работать с этими данными параметрическими техниками).

3) Можно попробовать сделать такое преобразование исходных данных, чтобы распределения х и у стали настолько нормальными, насколько это только возможно (с двумерным нормальным возиться не стал, можно, но сложнее). Для этого сделал преобразование Бокса-Кокса отдельно для х и у. Параметр лямбда для x=0,038, для у=-0,013, т.е. оба очень близки к 0, что указывает на то, что если выбирать для этих данных какое-либо жёсткое преобразование, то это будет логарифм, т.е. исходные распределения более близки к логнормальным. Т.е. с преобразованием логарифма авторы угадали.

4) Посмотрел распределения логарифмированных и преобразованных по Боксу-Коксу данных. Они были похожи, поэтому на рис. оставил только Бокса-Кокса. Настораживает возможная бимодальность. Если это так, то наблюдаемая корреляция может быть артефактом парадокса Симпсона (парадокса объединений). Смысл - в данных, например, может быть 2 группы с нулевой или даже отрицательной корреляцией (как на этом рисунке: http://www.frontiersin.org/files/Articles/...-00513-g001.jpg ), которые вместе дают положительную. Проблема в том, что мы не знаем однородны данные или нет, вдруг авторы не учли какой-нибудь источник неоднородности, а кластеры расположены очень близко. Поэтому построил график двумерной плотности распределения в пакете ks (среда R) по образцу отсюда: http://en.wikipedia.org/wiki/Multivariate_...sity_estimation (см. нижний рис). Видно, что оба преобразования дают сходную картину, для Бокса-Кокса она даже чётче. Т.е. у меня есть основания предполагать, что данные неоднородны и состоят из 2 подгрупп опухолей (определить их принадлежность можно по картинкам). Т.е. это не я назначил 2 группы, так плотность распределилась сама! Однако внутри каждой группы корреляция не менее сильная (если не более, лень возиться с разделёнными группами), чем в общей выборке и совпадает по направлению связи.

5) Мой вердикт: гипотеза авторов интересная и вполне обоснованная; обсуждать полезно, нужно далее проверять. Если в действительности данные авторов состоят из двух подгрупп опухолей, то им повезло: связь всё равно есть и такая-же, а не является артефактом парадокса Симпсона.

PS > PS2004R Благодарю за цифры, интересно покрутить оказалось. Чем оцифровывали график?

Сообщение было отредактировано Den-N - 09.01.2015 19:49

Картинки:
картинка: cancer1.png
cancer1.png — (307.01к)   



Всего благодарностей: 2Поблагодарили (2): molecbiolog, amaxa

Сообщения этой темы
прочитанное сообщение molecbiolog   Причиной 65% онкологии являются случайные мутациии (Статья в Science)   03.01.2015 14:35
прочитанное сообщение Esya   а мне их вывод кажется интуитивно правильным, и им...   03.01.2015 16:22
прочитанное сообщение Esya   имхо, мальчег (по ссылке) слишком рано начал ...   03.01.2015 16:30
прочитанное сообщение molecbiolog   Я тоже так подумал :) Но обратите внимание, что ...   03.01.2015 17:41
прочитанное сообщение Esya   вот и хорошо для журнала, много ссылок будет :)   03.01.2015 18:04
прочитанное сообщение Guest   Да уж для рака легких некурящих и курящих число де...   03.01.2015 17:39
прочитанное сообщение molecbiolog   Еще один вопросик хотелось бы добавить, насчет о...   03.01.2015 17:44
прочитанное сообщение Guest   Если построить не в логарифимческом масштабе то бу...   03.01.2015 17:50
прочитанное сообщение igm   В статье проведен вполне корректный анализ: 1) Воз...   03.01.2015 18:03
прочитанное сообщение Guest   "Pretty much anything complex plotted log-log...   03.01.2015 18:32
прочитанное сообщение Guest   http://www.tylervigen.com/   03.01.2015 18:34
прочитанное сообщение Guest   http://www.technologyreview.com/view/51378...origi...   04.01.2015 19:09
прочитанное сообщение PS2004R   рациональнее посчитать регрессию и r^2 для неё PS...   05.01.2015 00:40
прочитанное сообщение Nastja   Скоро будет важно не то, сколько на статью ссылок ...   07.01.2015 21:38
прочитанное сообщение PS2004R   Ну поскольку действительно пока никаких оснований ...   08.01.2015 19:21
прочитанное сообщение Guest   Вы не могли бы пояснить Ваш расчет? Получается, ...   09.01.2015 00:43
прочитанное сообщение Guest   RE: Причиной 65% онкологии являются случайные мутациии (Статья в Science)   09.01.2015 00:44
прочитанное сообщение PS2004R   1) не корреляция, а доля объясняемой вариации 2...   09.01.2015 10:29
прочитанное сообщение Den-N   Насчёт "детально" - нет, но опыт есть. ...   09.01.2015 19:15
прочитанное сообщение PS2004R   1) Таблица выкушена из pdf вспомогательных материа...   09.01.2015 21:00
прочитанное сообщение Den-N   Когда начинаю думать в числах и долях - начинаю п...   09.01.2015 22:35
прочитанное сообщение Aglaya   Не надо метить спамом посты, таковыми не являющиес...   17.01.2015 15:57
прочитанное сообщение redomonayalga   а мутации откуда ? ... так что пишите сразу первои...   22.01.2015 13:32


*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 20.04.24 05:31
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft