Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
molecbiolog |
В журнале Science опубликована Некоторые ученые, однако, указывают на грубые ошибки в данной статье. Речь идет о простейшей математике. В частности, о том, что если корреляцию считать для двух переменных построенных на графике в логарифмическом масштабе, то это не эквивалентно обычной корреляции. Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо). Сообщение было отредактировано molecbiolog - 03.01.2015 14:57
|
Den-N Постоянный участник |
(molecbiolog @ 03.01.2015 17:35) Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо). Насчёт "детально" - нет, но опыт есть. 1) Коэффициент корреляции в квадрате, как уже указывалось выше - коэффициент детерминации. Это - стандартный показатель качества подгонки модели в регрессионном анализе, поэтому с ним всё в порядке. Обычно он интерпретируется как доля дисперсии, объясняемая зависимостью у от х. В действительности это доля общей дисперсии, т.к. R2 регрессии "у по х" и "х по у" совпадают, хотя соответствующие регрессии различны. Интерпретация авторов логичная. 2) С логарифмированием сложнее. Сама природа данных, процессов, которые их порождают могут быть такими, что нормального распределения быть не может. Например, даже чисто теоретически необоснованно ждать нормального распределения от площади: т.к. при увеличении длины и ширины на 1 ед., площадь увеличится на 1 ед2, при увеличении на 2 - на 4, при увеличении на 3 - на 9 и т.д. Т.е. при варьировании по нормальному закону длины и ширины, в распределении соответствующих площадей появится положительная асимметрия - хвост справа будет длиннее. А вот для квадратного корня из площади ждать нормального распределения логично, т.е. для площадей показателем более "отвечающим природе данных" будет квадратный корень из неё. Аналогично, для объёмов это будет кубический корень. Для многих же процессов в природе такой функцией является логарифм (почитайте про логнормальное распределение). Это все скорости, процессы во времени, активности, концентрации, численности организмов и многое другое. К сожалению, необходимость логарифмирования не всегда очевидна и здесь возможны некие ошибки анализа, порождаемые так называемым "эффектом шкалы", поскольку разные статистические техники по-разному обрабатывают шкалы. Чтобы избежать таких ошибок я всегда смотрю исходные распределения, остатки регресии, распределения главных компонент - чтобы обнаружить возможную асимметрию и либо (1) бороться с ней преобразованием исходных данных, либо (2) использовать более устойчивые техники, например, ранговые. Применительно к обсуждаемым данным логарифмирование видится мне вполне удачной процедурой приближения к "внутренней природе данных". Например, ранговая корреляция Спирмена и для исходных, и для логарифмированных данных rs=0,809; р=3,6 х 10-8, т.е. связь достаточно сильная и значимая. Корреляция Пирсона для исходных данных r=0,533; р=0,002, для логарифмированных - r=0,804, р=5,1 х 10-8. Т.е. логарифмирование дало практически ту же корреляцию, что и ранговый метод (+ при желании есть возможность работать с этими данными параметрическими техниками). 3) Можно попробовать сделать такое преобразование исходных данных, чтобы распределения х и у стали настолько нормальными, насколько это только возможно (с двумерным нормальным возиться не стал, можно, но сложнее). Для этого сделал преобразование Бокса-Кокса отдельно для х и у. Параметр лямбда для x=0,038, для у=-0,013, т.е. оба очень близки к 0, что указывает на то, что если выбирать для этих данных какое-либо жёсткое преобразование, то это будет логарифм, т.е. исходные распределения более близки к логнормальным. Т.е. с преобразованием логарифма авторы угадали. 4) Посмотрел распределения логарифмированных и преобразованных по Боксу-Коксу данных. Они были похожи, поэтому на рис. оставил только Бокса-Кокса. Настораживает возможная бимодальность. Если это так, то наблюдаемая корреляция может быть артефактом парадокса Симпсона (парадокса объединений). Смысл - в данных, например, может быть 2 группы с нулевой или даже отрицательной корреляцией (как на этом рисунке: 5) Мой вердикт: гипотеза авторов интересная и вполне обоснованная; обсуждать полезно, нужно далее проверять. Если в действительности данные авторов состоят из двух подгрупп опухолей, то им повезло: связь всё равно есть и такая-же, а не является артефактом парадокса Симпсона. PS > PS2004R Благодарю за цифры, интересно покрутить оказалось. Чем оцифровывали график? Сообщение было отредактировано Den-N - 09.01.2015 19:49 Картинки: cancer1.png — (307.01к)
|