Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 

Щёлкните, чтобы внести в Избранные Темы* Причиной 65% онкологии являются случайные мутациии (Статья в Science) -- Критика статьи в блогах очень жесткая --
Чёрный список: гости
     NB! в теме нельзя обсуждать тех, кто внесён в чёрный список
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.


 
Добавить сообщение в темуСоздать новую темуСоздать голосование
Участник оффлайн! molecbiolog




 прочитанное сообщение 03.01.2015 14:35     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #1 множественное цитирование

user posted image

В журнале Science опубликована статья, где ученые обнаружили корреляцию между вероятностью возникновения опухоли в данном органе и суммарным числом делений стволовых клеток данного органа. Корреляция равна r=0.81. После чего авторы возвели это число в квадрат, получили 0.65, и интерпретируют эту цифру как доля всех случаев онкологии вызванных случайными мутациями (а не образом жизни, курением, радиацией и.т.д.)

http://news.sciencemag.org/biology/2015/01...et-cancer?rss=1

Некоторые ученые, однако, указывают на грубые ошибки в данной статье. http://ameyer.me/science/2015/01/02/vogel.html

Речь идет о простейшей математике. В частности, о том, что если корреляцию считать для двух переменных построенных на графике в логарифмическом масштабе, то это не эквивалентно обычной корреляции.

Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо).

Сообщение было отредактировано molecbiolog - 03.01.2015 14:57

Всего благодарностей: 1Поблагодарили (1): Priamo
Участник оффлайн! Esya
Постоянный участник
PA, USA



 прочитанное сообщение 03.01.2015 16:22     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес  ICQ
Цитировать Поместить сообщение в колонку новостей  URL #2 множественное цитирование

а мне их вывод кажется интуитивно правильным, и именно в том, что их теперь будут проверять и перепроверять - важность статьи
Участник оффлайн! Esya
Постоянный участник
PA, USA



 прочитанное сообщение 03.01.2015 16:30     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес  ICQ
Цитировать Поместить сообщение в колонку новостей  URL #3 множественное цитирование

имхо, мальчег (по ссылке) слишком рано начал "щелкать клювом", это может легко обернуться и против него
я тоже про некоторых классиков жанров (> 500 статей) думаю, что они неумны и хитрожопы, но молчу - где я, и где они smile.gif

Всего благодарностей: 1Поблагодарили (1): NMR-guy
Guest
IP-штамп: frVBAudIJ3u/A
гость



 прочитанное сообщение 03.01.2015 17:39     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #4 множественное цитирование

Да уж для рака легких некурящих и курящих число делений ск однинаково, а вот риск почти на порядок одличается, а для рака поджелудки с таким же числом делений на более чем 2 порядка, какая тут корреляция?
Участник оффлайн! molecbiolog




 прочитанное сообщение 03.01.2015 17:41     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #5 множественное цитирование

(Esya @ 03.01.2015 17:30)
Ссылка на исходное сообщение  имхо, мальчег (по ссылке) слишком рано начал "щелкать клювом", это может легко обернуться и против него


Я тоже так подумал smile.gif Но обратите внимание, что в анонимных комментах под статьей в Sciencemag много аналогичной критики. http://news.sciencemag.org/biology/2015/01...et-cancer?rss=1

Сообщение было отредактировано molecbiolog - 03.01.2015 17:45
Участник оффлайн! molecbiolog




 прочитанное сообщение 03.01.2015 17:44     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #6 множественное цитирование

(molecbiolog @ 03.01.2015 15:35)
Ссылка на исходное сообщение  Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба".


Еще один вопросик хотелось бы добавить, насчет оценки числа стволовых клеток в данном органе, эта часть статьи вопросов не вызывает?
Guest
IP-штамп: frVBAudIJ3u/A
гость



 прочитанное сообщение 03.01.2015 17:50     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #7 множественное цитирование

Если построить не в логарифимческом масштабе то будет облако: для одной величины делений ск риски оличаются на 3-4 порядка! Наука очередной раз продемострировала свою желтопрессонoсть и рецензенты с редакторами не знают элементарной математики, их просто графически "провели" изменив масштаб, а они и не заметили.

Всего благодарностей: 1Поблагодарили (1): criplenie
Участник оффлайн! igm

Непостоянный участник



 прочитанное сообщение 03.01.2015 18:03     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #8 множественное цитирование

(molecbiolog @ 03.01.2015 15:35)
Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба".
В статье проведен вполне корректный анализ:
1) Возведение r в квадрат равно доле "объясненной дисперсии", что эквивалентно доле объясненных случаев.
2) Логарифмирование обоих шкал оправдано из-за больших диапазонов значений, различающихся на много порядков. Конечно, без логарифмирования коэфф.корреляции немного поменяется, но это изменение не должно быть большим, в пределах нескольких процентов. Для надежности лучше весь анализ повторить для непреобразованных, нативных данных и убедится, что выводы там и тут совпадают.

Всего благодарностей: 1Поблагодарили (1): molecbiolog
Участник оффлайн! Esya
Постоянный участник
PA, USA



 прочитанное сообщение 03.01.2015 18:04     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес  ICQ
Цитировать Поместить сообщение в колонку новостей  URL #9 множественное цитирование

(molecbiolog @ 03.01.2015 09:41)
Ссылка на исходное сообщение  Я тоже так подумал smile.gif Но обратите внимание, что в анонимных комментах под статьей в Sciencemag много аналогичной критики. http://news.sciencemag.org/biology/2015/01...et-cancer?rss=1


вот и хорошо для журнала, много ссылок будет smile.gif
Guest
IP-штамп: frVBAudIJ3u/A
гость



 прочитанное сообщение Сообщение на английском  03.01.2015 18:32     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #10 множественное цитирование

"Pretty much anything complex plotted log-log is linear"

Всего благодарностей: 2Поблагодарили (2): NMR-guy, Nastja
Guest
IP-штамп: frVBAudIJ3u/A
гость



 прочитанное сообщение Сообщение на английском  03.01.2015 18:34     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #11 множественное цитирование

http://www.tylervigen.com/

Всего благодарностей: 1Поблагодарили (1): molecbiolog
Guest
IP-штамп: frVBAudIJ3u/A
гость



 прочитанное сообщение Сообщение на английском  04.01.2015 19:09     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #12 множественное цитирование

http://www.technologyreview.com/view/51378...origin-of-life/
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 05.01.2015 00:40     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #13 множественное цитирование

рациональнее посчитать регрессию и r^2 для неё

PS а у кого нибудь уже есть набранная табличка значений по графику? smile.gif я бы расчет привел сравнительный линеаризованная модель --- остатки линеаризованный vs остатки реальные

Сообщение было отредактировано PS2004R - 06.01.2015 15:16
Участник оффлайн! Nastja
Постоянный участник
Новосибирск



 прочитанное сообщение 07.01.2015 21:38     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #14 множественное цитирование

Скоро будет важно не то, сколько на статью ссылок (я уже молчу о качестве работы, описанной в статье), а то, сколько комментариев она собрала. Блоггеры захватили мир.
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 08.01.2015 19:21     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #15 множественное цитирование

Ну поскольку действительно пока никаких оснований смотреть на логарифм от числа делений и от риска нет, то получается вот так

CODE

> read.csv2("clipboard.csv")
  Column.2                                         Column.1    Column.3
1  0.004100                            Acute myeloidleukemia     3·10 12
2  0.300000                              Basal cellcarcinoma  1.8 ·10 11
3  0.005200                       Chroniclymphocyticleukemia     3·10 12
4  0.048000                         Colorectaladenocarcinoma     3·10 10
5  1.000000                 Colorectaladenocarcinomawith FAP     3·10 10
6  0.500000             Colorectaladenocarcinomawithsyndrome     3·10 10
7  0.000300                                         Duodenum    6.8·10 8
8  0.035000                   Duodenumadenocarcinomawith FAP    6.8·10 8
9  0.001938                 Esophagealsquamous cellcarcinoma   3.24·10 9
10 0.002800           Gallbladder nonpapillaryadenocarcinoma    1.6·10 8
11 0.002190                                     Glioblastoma  8.46·10 10
12 0.013800            Head & necknecksquamous cellcarcinoma  1.67·10 10
13 0.079350 Head & necknecksquamous cellcarcinoma withHPV-16  1.67·10 10
14 0.007100                          Hepatocellularcarcinoma  2.41·10 11
15 0.071000                  Hepatocellularcarcinoma withHCV  2.41·10 11
16 0.004500                   Lungadenocarcinoma(nonsmokers)  4.34·10 11
17 0.081000                      Lungadenocarcinoma(smokers)  4.34·10 11
18 0.000110                                  Medulloblastoma   8.5·10 10
19 0.020300                                         Melanoma    3.8·10 9
20 0.000350                                     Osteosarcoma    1.9·10 9
21 0.000040                          Osteosarcoma ofthe arms      3·10 8
22 0.000030                         Osteosarcoma of the head    3.9·10 8
23 0.000220                                  Osteosarcoma of    7.2·10 8
24 0.000030                        Osteosarcoma ofthe pelvis      2·10 8
25 0.000411                                Ovarian germ cell    1.1·10 7
26 0.013589                  Pancreatic ductaladenocarcinoma 1.672·10 11
27 0.000194        Pancreaticendocrine (isletcell) carcinoma   2.95·10 9
28 0.000700                    Small intestineadenocarcinoma   1.7·10 10
29 0.003700                       Testicular germ cellcancer  2.16·10 10
30 0.010260             Thyroidpapillary/follicularcarcinoma     1·10 10
31 0.000324                                Thyroid medullary      1·10 9
         t4   Column.4       t3 Column.5 Column.6    Column.7        t2    t1
1  3.000e+12  1.35·10 8 1.35e+08  12.0000    960.0 1.299·10 11 1.299e+11 1.299
2  1.800e+11 5.82 ·10 9 5.82e+09   7.6000    608.0 3.550·10 12 3.550e+12 3.550
3  3.000e+12  1.35·10 8 1.35e+08  12.0000    960.0 1.299·10 11 1.299e+11 1.299
4  3.000e+10     2·10 8 2.00e+08  73.0000   5840.0 1.168·10 12 1.168e+12 1.168
5  3.000e+10     2·10 8 2.00e+08  73.0000   5840.0 1.168·10 12 1.168e+12 1.168
6  3.000e+10     2·10 8 2.00e+08  73.0000   5840.0 1.168·10 12 1.168e+12 1.168
7  6.800e+08     4·10 6 4.00e+06  24.0000   1947.0  7.796·10 9 7.796e+09 7.796
8  6.800e+08     4·10 6 4.00e+06  24.0000   1947.0  7.796·10 9 7.796e+09 7.796
9  3.240e+09  8.64·10 5 8.64e+05  17.4000   1390.0  1.203·10 9 1.203e+09 1.203
10 1.600e+08   1.6·10 6 1.60e+06   0.5840     47.0  7.840·10 7 7.840e+07 7.840
11 8.460e+10  1.35·10 8 1.35e+08   0.0000      0.0  2.700·10 8 2.700e+08 2.700
12 1.670e+10  1.85·10 7 1.85e+07  21.5000   1720.0 3.186·10 10 3.186e+10 3.186
13 1.670e+10  1.85·10 7 1.85e+07  21.5000   1720.0 3.186·10 10 3.186e+10 3.186
14 2.410e+11  3.01·10 9 3.01e+09   0.9125     88.0 2.709·10 11 2.709e+11 2.709
15 2.410e+11  3.01·10 9 3.01e+09   0.9125     88.0 2.709·10 11 2.709e+11 2.709
16 4.340e+11  1.22·10 9 1.22e+09   0.0700      5.6  9.272·10 9 9.272e+09 9.272
17 4.340e+11  1.22·10 9 1.22e+09   0.0700      5.6  9.272·10 9 9.272e+09 9.272
18 8.500e+10  1.36·10 8 1.36e+08   0.0000      0.0  2.720·10 8 2.720e+08 2.720
19 3.800e+09  3.8 ·10 9 3.80e+09   2.4800    199.0 7.638·10 11 7.638e+11 7.638
20 1.900e+09  4.18·10 6 4.18e+06   0.0670      5.0  2.926·10 7 2.926e+07 2.926
21 3.000e+08   6.5·10 5 6.50e+05   0.0670      5.0  4.550·10 6 4.550e+06 4.550
22 3.900e+08   8.6·10 5 8.60e+05   0.0670      5.0  6.020·10 6 6.020e+06 6.020
23 7.200e+08  1.59·10 6 1.59e+06   0.0670      5.0  1.113·10 7 1.113e+07 1.113
24 2.000e+08   4.5·10 5 4.50e+05   0.0670      5.0  3.150·10 6 3.150e+06 3.150
25 1.100e+07   1.1·10 7 1.10e+07   0.0000      0.0  2.200·10 7 2.200e+07 2.200
26 1.672e+11  4.18·10 9 4.18e+09   1.0000     80.0 3.428·10 11 3.428e+11 3.428
27 2.950e+09   7.4·10 7 7.40e+07   1.0000     80.0  6.068·10 9 6.068e+09 6.068
28 1.700e+10    1 ·10 8 1.00e+08  36.0000   2920.0 2.922·10 11 2.922e+11 2.922
29 2.160e+10   7.2·10 6 7.20e+06   5.8000    463.0  3.348·10 9 3.348e+09 3.348
30 1.000e+10   6.5·10 7 6.50e+07   0.0870      7.0  5.850·10 8 5.850e+08 5.850
31 1.000e+09   6.5·10 6 6.50e+06   0.0870      7.0  5.850·10 7 5.850e+07 5.850

> str(read.csv2("clipboard.csv"))
'data.frame': 31 obs. of  11 variables:
$ Column.2: num  0.0041 0.3 0.0052 0.048 1 ...
$ Column.1: Factor w/ 31 levels "Acute myeloidleukemia",..: 1 2 3 4 5 6 7 8 9 10 ...
$ Column.3: Factor w/ 24 levels "1·10 10","1·10 9",..: 15 8 15 14 14 14 21 21 17 4 ...
$ t4      : num  3.0e+12 1.8e+11 3.0e+12 3.0e+10 3.0e+10 ...
$ Column.4: Factor w/ 23 levels "1 ·10 8","1.1·10 7",..: 4 16 4 9 9 9 12 12 23 7 ...
$ t3      : num  1.35e+08 5.82e+09 1.35e+08 2.00e+08 2.00e+08 2.00e+08 4.00e+06 4.00e+06 8.64e+05 1.60e+06 ...
$ Column.5: num  12 7.6 12 73 73 73 24 24 17.4 0.584 ...
$ Column.6: num  960 608 960 5840 5840 ...
$ Column.7: Factor w/ 24 levels "1.113·10 7","1.168·10 12",..: 4 15 4 2 2 2 22 22 3 23 ...
$ t2      : num  1.30e+11 3.55e+12 1.30e+11 1.17e+12 1.17e+12 ...
$ t1      : num  1.3 3.55 1.3 1.17 1.17 ...
> data<-read.csv2("clipboard.csv")
> plot(log(data$t2), log(data$Column.2))
> summary(lm(log(data$Column.2) ~ log(data$t2)))

Call:
lm(formula = log(data$Column.2) ~ log(data$t2))

Residuals:
   Min      1Q  Median      3Q     Max
-3.8020 -1.0752  0.1423  0.9943  2.7872

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -17.52655    1.66473  -10.53 2.03e-11 ***
log(data$t2)   0.53272    0.07318    7.28 5.12e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.725 on 29 degrees of freedom
Multiple R-squared:  0.6463, Adjusted R-squared:  0.6341
F-statistic:    53 on 1 and 29 DF,  p-value: 5.118e-08

## но если мы считаем к.детерминации по исходным данным, то увы и ах
> 1 - sum((exp(predict(lm(log(data$Column.2) ~ log(data$t2))))-data$Column.2)^2) / sum((data$Column.2-mean(data$Column.2))^2)
[1] 0.07763068

### на всякий случай перепроверим :)
> 1 - sum(((predict(lm(log(data$Column.2) ~ log(data$t2))))- log(data$Column.2))^2) / sum((log(data$Column.2)-mean(log(data$Column.2)))^2)
[1] 0.646328

### да все именно так и есть.


за 7 -8 % можно "зуб давать" smile.gif

Сообщение было отредактировано PS2004R - 08.01.2015 19:23

Картинки:
картинка: _________________2015_01_08_19_22_13.png
_________________2015_01_08_19_22_13.png — (21.94к)   



Всего благодарностей: 2Поблагодарили (2): molecbiolog, amaxa
Guest
IP-штамп: frFNgrSaU9p4o
гость



 прочитанное сообщение 09.01.2015 00:43     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #16 множественное цитирование

(PS2004R @ 08.01.2015 19:21)
Ссылка на исходное сообщение 
за 7 -8 % можно "зуб давать" smile.gif


Вы не могли бы пояснить Ваш расчет? Получается, что корреляция всего 7%?
Guest
IP-штамп: frFNgrSaU9p4o
гость



 прочитанное сообщение 09.01.2015 00:44     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #17 множественное цитирование

(Guest @ 09.01.2015 00:43)
Ссылка на исходное сообщение  Вы не могли бы пояснить Ваш расчет? Получается, что корреляция всего 8%?
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 09.01.2015 10:29     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #18 множественное цитирование

(Guest @ 09.01.2015 00:43)
Ссылка на исходное сообщение  Вы не могли бы пояснить Ваш расчет? Получается, что корреляция всего 7%?


1) не корреляция, а доля объясняемой вариации

2) расчет коэффициента детерминации не для к.корреляции, а для уравнения регрессии.

на первом этапе считаем уравнение регрессии как автор -- для логарифмированных величин, затем, поскольку логарифмирование не имеет (на данный момент) никакого смысла, переходим опять в пространство исходных величин и считаем коэф. детерминации по ним пользуясь предсказанием полученного уравнения регрессии.

Собственно весь расчет в R выполнен.

Вот датасет (данные я восстановил нормально судя по картинке)

PS то есть смысл логарифма от риска для числа случаев заболевания не очень просматривается (по крайней мере для меня)

Сообщение было отредактировано PS2004R - 09.01.2015 10:50

Файл/ы:

скачать файл ccel.rar
размер: 1.22к
кол-во скачиваний: 75


Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 09.01.2015 19:15     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #19 множественное цитирование

(molecbiolog @ 03.01.2015 17:35)
Хотелось бы услышать мнение людей которые детально разбираются а такого рода статистике. Например, любопытно про "возведение коэфф. корреляции в квадрат" и про "специфику логарифмического масштаба". (Очевидные вещи о том, что корреляция сама по себе не указывает на причину явления мусолить не надо).

Насчёт "детально" - нет, но опыт есть.
1) Коэффициент корреляции в квадрате, как уже указывалось выше - коэффициент детерминации. Это - стандартный показатель качества подгонки модели в регрессионном анализе, поэтому с ним всё в порядке. Обычно он интерпретируется как доля дисперсии, объясняемая зависимостью у от х. В действительности это доля общей дисперсии, т.к. R2 регрессии "у по х" и "х по у" совпадают, хотя соответствующие регрессии различны. Интерпретация авторов логичная.

2) С логарифмированием сложнее. Сама природа данных, процессов, которые их порождают могут быть такими, что нормального распределения быть не может. Например, даже чисто теоретически необоснованно ждать нормального распределения от площади: т.к. при увеличении длины и ширины на 1 ед., площадь увеличится на 1 ед2, при увеличении на 2 - на 4, при увеличении на 3 - на 9 и т.д. Т.е. при варьировании по нормальному закону длины и ширины, в распределении соответствующих площадей появится положительная асимметрия - хвост справа будет длиннее. А вот для квадратного корня из площади ждать нормального распределения логично, т.е. для площадей показателем более "отвечающим природе данных" будет квадратный корень из неё. Аналогично, для объёмов это будет кубический корень. Для многих же процессов в природе такой функцией является логарифм (почитайте про логнормальное распределение). Это все скорости, процессы во времени, активности, концентрации, численности организмов и многое другое. К сожалению, необходимость логарифмирования не всегда очевидна и здесь возможны некие ошибки анализа, порождаемые так называемым "эффектом шкалы", поскольку разные статистические техники по-разному обрабатывают шкалы. Чтобы избежать таких ошибок я всегда смотрю исходные распределения, остатки регресии, распределения главных компонент - чтобы обнаружить возможную асимметрию и либо (1) бороться с ней преобразованием исходных данных, либо (2) использовать более устойчивые техники, например, ранговые.
Применительно к обсуждаемым данным логарифмирование видится мне вполне удачной процедурой приближения к "внутренней природе данных". Например, ранговая корреляция Спирмена и для исходных, и для логарифмированных данных rs=0,809; р=3,6 х 10-8, т.е. связь достаточно сильная и значимая. Корреляция Пирсона для исходных данных r=0,533; р=0,002, для логарифмированных - r=0,804, р=5,1 х 10-8. Т.е. логарифмирование дало практически ту же корреляцию, что и ранговый метод (+ при желании есть возможность работать с этими данными параметрическими техниками).

3) Можно попробовать сделать такое преобразование исходных данных, чтобы распределения х и у стали настолько нормальными, насколько это только возможно (с двумерным нормальным возиться не стал, можно, но сложнее). Для этого сделал преобразование Бокса-Кокса отдельно для х и у. Параметр лямбда для x=0,038, для у=-0,013, т.е. оба очень близки к 0, что указывает на то, что если выбирать для этих данных какое-либо жёсткое преобразование, то это будет логарифм, т.е. исходные распределения более близки к логнормальным. Т.е. с преобразованием логарифма авторы угадали.

4) Посмотрел распределения логарифмированных и преобразованных по Боксу-Коксу данных. Они были похожи, поэтому на рис. оставил только Бокса-Кокса. Настораживает возможная бимодальность. Если это так, то наблюдаемая корреляция может быть артефактом парадокса Симпсона (парадокса объединений). Смысл - в данных, например, может быть 2 группы с нулевой или даже отрицательной корреляцией (как на этом рисунке: http://www.frontiersin.org/files/Articles/...-00513-g001.jpg ), которые вместе дают положительную. Проблема в том, что мы не знаем однородны данные или нет, вдруг авторы не учли какой-нибудь источник неоднородности, а кластеры расположены очень близко. Поэтому построил график двумерной плотности распределения в пакете ks (среда R) по образцу отсюда: http://en.wikipedia.org/wiki/Multivariate_...sity_estimation (см. нижний рис). Видно, что оба преобразования дают сходную картину, для Бокса-Кокса она даже чётче. Т.е. у меня есть основания предполагать, что данные неоднородны и состоят из 2 подгрупп опухолей (определить их принадлежность можно по картинкам). Т.е. это не я назначил 2 группы, так плотность распределилась сама! Однако внутри каждой группы корреляция не менее сильная (если не более, лень возиться с разделёнными группами), чем в общей выборке и совпадает по направлению связи.

5) Мой вердикт: гипотеза авторов интересная и вполне обоснованная; обсуждать полезно, нужно далее проверять. Если в действительности данные авторов состоят из двух подгрупп опухолей, то им повезло: связь всё равно есть и такая-же, а не является артефактом парадокса Симпсона.

PS > PS2004R Благодарю за цифры, интересно покрутить оказалось. Чем оцифровывали график?

Сообщение было отредактировано Den-N - 09.01.2015 19:49

Картинки:
картинка: cancer1.png
cancer1.png — (307.01к)   



Всего благодарностей: 2Поблагодарили (2): molecbiolog, amaxa
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 09.01.2015 21:00     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #20 множественное цитирование

1) Таблица выкушена из pdf вспомогательных материалов статьи с помощью онлайнового сервиса (их много гуглится). Затем вставлена из клипборда в OpenRefine, и написан на встроенном языке скрипт преобразующий столбец из исходных после выдирания "x.x * xx xx" в "настоящее" число.

OpenRefine категорически всем рекомендую для работы даже со своими родными данными.

2) Все таки исходный "не логарифмированный" график это фактически "число заболевших в популяции" vs "число делений у каждого из данного числа заболевших" и можно говорить о доле "объяснения причин конкретных случаев болезни". Распространить такое рассуждение на логарифмированный график у меня не получается.

Сообщение было отредактировано PS2004R - 09.01.2015 21:01
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 09.01.2015 22:35     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #21 множественное цитирование

(PS2004R @ 10.01.2015 00:00)
2) Все таки исходный "не логарифмированный" график это фактически "число заболевших в  популяции" vs "число делений у каждого из данного числа заболевших" и можно говорить о доле "объяснения причин конкретных случаев болезни". Распространить такое рассуждение на логарифмированный график у меня не получается.

Когда начинаю думать в числах и долях - начинаю путаться smile.gif Я "за" логарифмирование по технической причине: чтобы говорить об R2 и объяснённой дисперсии, нужно эту дисперсию сначала "отвязать" от среднего значения, потому как в случае логнормального распределения дисперсия пропорциональна среднему (если точнее: стандартное отклонение прямопропорционально среднему). Т.е. преобразование здесь нужно не столько для нормализации данных, сколько для так называемой "стабилизации дисперсии". Просто удачно подобранное преобразование часто решет одновременно сразу обе эти проблемы + проблему приведения неаддитивных эффектов к аддитивным (линеаризации связи/зависимости, устранение ложных взаимодействий) поэтому писал о нормализации.
Нужно ещё что-нибудь почитать про интерпретацию коэффициента детерминации для трансформированных данных, желательно эконометрическое - они в этом профи. Найду достойное - добавлю сюда ссылку.

Сообщение было отредактировано Den-N - 09.01.2015 23:37

Всего благодарностей: 2Поблагодарили (2): PS2004R, amaxa
Участник оффлайн! Aglaya
moderator



 прочитанное сообщение 17.01.2015 15:57     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #22 множественное цитирование

Не надо метить спамом посты, таковыми не являющиеся. Для проблемных постов пользуйтесь кнопкой "сообщить модератору".
Участник оффлайн! redomonayalga




 прочитанное сообщение 22.01.2015 13:32     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #23 множественное цитирование

а мутации откуда ? ... так что пишите сразу первоисточник - экология и образ жизни )

*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 26.03.19 14:19
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft