Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 

Щёлкните, чтобы внести в Избранные Темы* Помогите нормализовать данные
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.


 
Добавить сообщение в темуСоздать новую темуСоздать голосование
Участник оффлайн! Boreal




 прочитанное сообщение 22.03.2017 09:54     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #1 множественное цитирование

Здравствуйте, уважаемые коллеги!
Имеется массив данных по сезонной динамике массы живых и мертвых(фактор state) корней на двух разных площадках(фактор plot), в разные месяцы (фактор time). Задача провести 3-х факторный ДА. Однако данные распределены ненормально. Трансформация Бокса-Кокса ничего не даёт: в тесте Шапиро-Уилка р до трансформации был 0,0001, после стал 0,03, то есть близко но ещё не то. Как нормализовать? Непараметрические аналоги ДА не подходят ввиду отсутствия адекватных апостериорных тестов. Нужно нормализовать, помогите. Работаем в R.

Вот кусочек таблицы

plot,time,state,mass
u,m,A,483.1
u,m,A,49.4
u,m,A,53.5
u,m,A,142.7
u,m,A,92.2
u,m,A,235.4
u,m,A,106.5
u,m,A,148.8
u,m,A,100.4
u,m,A,504.5
u,m,D,50.4
u,m,D,109.6
u,m,D,62.7
u,m,D,93.2
u,m,D,124.8
u,m,D,233.9
u,m,D,163.1
u,m,D,34.6
u,m,D,84.6
u,m,D,148.3
b,m,A,65.7
b,m,A,17.8
b,m,A,101.4
b,m,A,26.0
b,m,A,119.7
b,m,A,89.2
b,m,A,116.2
b,m,A,142.2
b,m,A,65.7
b,m,A,41.3
b,m,D,229.3
b,m,D,89.2
b,m,D,199.2
b,m,D,140.6
b,m,D,107.5
b,m,D,180.4
b,m,D,223.7
b,m,D,240.0
b,m,D,189.6
b,m,D,230.8
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 22.03.2017 20:37     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #2 множественное цитирование

Так а если нормировать на суммарную массу корней и считать для долей? (массу суммарную можно пустить как отдельный параметр)
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 22.03.2017 21:49     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #3 множественное цитирование

Из поста неясно что вы проверяете на нормальность. Если исходные данные после преобразования - то вы скорее всего просто не добьётесь цели, да и не правильно это. Проверять на нормальность нужно остатки модели дисперсионного комплекса (residuals).
Если Бокс-Кокс исходного массива не даёт нормальности остатков, можно преобразовать отдельно каждую ячейку комплекса (данных у вас много) и выписать параметр лямбда для каждой ячейки (plot - time - state), а далее усреднить лямбды и окончательно преобразовать исходных массив с усреднённым таким образом лямбдой.
Участник оффлайн! Boreal




 прочитанное сообщение 23.03.2017 02:02     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #4 множественное цитирование

(Den-N @ 23.03.2017 03:49)
Ссылка на исходное сообщение  Из поста неясно что вы проверяете на нормальность. Если исходные данные после преобразования - то вы скорее всего просто не добьётесь цели, да и не правильно это.

Да, проверяю на нормальность данные после трансформации. confused.gif

(Den-N @ 23.03.2017 03:49)
Ссылка на исходное сообщение Проверять на нормальность нужно остатки модели дисперсионного комплекса (residuals). 

то есть не проверяя результатов трансформации выполнить ДА и проверить остатки с помощью Ш-Уилка?

(Den-N @ 23.03.2017 03:49)
Ссылка на исходное сообщениеЕсли Бокс-Кокс исходного массива не даёт нормальности остатков, можно преобразовать отдельно каждую ячейку комплекса (данных у вас много) и выписать параметр лямбда для каждой ячейки (plot - time - state), а далее усреднить лямбды и окончательно преобразовать исходных массив с усреднённым таким образом лямбдой.

Попробую последовать рекомендации по трансформации отдельных ячеек и окончательно общей трансформации по среднему лямбда.
В целом спасибо за скорый и компетентный ответ, приятно, что и на просторах рунета есть грамотные специалисты. wink.gif
Участник оффлайн! Boreal




 прочитанное сообщение 23.03.2017 02:03     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #5 множественное цитирование

(PS2004R @ 23.03.2017 02:37)
Ссылка на исходное сообщение  Так а если нормировать на суммарную массу корней и считать для долей? (массу суммарную можно пустить как отдельный параметр)

Не совсем понял рекомендацию. Как это нормировать на суммарную массу? confused.gif
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 23.03.2017 05:47     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #6 множественное цитирование

(Boreal @ 23.03.2017 05:02)
Ссылка на исходное сообщение  Да, проверяю на нормальность данные после трансформации.  confused.gif 
то есть не проверяя результатов трансформации выполнить ДА и проверить остатки с помощью Ш-Уилка?

Если хотя бы один из трёх факторов действует, и приводит к различиям средних, то как могут исходные данные быть нормально распределены? Распределение будет полимодальным. Например, для живых - одно нормальное распределение со своим средним, для мёртвых - своё. Полимодальное распределение в принципе невозможно преобразовать к нормальному никаким монотонным преобразованием. Поэтому и написал, что это - тупик.
И в дисперсионном анализе, и в регрессионном на нормальность проверяется именно ошибка модели, т.е. остатки. Нормальность ошибки укажет на то, что в каждой ячейке комплекса или на каждом уровне независимой переменной в регрессии распределение было нормальным. Поэтому - да, преобразуйте исходные, проводите анализ, а проверяйте на нормальность остатки.
Участник оффлайн! Boreal




 прочитанное сообщение 23.03.2017 05:55     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #7 множественное цитирование

Спасибо Den-N. Вы очень помогли, так и сделали, в большинстве случаев анализ остатков показал, что всё ОК, кроме одного массива. Что делать в таком случае? Проводить GLM вместо ANOVA?
Участник оффлайн! Boreal




 прочитанное сообщение 23.03.2017 10:49     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #8 множественное цитирование

Я решил проверить как влияет трансформация на результаты ДА. 1 провел 2-х факторный ДА по ненормальным данным, 2 сделал анализ остатков ДА, который выдал р=0,007; Потом я провёл трансформацию данных и подал их снова на ДА, аналогичный анализ остатков ДА по трансформированным данным показал р=0,0001 mad.gif. Это как?
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 23.03.2017 14:14     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #9 множественное цитирование

(Boreal @ 23.03.2017 02:03)
Ссылка на исходное сообщение  Не совсем понял рекомендацию. Как это нормировать на суммарную массу?  confused.gif


Вы корни копаете и взвешиваете? Отдельно мертвые, отдельно живые.

Ну так что непонятно в ответе? Процент (долю) "мертвых", процент "живых" посчитайте от массы _общей_ "всех корней".

А так у вас естественно странные распределения получаются. Ну вот например, "исследуем" сколько в каждой "деревне" "блондинов" и сколько "брюнетов". Не взирая на "размер деревни" считаем и тех и других "по головам"... и получаем "странные ненормируемые распределения" (в случае если у нас в деревне может быть и 10 человек, и 1010).

Это в порядке гипотезы.
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 23.03.2017 19:31     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #10 множественное цитирование

(Boreal @ 23.03.2017 13:49)
Ссылка на исходное сообщение  Я решил проверить как влияет трансформация на результаты ДА. 1 провел 2-х факторный ДА по ненормальным данным, 2 сделал анализ остатков ДА, который выдал р=0,007; Потом я провёл трансформацию данных и подал их снова на ДА, аналогичный анализ остатков ДА по трансформированным данным показал р=0,0001  mad.gif. Это как?

По поводу GLM. Все современные пакеты считают ANOVA через GLM. Это позволяет избежать проблем с разложением дисперсии в неравномерных комплексах. GLM - обобщение регрессионного и дисперсионного анализа через регрессионную технику. Поэтому для равномерных и пропорциональных дисперсионных комплексов результаты по классическому алгоритму ДА и по GLM будут полностью идентичными.

Преобразования. Бокс - Кокс хорош тем, что преобразует к нормальности настолько, насколько позволяют сами данные. Но плох тем, что для каждого набора данных получается своё собственное преобразование. Если однотипных наборов данных несколько, лучше иметь одинаковое преобразование, чтобы с ним провести всё исследование целиком. Наряду с Б-К я бы попробовал преобразование кубического корня: оно подходит для показателя "масса" чисто теоретически. Если принять равную плотность образцов, то масса будет линейной функцией от объёма корней. В свою очередь объём - это произведение трёх размеров (длина х ширина х высота). В процессе развития организма они изменяются скоррелированно и при нормальном распределении любого из размеров их объём будет распределяться приблизительно в кубической зависимости. Поэтому для объёма и массы для нормализации может подойти и простой кубический корень.

Почему в каком-то наборе получились непонятные эффекты - не ясно. Можете подшить к сообщению данные по этому набору целиком.

А вообще, чем больше факторов в ДА, тем он робастнее. Т.е. двухфакторный более устойчив к отклонениям от нормальности и к неоднородности дисперсий, трёхфакторный - соответственно ещё устойчивей. Поэтому лично я не проверяю фанатично в больших комплексах нормальность остатков. Проверяю, но больше не с целью выполнить именно требования ДА, как прописано в каких-то руководствах, а чтобы избежать получения ложных значимых взаимодействий факторов, которое являются артефактом эффекта шкалы. Если глубже - то чтобы "развязать" зависимость величины дисперсии от среднего значения , которые в асимметричных распределениях коррелируют. Поэтому смотрю, чтобы распределение остатков было более-менее симметричным и колоколообразным только по гистограммам.
Участник оффлайн! ИНО
Постоянный участник
Донецк



 прочитанное сообщение 23.03.2017 22:47     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #11 множественное цитирование

Подозреваю, что под GLM Boreal имел в виду обобщенные линейные модели, а не общие (в контексте работы с R).
Участник оффлайн! Boreal




 прочитанное сообщение 24.03.2017 03:16     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #12 множественное цитирование

(ИНО @ 24.03.2017 04:47)
Ссылка на исходное сообщение  Подозреваю, что под GLM Boreal имел в виду обобщенные линейные модели, а не общие (в контексте работы  с R).

Да, совершенно верно.
Участник оффлайн! Boreal




 прочитанное сообщение 24.03.2017 03:33     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #13 множественное цитирование

(PS2004R @ 23.03.2017 20:14)
Ссылка на исходное сообщение  Вы корни копаете и взвешиваете? Отдельно мертвые, отдельно живые.

Ну так что непонятно в ответе? Процент (долю) "мертвых", процент "живых" посчитайте от массы _общей_ "всех корней".

А так у вас естественно странные распределения получаются. Ну вот например, "исследуем" сколько в каждой "деревне" "блондинов" и сколько "брюнетов". Не взирая на "размер деревни" считаем и тех и других  "по головам"... и получаем "странные ненормируемые распределения" (в случае если у нас в деревне может быть и 10 человек, и 1010).

Это в порядке гипотезы.


Спасибо за интересную гипотезу и идею анализа данных, однако нашей задачей является сравнение сезонной динамики (с апреля по октябрь) массы корневой системы в контрольном лесу и на гари. Исходя из этого, доли мертвых и живых можно использовать как дополнительный параметр. Однако первостепенной задачей является установление изменения массы живых и мертвых по месяцам на разных площадках.
Участник оффлайн! Boreal




 прочитанное сообщение 24.03.2017 04:24     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #14 множественное цитирование

(Den-N @ 24.03.2017 01:31)
Ссылка на исходное сообщение  
Преобразования. Бокс - Кокс хорош тем, что преобразует к нормальности настолько, насколько позволяют сами данные. Но плох тем, что для каждого набора данных получается своё собственное преобразование. Если однотипных наборов данных несколько, лучше иметь одинаковое преобразование, чтобы с ним провести всё исследование целиком. Наряду с Б-К я бы попробовал преобразование кубического корня: оно подходит для показателя "масса" чисто теоретически. Если принять равную плотность образцов, то масса будет линейной функцией от объёма корней. В свою очередь объём - это произведение трёх размеров (длина х ширина х высота). В процессе развития организма они изменяются скоррелированно и при нормальном распределении любого из размеров их объём будет распределяться приблизительно в кубической зависимости. Поэтому для объёма и массы для нормализации может подойти и простой кубический корень.

Спасибо, будем пробовать кубический корень. smile.gif

(Den-N @ 24.03.2017 01:31)
Ссылка на исходное сообщение  
Почему в каком-то наборе получились непонятные эффекты - не ясно. Можете подшить к сообщению данные по этому набору целиком.

Прикрепляю данные по массе корней на двух площадках в разные месяцы
Данные в виде объекта R:
plot time state mass
1 u m A 140.1
2 u m A 82.5
3 u m A 129.4
4 u m A 461.1
5 u m A 127.4
6 u m A 281.3
Где: plot (u-unburned, b-burned)
time (m-may; jn-june;.....o-october) всего 6 уровней фактора (месяцев)
state (A - alive; D-dead)
Участник оффлайн! Boreal




 прочитанное сообщение 24.03.2017 04:30     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #15 множественное цитирование

Файл с данными

Файл/ы:

скачать файл plot.doc
размер: 188.5к
кол-во скачиваний: 19


Участник оффлайн! ИНО
Постоянный участник
Донецк



 прочитанное сообщение 24.03.2017 13:08     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #16 множественное цитирование

Хотелось бы больше узнать о методике проведения измерений.
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 24.03.2017 21:01     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #17 множественное цитирование

(Boreal @ 24.03.2017 07:30)
Ссылка на исходное сообщение  Файл с данными

Проблемы не нашёл, всё "работает". С кубическим корнем ожидаемо похуже, но формально тоже приемлемо.

Файл/ы:

скачать файл plot_res.doc
размер: 301к
кол-во скачиваний: 31


Участник оффлайн! Boreal




 прочитанное сообщение 27.03.2017 09:54     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #18 множественное цитирование

(Den-N @ 25.03.2017 03:01)
Ссылка на исходное сообщение  Проблемы не нашёл, всё "работает". С кубическим корнем ожидаемо похуже, но формально тоже приемлемо.


Спасибо за работу, очень информативно, Вы нам очень помогли!!!

*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 12.12.17 15:29
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft