molbiol.ru -> Иерархическая схема дисперсионного анализа

> Все форумы > Тематические форумы > Биофизика и матметоды в биологии

Zbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ

Правила FAQ* Поиск* Участники* Календарь* Избранные темы* Форум Форумов*

Темы за 24 часа [ Вход* | Регистрация* ]

Форум:

* Иерархическая схема дисперсионного анализа -- иерархические факторы - взаимодействие ? --
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.

Blaid
Постоянный участник

02.04.2012 16:00

URL #1

Здравствуйте уважаемая общественность форума!

Хочу адресовать Вам вопрос относительно дисперсионного анализа при иерархической схеме. В частности, вот здесь (http://www.bio.spbu.ru/edu/bachelor/courses/materials/math_metods/03_disp_an.pdf pdf-файл прикреплён, с. 69) говорится о том, что при иерархической схеме дисперсионного анализа оценка взаимодействия иерархических факторов невозможна (в отличие от классической факторной схемы, где взаимодействие факторов вполне себе считается).
Решил как-то я попробовать сделать машинный дисперсионный анализ по такой схеме (иерархической) в STATISTICA 8.0. Взял пример из Рокицкого (с. 221-223) про длину поросят при забое (поросята были от разных хряков и свиноматок). В таблице из учебника, содержащей результаты анализа, взаимодействия факторов действительно нет.
Ввёл данные (см. скриншоты в архиве), запустил анализ, выставил опции (при других вариантах прога считать отказывалась - таблица результатов была частично или вовсе полностью пустой) и получил результаты сходные с таковыми из Рокицкого (за исключением F-значений). К моему удивлению рассчиталось и взаимодействие факторов. Да, перед этим было еще предупреждение о том, что что-то не в порядке с вводом данных. Ну, не знаю...

Так вот хотелось бы знать, почему литературные данные говорят о том, что рассчитать нельзя, а прога, тем не менее, считает взаимодействие иерархических факторов. Нельзя или все-таки можно их рассчитать при иерархической схеме?

Спасибо!

Файл/ы:

03_disp_an.pdf
размер: 1008.2к
кол-во скачиваний: 5918

Biologicheskaja_Statistika.djvu
размер: 9.84мб
кол-во скачиваний: 414

_________.rar
размер: 182.13к
кол-во скачиваний: 381

Den-N
Постоянный участник

02.04.2012 19:18

URL #2

При иерархическом ДА взаимодействия, конечно, быть не может. Факторы здесь не просто "Хряки" и "Матки", а "Хряки" и "Матки внутри хряков", т.к. у каждого хряка был свой набор маток. Т.е. фактор «Матки» вложен в фактор «Хряки», а потому эффект и называется вложенным, а анализ – гнездовым или как принято называть у нас – иерархическим. Вот если бы у каждого хряка были одни и те же матки, тогда это была бы обычная перекрёстная схема с взаимодействием факторов "Хряки х Матки". Проблема с решением в том, что вы выбрали для анализа именно перекрёстную схему (Factorial ANOVA), а не иерархическую (Nested ANOVA). Последняя доступна через модуль общих линейных моделей. В английской версии путь: Statistics – Advanced Linear/Nonlinear Models – General Linear Models – Nested design ANOVA. Там нужно задать что во что вложено, и, возможно (не помню на память), указать, что оба фактора – случайные (Random), а не фиксированные по плану эксперимента. Для освоения ДА я рекомендую не Рокицкого, а Монтгомери Д. К. Планирование эксперимента и анализ данных (есть в сети). В ней хорошо изложен именно классический дисперсионный анализ, в котором куда проще разобраться чем в Общих линейных моделях и используется современная терминология. Пробуйте примеры оттуда. Если не получиться – выложите сюда готовый файл данных (в xls или ранних версиях Statistica), я опишу пошагово.

Blaid
Постоянный участник

02.04.2012 21:40

URL #3

Den-N! Большое спасибо, что помогли разобраться!!!
Сделал пример из Рокицкого про поросят через Nested design ANOVA (результаты в pdf-файле).
Также сделал пример из Снедекора (про растения и листья), с. 71 из 03_disp_an.
Совпадение со Снедекором полное, а вот в случае Рокицкого значения F различаются.
Еще попробовал другой пример из Рокицкого (с. 223-225) про число стернальных щетинок у дрозофил - все результаты получились количественно другие, но качественно аналогичные (влияние выборок недостоверно, влияние местностей - достоверно). Наверное, у Рокицкого (как у представителя, скажет так, отечественной школы статистиков) расчёт ведётся по иным формулам, чем у Снедекора (и иже с ним). STATISTICA, вероятно, считает также "не по Рокицкому".
И ещё хотелось бы спросить. От чего зависит (чем определяется) выбор типа образования сумм квадратов при дисперсионном анализе (STATISTICA по умолчанию предлагает Type VI (unique) в Factorial ANOVA, а в Nested design ANOVA Type III (orthogonal), но и там, и там есть другие типы)?

Файл/ы:

________.pdf
размер: 37.81к
кол-во скачиваний: 436

Univariate_Results_for_Each_DV__Spreadsheet20_.pdf
размер: 33.26к
кол-во скачиваний: 728

Den-N
Постоянный участник

04.04.2012 20:44

URL #4

Предположу, что у Рокицкого ДА считается по формулам Плохинского - они работали примерно в одно время. Последний предложил много оригинального в модификациях сумм квадратов отклонений на всевозможные случаи дисперсионных комплексов. К счастью это было только у нас и в миру они не то не прижились, не то вообще не были известны. Насколько я помню, примерно так:
SS типа 1 - для равномерных комплексов (одинаковое кол-во наблюдений во всех ячейках комплекса)
SS типа 2 - для пропорциональных комплексов
SS типа 3 - для неравномерных комплексов
SS типа 4 - для комплексов с пропущенными ячейками.
SS типов 5 и 6 - изобретение команды Statistica Inc.
Но посмотрите точнее в помощи к программе - там это есть. Я обычно не заморачиваюсь по этому поводу, т.к. пакет нормально выбирает автоматически.
С перекрёстно-иерархическими моделями дела обстоят ещё хуже чем с чистой иерархией: в любимой мной книге Монтгомери результаты примера не совпадают в точности с результатами расчётов в Statistica и SPSS.

Blaid
Постоянный участник

05.04.2012 10:12

URL #5

Den-N, а сколько вообще существует схем дисперсионного анализа?
Обычная факторная (перекрёстная) схема, иерархическая и упомянутая Вами перекрестно- иерархическая? Или еще есть и другие типы схем?
Насчет перекрестно-иерархической, пожалуйста, подробнее. Что эта за схема такая? Хотелось бы увидеть примеры такой схемы (желательно с исходными цифрами, чтобы обсчитать в той же STATISTICA). В STATISTICA такие схемы считаются тоже в Nested Design ANOVA или нет? Книгу Монтгомери цепляю (укажите, где там примеры таких схем).

Спасибо!

Файл/ы:

__________.djvu
размер: 3.63мб
кол-во скачиваний: 380

Den-N
Постоянный участник

05.04.2012 11:37

URL #6

(Blaid @ 05.04.2012 13:12)

Den-N, а сколько вообще существует схем дисперсионного анализа?

Книга ещё не отпечатана, поэтому просто готовый кусок:

Под названием «дисперсионный анализ» (ДА) фигурирует большая группа методов, которые объединяет один принцип: разложение изменчивости показателя на компоненты, объясняемые влиянием интересующих факторов и/или их взаимодействиями и случайную ошибку [Л. Закс, 1976; Д.К. Монтгомери, 1980]. Ограничимся лишь классификацией методов ДА.

1. По числу факторов:
• однофакторный ДА (one-way ANOVA), когда есть несколько выборок (например: контрольная и несколько экспериментальных групп);
• двухфакторный ДА (two-way ANOVA), когда имеется 2 или более выборок, но одновременно контролируется ещё один фактор (например, сравнение средних значений показателя в основной группе и группе сравнения с учётом пола – факторы: «воздействие» и «пол»). При этом становится возможным определение принципиально нового явления – взаимодействия факторов (например, в группе сравнения половых различий не было, а в основной группе они есть);
• многофакторный ДА (multi-way ANOVA), когда имеется 2 или более выборок и одновременно контролируется 2 или более факторов.

[b]2. По модели дисперсионного анализа:[/b]
• модель I – с фиксированными факторами. Используется в случаях, когда исследователя интересует сравнение средних значений. В этом случае фактор считается фиксированным по плану эксперимента, т.е. полностью находится под контролем экспериментатора. Классический пример – эксперимент, в котором одна интактная группа служит контролем, а еще несколько – различными вариантами опыта;
• модель II – со случайными факторами. Используется в случаях, когда исследователя интересует неконтролируемая им изменчивость, её количественное выражение (расчёт компонентов дисперсии) и сравнение изменчивости в популяциях. В этом случае фактор считается случайным. В чистом виде встречается в медицинских исследованиях редко;
• смешанная модель. Включает как фиксированные, так и случайные факторы. Широко используется в клинических исследованиях. Все варианты ДА с повторными измерениями (repeated measures ANOVA) являются смешанными моделями (случайный фактор – «индивид»).

3. По классификации факторов в двух- и многофакторных ДА:
• перекрёстная схема анализа – классический вариант ДА с взаимодействием факторов (factorial ANOVA);
• иерархическая схема, когда взаимодействие факторов невозможно (nested ANOVA), например ДА с факторами: «образец ткани внутри индивида», «препарат внутри образца», «поле зрения внутри препарата»;
• перекрестно-иерархическая схема – сложные варианты ДА с перекрёстными и вложенными (иерархическими) эффектами (cross-nested ANOVA).

4. По числу наблюдений в ячейке дисперсионного комплекса:
• комплексы с единственным наблюдением на ячейку, когда расчёт ошибки в дисперсионном комплексе невозможен и в качестве таковой используется взаимодействие факторов;
• равномерные комплексы, когда в каждой ячейке содержится одинаковое количество наблюдений. Наиболее желательный для анализа вариант, решаемый в рамках классического подхода;
• пропорциональные комплексы, когда соотношение числа наблюдений на уровнях фактора одинаковое (например, и в основной группе и в группе сравнения мужчин ровно в 2 раза больше чем женщин). Решается в рамках классического подхода;
• неравномерные комплексы – с разным числом наблюдений в ячейках. Не решаются точно в рамках классического подхода, анализируются через регрессионную технику общих линейных моделей (GLM).
• комплексы с пропущенными значениями, когда есть ячейки без наблюдений (могут появляться вследствие потери части экспериментального материала или в специальных экспериментальных планах с ограничениями на рандомизацию). Анализируются через регрессионную технику общих линейных моделей (General Linear Models, GLM);

Про остальное - потом.

Den-N
Постоянный участник

09.04.2012 19:24

URL #7

(Blaid @ 05.04.2012 13:12)

Den-N, а сколько
Насчет перекрестно-иерархической, пожалуйста, подробнее. Что эта за схема такая? Хотелось бы увидеть примеры такой схемы (желательно с исходными цифрами, чтобы обсчитать в той же STATISTICA). В STATISTICA такие схемы считаются тоже в Nested Design ANOVA или нет? Книгу Монтгомери цепляю

В Монтгомери это раздел 11.4 - планы с группированными и пересекающимися факторами. В Statistica рассчитываются в модуле GLM: это в том же окне что нестед анова, но ниже - General Linear Models. Тоже обязательно нужно выбирать какие факторы фиксированные, какие - случайные. Здесь важно грамотно задать вложенные эффекты и взаимодействия с ними в неудобном конструкторе. Короче, помучайтесь с ним разок до конца, чтобы всё-таки набить нужную модель, а потом посмотрите как это выглядит в синтаксисе (кнопка Syntax editor), сохраните и для других анализов набивайте модель сразу в синтаксисе. Сложные модели Statistica 6 не брала - сообщала об ошибке и предлагала некорректные методы анализа. Делал тогда в SPSS. В 8 версии пока не довелось считать что-то сложное - не знаю как справится. Вообще для таких сложных анализов нужно осваивать R - там это прописывается буквально одной строкой. Чтобы научиться создавать грамотные модели (включить всё что нужно и ничего не забыть) - почитайте главу 7 и разберитесь с 7.2 - после этого сможете самостоятельно составлять модели и ожидаемые MS для любых сколь угодно сложных полноблочных комплексов (для данных с пропусками нужно осваивать собственно GLM, а этим из практиков вообще мало кто владеет в мире). Если будут вопросы - постараюсь отвечать по мере возможности.
Из темы по ДА в Statistica пока есть готовый пример по апостериорным сравнениям в рамках дисперсионного комплекса - почитайте эту тему и моё решение в сообщении #16 (второй исправленный файл):
http://forum.disser.ru/index.php?showtopic=2518

Сообщение было отредактировано Den-N - 09.04.2012 19:26

Blaid
Постоянный участник

24.04.2012 13:32

URL #8

Конструктор действительно неудобный!
Да и грамотно задать все эффекты (в т.ч. вложенные) и их взаимодействия при такой (перекрёстно-иерархической) схеме дисперсионного анализа для меня оказалось делом непростым.
Вот как у меня получилось (см. прикрепленные файлы) сделать в STATISTICA 8.0 пример из книги Монтгомери по перекрёстно-иерархической схеме (с. 257, пример 11.2).
Результаты расчета в STATISTICA 8.0 количественно не совпадают в точности с теми, что приведены у Монтгомери (к тому же согласно программному расчёту взаимодействие фактора приспособлений и фактора операторов внутри планировок статистически значимо, а у Монтгомери - нет). Но этот результат - максимум чего мне удалось добиться применительно в сравнении с результатами расчета этого примера у Монтгомери.
В модуле GLM, в окне выбра зависимых и независимых переменных, есть ещё какой-то continuous pred. Что это такое, я не знаю. Поэтому ничего там не выбирал.
Den-N (и все разбирающиеся в этом)! Просьба оценить всё это.
И ещё. В предидущем посте Вы написали:

"Вообще для таких сложных анализов нужно осваивать R - там это прописывается буквально одной строкой."

Так вот, а что такое R?

Спасибо!

Картинки:
картинка: ______________.JPG

______________.JPG — (87.77к)

Cross_Nested_ANOVA_______________._257_.jpg — (94.24к)

картинка: _____________.JPG

_____________.JPG — (69.78к)

картинка: __________________________________________.jpg

__________________________________________.jpg — (91.17к)

картинка: _________________.JPG

_________________.JPG — (59.83к)

Blaid
Постоянный участник

24.04.2012 20:15

URL #9

Уточнение: согласно программному расчёту статистически значимым является и взаимодействие фактора приспособлений и планировок (а не фактора приспособлений и операторов внутри планировок).

Сообщение было отредактировано Blaid - 24.04.2012 20:16

Den-N
Постоянный участник

29.04.2012 08:22

URL #10

Я помнил, что с этим анализом что-то не сходилось с программой, но не помнил в чём разбирался с этим около 10 лет назад. Сейчас снова начал копать. Кстати тогда, в 5-ой версии GLM считались просто замечательно: нужно было просто задать через менюшку какой эффект во что вложен (...nested in ...), а программа автоматически делала все возможные для данного дизайна взаимодействия. Сейчас же, чтобы их правильно задать нужно совсем не поверхностно знать ДА и составить список эффектов в жутком конструкторе самостоятельно.
Короче, в книге опечатка. У первого оператора, приспос. 2 вместо 30 и 37 должно стоять 30 и 27. Вычислил это по суммам для операторов. В таком варианте с книгой сходятся все средние квадраты (MS), но не сходится F-критерий для оператора: в книге его MS делится на общую ошибку, а в программе - на MS взаимодействия Приспособления*Оператор(Планировка). Т.е. нужно проверить самостоятельно всё ли в книге правильно в таблице ожидаемых для средних квадратов - если получится в эти праздники, то отпишусь. Результаты Statistica совпадают с SPSS. И ещё проверьте разок свои данные в файле - у меня получились немного другие результаты по таблице с опечаткой.

Blaid
Постоянный участник

30.04.2012 21:05

URL #11

Den-N! Спасибо за последние уточняющие рекомендации!
Переделал без опечатки (и с проверкой введенных данных - действительно, одну переменную ввел неправильно). Теперь точно совпадает с Монтгомери, но взаимодействие приспособлений и планировок по-прежнему получается значимым.
Попробую поискать 5-ю версию STATISTICA и сделать там, поскольку, как Вы говорите, в этой версии возможные эффекты и взаимодействия рассчитываются автоматически.

Картинки:
картинка: _____________________30.04.2012_201925.jpg

картинка: _____________________30.04.2012_201925.jpg

_____________________30.04.2012_201925.jpg — (79.62к)

Den-N
Постоянный участник

01.05.2012 07:39

URL #12

Не пойму почему у вас при расчёте F-критерия все MS делятся на MS ошибки, а не на те которые нужно. Поэтому и значимо получается почти всё. Выложил здесь ролик с анализом и результатами того, как получается у меня:
http://webfile.ru/5935816
Как уже писал выше различие с книгой только в 1 эффекте из 5 (а не во всех - как у вас) - надо проверять на ошибки/опечатки таблицу 11.9 Монтгомери, т.к. в ещё одном уважаемом пакете (SPSS) получаются точно такие же результаты как в STATISTICA, т.е. тоже не совпадает с Монтгомери по оценке эффекта "Оператор".
Отпишитесь, пожалуйста, когда найдёте причину несовпадения наших результатов.

Сообщение было отредактировано Den-N - 01.05.2012 07:39

Blaid
Постоянный участник

01.05.2012 17:26

URL #13

Причина несовпадения результатов, вероятно, была в том, что я по другому вводил данные в STATISTICA: грубо говоря, не по столбцам, как Вы (например, планировка 1, оператор 1 - 22,24, 30, 37 (опечатка), 25, 21), а по строкам (например, планировка 1, операторы 1-4 - 22,24,23,24, 28,29, 25, 23). При вводе по Вашей схеме все сошлось (с Вашими результатами).

Хотелось бы спросить насчет того, как определить полный перечень эффектов и их взаимодействий. Есть ли для этого объективные критерии?
В рассматриваемом примере из Монтгомери это более-менее ясно. Упрощенно (в моем представлении) этот пример, по сути, трехфакторный анализ (приспособления, планировки, операторы), в котором один из факторов (операторы) вложен в другой (планировки) и напрямую с третьим фактором (приспособления) взаимодействовать не может. Возможные взаимодействия - приспособления и планировки, а также приспособления и планировки с операторами внутри (операторы и приспособления напрямую взаимодействовать не могут, только через фактор планировок). Отсюда имеющиеся факторы и их взаимодействия:
Фактор А (приспособления)
Факторв В (планировки)
Факторв С (операторы внутри планировок)
Фактор D - взаимодействие А и В
Фактор E - взаимодействие А и С, находящегося внутри В

А если, скажем, рассматриваемый пример усложнить: ввести еще и фактор времени суток, в которое операторы (в разных планировках) работают с различными приспособлениями. Каков в этом случае будет перечень эффектов и их взаимодействий?
В частности, мне непонятно в таком гипотетическом примере следующее: планировки (с операторами внутри) являются самостоятельным фактором (могущим напрямую взаимодействовать с фактором приспособлений) или же планировки (с операторами внутри), в свою очередь, вложены в фактор времени суток и могут взаимодействовать с приспособлениями только через время суток?
Главу 7 и 7.2 в Монтгомери почитал, но мало что понял - там, на мой взгляд, все слишком абстрактно и математизировано (не спорю - может быть так и надо). Мне бы пояснить на конкретном примере...
Спасибо!

P.S. все-таки, что такое R, которое, согласно Вам, нужно осваивать для столь сложных моделей?

Картинки:
картинка: _____________________01.05.2012_164657.jpg

картинка: _____________________01.05.2012_164657.jpg

_____________________01.05.2012_164657.jpg — (62.77к)

Blaid
Постоянный участник

03.05.2012 15:40

URL #14

Насчет усложненного примера предположу, что в этом случае только фактор времени суток вложен в планировки. В этом случае факторы и возможные взаимодействия мне представляются следующими:
1. главные эффекты
операторы (внутри времени суток)
время суток
планировки
приспособления
2. двухфакторные взаимодействия
операторы (внутри времени суток) х планировки
операторы (внутри времени суток) х приспособления
время суток х планировки
время суток х приспособления
планировки х приспособления
взаимодействия операторов с временем суток быть не может, т.к. в каждом времени суток свой набор операторов
3. трехфакторные взаимодействия
операторы (внутри времени суток) х планировки х приспособления
время суток х планировки х приспособления
взаимодействия операторов, времени суток и планировок, а также операторов-часов-приспособлений, быть не может
четырехфакторых взаимодействий быть не может, поскольку один из факторов (операторы) вложен в другой (время суток). Поэтому есть только 3 фактора - 2 "чистых" и один фактор с вложенным в него дополнительным фактором.
Таким образом, насчитывается 11 факторов и их возможных взаимодействий.
Подобную усложненную схему я и рассчитал в модуле GLM STATISTICA 8.0
Схему Монтгомери я усложнил следующим образом: операторы 1 и 2 в каждой планировке работали в одни часы суток, а операторы 3 и 4 - в другие часы суток.

Картинки:
картинка: _____________________03.05.2012_153243.jpg

картинка: _____________________03.05.2012_153243.jpg

_____________________03.05.2012_153243.jpg — (103.97к)

картинка: ___________________________________________________._____________________.jpg

___________________________________________________._____________________.jpg — (77.19к)

Den-N
Постоянный участник

07.05.2012 06:18

URL #15

Объективные критерии, конечно же есть. Но по мере усложнения эксперимента увеличивается и сложность его грамотного задания для анализа: действительно нужно суметь правильно вложить эффекты. Это делается только рассуждением: возможно какое-то взаимодействие или нет. Применительно к усложнённому примеру я не совсем понял убрали ли вы вложение операторов в планировке при добавлении фактора Часы. Но пояснять не нужно, постараюсь так описать. Допустим что вы вложили Операторов только в Часы. Это значит, что каждый оператор поработает на каждом приспособлении во всех планировках. Так ли это? Если да - проблем нет, у вас наверное всё правильно. А если это не так: например, оставим операторов вложенными в планировки. Рассуждаем. Получается, что один и тот же оператор поработал со всеми приспособлениями (на одном - лучше, на другом - хуже, т.е. взаимодействие возможно, Оператор в Приспособления не вложен). Один и тот же оператор поработал в разные Часы суток (в одни лучше - в другие - хуже. Нет, не так, такого взаимодействия нет. Значит Оператор вложен в Часы). Один и тот же оператор поработал в разных планировках (в одних - лучше, в других - хуже. Нет, не так, такого взаимодействия нет. Значит Оператор вложен также и в Планировки). В итоге имеем главные эффекты:
1) Оператор (Часы х Планировки)
2) Часы
3) Планировки
4) Приспособления.
Далее идут взаимодействия, но с ними уже всё просто: выписываем все возможные взаимодействия и исключаем те, где что-то встречается дважды. Например, (Часы х Планировки х Приспособления) - возможно; при этом данные по разным операторам усредняются. Ну а взаимодействие Оператор (Часы х Планировки) х Планировки х Приспособления невозможно, т.к. Планировки встречаются дважды, т.е. мы пытаемся перекрестить вложенный эффект, что невозможно.
В итоге получаем ту модель, которую и нужно проверить. Её намного проще записать в строчку, чем пользоваться конструкторами. Поэтому в программах где я считаю сложные ДА (Statistica и SPSS) я сохранил текстовые файлы синтаксиса, которые модифицирую под другие данные и подсовываю программе, чтобы не иметь дела с конструкторами. Я пытался как-то научить такому анализу одного пользователя SPSS, т.к. у него всё время шли достаточно сложные, но грамотно спланированные эксперименты на животных, которые он не мог обсчитать и обращался на форум. Но он учиться не захотел, и я больше не помогал. Но осталась текстовка в моём ЖЖ (который я не веду). Если хотите попрактиковаться, можете попробовать обсчитать этот пример в Statistica. 6-ая версия отказалась его считать, поэтому и делал в SPSS. Возможно 8-10 версии справятся с этим примером. Там три части документа, последняя сверху: http://nokh.livejournal.com/1138.html.

Сообщение было отредактировано Den-N - 07.05.2012 06:19

Den-N
Постоянный участник

07.05.2012 06:39

URL #16

Почему у нас не сошлось с книгой пока не разбирался, нет времени. По другим вопросам.

1). Continuous предикторы - количественные. Их ещё называют ковариатами. Я считаю большой глупостью это окно в программе. С ковариатами нужно разбираться отдельно, что составляет предмет Ковариационного анализа. В нём на первом этапе проводится проверка равенства наклонов регрессионных линий, и только в случае если она выполняется - проводится собственно ковариационный анализ. Если же такая проверка показывает неоднородность наклонов, то значит в разных группах - свои зависимости и нельзя вычислять общий наклон. А это окно в пакете подстрекает включить ковариату без такой проверки, что может привести к неверным выводам в корне.

2) R - программно-статистическая среда, созданная специально для программирования статистических вычислений и их графического сопровождения. Т.е. это язык программирования, максимально заточенный на статанализ. Тема обширная. На этом форуме есть ветка: R-Help. Вот сообщество, где можно спрашивать и делиться наработками с кучей ссылок на другие ресурсы по R: http://r-statistics.livejournal.com/

Blaid
Постоянный участник

07.05.2012 22:23

URL #17

Да, я влаживал операторов только в часы суток. Поэтому (согласен с Вами) каждый оператор поработает со всеми приспособлениями во всех планировках. Но, как уже говорил, одни операторы (1 и 2 в каждой планировке из примера Монтгомери) работают со всеми приспособлениями только в одно время суток (скажем, только утром - в начале рабочей смены), а другие (3 и 4) - в другое (например, вечером - в конце смены). Т.е., образно говоря, каждый временной период (утро и вечер) имеют свой набор операторов (своих операторов). Поэтому, согласно моим рассуждениям, взаимодействия операторов и времени суток (в которое они работают) быть не может - операторы здесь вложены во время суток.
Если же операторы вложены (как у Монтгомери) именно в планировки, то они работают со всеми приспособлениями во все часы суток (и утром, и вечером), но в разных планировках (каждая из которых - планировки 1 и 2 - располагают своим набором из четырех операторов).
Отсюда, пытаясь рассуждать, получается следующий набор эффектов и их взаимодействий:
1. главные эффекты
операторы (внутри планировок)
планировки
время суток
приспособления
2. двухфакторные взаимодействия
операторы (внутри планировок) х время суток
операторы (внутри планировок) х приспособления
планировки х время суток
время суток х приспособления
планировки х приспособления
взаимодействия операторов с планировками быть не может, т.к. в каждой планировке свой набор операторов
3. трехфакторные взаимодействия
операторы (внутри планировок) х время суток х приспособления
планировки х время суток х приспособления
взаимодействия операторов, планировок и времени суток, а также операторов-планировок-приспособлений, быть не может
четырехфакторных взаимодействий быть не может, поскольку один из факторов (операторы) вложен в другой (приспособления). Поэтому есть только 3 фактора - 2 "чистых" и один фактор с вложенным в него дополнительным фактором.
Таким образом, насчитывается 11 факторов и их возможных взаимодействий.
Казалось бы - не более чем вариация предидущего примера (где операторы вложены в часы суток, в которое они работают - операторы 1 и 2 работали, условно говоря, утром, а операторы 3 и 4 - вечером, во всех планировках и на всех приспособлениях).
Но здесь операторы 1 и 2, будучи вложенными в планировки, работают утром в определенной планировке, НО НЕ НА ВСЕХ ПРИСПОСОБЛЕНИЯХ - так оператор 1 утром в планировке 1 работает (условно говоря) дважды на приспособлении 1 и один раз - приспособлении 2; а вечером - один раз на приспособлении 2 и дважды на приспособлении 3. И так далее. Т.е. ВРЕМЯ СУТОК (РАБОТЫ) И ПРИСПОСОБЛЕНИЯ ПЕРЕСЕКАЮТСЯ, НО НЕ ПОЛНОСТЬЮ.
Если я прав, не знаю как называется такой план дисперсионного анализа (возможно с ограничениями на рандомизацию). GLM в STATISTICA 8.0 на такое ругается и все эффекты не считает

Картинки:
картинка: _____________________07.05.2012_221457.jpg

картинка: _____________________07.05.2012_221457.jpg

_____________________07.05.2012_221457.jpg — (88.04к)

картинка: _____________________07.05.2012_221529.jpg

_____________________07.05.2012_221529.jpg — (29.54к)

картинка: _____________________07.05.2012_221601.jpg

_____________________07.05.2012_221601.jpg — (102.86к)

Den-N
Постоянный участник

09.05.2012 08:28

URL #18

(Blaid @ 08.05.2012 01:23)

...Но здесь операторы 1 и 2, будучи вложенными в планировки, работают утром в определенной планировке, НО НЕ НА ВСЕХ ПРИСПОСОБЛЕНИЯХ - так оператор 1 утром в планировке 1 работает (условно говоря) дважды на приспособлении 1 и один раз - приспособлении 2; а вечером - один раз на приспособлении 2 и дважды на приспособлении 3. И так далее. Т.е. ВРЕМЯ СУТОК (РАБОТЫ) И ПРИСПОСОБЛЕНИЯ ПЕРЕСЕКАЮТСЯ, НО НЕ ПОЛНОСТЬЮ.
Если я прав, не знаю как называется такой план дисперсионного анализа (возможно с ограничениями на рандомизацию). GLM в STATISTICA 8.0 на такое ругается и все эффекты не считает

Честно говоря, мне уже лень мусолить этот пример. Принципы я описал, и вы, похоже, в них разобрались. Если всё так как вы пишите, то это дизайн с пропущенными ячейками, когда какие-то ячейки "цепляются" с другим но строгой сетки не получается. Его мало кто умеет грамотно обсчитать и большинство пакетов такого тоже "не берёт". Видел пару зарубежных статей, а в книгах такое лишь упоминают вскользь. На это есть свои основания: при грамотном планировании эксперимента таких случаев не должно быть. Я лет 10 плотно считаю свои и чужие данные и за всё время сталкивался с подобным на практике раза 2-3. Но и это были несколько отличные экспериментальные планы, которые, похоже, уже можно выносить в отдельную группу: типа "факторные эксперименты с контролем". Когда есть пересекающиеся факторы (например, 4 участка стекла с разным Типом микрорельефа поверхности, но в которых есть Углубления (борозды) и участки Между ними) и контроль (Ровный участок поверхности на том же стекле). Если смотреть обрастание таких стёкол микроорганизмами во Времени, получается очень сложный перекрёстно-иерархический комплекс в котором Углубления и Между есть только в 4 Типах участков, а в контроле - нет. Его можно каким-то образом грамотно обсчитать через GLM, но, поверьте, такие результаты никто не поймёт. Т.е. существует некий баланс между сложностью эксперимента и его анализом с одной стороны и между прозрачностью и доступностью получаемых результатов и выводов - с другой. К сожалению, вместо того чтобы поступательно решать проблемы в сериях небольших экспериментов некоторые научные руководители в силу своей тупизны, недальновидности и лени сваливают все проблемы в один очень сложный многофакторный эксперимент. А аспиранты (которые только слышали когда-то про t-критерий Стьюдента, критерий Манна - Уитни и хи-квадрат) потом бегают и не знают что делать с этим массивом. Этого не знают и сами руководители, а но это уже не их проблемы: аспирант должен всё обсчитать и представить всё доступно, чтобы у него мозг не взорвался от каких-то там хитрых дисперсионных анализов.
На практике результаты анализа экспериментов с 4 факторами очень сложно излагать и воспринимаются они с ещё большим трудом - скорее просто не воспринимаются. Приходилось иметь дело с диссертационными работами в которых 80-100% текста собственного исследования было посвящено описанию эксперимента, который в принципе можно было обсчитать в ходе одного 4-5 факторного ДА. Но за этими выкладками потерялась бы медико-биологическая суть результатов. В таких случаях лучше разбивать сложный комплекс на несколько более простых, обсчитывать, выдавать и обсуждать порционно.

На практике несколько чаще приходится иметь дело с другими проблемами пропусков - когда какая-либо логика этих пропусков вообще отсутствует. В экспериментах такого не бывает, это - исключительно результат практической работы врачей. Они не могут экспериментировать и стараются применять наиболее эффективное лечение в каждом конкретном случае, т.е. ориентируясь на текущие показатели состояния. При этом получается просто гремучая смесь способов и сроков воздействия, причём с учётом повторных измерений одних и тех же пациентов. А если учесть что все они ещё вложены в 2-3 группы (разные диагнозы или разные способы/протоколы лечения), то получается просто каша. Здесь нет рецептов анализа - приходится объединять или разделять материал так, чтобы учесть как можно больше и не пропустить возможные взаимодействия факторов. Короче, какой материал - такой и анализ.

Поэтому, советую "не гнать лошадей", будете по мере поступления материала крутить свои и чужие данные, рассуждать над ними и всё встанет на места.

Сообщение было отредактировано Den-N - 09.05.2012 08:45

Поблагодарили (1): plantago

Blaid
Постоянный участник

09.05.2012 14:58

URL #19

Хорошо!
Больше настаивать не буду (хотя, впрочем, я думаю - Вас никто же не заставлял мне отвечать).
Последний вопрос - где в STATISTICA 8.0 можно обсчитать такой дизайн с пропущенными ячейками?
Или, если STATISTICA такое не считает, то какие проги считают?
Полагаю, что такие дизайны (с пропущенными ячейками) умеет грамотно обсчитать не "мало кто", а практически никто не умеет (хотя Вы, думаю, умеете). "Мало кто умеет" - это еще можно сказать про иерархическую и, может быть, про перекрестно-иерархическую схему. И дело тут, наверное, не в том, что все такие глупые и тупые, а в том, что схемы (планы) такой сложности весьма непросто стандартизировать (формализовать или, если хотите, алгоритмизировать). Это не обычная перекрестная two-way ANOVA, где только фактор А, фактор В и их взаимодействие! Тут нужна логика, а у первого логика такая, а у второго другая и т.д.
Я полностью с вами согласен, что "при грамотном планировании эксперимента таких случаев не должно быть". Но "не должно быть" еще не означает, что не может быть (хотя бы в таком гипотетическом примере)...
Поэтому, советую "не гнать лошадей"...
Я и не собираюсь делать столь сложных экспериментов, чтобы данные с них потом требовали применения таких схем анализа. А общаюсь я с Вами по этой теме (не знаю как для Вас и остальных, а для меня весьма интересной) потому что стремлюсь развиваться, учиться новому и узнавать новое. До того, как я "основал" эту тему на форуме (и при Вашем непосредственном участии развивал и все еще развиваю), я и не знал, что есть еще (оказывается!) иерархический дисп. анализ, и не только он, а еще и перекрестно-иерархический, и дизайн с пропущенными ячейками. А теперь узнал и это - не мало (по крайней мере, для меня). Не факт, что это новое знание (полученное, в том числе, благодаря Вам, за что Вам БОЛЬШОЕ СПАСИБО) мне пригодится. Но не факт, что не пригодиться.
А кому это не надо - никто никого не заставляет (я надеюсь…). Есть "универсальный" критерий Стьюдента (не будем никого заставлять при его применении проверять нормальность распределения данных в обеих сравниваемых группах и равенство дисперсий), позволяющий "как угодно" сравнивать две группы. Да что там две! Хоть три или четыре (такое нередко встречается в статьях из ВАКовских изданий, как России, так и прочих стран бывшего СССР)! "Черт с ним, с этим дисперсионным анализом!". Оставим его в покое...

Den-N
Постоянный участник

09.05.2012 17:40

URL #20

Нет, я такие анализы делать не умею. SPSS, а тем более Statistica - тоже. Делают какие-то пакеты в R, до R в коммерческом пакете SAS такое решали. Я 3,5 года назад тоже хотел развиваться дальше в этом направлении (http://molbiol.ru/forums/index.php?showtopic=284159 ), но пока было время не продвинулся. Посмотрите эту статью, в ней язык достаточно простой, но я самостоятельно не разобрался с дизайнами. Там в списке литературы есть хорошие источники, я даже что-то целенаправленно искал в и-нете и находил, но уже не помню что. Можете спросить по книгам из списка - я посмотрю что у меня есть.

PS А plantago, отметившему мой предыдущий пост, большая благодарность за книгу "Наглядная статистика. Используем R!" Сижу с ней у компьютера все майские праздники... Будем слазить с иглы пиратского коммерческого софта!

Сообщение было отредактировано Den-N - 09.05.2012 17:47

Поблагодарили (1): plantago

RenS

15.09.2016 11:10

URL #21

Добрый день!
Не знаю как лучше, задать вопрос здесь, или создать новую тему. Пока задам здесь.
Как правильно провести дисперсионный анализ для рассматриваемого примера из книги Монтгомери в R?
Я делал вот так

CODE

ASSEMBLING = data.frame(PLAN = rep(c("plan1", "plan2"), each = 24),
OPER = as.factor(rep(c(1:8), each = 6)),
TOOL = rep(c("tool1", "tool2", "tool3"), each = 2, time = 8),
TIME = c(22,24,30,27,25,21,
23,24,29,28,24,22,
28,29,30,32,27,25,
25,23,27,25,26,23,
26,28,29,28,27,25,
27,25,30,27,26,24,
28,25,24,23,24,27,
24,23,28,30,28,27))
summary(aov(TIME ~ TOOL*PLAN + TOOL*OPER + Error(OPER), data = ASSEMBLING))

В результате с книгой совпадают средние квадраты, но различаются F-критерии. (Опечатка, которая есть в исходных данных, исправлена). Пробовал и другие зависимости, но результат тот же.

Картинки:
картинка: ______________.JPG

______________.JPG — (46.63к)

PS2004R
Постоянный участник

15.09.2016 21:17

URL #22

А если контрасты поменять?

RenS

17.09.2016 23:31

URL #23

(PS2004R @ 15.09.2016 22:17)

А если контрасты поменять?

Не знаю, как это сделать.

Guest
IP-штамп: frsMoUrr6hEUk
гость

18.09.2016 11:46

URL #24

(RenS @ 17.09.2016 23:31)

Не знаю, как это сделать.

прямо в ?aov() написано по моему (и в примере приведено)

RenS

20.09.2016 20:34

URL #25

Спасибо за советы, про контрасты теперь буду знать.
Только все оказалось проще: неправильно записал формулу, надо вот так

CODE

summary(aov(TIME ~ TOOL*PLAN + Error(OPER/(PLAN*TOOL)), data = ASSEMBLING))

LOO

15.10.2016 12:36

URL #26

Здравствуйте! Подумала раз здесь идет речь про многомерный анализ, не создавать новую тему. У меня такой вопрос: есть 4 группы крыс: 1) контроль - линия вистар и три группы относящиеся к крысам линии КМ с повышенной судоожной активностью: 2) наивные крысы (не ходившие в судороги) 3) однократно подвергавшиеся судорогам 4) прошедшие киндлинг. Из каждой группы выбирается по 5 крыс, и по каждой крысе после ИГХ например на GAD67 набирается от 3 до 8 срезов. А по каждому срезу соответственно своё количество клеток. Как в данном случае проводить анализ? 1) рассчитать среднее по каждой крысе, а затем к полученным данным применить дисперсионный анализ. Но тогда мне кажется, что идет пренебрежение тем, что каждый гистологический срез немного разный уровень и уже существует ошибка внутри каждой крысы по срезам 2) Или возможен иерархический план анализа? Или возможен другой вариант анализа?

RenS

01.11.2016 12:36

URL #27

(LOO @ 15.10.2016 13:36)

Добрый день!
Посмотрите прикрепленный файл. С третьей страницы разбирается пример, похожий на Ваш, если я правильно понял. На восьмой странице есть строка кода на R для построения модели.

Файл/ы:

nested_anova.PDF
размер: 363.78к
кол-во скачиваний: 605

guest: great
IP-штамп: frj5GEfdEWR5M
гость

31.10.2018 17:06

URL #28

I have read your blog it is very helpful for me. I want to say thanks to you. I have bookmark your site for future updates.
http://www.trackersphere.com

guest: 123
IP-штамп: frJhOCvSv9ICE
гость

31.05.2022 09:14

URL #29

SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.

guest: 123
IP-штамп: fr4iy3.kHUw02
гость

06.06.2022 12:49

URL #30

South Korea 123VEGA and the US launched WAZDAN eight missiles WM CASINO on Monday, in AFFILIATE response to a ลิงค์รับทรัพย์ volley of ballistic missiles fired by North Korea the 123GOAL previous day. It comes 88KTC as Pyongyang continues FC SLOT to escalate its AMB CASINO missile tests. South 11HILO Korea's president Yoon Suk-yeol.

guest: 123
IP-штамп: frXqkB4MpP2jQ
гость

08.06.2022 11:43

URL #31

guest: 123
IP-штамп: frAWeMdOsBSXM
гость

11.06.2022 10:47

URL #32

Saxon Mullins 123VEGA says she once had PRAGMATIC PLAY romantic dreams of what her 'first time' would ICONIC GAMING be like. In none was หวยปิงปอง she paralysed by fear in a Sydney ปั่นสล็อต alleyway, aged 18, with a 123GOAL man she had met only minutes earlier. Ms 88KTC Mullins has always maintained FC SLOT this incident - in 2013 - was rape. It spurred AMB CASINO her to push for legal 11HILO reform in Australia, after a long court battle ended with a judge finding the man involved did not realise she hadn't consented to sex.

Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.

Имя:

Отправка сообщений использует JavaScript операции. В вашем броузере не
установлено/отключено выполнение JavaScript программ. Используйте Netscape Navigator
или Internet Explorer (не ранее 3 версии); убедитесь, что выполнение JavaScript
программ разрешено в настройках вашего броузера.