Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
Blaid Постоянный участник |
Хочу адресовать Вам вопрос относительно дисперсионного анализа при иерархической схеме. В частности, вот здесь (http://www.bio.spbu.ru/edu/bachelor/courses/materials/math_metods/03_disp_an.pdf pdf-файл прикреплён, с. 69) говорится о том, что при иерархической схеме дисперсионного анализа оценка взаимодействия иерархических факторов невозможна (в отличие от классической факторной схемы, где взаимодействие факторов вполне себе считается). Решил как-то я попробовать сделать машинный дисперсионный анализ по такой схеме (иерархической) в STATISTICA 8.0. Взял пример из Рокицкого (с. 221-223) про длину поросят при забое (поросята были от разных хряков и свиноматок). В таблице из учебника, содержащей результаты анализа, взаимодействия факторов действительно нет. Ввёл данные (см. скриншоты в архиве), запустил анализ, выставил опции (при других вариантах прога считать отказывалась - таблица результатов была частично или вовсе полностью пустой) и получил результаты сходные с таковыми из Рокицкого (за исключением F-значений). К моему удивлению рассчиталось и взаимодействие факторов. Да, перед этим было еще предупреждение о том, что что-то не в порядке с вводом данных. Ну, не знаю... Так вот хотелось бы знать, почему литературные данные говорят о том, что рассчитать нельзя, а прога, тем не менее, считает взаимодействие иерархических факторов. Нельзя или все-таки можно их рассчитать при иерархической схеме? Спасибо! Файл/ы:
|
Den-N Постоянный участник |
|
Blaid Постоянный участник |
Сделал пример из Рокицкого про поросят через Nested design ANOVA (результаты в pdf-файле). Также сделал пример из Снедекора (про растения и листья), с. 71 из 03_disp_an. Совпадение со Снедекором полное, а вот в случае Рокицкого значения F различаются. Еще попробовал другой пример из Рокицкого (с. 223-225) про число стернальных щетинок у дрозофил - все результаты получились количественно другие, но качественно аналогичные (влияние выборок недостоверно, влияние местностей - достоверно). Наверное, у Рокицкого (как у представителя, скажет так, отечественной школы статистиков) расчёт ведётся по иным формулам, чем у Снедекора (и иже с ним). STATISTICA, вероятно, считает также "не по Рокицкому". И ещё хотелось бы спросить. От чего зависит (чем определяется) выбор типа образования сумм квадратов при дисперсионном анализе (STATISTICA по умолчанию предлагает Type VI (unique) в Factorial ANOVA, а в Nested design ANOVA Type III (orthogonal), но и там, и там есть другие типы)? Файл/ы:
|
Den-N Постоянный участник |
SS типа 1 - для равномерных комплексов (одинаковое кол-во наблюдений во всех ячейках комплекса) SS типа 2 - для пропорциональных комплексов SS типа 3 - для неравномерных комплексов SS типа 4 - для комплексов с пропущенными ячейками. SS типов 5 и 6 - изобретение команды Statistica Inc. Но посмотрите точнее в помощи к программе - там это есть. Я обычно не заморачиваюсь по этому поводу, т.к. пакет нормально выбирает автоматически. С перекрёстно-иерархическими моделями дела обстоят ещё хуже чем с чистой иерархией: в любимой мной книге Монтгомери результаты примера не совпадают в точности с результатами расчётов в Statistica и SPSS. |
Blaid Постоянный участник |
Обычная факторная (перекрёстная) схема, иерархическая и упомянутая Вами перекрестно- иерархическая? Или еще есть и другие типы схем? Насчет перекрестно-иерархической, пожалуйста, подробнее. Что эта за схема такая? Хотелось бы увидеть примеры такой схемы (желательно с исходными цифрами, чтобы обсчитать в той же STATISTICA). В STATISTICA такие схемы считаются тоже в Nested Design ANOVA или нет? Книгу Монтгомери цепляю (укажите, где там примеры таких схем). Спасибо! Файл/ы:
|
Den-N Постоянный участник |
(Blaid @ 05.04.2012 13:12) Книга ещё не отпечатана, поэтому просто готовый кусок: Под названием «дисперсионный анализ» (ДА) фигурирует большая группа методов, которые объединяет один принцип: разложение изменчивости показателя на компоненты, объясняемые влиянием интересующих факторов и/или их взаимодействиями и случайную ошибку [Л. Закс, 1976; Д.К. Монтгомери, 1980]. Ограничимся лишь классификацией методов ДА. 1. По числу факторов: • однофакторный ДА (one-way ANOVA), когда есть несколько выборок (например: контрольная и несколько экспериментальных групп); • двухфакторный ДА (two-way ANOVA), когда имеется 2 или более выборок, но одновременно контролируется ещё один фактор (например, сравнение средних значений показателя в основной группе и группе сравнения с учётом пола – факторы: «воздействие» и «пол»). При этом становится возможным определение принципиально нового явления – взаимодействия факторов (например, в группе сравнения половых различий не было, а в основной группе они есть); • многофакторный ДА (multi-way ANOVA), когда имеется 2 или более выборок и одновременно контролируется 2 или более факторов. [b]2. По модели дисперсионного анализа:[/b] • модель I – с фиксированными факторами. Используется в случаях, когда исследователя интересует сравнение средних значений. В этом случае фактор считается фиксированным по плану эксперимента, т.е. полностью находится под контролем экспериментатора. Классический пример – эксперимент, в котором одна интактная группа служит контролем, а еще несколько – различными вариантами опыта; • модель II – со случайными факторами. Используется в случаях, когда исследователя интересует неконтролируемая им изменчивость, её количественное выражение (расчёт компонентов дисперсии) и сравнение изменчивости в популяциях. В этом случае фактор считается случайным. В чистом виде встречается в медицинских исследованиях редко; • смешанная модель. Включает как фиксированные, так и случайные факторы. Широко используется в клинических исследованиях. Все варианты ДА с повторными измерениями (repeated measures ANOVA) являются смешанными моделями (случайный фактор – «индивид»). 3. По классификации факторов в двух- и многофакторных ДА: • перекрёстная схема анализа – классический вариант ДА с взаимодействием факторов (factorial ANOVA); • иерархическая схема, когда взаимодействие факторов невозможно (nested ANOVA), например ДА с факторами: «образец ткани внутри индивида», «препарат внутри образца», «поле зрения внутри препарата»; • перекрестно-иерархическая схема – сложные варианты ДА с перекрёстными и вложенными (иерархическими) эффектами (cross-nested ANOVA). 4. По числу наблюдений в ячейке дисперсионного комплекса: • комплексы с единственным наблюдением на ячейку, когда расчёт ошибки в дисперсионном комплексе невозможен и в качестве таковой используется взаимодействие факторов; • равномерные комплексы, когда в каждой ячейке содержится одинаковое количество наблюдений. Наиболее желательный для анализа вариант, решаемый в рамках классического подхода; • пропорциональные комплексы, когда соотношение числа наблюдений на уровнях фактора одинаковое (например, и в основной группе и в группе сравнения мужчин ровно в 2 раза больше чем женщин). Решается в рамках классического подхода; • неравномерные комплексы – с разным числом наблюдений в ячейках. Не решаются точно в рамках классического подхода, анализируются через регрессионную технику общих линейных моделей (GLM). • комплексы с пропущенными значениями, когда есть ячейки без наблюдений (могут появляться вследствие потери части экспериментального материала или в специальных экспериментальных планах с ограничениями на рандомизацию). Анализируются через регрессионную технику общих линейных моделей (General Linear Models, GLM); Про остальное - потом. |
Den-N Постоянный участник |
(Blaid @ 05.04.2012 13:12) Den-N, а сколько Насчет перекрестно-иерархической, пожалуйста, подробнее. Что эта за схема такая? Хотелось бы увидеть примеры такой схемы (желательно с исходными цифрами, чтобы обсчитать в той же STATISTICA). В STATISTICA такие схемы считаются тоже в Nested Design ANOVA или нет? Книгу Монтгомери цепляю В Монтгомери это раздел 11.4 - планы с группированными и пересекающимися факторами. В Statistica рассчитываются в модуле GLM: это в том же окне что нестед анова, но ниже - General Linear Models. Тоже обязательно нужно выбирать какие факторы фиксированные, какие - случайные. Здесь важно грамотно задать вложенные эффекты и взаимодействия с ними в неудобном конструкторе. Короче, помучайтесь с ним разок до конца, чтобы всё-таки набить нужную модель, а потом посмотрите как это выглядит в синтаксисе (кнопка Syntax editor), сохраните и для других анализов набивайте модель сразу в синтаксисе. Сложные модели Statistica 6 не брала - сообщала об ошибке и предлагала некорректные методы анализа. Делал тогда в SPSS. В 8 версии пока не довелось считать что-то сложное - не знаю как справится. Вообще для таких сложных анализов нужно осваивать R - там это прописывается буквально одной строкой. Чтобы научиться создавать грамотные модели (включить всё что нужно и ничего не забыть) - почитайте главу 7 и разберитесь с 7.2 - после этого сможете самостоятельно составлять модели и ожидаемые MS для любых сколь угодно сложных полноблочных комплексов (для данных с пропусками нужно осваивать собственно GLM, а этим из практиков вообще мало кто владеет в мире). Если будут вопросы - постараюсь отвечать по мере возможности. Из темы по ДА в Statistica пока есть готовый пример по апостериорным сравнениям в рамках дисперсионного комплекса - почитайте эту тему и моё решение в сообщении #16 (второй исправленный файл): Сообщение было отредактировано Den-N - 09.04.2012 19:26 |
Blaid Постоянный участник |
Да и грамотно задать все эффекты (в т.ч. вложенные) и их взаимодействия при такой (перекрёстно-иерархической) схеме дисперсионного анализа для меня оказалось делом непростым. Вот как у меня получилось (см. прикрепленные файлы) сделать в STATISTICA 8.0 пример из книги Монтгомери по перекрёстно-иерархической схеме (с. 257, пример 11.2). Результаты расчета в STATISTICA 8.0 количественно не совпадают в точности с теми, что приведены у Монтгомери (к тому же согласно программному расчёту взаимодействие фактора приспособлений и фактора операторов внутри планировок статистически значимо, а у Монтгомери - нет). Но этот результат - максимум чего мне удалось добиться применительно в сравнении с результатами расчета этого примера у Монтгомери. В модуле GLM, в окне выбра зависимых и независимых переменных, есть ещё какой-то continuous pred. Что это такое, я не знаю. Поэтому ничего там не выбирал. Den-N (и все разбирающиеся в этом)! Просьба оценить всё это. И ещё. В предидущем посте Вы написали: "Вообще для таких сложных анализов нужно осваивать R - там это прописывается буквально одной строкой." Так вот, а что такое R? Спасибо! Картинки: ______________.JPG — (87.77к) Cross_Nested_ANOVA_______________._257_.jpg — (94.24к) _____________.JPG — (69.78к) __________________________________________.jpg — (91.17к) _________________.JPG — (59.83к) |
Blaid Постоянный участник |
Сообщение было отредактировано Blaid - 24.04.2012 20:16 |
Den-N Постоянный участник |
Короче, в книге опечатка. У первого оператора, приспос. 2 вместо 30 и 37 должно стоять 30 и 27. Вычислил это по суммам для операторов. В таком варианте с книгой сходятся все средние квадраты (MS), но не сходится F-критерий для оператора: в книге его MS делится на общую ошибку, а в программе - на MS взаимодействия Приспособления*Оператор(Планировка). Т.е. нужно проверить самостоятельно всё ли в книге правильно в таблице ожидаемых для средних квадратов - если получится в эти праздники, то отпишусь. Результаты Statistica совпадают с SPSS. И ещё проверьте разок свои данные в файле - у меня получились немного другие результаты по таблице с опечаткой. |
Blaid Постоянный участник |
Переделал без опечатки (и с проверкой введенных данных - действительно, одну переменную ввел неправильно). Теперь точно совпадает с Монтгомери, но взаимодействие приспособлений и планировок по-прежнему получается значимым. Попробую поискать 5-ю версию STATISTICA и сделать там, поскольку, как Вы говорите, в этой версии возможные эффекты и взаимодействия рассчитываются автоматически. Картинки: _____________________30.04.2012_201925.jpg — (79.62к) |
Den-N Постоянный участник |
Как уже писал выше различие с книгой только в 1 эффекте из 5 (а не во всех - как у вас) - надо проверять на ошибки/опечатки таблицу 11.9 Монтгомери, т.к. в ещё одном уважаемом пакете (SPSS) получаются точно такие же результаты как в STATISTICA, т.е. тоже не совпадает с Монтгомери по оценке эффекта "Оператор". Отпишитесь, пожалуйста, когда найдёте причину несовпадения наших результатов. Сообщение было отредактировано Den-N - 01.05.2012 07:39 |
Blaid Постоянный участник |
Хотелось бы спросить насчет того, как определить полный перечень эффектов и их взаимодействий. Есть ли для этого объективные критерии? В рассматриваемом примере из Монтгомери это более-менее ясно. Упрощенно (в моем представлении) этот пример, по сути, трехфакторный анализ (приспособления, планировки, операторы), в котором один из факторов (операторы) вложен в другой (планировки) и напрямую с третьим фактором (приспособления) взаимодействовать не может. Возможные взаимодействия - приспособления и планировки, а также приспособления и планировки с операторами внутри (операторы и приспособления напрямую взаимодействовать не могут, только через фактор планировок). Отсюда имеющиеся факторы и их взаимодействия: Фактор А (приспособления) Факторв В (планировки) Факторв С (операторы внутри планировок) Фактор D - взаимодействие А и В Фактор E - взаимодействие А и С, находящегося внутри В А если, скажем, рассматриваемый пример усложнить: ввести еще и фактор времени суток, в которое операторы (в разных планировках) работают с различными приспособлениями. Каков в этом случае будет перечень эффектов и их взаимодействий? В частности, мне непонятно в таком гипотетическом примере следующее: планировки (с операторами внутри) являются самостоятельным фактором (могущим напрямую взаимодействовать с фактором приспособлений) или же планировки (с операторами внутри), в свою очередь, вложены в фактор времени суток и могут взаимодействовать с приспособлениями только через время суток? Главу 7 и 7.2 в Монтгомери почитал, но мало что понял - там, на мой взгляд, все слишком абстрактно и математизировано (не спорю - может быть так и надо). Мне бы пояснить на конкретном примере... Спасибо! P.S. все-таки, что такое R, которое, согласно Вам, нужно осваивать для столь сложных моделей? Картинки: _____________________01.05.2012_164657.jpg — (62.77к) |
Blaid Постоянный участник |
1. главные эффекты операторы (внутри времени суток) время суток планировки приспособления 2. двухфакторные взаимодействия операторы (внутри времени суток) х планировки операторы (внутри времени суток) х приспособления время суток х планировки время суток х приспособления планировки х приспособления взаимодействия операторов с временем суток быть не может, т.к. в каждом времени суток свой набор операторов 3. трехфакторные взаимодействия операторы (внутри времени суток) х планировки х приспособления время суток х планировки х приспособления взаимодействия операторов, времени суток и планировок, а также операторов-часов-приспособлений, быть не может четырехфакторых взаимодействий быть не может, поскольку один из факторов (операторы) вложен в другой (время суток). Поэтому есть только 3 фактора - 2 "чистых" и один фактор с вложенным в него дополнительным фактором. Таким образом, насчитывается 11 факторов и их возможных взаимодействий. Подобную усложненную схему я и рассчитал в модуле GLM STATISTICA 8.0 Схему Монтгомери я усложнил следующим образом: операторы 1 и 2 в каждой планировке работали в одни часы суток, а операторы 3 и 4 - в другие часы суток. Картинки: _____________________03.05.2012_153243.jpg — (103.97к) ___________________________________________________._____________________.jpg — (77.19к) |
Den-N Постоянный участник |
1) Оператор (Часы х Планировки) 2) Часы 3) Планировки 4) Приспособления. Далее идут взаимодействия, но с ними уже всё просто: выписываем все возможные взаимодействия и исключаем те, где что-то встречается дважды. Например, (Часы х Планировки х Приспособления) - возможно; при этом данные по разным операторам усредняются. Ну а взаимодействие Оператор (Часы х Планировки) х Планировки х Приспособления невозможно, т.к. Планировки встречаются дважды, т.е. мы пытаемся перекрестить вложенный эффект, что невозможно. В итоге получаем ту модель, которую и нужно проверить. Её намного проще записать в строчку, чем пользоваться конструкторами. Поэтому в программах где я считаю сложные ДА (Statistica и SPSS) я сохранил текстовые файлы синтаксиса, которые модифицирую под другие данные и подсовываю программе, чтобы не иметь дела с конструкторами. Я пытался как-то научить такому анализу одного пользователя SPSS, т.к. у него всё время шли достаточно сложные, но грамотно спланированные эксперименты на животных, которые он не мог обсчитать и обращался на форум. Но он учиться не захотел, и я больше не помогал. Но осталась текстовка в моём ЖЖ (который я не веду). Если хотите попрактиковаться, можете попробовать обсчитать этот пример в Statistica. 6-ая версия отказалась его считать, поэтому и делал в SPSS. Возможно 8-10 версии справятся с этим примером. Там три части документа, последняя сверху: Сообщение было отредактировано Den-N - 07.05.2012 06:19 |
Den-N Постоянный участник |
1). Continuous предикторы - количественные. Их ещё называют ковариатами. Я считаю большой глупостью это окно в программе. С ковариатами нужно разбираться отдельно, что составляет предмет Ковариационного анализа. В нём на первом этапе проводится проверка равенства наклонов регрессионных линий, и только в случае если она выполняется - проводится собственно ковариационный анализ. Если же такая проверка показывает неоднородность наклонов, то значит в разных группах - свои зависимости и нельзя вычислять общий наклон. А это окно в пакете подстрекает включить ковариату без такой проверки, что может привести к неверным выводам в корне. 2) R - программно-статистическая среда, созданная специально для программирования статистических вычислений и их графического сопровождения. Т.е. это язык программирования, максимально заточенный на статанализ. Тема обширная. На этом форуме есть ветка: R-Help. Вот сообщество, где можно спрашивать и делиться наработками с кучей ссылок на другие ресурсы по R: |
Blaid Постоянный участник |
Если же операторы вложены (как у Монтгомери) именно в планировки, то они работают со всеми приспособлениями во все часы суток (и утром, и вечером), но в разных планировках (каждая из которых - планировки 1 и 2 - располагают своим набором из четырех операторов). Отсюда, пытаясь рассуждать, получается следующий набор эффектов и их взаимодействий: 1. главные эффекты операторы (внутри планировок) планировки время суток приспособления 2. двухфакторные взаимодействия операторы (внутри планировок) х время суток операторы (внутри планировок) х приспособления планировки х время суток время суток х приспособления планировки х приспособления взаимодействия операторов с планировками быть не может, т.к. в каждой планировке свой набор операторов 3. трехфакторные взаимодействия операторы (внутри планировок) х время суток х приспособления планировки х время суток х приспособления взаимодействия операторов, планировок и времени суток, а также операторов-планировок-приспособлений, быть не может четырехфакторных взаимодействий быть не может, поскольку один из факторов (операторы) вложен в другой (приспособления). Поэтому есть только 3 фактора - 2 "чистых" и один фактор с вложенным в него дополнительным фактором. Таким образом, насчитывается 11 факторов и их возможных взаимодействий. Казалось бы - не более чем вариация предидущего примера (где операторы вложены в часы суток, в которое они работают - операторы 1 и 2 работали, условно говоря, утром, а операторы 3 и 4 - вечером, во всех планировках и на всех приспособлениях). Но здесь операторы 1 и 2, будучи вложенными в планировки, работают утром в определенной планировке, НО НЕ НА ВСЕХ ПРИСПОСОБЛЕНИЯХ - так оператор 1 утром в планировке 1 работает (условно говоря) дважды на приспособлении 1 и один раз - приспособлении 2; а вечером - один раз на приспособлении 2 и дважды на приспособлении 3. И так далее. Т.е. ВРЕМЯ СУТОК (РАБОТЫ) И ПРИСПОСОБЛЕНИЯ ПЕРЕСЕКАЮТСЯ, НО НЕ ПОЛНОСТЬЮ. Если я прав, не знаю как называется такой план дисперсионного анализа (возможно с ограничениями на рандомизацию). GLM в STATISTICA 8.0 на такое ругается и все эффекты не считает Картинки: _____________________07.05.2012_221457.jpg — (88.04к) _____________________07.05.2012_221529.jpg — (29.54к) _____________________07.05.2012_221601.jpg — (102.86к) |
Den-N Постоянный участник |
(Blaid @ 08.05.2012 01:23) ...Но здесь операторы 1 и 2, будучи вложенными в планировки, работают утром в определенной планировке, НО НЕ НА ВСЕХ ПРИСПОСОБЛЕНИЯХ - так оператор 1 утром в планировке 1 работает (условно говоря) дважды на приспособлении 1 и один раз - приспособлении 2; а вечером - один раз на приспособлении 2 и дважды на приспособлении 3. И так далее. Т.е. ВРЕМЯ СУТОК (РАБОТЫ) И ПРИСПОСОБЛЕНИЯ ПЕРЕСЕКАЮТСЯ, НО НЕ ПОЛНОСТЬЮ. Если я прав, не знаю как называется такой план дисперсионного анализа (возможно с ограничениями на рандомизацию). GLM в STATISTICA 8.0 на такое ругается и все эффекты не считает Честно говоря, мне уже лень мусолить этот пример. Принципы я описал, и вы, похоже, в них разобрались. Если всё так как вы пишите, то это дизайн с пропущенными ячейками, когда какие-то ячейки "цепляются" с другим но строгой сетки не получается. Его мало кто умеет грамотно обсчитать и большинство пакетов такого тоже "не берёт". Видел пару зарубежных статей, а в книгах такое лишь упоминают вскользь. На это есть свои основания: при грамотном планировании эксперимента таких случаев не должно быть. Я лет 10 плотно считаю свои и чужие данные и за всё время сталкивался с подобным на практике раза 2-3. Но и это были несколько отличные экспериментальные планы, которые, похоже, уже можно выносить в отдельную группу: типа "факторные эксперименты с контролем". Когда есть пересекающиеся факторы (например, 4 участка стекла с разным Типом микрорельефа поверхности, но в которых есть Углубления (борозды) и участки Между ними) и контроль (Ровный участок поверхности на том же стекле). Если смотреть обрастание таких стёкол микроорганизмами во Времени, получается очень сложный перекрёстно-иерархический комплекс в котором Углубления и Между есть только в 4 Типах участков, а в контроле - нет. Его можно каким-то образом грамотно обсчитать через GLM, но, поверьте, такие результаты никто не поймёт. Т.е. существует некий баланс между сложностью эксперимента и его анализом с одной стороны и между прозрачностью и доступностью получаемых результатов и выводов - с другой. К сожалению, вместо того чтобы поступательно решать проблемы в сериях небольших экспериментов некоторые научные руководители в силу своей тупизны, недальновидности и лени сваливают все проблемы в один очень сложный многофакторный эксперимент. А аспиранты (которые только слышали когда-то про t-критерий Стьюдента, критерий Манна - Уитни и хи-квадрат) потом бегают и не знают что делать с этим массивом. Этого не знают и сами руководители, а но это уже не их проблемы: аспирант должен всё обсчитать и представить всё доступно, чтобы у него мозг не взорвался от каких-то там хитрых дисперсионных анализов. На практике результаты анализа экспериментов с 4 факторами очень сложно излагать и воспринимаются они с ещё большим трудом - скорее просто не воспринимаются. Приходилось иметь дело с диссертационными работами в которых 80-100% текста собственного исследования было посвящено описанию эксперимента, который в принципе можно было обсчитать в ходе одного 4-5 факторного ДА. Но за этими выкладками потерялась бы медико-биологическая суть результатов. В таких случаях лучше разбивать сложный комплекс на несколько более простых, обсчитывать, выдавать и обсуждать порционно. На практике несколько чаще приходится иметь дело с другими проблемами пропусков - когда какая-либо логика этих пропусков вообще отсутствует. В экспериментах такого не бывает, это - исключительно результат практической работы врачей. Они не могут экспериментировать и стараются применять наиболее эффективное лечение в каждом конкретном случае, т.е. ориентируясь на текущие показатели состояния. При этом получается просто гремучая смесь способов и сроков воздействия, причём с учётом повторных измерений одних и тех же пациентов. А если учесть что все они ещё вложены в 2-3 группы (разные диагнозы или разные способы/протоколы лечения), то получается просто каша. Здесь нет рецептов анализа - приходится объединять или разделять материал так, чтобы учесть как можно больше и не пропустить возможные взаимодействия факторов. Короче, какой материал - такой и анализ. Поэтому, советую "не гнать лошадей", будете по мере поступления материала крутить свои и чужие данные, рассуждать над ними и всё встанет на места. Сообщение было отредактировано Den-N - 09.05.2012 08:45
|
Blaid Постоянный участник |
Больше настаивать не буду (хотя, впрочем, я думаю - Вас никто же не заставлял мне отвечать). Последний вопрос - где в STATISTICA 8.0 можно обсчитать такой дизайн с пропущенными ячейками? Или, если STATISTICA такое не считает, то какие проги считают? Полагаю, что такие дизайны (с пропущенными ячейками) умеет грамотно обсчитать не "мало кто", а практически никто не умеет (хотя Вы, думаю, умеете). "Мало кто умеет" - это еще можно сказать про иерархическую и, может быть, про перекрестно-иерархическую схему. И дело тут, наверное, не в том, что все такие глупые и тупые, а в том, что схемы (планы) такой сложности весьма непросто стандартизировать (формализовать или, если хотите, алгоритмизировать). Это не обычная перекрестная two-way ANOVA, где только фактор А, фактор В и их взаимодействие! Тут нужна логика, а у первого логика такая, а у второго другая и т.д. Я полностью с вами согласен, что "при грамотном планировании эксперимента таких случаев не должно быть". Но "не должно быть" еще не означает, что не может быть (хотя бы в таком гипотетическом примере)... Поэтому, советую "не гнать лошадей"... Я и не собираюсь делать столь сложных экспериментов, чтобы данные с них потом требовали применения таких схем анализа. А общаюсь я с Вами по этой теме (не знаю как для Вас и остальных, а для меня весьма интересной) потому что стремлюсь развиваться, учиться новому и узнавать новое. До того, как я "основал" эту тему на форуме (и при Вашем непосредственном участии развивал и все еще развиваю), я и не знал, что есть еще (оказывается!) иерархический дисп. анализ, и не только он, а еще и перекрестно-иерархический, и дизайн с пропущенными ячейками. А теперь узнал и это - не мало (по крайней мере, для меня). Не факт, что это новое знание (полученное, в том числе, благодаря Вам, за что Вам БОЛЬШОЕ СПАСИБО) мне пригодится. Но не факт, что не пригодиться. А кому это не надо - никто никого не заставляет (я надеюсь…). Есть "универсальный" критерий Стьюдента (не будем никого заставлять при его применении проверять нормальность распределения данных в обеих сравниваемых группах и равенство дисперсий), позволяющий "как угодно" сравнивать две группы. Да что там две! Хоть три или четыре (такое нередко встречается в статьях из ВАКовских изданий, как России, так и прочих стран бывшего СССР)! "Черт с ним, с этим дисперсионным анализом!". Оставим его в покое... |
Den-N Постоянный участник |
PS А plantago, отметившему мой предыдущий пост, большая благодарность за книгу "Наглядная статистика. Используем R!" Сижу с ней у компьютера все майские праздники... Будем слазить с иглы пиратского коммерческого софта! Сообщение было отредактировано Den-N - 09.05.2012 17:47
|
RenS |
Не знаю как лучше, задать вопрос здесь, или создать новую тему. Пока задам здесь. Как правильно провести дисперсионный анализ для рассматриваемого примера из книги Монтгомери в R? Я делал вот так CODE ASSEMBLING = data.frame(PLAN = rep(c("plan1", "plan2"), each = 24), OPER = as.factor(rep(c(1:8), each = 6)), TOOL = rep(c("tool1", "tool2", "tool3"), each = 2, time = 8), TIME = c(22,24,30,27,25,21, 23,24,29,28,24,22, 28,29,30,32,27,25, 25,23,27,25,26,23, 26,28,29,28,27,25, 27,25,30,27,26,24, 28,25,24,23,24,27, 24,23,28,30,28,27)) summary(aov(TIME ~ TOOL*PLAN + TOOL*OPER + Error(OPER), data = ASSEMBLING)) В результате с книгой совпадают средние квадраты, но различаются F-критерии. (Опечатка, которая есть в исходных данных, исправлена). Пробовал и другие зависимости, но результат тот же. Картинки: ______________.JPG — (46.63к) |
PS2004R Постоянный участник |
|
RenS |
(PS2004R @ 15.09.2016 22:17) Не знаю, как это сделать. |
Guest IP-штамп: frsMoUrr6hEUk гость |
(RenS @ 17.09.2016 23:31) прямо в ?aov() написано по моему (и в примере приведено) |
RenS |
Только все оказалось проще: неправильно записал формулу, надо вот так CODE summary(aov(TIME ~ TOOL*PLAN + Error(OPER/(PLAN*TOOL)), data = ASSEMBLING)) |
LOO |
|
RenS |
(LOO @ 15.10.2016 13:36) Здравствуйте! Подумала раз здесь идет речь про многомерный анализ, не создавать новую тему. У меня такой вопрос: есть 4 группы крыс: 1) контроль - линия вистар и три группы относящиеся к крысам линии КМ с повышенной судоожной активностью: 2) наивные крысы (не ходившие в судороги) 3) однократно подвергавшиеся судорогам 4) прошедшие киндлинг. Из каждой группы выбирается по 5 крыс, и по каждой крысе после ИГХ например на GAD67 набирается от 3 до 8 срезов. А по каждому срезу соответственно своё количество клеток. Как в данном случае проводить анализ? 1) рассчитать среднее по каждой крысе, а затем к полученным данным применить дисперсионный анализ. Но тогда мне кажется, что идет пренебрежение тем, что каждый гистологический срез немного разный уровень и уже существует ошибка внутри каждой крысы по срезам 2) Или возможен иерархический план анализа? Или возможен другой вариант анализа? Добрый день! Посмотрите прикрепленный файл. С третьей страницы разбирается пример, похожий на Ваш, если я правильно понял. На восьмой странице есть строка кода на R для построения модели. Файл/ы:
|
guest: great IP-штамп: frj5GEfdEWR5M гость |
|
guest: 123 IP-штамп: frJhOCvSv9ICE гость |
|
guest: 123 IP-штамп: fr4iy3.kHUw02 гость |
|
guest: 123 IP-штамп: frXqkB4MpP2jQ гость |
|
guest: 123 IP-штамп: frAWeMdOsBSXM гость |
|
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема » |