Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
amaxa |
(Den-N @ 09.01.2015 19:15) 2) С логарифмированием сложнее. Сама природа данных, процессов, которые их порождают могут быть такими, что нормального распределения быть не может. Например, даже чисто теоретически необоснованно ждать нормального распределения от площади: т.к. при увеличении длины и ширины на 1 ед., площадь увеличится на 1 ед2, при увеличении на 2 - на 4, при увеличении на 3 - на 9 и т.д. Т.е. при варьировании по нормальному закону длины и ширины, в распределении соответствующих площадей появится положительная асимметрия - хвост справа будет длиннее. А вот для квадратного корня из площади ждать нормального распределения логично, т.е. для площадей показателем более "отвечающим природе данных" будет квадратный корень из неё. Аналогично, для объёмов это будет кубический корень. Для многих же процессов в природе такой функцией является логарифм (почитайте про логнормальное распределение). Это все скорости, процессы во времени, активности, концентрации, численности организмов и многое другое. К сожалению, необходимость логарифмирования не всегда очевидна и здесь возможны некие ошибки анализа, порождаемые так называемым "эффектом шкалы", поскольку разные статистические техники по-разному обрабатывают шкалы. Чтобы избежать таких ошибок я всегда смотрю исходные распределения, остатки регресии, распределения главных компонент - чтобы обнаружить возможную асимметрию и либо (1) бороться с ней преобразованием исходных данных, либо (2) использовать более устойчивые техники, например, ранговые. Вопрос для отдельной темы, но не хочется создавать её. А какие есть подходы к анализу смешанного распределения? Непараметрика там, вроде, не поможет. Как с ним быть (Ваш опыт). Где можно о нем почитать? Заранее благодарен за ответ и помощь. |
Den-N Постоянный участник |
1) Если сравнивать группы с такими распределениями, то всё плохо, т.к. при неоднородных группах мы думаем, что сравниваем средние, а на самом деле и неявно - соотношение групп по показателю, вносящему неоднородность. Тот же парадокс Симпсона, только не для корреляции, а для задачи сравнения групп - можно прийти к прямо противоположному выводу. Если повезёт - увидим на гистограмме би- или полимодальность или выбросы. Но может и не повезти - и положительный, и отрицательный эксцесс может появляться ввиду неоднородности, но гистограмма будет вполне симметричной и даже колоколообразной... Лично у меня здесь опыт небольшой: лишь однажды на медицинских данных в задаче сравнения увидели отчётливую бимодальность и поняли, что просто средние сравнивать нельзя, т.к. имеем дело с какими-то двумя подгруппами, источник появления которых врач не смог даже предположить. Поэтому сравнивали группы: а) по доле пациентов в подгруппах (не отличалась значимо), и б) - по средним в подгруппах отдельно. Если же нет уверенности, что выборка неоднородна, наверное как раз порядковая непараметрика и подойдёт, ну и ресэмплинг-техники однозначно. 2) Если анализировать сами распределения, то видится 2 подхода: разделение смеси распределений и проверка на выбросы. Своим скепсисом по части выбросов делился здесь: Разделение смеси обсуждали здесь:
|
guest: great IP-штамп: frj5GEfdEWR5M гость |
|
guest: great IP-штамп: frj5GEfdEWR5M гость |
|
guest: 123 IP-штамп: frJhOCvSv9ICE гость |
|
guest: 123 IP-штамп: frXqkB4MpP2jQ гость |
|
guest: 123 IP-штамп: frAWeMdOsBSXM гость |
|
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема » |