Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
Vovchick Участник Санкт-Петербург |
1. На каком основании можно исключить результат из выборки? Т.е., например, показали нормальность распределения. Показали, что одно значение больше, чем (Среднее + 2 стандартных отклонения). Этого достаточно, чтобы исключить это значение из дальнейших рассчётов? И эти средние и 2 СО надо считать с учётом этого вышедшего значения или сначала исключить, а потом среднее и СО считать. Врачи просто перед рассчётом среднего убирают самое большое и самое маленькое значение (я про такое и раньше слышал, но никто толком не сказал, на каком основании это делается, просто "так всегда делается"). 2. Есть ли методы для проведения корреляционного анализа двух качественных выборок (например, увеличееная печень и степень ожирания) и для корреляции качественных и количественных выборок (например, увеличенная печень и активность АЛТ в Ед/л)? |
ИНО Постоянный участник Донецк |
Теперь попытаюсь ответить на ваши вопросы, хотя они, скажем так, довольно странные. 1. А какую природу имебют эти наблюдения с какой целью Вы хотите их исключать? Например. это могут быть выбросы (в традиционным смысле), то есть ошибочно записанные наблюдения, то что в теории измерений называется промахом. Допустим, лаборант отвлекся и поставил запятую после не того знака. В таком случае действительно их необходимо удалить и забыть. Математических методов детекции выбросов есть множество, я в этой теме не силен, поскольку все данные собираю лично и внимательно, потому точно знаю, что никаких промахов в них нет. Также понятие "выброс" имеет и другое значение - наблюдение не согласующееся выбранной теоретической моделью. Это как раз похоже на то, о чем Вы говорите. Как правило, в таких случаях строят две модели, одну с "выбросами", другую без них, и смотрят, как изменился результат. Потом напрягают мозг в попытке найти причины аномалий, пытаются рассмотреть данные как происходящие не из одного распределения, а из смеси нескольких, стараются их разделить, беря во внимание факторы, не учтенные в первоначальном варианте анализа, например, пол, возраст, этническую принадлежность испытуемых и т. п. Но проблема кроется в том, что на самом деле совсем не обязательно имеет место смесь, это может быть единое распределение, просто сильно отличное от того, которым его пытается аппроксимировать исследователь, например нормального. К примеру, в выборках из любого распределения с тяжелыми хвостами, методы, предназначенные для нормального распределения, будут находить несуществующие "выбросы". Вообще, современные исследования показывают, что истинное нормальное распределение не встречается среди объектов исследования большинства научных дисциплин, где его традиционно применяют (в биологии и медицине - особенно). Поэтому многие статистики ратуют за применение непараметрических методов везде, где это возможно. Вот Вы "показали нормальность" каким образом? Врачи просто перед рассчётом среднего убирают самое большое и самое маленькое значение (я про такое и раньше слышал, но никто толком не сказал, на каком основании это делается, просто "так всегда делается"). Это называется "усеченное среднее". Вот, почему ваши врачи отсекают именно по одному значению с каждого хвоста - это уже вопрос. 2. Корреляция определена только для качественных признаков, измеренных в дихотомической шкале. Для политомичеиких используют другие методы. |
Vovchick Участник Санкт-Петербург |
1. Кокретный пример - испытание лекарства. Две группы по 10 человек: плацебо и препарат. Измеряются биохимические показатели сыворотки: перед приёмом препарата и три точки после приёма (на следующий день, через 3 дня, через 10 дней). Креатинкиназа у всех во всех точках в норме или редко кое у кого несколько повышена. А у одного человека из плацебо в точке "через 3 дня" резко вверх поднялась (со 100 до 2000 ед/л), а в точке "10 дней" снизился, но всё равно высокий (около 500ед/л). Явно, что экперимет тут не при чём. А если его включать, то среднее в плацебо будет очень высоким, и врачи заставят этому объяснения придумывать (выше хоть и не достоверно, но существенно). Я бы исключил, но математически обосновать не могу. -Истинного нормально распределения в природе не встречается, т.к. оно не может быть ограничено (а в природе отрицательных чисел не встречается). Просто я как какой-то критерий отсева знаю только про "Среднее+/-2СО", а СО только для нормального распределения корректо использовать. -Как можно обосновать применение "усечённого среднего"? - на "нормальность" критериями проверял (Шапиро-Вики, Холмогоров-Смирнов). 2. Назовите, пожалуйста, метод для корреляции дихотомических качественных признаков. Почитаю. |
ИНО Постоянный участник Донецк |
-Как можно обосновать применение "усечённого среднего"? А для чего, вы собрались его применять? Если для замены среднего в описательной статистике, то ИМХО никак. Истинного нормально распределения в природе не встречается, т.к. оно не может быть ограничено (а в природе отрицательных чисел не встречается). Это не самое страшное (обычно устраняется логорифмированием или другими преобразованиями), хуже - существенные отличия в форме кривой от любого известного закона, которые часто имеют место быть в природе. на "нормальность" критериями проверял (Шапиро-Вики, Холмогоров-Смирнов). Как только Уилка не обзывали, но чтобы Викой... А фамилию Колмогорова вообще стыдно не знать. Похоже, рановато Вам править врачей в области статистики, самому книжки почитать сначала придется. Просто я как какой-то критерий отсева знаю только про "Среднее+/-2СО" Это т. н. "правило двух сигм", если память мне не изменяет, дает вероятность только чуть более 95%, чаще применяется "правило трех сигм" (более 99%), но все это только для нормального распределения. 2. Наиболее классический метод - коэффициент тетрахорической корреляции Пирсона, предполагает, что данные происходят из нормального распределения, изначально имели непрерывную интервальную шкалу, затем огрублённую до дихотомической (или что-то в этом роде, не помню уже точной формулировки). встречается ли такое на практике - большой вопрос. В случаях естественной дихотомии (где непрерывные распределения вообще не при делах) обычно применяют не корреляцию, а методы, основанные на анализе таблиц сопряженности: различные коэффициенты сопряженности или ассоциации (фи-квадрат, Юла, Чупрова и несть им числа), в отличие от коэффициентов корреляции большинство этих мер изменяются в пределах 0...1 и не имеют направленности (+/-). Кстати, в Вашем примере, про размер печени и ожирение, разумнее использовать не дихо- или политомическую, а ранговую шкалу и соответственно коэффициенты ранговой корреляции Спирмена или Кендалла. Потому как при огрублении шкалы происходит потеря данных и, соответственно, мощности. Сообщение было отредактировано ИНО - 21.03.2017 16:10 |
passant |
Примерно так: Признаки измерены в количественных шкалах (при нормальных распределениях) - коэффициент корреляции Пирсона. Признаки измерены в ранговых шкалах - коэффициент корреляции Спирмана, коэффициент корреляции Кэнделла. Признаки измерены в номинальных шкалах - ХИ-квадрат критерий и коэффициент сопряженности Пирсона и его вариации - Крамера, Чупрова, Ромадановского. Признаки измерены в дихатомических шкалах - коэффициент ассоциации Юна и производные от него - коэффициент Жаккара, коэффициент подобия Сокала, коэффициент подобия Рассела-Рао. Признаки измерены в количественной и номинальной шкалах - ХИ-квадрат. Признаки измерены в количественной и дихотомической шкалах - коэффициент бисериальной корреляции. Признаки измерены в ранговой и дихотомической шкалах - - коэффициент рангово- бисериальной корреляции. Кажется, ничего не забыл Про отсев (и вообще анализ) "выбросов" - опять таки есть вполне сложившиеся подходы. Все начинается с зубодробительной математики в стиле Э. Гумбель "Статистика экстремальных значений" и заканчиватеся рядом пакетов на R, которые "все сделют за Вас" , и которые описаны в большинстве пособий по R. Сообщение было отредактировано passant - 22.03.2017 12:19
|
Vovchick Участник Санкт-Петербург |
{1. Непонятно, какой показатель Вы сравниваете и каким методом. От этого зависит есть ли необходимость исключать "выбросы" или нет. Если интересующая величина - содержание креатинкиназы, и у всех пациентов, кроме одного из контрольной группы она осталась стабильна, то увы, похоже исследование провалилось. Или мерили что-то еще?} Много всего меряли, в экспериметнте очень много народу принимало участие. А ко мне вопрос был, почему в контрольной группе креатинкиназа выше, чем в опытной ("не достоверно, но заметно"). {-Как можно обосновать применение "усечённого среднего"? А для чего, вы собрались его применять? Если для замены среднего в описательной статистике, то ИМХО никак.} Врачи же используют, и мне советуют) {на "нормальность" критериями проверял (Шапиро-Вики, Холмогоров-Смирнов). Как только Уилка не обзывали, но чтобы Викой... А фамилию Колмогорова вообще стыдно не знать. Похоже, рановато Вам править врачей в области статистики, самому книжки почитать сначала придется.} Книжки почитать надо, не спорю. Вот и хочу узнать, какие. Врачей, которые вообще не то что не проверяют на нормальность, а и не понимают, что это такое, "править в области статистики" буду всё равно (как второкласник детсадовцев). Фамилии в критериях такие написал, т.к. их, в основном, в англоязычном варианте видел. Так и воспринимал. |
biostatleo |
(Vovchick @ 21.03.2017 13:27) Доюрый день. Я биолог, но сейчас работаю в НИИ с медицинским уклоном. В основном, окружают врачи, которые математику вообще никак не воспринимают (но в отчётах цифирки пишут). Как-то хочу с этим порядок навести (тем более, есть приличный софт для статистики). Есть проблемы психологичесие (типа, 4 человека из 10=40%, а 5 человек из 9=55,6%, т.е. больше и из этого надо выводы делать), а есть проблемы методологические. Видимо, очень примитивные, но сам не смог разобраться. Помогите, пожалуйста. Пока две основные вещи не могу понять: 1. На каком основании можно исключить результат из выборки? Т.е., например, показали нормальность распределения. Показали, что одно значение больше, чем (Среднее + 2 стандартных отклонения). Этого достаточно, чтобы исключить это значение из дальнейших рассчётов? И эти средние и 2 СО надо считать с учётом этого вышедшего значения или сначала исключить, а потом среднее и СО считать. Врачи просто перед рассчётом среднего убирают самое большое и самое маленькое значение (я про такое и раньше слышал, но никто толком не сказал, на каком основании это делается, просто "так всегда делается"). 2. Есть ли методы для проведения корреляционного анализа двух качественных выборок (например, увеличееная печень и степень ожирания) и для корреляции качественных и количественных выборок (например, увеличенная печень и активность АЛТ в Ед/л)? Владимир, привет! Анализ разных парных корреляций, конечно, полезная акция, как и сравнение средних (http://www.biometrica.tomsk.ru/comp_aver.htm) . Однако задумайтесь вот над чем. Если есть статистически значимые эти самые парные корреляции, т.е. взаимосвязи, то это значит что есть и многомерные цепочки связей. Т.е. связи не только между парой признаков, а целой последовательностью признаков разного типа. Одни из этих признаков количественные, другие признаки качественные (группирующие), третьи - ранговые, и т.д. И тогда очень часто возникает проблема оценки интенсивности связи (сложной корреляции) между одним группирующим признаком, и многими иными признаками. Отмечу, что таких длинных "цепочек" связей может быть всегда очень много. Пример такого большого набора можете посмотреть оп адресу Ну а чтобы лучше разобраться в возможностях такого подхода, почитайте серию 9 статей об этом по адресу Итак, вначале выделите ВСЕ анализируемые признаки, и сформулируйте основные цели исследования. И тогда осознаете, что только парные корреляции - это всего лишь начальный момент. Желаю успешного исследования. |
Vovchick Участник Санкт-Петербург |
(biostatleo @ 08.05.2017 12:03) Итак, вначале выделите ВСЕ анализируемые признаки, и сформулируйте основные цели исследования. И тогда осознаете, что только парные корреляции - это всего лишь начальный момент. Спасибо за ответ. Это всё хорошо и правильно, но у меня пока с "начальным моментом" проблемы. |
biostatleo |
Что Вы подразумеваете под "начальным моментом"? |
guest: great IP-штамп: frj5GEfdEWR5M гость |
|
guest: 123 IP-штамп: frJhOCvSv9ICE гость |
|
guest: 123 IP-штамп: fr4iy3.kHUw02 гость |
|
guest: 123 IP-штамп: frXqkB4MpP2jQ гость |
|
guest: 123 IP-штамп: frAWeMdOsBSXM гость |
|
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема » |