Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 

Щёлкните, чтобы внести в Избранные Темы* Простые вопросы по статитстике
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.


 
Добавить сообщение в темуСоздать новую темуСоздать голосование
Участник оффлайн! Vovchick
Участник
Санкт-Петербург



 прочитанное сообщение 21.03.2017 12:27     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #1 множественное цитирование

Доюрый день. Я биолог, но сейчас работаю в НИИ с медицинским уклоном. В основном, окружают врачи, которые математику вообще никак не воспринимают (но в отчётах цифирки пишут). Как-то хочу с этим порядок навести (тем более, есть приличный софт для статистики). Есть проблемы психологичесие (типа, 4 человека из 10=40%, а 5 человек из 9=55,6%, т.е. больше и из этого надо выводы делать), а есть проблемы методологические. Видимо, очень примитивные, но сам не смог разобраться. Помогите, пожалуйста. Пока две основные вещи не могу понять:

1. На каком основании можно исключить результат из выборки?
Т.е., например, показали нормальность распределения. Показали, что одно значение больше, чем (Среднее + 2 стандартных отклонения). Этого достаточно, чтобы исключить это значение из дальнейших рассчётов? И эти средние и 2 СО надо считать с учётом этого вышедшего значения или сначала исключить, а потом среднее и СО считать. Врачи просто перед рассчётом среднего убирают самое большое и самое маленькое значение (я про такое и раньше слышал, но никто толком не сказал, на каком основании это делается, просто "так всегда делается").

2. Есть ли методы для проведения корреляционного анализа двух качественных выборок (например, увеличееная печень и степень ожирания) и для корреляции качественных и количественных выборок (например, увеличенная печень и активность АЛТ в Ед/л)?
Участник онлайн! ИНО
Постоянный участник
Донецк



 прочитанное сообщение 21.03.2017 13:40     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #2 множественное цитирование

Странно, как раз у врачей ни один диссер без статистики не обходится, у них для этого даже спецтермин есть - доказательная медицина, а вот в работах биологов (а конкретно - зоологов и ботаников, у физиологов - пулучше) на постсоветском пространстве статистические методы - большая редкость.

Теперь попытаюсь ответить на ваши вопросы, хотя они, скажем так, довольно странные.

1. А какую природу имебют эти наблюдения с какой целью Вы хотите их исключать? Например. это могут быть выбросы (в традиционным смысле), то есть ошибочно записанные наблюдения, то что в теории измерений называется промахом. Допустим, лаборант отвлекся и поставил запятую после не того знака. В таком случае действительно их необходимо удалить и забыть. Математических методов детекции выбросов есть множество, я в этой теме не силен, поскольку все данные собираю лично и внимательно, потому точно знаю, что никаких промахов в них нет. Также понятие "выброс" имеет и другое значение - наблюдение не согласующееся выбранной теоретической моделью. Это как раз похоже на то, о чем Вы говорите. Как правило, в таких случаях строят две модели, одну с "выбросами", другую без них, и смотрят, как изменился результат. Потом напрягают мозг в попытке найти причины аномалий, пытаются рассмотреть данные как происходящие не из одного распределения, а из смеси нескольких, стараются их разделить, беря во внимание факторы, не учтенные в первоначальном варианте анализа, например, пол, возраст, этническую принадлежность испытуемых и т. п. Но проблема кроется в том, что на самом деле совсем не обязательно имеет место смесь, это может быть единое распределение, просто сильно отличное от того, которым его пытается аппроксимировать исследователь, например нормального. К примеру, в выборках из любого распределения с тяжелыми хвостами, методы, предназначенные для нормального распределения, будут находить несуществующие "выбросы". Вообще, современные исследования показывают, что истинное нормальное распределение не встречается среди объектов исследования большинства научных дисциплин, где его традиционно применяют (в биологии и медицине - особенно). Поэтому многие статистики ратуют за применение непараметрических методов везде, где это возможно. Вот Вы "показали нормальность" каким образом?
Врачи просто перед рассчётом среднего убирают самое большое и самое маленькое значение (я про такое и раньше слышал, но никто толком не сказал, на каком основании это делается, просто "так всегда делается").

Это называется "усеченное среднее". Вот, почему ваши врачи отсекают именно по одному значению с каждого хвоста - это уже вопрос.

2. Корреляция определена только для качественных признаков, измеренных в дихотомической шкале. Для политомичеиких используют другие методы.
Участник оффлайн! Vovchick
Участник
Санкт-Петербург



 прочитанное сообщение 21.03.2017 14:15     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #3 множественное цитирование

Спасибо за ответ. Врачи разные бывают, а статистику часто пишут не задумываясь, хотя и честно что-считают.

1. Кокретный пример - испытание лекарства. Две группы по 10 человек: плацебо и препарат. Измеряются биохимические показатели сыворотки: перед приёмом препарата и три точки после приёма (на следующий день, через 3 дня, через 10 дней). Креатинкиназа у всех во всех точках в норме или редко кое у кого несколько повышена. А у одного человека из плацебо в точке "через 3 дня" резко вверх поднялась (со 100 до 2000 ед/л), а в точке "10 дней" снизился, но всё равно высокий (около 500ед/л). Явно, что экперимет тут не при чём. А если его включать, то среднее в плацебо будет очень высоким, и врачи заставят этому объяснения придумывать (выше хоть и не достоверно, но существенно). Я бы исключил, но математически обосновать не могу.
-Истинного нормально распределения в природе не встречается, т.к. оно не может быть ограничено (а в природе отрицательных чисел не встречается). Просто я как какой-то критерий отсева знаю только про "Среднее+/-2СО", а СО только для нормального распределения корректо использовать.
-Как можно обосновать применение "усечённого среднего"?
- на "нормальность" критериями проверял (Шапиро-Вики, Холмогоров-Смирнов).

2. Назовите, пожалуйста, метод для корреляции дихотомических качественных признаков. Почитаю.
Участник онлайн! ИНО
Постоянный участник
Донецк



 прочитанное сообщение 21.03.2017 16:09     Сообщение для модератора         Личное письмо
Цитировать Поместить сообщение в колонку новостей  URL #4 множественное цитирование

1. Непонятно, какой показатель Вы сравниваете и каким методом. От этого зависит есть ли необходимость исключать "выбросы" или нет. Если интересующая величина - содержание креатинкиназы, и у всех пациентов, кроме одного из контрольной группы она осталась стабильна, то увы, похоже исследование провалилось. Или мерили что-то еще?

-Как можно обосновать применение "усечённого среднего"?

А для чего, вы собрались его применять? Если для замены среднего в описательной статистике, то ИМХО никак.

Истинного нормально распределения в природе не встречается, т.к. оно не может быть ограничено (а в природе отрицательных чисел не встречается).

Это не самое страшное (обычно устраняется логорифмированием или другими преобразованиями), хуже - существенные отличия в форме кривой от любого известного закона, которые часто имеют место быть в природе.

на "нормальность" критериями проверял (Шапиро-Вики, Холмогоров-Смирнов).


Как только Уилка не обзывали, но чтобы Викой... А фамилию Колмогорова вообще стыдно не знать. Похоже, рановато Вам править врачей в области статистики, самому книжки почитать сначала придется.

Просто я как какой-то критерий отсева знаю только про "Среднее+/-2СО"

Это т. н. "правило двух сигм", если память мне не изменяет, дает вероятность только чуть более 95%, чаще применяется "правило трех сигм" (более 99%), но все это только для нормального распределения.

2. Наиболее классический метод - коэффициент тетрахорической корреляции Пирсона, предполагает, что данные происходят из нормального распределения, изначально имели непрерывную интервальную шкалу, затем огрублённую до дихотомической (или что-то в этом роде, не помню уже точной формулировки). встречается ли такое на практике - большой вопрос. В случаях естественной дихотомии (где непрерывные распределения вообще не при делах) обычно применяют не корреляцию, а методы, основанные на анализе таблиц сопряженности: различные коэффициенты сопряженности или ассоциации (фи-квадрат, Юла, Чупрова и несть им числа), в отличие от коэффициентов корреляции большинство этих мер изменяются в пределах 0...1 и не имеют направленности (+/-). Кстати, в Вашем примере, про размер печени и ожирение, разумнее использовать не дихо- или политомическую, а ранговую шкалу и соответственно коэффициенты ранговой корреляции Спирмена или Кендалла. Потому как при огрублении шкалы происходит потеря данных и, соответственно, мощности.

Сообщение было отредактировано ИНО - 21.03.2017 16:10
Участник оффлайн! passant




 прочитанное сообщение 22.03.2017 12:09     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #5 множественное цитирование

Вообще-то про корреляцию на разных шкалах давно все изучено и расписано в учебниках.
Примерно так:
Признаки измерены в количественных шкалах (при нормальных распределениях) - коэффициент корреляции Пирсона.
Признаки измерены в ранговых шкалах - коэффициент корреляции Спирмана, коэффициент корреляции Кэнделла.
Признаки измерены в номинальных шкалах - ХИ-квадрат критерий и коэффициент сопряженности Пирсона и его вариации - Крамера, Чупрова, Ромадановского.
Признаки измерены в дихатомических шкалах - коэффициент ассоциации Юна и производные от него - коэффициент Жаккара, коэффициент подобия Сокала, коэффициент подобия Рассела-Рао.
Признаки измерены в количественной и номинальной шкалах - ХИ-квадрат.
Признаки измерены в количественной и дихотомической шкалах - коэффициент бисериальной корреляции.
Признаки измерены в ранговой и дихотомической шкалах - - коэффициент рангово- бисериальной корреляции.
Кажется, ничего не забыл smile.gif
Про отсев (и вообще анализ) "выбросов" - опять таки есть вполне сложившиеся подходы. Все начинается с зубодробительной математики в стиле Э. Гумбель "Статистика экстремальных значений" и заканчиватеся рядом пакетов на R, которые "все сделют за Вас" wink.gif , и которые описаны в большинстве пособий по R.

Сообщение было отредактировано passant - 22.03.2017 12:19

Всего благодарностей: 1Поблагодарили (1): Vovchick
Участник оффлайн! Vovchick
Участник
Санкт-Петербург



 прочитанное сообщение 24.03.2017 08:51     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #6 множественное цитирование

Спасибо за ответы, буду периваривать.

{1. Непонятно, какой показатель Вы сравниваете и каким методом. От этого зависит есть ли необходимость исключать "выбросы" или нет. Если интересующая величина - содержание креатинкиназы, и у всех пациентов, кроме одного из контрольной группы она осталась стабильна, то увы, похоже исследование провалилось. Или мерили что-то еще?}
Много всего меряли, в экспериметнте очень много народу принимало участие. А ко мне вопрос был, почему в контрольной группе креатинкиназа выше, чем в опытной ("не достоверно, но заметно").

{-Как можно обосновать применение "усечённого среднего"?

А для чего, вы собрались его применять? Если для замены среднего в описательной статистике, то ИМХО никак.}
Врачи же используют, и мне советуют)

{на "нормальность" критериями проверял (Шапиро-Вики, Холмогоров-Смирнов).


Как только Уилка не обзывали, но чтобы Викой... А фамилию Колмогорова вообще стыдно не знать. Похоже, рановато Вам править врачей в области статистики, самому книжки почитать сначала придется.}

Книжки почитать надо, не спорю. Вот и хочу узнать, какие.
Врачей, которые вообще не то что не проверяют на нормальность, а и не понимают, что это такое, "править в области статистики" буду всё равно (как второкласник детсадовцев).
Фамилии в критериях такие написал, т.к. их, в основном, в англоязычном варианте видел. Так и воспринимал.
Участник оффлайн! biostatleo




 прочитанное сообщение 08.05.2017 11:03     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #7 множественное цитирование

(Vovchick @ 21.03.2017 13:27)
Ссылка на исходное сообщение  Доюрый день. Я биолог, но сейчас работаю в НИИ с медицинским уклоном. В основном, окружают врачи, которые математику вообще никак не воспринимают (но в отчётах цифирки пишут). Как-то хочу с этим порядок навести (тем более, есть приличный софт для статистики). Есть проблемы психологичесие (типа, 4 человека из 10=40%, а 5 человек из 9=55,6%, т.е. больше и из этого надо выводы делать), а есть проблемы методологические. Видимо, очень примитивные, но сам не смог разобраться. Помогите, пожалуйста. Пока две основные вещи не могу понять:

1. На каком основании можно исключить результат из выборки?
Т.е., например, показали нормальность распределения. Показали, что одно значение больше, чем (Среднее + 2 стандартных отклонения). Этого достаточно, чтобы исключить это значение из дальнейших рассчётов? И эти средние и 2 СО надо считать с учётом этого вышедшего значения или сначала исключить, а потом среднее и СО считать. Врачи просто перед рассчётом среднего убирают самое большое и самое маленькое значение (я про такое и раньше слышал, но никто толком не сказал, на каком основании это делается, просто "так всегда делается").

2. Есть ли методы для проведения корреляционного анализа двух качественных выборок (например, увеличееная печень и степень ожирания) и для корреляции качественных и количественных выборок (например, увеличенная печень и активность АЛТ в Ед/л)?



Владимир, привет!

Анализ разных парных корреляций, конечно, полезная акция, как и сравнение средних (http://www.biometrica.tomsk.ru/comp_aver.htm) . Однако задумайтесь вот над чем. Если есть статистически значимые эти самые парные корреляции, т.е. взаимосвязи, то это значит что есть и многомерные цепочки связей. Т.е. связи не только между парой признаков, а целой последовательностью признаков разного типа. Одни из этих признаков количественные, другие признаки качественные (группирующие), третьи - ранговые, и т.д. И тогда очень часто возникает проблема оценки интенсивности связи (сложной корреляции) между одним группирующим признаком, и многими иными признаками. Отмечу, что таких длинных "цепочек" связей может быть всегда очень много. Пример такого большого набора можете посмотреть оп адресу http://www.biometrica.tomsk.ru/Leonov_Erevan_2015.pdf
Ну а чтобы лучше разобраться в возможностях такого подхода, почитайте серию 9 статей об этом по адресу http://www.biometrica.tomsk.ru/logit_1.htm

Итак, вначале выделите ВСЕ анализируемые признаки, и сформулируйте основные цели исследования. И тогда осознаете, что только парные корреляции - это всего лишь начальный момент.

Желаю успешного исследования.
Участник оффлайн! Vovchick
Участник
Санкт-Петербург



 прочитанное сообщение 23.05.2017 11:36     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #8 множественное цитирование

(biostatleo @ 08.05.2017 12:03)
Ссылка на исходное сообщение  
Итак, вначале выделите ВСЕ анализируемые признаки, и сформулируйте основные цели исследования. И тогда осознаете, что только парные корреляции - это всего лишь начальный момент.


Спасибо за ответ. Это всё хорошо и правильно, но у меня пока с "начальным моментом" проблемы.
Участник оффлайн! biostatleo




 прочитанное сообщение 09.06.2017 21:39     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #9 множественное цитирование

"... но у меня пока с "начальным моментом" проблемы".

Что Вы подразумеваете под "начальным моментом"?

*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 14.12.17 21:58
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft