molbiol.ru -> логистическая регрессия:

> Все форумы > Тематические форумы > Биофизика и матметоды в биологии

Zbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ

Правила FAQ* Поиск* Участники* Календарь* Избранные темы* Форум Форумов*

Темы за 24 часа [ Вход* | Регистрация* ]

Форум:

* логистическая регрессия: -- overfitting vs. winning model --
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.

elenag1999
Постоянный участник

02.08.2015 11:16

URL #1

Задача - найти бинарную регрессию с максимальной предсказательной способностью для категории Х. Возможных предикторов - около 10 (независимых друг от друга), наблюдений - около 300. Имеет ли смысл выбирать best-fit model с минимальным количеством предикторов, основываясь на AIC или надо выбирать ту, у которой самый высокий процент верной классификации по интересующей категории независимо от количества статистически достоверных предикторов?
При большем количестве предикторов в модели, процент ложноположительных существенно меньше (что логично), но возрастает риск overfitting'a. Как (формально) решить - приемлем ли этот риск?

PS2004R
Постоянный участник

02.08.2015 12:04

URL #2

Или AIC или кроссвалидация как оценка максимума возможности полученной модели в экстраполяции на новые случаи. В любом случае будет получаться некоторый набор "почти оптимальных" моделей, и иногда их объединяют в ансамбль (раз так важно получить практический результат, а не максимально простую модель).

В принципе есть куча методов отбора оптимального состава предикторов в модель и получения оптимального ансамбля таких моделей.

elenag1999
Постоянный участник

02.08.2015 14:24

URL #3

Большое спасибо за ответ (особенно в воскресенье

. Но я, видимо, плохо сформулировала вопрос. Что считать (не КАК проидентифицировать предикторы) оптимальной моделью - ту, что дает максимальный процент идентификации категории Х, или ту, что делает это с минимальным количеством предикторов?
В первом случае, подразумемается, что предикторы не коррелируют между собой, естественно.
Ансамбль нежелателен с практической точки зрения.
Делить данные на test и training тоже нежелательно, их не так много, можно, конечно пробудстраппить, но сначала все-таки хочется определиться с первым вопросом.

Сообщение было отредактировано elenag1999 - 02.08.2015 14:26

PS2004R
Постоянный участник

02.08.2015 17:55

URL #4

(elenag1999 @ 02.08.2015 14:24)

Большое спасибо за ответ (особенно в воскресенье

1) Да пришлось нарушить религиозные нормы не работы по воскресным дням и пойти (5 км лесом) в правление колхоза воспользоваться единственным на всё село ПК подключенным к интернет.

2) Зависит от цели.

С помощью модели выбранной кроссвалидацией будет получена более "трудно объяснимая и нелинейная" модель, по AIC более "объяснимая" модель. В обоих случаях если совсем не повезет с данными (например придется делать прогноз для сочетаний данных которые принципиально не встречались в имеющихся на момент обучения) будет весьма вероятно полный пролет (с AIC и линейной моделью кстати вероятен "менее полный пролет").

Скажем так --- интерполирует (на области которую охватывают имеющиеся данные) лучше модель полученная отбором по ошибке кроссвалидации. Экстраполирует лучше модель полученная по AIC (хотя наверное можно как то исхитриться и кроссвалидацию сделать для "экстремальных вариант имеющейся многомерной выборки" и тогда вполне возможно тоже будет отобрана модель которая приемлемо экстраполирует).

Вообще большую ценность имеет интерпретация модели (ну вот как "ансамбли не нужны"), точный ответ можно у самой природы получить всегда в ходе прямого опыта

и тогда AIC наш выбор (ну только конечно если там совсем не "в разы" эффективность отличается

Nastja
Постоянный участник
Новосибирск

03.08.2015 07:22

URL #5

Если сомневаетесь, делайте рандомизацию и проверяйте. Можно назначить случайным образом категорию Y и построить классификатор тем же методом. Сразу многие сомнения отпадут.
Ну и понятно, что сильно хорошие классификаторы всегда вызывают подозрения в переобучении.

elenag1999
Постоянный участник

03.08.2015 11:19

URL #6

#PS2004R
1)

2) а вот тут, если можно, поподробнее

Грубенько: какая модель предпочтительнее:
модель 1: Y= x1+x2, AIC=100, correct classification: sensitivity 60%, specificity 80%
модель 2: Y= x1, AIC=100, correct classification: sensitivity 62%, specificity 78%
Y - binary variable
обе - объяснимы, с равной степенью здравого смысла.

#Nastja
Спасибо, я подумаю. Но, по-моему, остается вероятность того, что придется решать ту же проблему (см. выше) с моделями полученными в результате рандомизированных тестов, или я ошибаюсь?

PS2004R
Постоянный участник

03.08.2015 15:11

URL #7

(elenag1999 @ 03.08.2015 11:19)

#PS2004R

2) а вот тут, если можно, поподробнее

Это реальные данные, или "фигура бокала"?

у меня плохие новости

CODE

> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)+ runif(100) + runif(100)))))
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)
> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)+ runif(100)))), add=TRUE, col="red")
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)
> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)))), add=TRUE, col="green")
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)

AIC не "реагирует" на выбрасывание только когда модель безнадежно плоха.

Раз хочется свести sensitivity и specificity к одному числу и "взять и сравнить", то считайте AUC (или pAUC если "не для сферического в вакууме" варианта). И естественно доверительный интервал для неё.

Картинки:
картинка: _________________2015_08_03_15_09_24.png

картинка: _________________2015_08_03_15_09_24.png

_________________2015_08_03_15_09_24.png — (10.29к)

elenag1999
Постоянный участник

03.08.2015 17:41

URL #8

хмм... это, собственно, даже не фигура бокала, а сам принцип... ну, скажем, что в модели 1 AIC= не 100, а 98.1.
Не одна из этих моделей не "безнадежно плоха", но общий процент классификации 65 и 70% - это разница и, похоже, я склоняюсь к тому, чтобы примириться с наличем х2, невзирая на AIC, BIC, etc. Вот это-то меня и смущает...
Вы даже не представляете себе всю степень моей благодарности за поддержание сией дискуссии... Даже все это проговорить - уже польза

PS2004R
Постоянный участник

03.08.2015 18:21

URL #9

(elenag1999 @ 03.08.2015 17:41)

Не одна из этих моделей не "безнадежно плоха", но общий процент классификации 65 и 70% - это разница и, похоже, я склоняюсь к тому, чтобы примириться с наличем х2, невзирая на AIC, BIC, etc.

Так а AUC какие под ROC получается у обоих моделей?

elenag1999
Постоянный участник

03.08.2015 20:18

URL #10

с перекрывающимися доверительными интервалами...

PS2004R
Постоянный участник

03.08.2015 21:47

URL #11

(elenag1999 @ 03.08.2015 20:18)

с перекрывающимися доверительными интервалами...

1) А сколько именно? (если не секрет)

2) А если считать partial AUC в практически значимой области? Может там окажется разница существенной?

3) Еще одна тонкость -- был ли скорректирован выбранный thresholds по Youden’s J statistic с частотами реальных исходов и ценой false negative решений? Возможно что оптимальные точки у моделей другие.

4) Может надо какие то трансформации шкал измерений предикторов совершить для повышения точности модели (иногда в таких простых методах это помогает). Ну или посмотреть насколько лучше при кроссвалидации ведут себя более сложные методы классификации.

elenag1999
Постоянный участник

04.08.2015 10:51

URL #12

1) model 1: AUC=0.93 (CI: 0.84-1.02)
model 2: AUC=0.86 (CI: 0.72-1.01)

2) что считать "практически значимой областью"? И как это формализовать?
3) нет. А в каком случае такая коррекция требуется?
4) сложно, легче обойтись "лишним" предиктором...хотя неспортивно.

elenag1999
Постоянный участник

04.08.2015 12:17

URL #13

опять 3) - поняла, попробую.

PS2004R
Постоянный участник

06.08.2015 00:12

URL #14

(elenag1999 @ 04.08.2015 10:51)

1) model 1: AUC=0.93 (CI: 0.84-1.02)
model 2: AUC=0.86 (CI: 0.72-1.01)

2) что считать "практически значимой областью"? И как это формализовать?

1) Судя по AUC первая модель существенно (решающим образом) лучше. ROC надо сравнить бутстрепом (чтоб 1.02 не получалось

) на достоверность различий.

2) Надо бы глазами посмотреть на ROC моделей на одном графике и нарисовать диапазоны приемлемой в реальной работе чувствительности и специфичности. Нанести трешоилды для реальных частот диагностируемых исходов в популяции на этот же график.

guest: great
IP-штамп: frj5GEfdEWR5M
гость

31.10.2018 17:47

URL #15

The information you have posted is very useful. The sites you have referred was good. Thanks for sharing.
http://www.travelpaisa.com

guest: 123
IP-штамп: frJhOCvSv9ICE
гость

31.05.2022 09:13

URL #16

SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.

Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.

Имя:

Отправка сообщений использует JavaScript операции. В вашем броузере не
установлено/отключено выполнение JavaScript программ. Используйте Netscape Navigator
или Internet Explorer (не ранее 3 версии); убедитесь, что выполнение JavaScript
программ разрешено в настройках вашего броузера.