Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 

Щёлкните, чтобы внести в Избранные Темы* логистическая регрессия: -- overfitting vs. winning model --
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.


 
Добавить сообщение в темуСоздать новую темуСоздать голосование
Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 02.08.2015 11:16     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #1 множественное цитирование

Задача - найти бинарную регрессию с максимальной предсказательной способностью для категории Х. Возможных предикторов - около 10 (независимых друг от друга), наблюдений - около 300. Имеет ли смысл выбирать best-fit model с минимальным количеством предикторов, основываясь на AIC или надо выбирать ту, у которой самый высокий процент верной классификации по интересующей категории независимо от количества статистически достоверных предикторов?
При большем количестве предикторов в модели, процент ложноположительных существенно меньше (что логично), но возрастает риск overfitting'a. Как (формально) решить - приемлем ли этот риск?
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 02.08.2015 12:04     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #2 множественное цитирование

Или AIC или кроссвалидация как оценка максимума возможности полученной модели в экстраполяции на новые случаи. В любом случае будет получаться некоторый набор "почти оптимальных" моделей, и иногда их объединяют в ансамбль (раз так важно получить практический результат, а не максимально простую модель).

В принципе есть куча методов отбора оптимального состава предикторов в модель и получения оптимального ансамбля таких моделей.
Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 02.08.2015 14:24     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #3 множественное цитирование

Большое спасибо за ответ (особенно в воскресеньеsmile.gif. Но я, видимо, плохо сформулировала вопрос. Что считать (не КАК проидентифицировать предикторы) оптимальной моделью - ту, что дает максимальный процент идентификации категории Х, или ту, что делает это с минимальным количеством предикторов?
В первом случае, подразумемается, что предикторы не коррелируют между собой, естественно.
Ансамбль нежелателен с практической точки зрения.
Делить данные на test и training тоже нежелательно, их не так много, можно, конечно пробудстраппить, но сначала все-таки хочется определиться с первым вопросом.

Сообщение было отредактировано elenag1999 - 02.08.2015 14:26
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 02.08.2015 17:55     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #4 множественное цитирование

(elenag1999 @ 02.08.2015 14:24)
Ссылка на исходное сообщение  Большое спасибо за ответ (особенно в воскресеньеsmile.gif. Но я, видимо, плохо сформулировала вопрос. Что считать (не КАК проидентифицировать предикторы) оптимальной моделью - ту, что дает максимальный процент идентификации категории Х, или ту, что делает это с минимальным количеством предикторов?
В первом случае, подразумемается, что предикторы не коррелируют между собой, естественно.
Ансамбль нежелателен с практической точки зрения.
Делить данные на test и training тоже нежелательно, их не так много, можно, конечно пробудстраппить, но сначала все-таки хочется определиться с первым вопросом.


1) Да пришлось нарушить религиозные нормы не работы по воскресным дням и пойти (5 км лесом) в правление колхоза воспользоваться единственным на всё село ПК подключенным к интернет.

2) Зависит от цели.

С помощью модели выбранной кроссвалидацией будет получена более "трудно объяснимая и нелинейная" модель, по AIC более "объяснимая" модель. В обоих случаях если совсем не повезет с данными (например придется делать прогноз для сочетаний данных которые принципиально не встречались в имеющихся на момент обучения) будет весьма вероятно полный пролет (с AIC и линейной моделью кстати вероятен "менее полный пролет").

Скажем так --- интерполирует (на области которую охватывают имеющиеся данные) лучше модель полученная отбором по ошибке кроссвалидации. Экстраполирует лучше модель полученная по AIC (хотя наверное можно как то исхитриться и кроссвалидацию сделать для "экстремальных вариант имеющейся многомерной выборки" и тогда вполне возможно тоже будет отобрана модель которая приемлемо экстраполирует).

Вообще большую ценность имеет интерпретация модели (ну вот как "ансамбли не нужны"), точный ответ можно у самой природы получить всегда в ходе прямого опыта smile.gif и тогда AIC наш выбор (ну только конечно если там совсем не "в разы" эффективность отличается smile.gif.
Участник оффлайн! Nastja
Постоянный участник
Новосибирск



 прочитанное сообщение 03.08.2015 07:22     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #5 множественное цитирование

Если сомневаетесь, делайте рандомизацию и проверяйте. Можно назначить случайным образом категорию Y и построить классификатор тем же методом. Сразу многие сомнения отпадут.
Ну и понятно, что сильно хорошие классификаторы всегда вызывают подозрения в переобучении.
Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 03.08.2015 11:19     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #6 множественное цитирование

#PS2004R
1) smile.gif
2) а вот тут, если можно, поподробнееsmile.gif Грубенько: какая модель предпочтительнее:
модель 1: Y= x1+x2, AIC=100, correct classification: sensitivity 60%, specificity 80%
модель 2: Y= x1, AIC=100, correct classification: sensitivity 62%, specificity 78%
Y - binary variable
обе - объяснимы, с равной степенью здравого смысла.

#Nastja
Спасибо, я подумаю. Но, по-моему, остается вероятность того, что придется решать ту же проблему (см. выше) с моделями полученными в результате рандомизированных тестов, или я ошибаюсь?
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 03.08.2015 15:11     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #7 множественное цитирование

(elenag1999 @ 03.08.2015 11:19)
Ссылка на исходное сообщение  #PS2004R

2) а вот тут, если можно, поподробнееsmile.gif Грубенько: какая модель предпочтительнее:
модель 1: Y= x1+x2, AIC=100, correct classification: sensitivity 60%, specificity 80%
модель 2: Y= x1, AIC=100, correct classification: sensitivity 62%, specificity 78%
Y - binary variable
обе - объяснимы, с равной степенью здравого смысла.



Это реальные данные, или "фигура бокала"? smile.gif

у меня плохие новости frown.gif

CODE

> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)+ runif(100) + runif(100)))))
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)
> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)+ runif(100)))), add=TRUE, col="red")
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)
> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)))), add=TRUE, col="green")
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)


AIC не "реагирует" на выбрасывание только когда модель безнадежно плоха.

Раз хочется свести sensitivity и specificity к одному числу и "взять и сравнить", то считайте AUC (или pAUC если "не для сферического в вакууме" варианта). И естественно доверительный интервал для неё.

Картинки:
картинка: _________________2015_08_03_15_09_24.png
_________________2015_08_03_15_09_24.png — (10.29к)   

Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 03.08.2015 17:41     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #8 множественное цитирование

хмм... это, собственно, даже не фигура бокала, а сам принцип... ну, скажем, что в модели 1 AIC= не 100, а 98.1.
Не одна из этих моделей не "безнадежно плоха", но общий процент классификации 65 и 70% - это разница и, похоже, я склоняюсь к тому, чтобы примириться с наличем х2, невзирая на AIC, BIC, etc. Вот это-то меня и смущает...
Вы даже не представляете себе всю степень моей благодарности за поддержание сией дискуссии... Даже все это проговорить - уже пользаsmile.gif
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 03.08.2015 18:21     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #9 множественное цитирование

(elenag1999 @ 03.08.2015 17:41)
Ссылка на исходное сообщение
Не одна из этих моделей не "безнадежно плоха", но общий процент классификации 65 и 70% - это разница и, похоже, я склоняюсь к тому, чтобы примириться с наличем х2, невзирая на AIC, BIC, etc.


Так а AUC какие под ROC получается у обоих моделей?
Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 03.08.2015 20:18     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #10 множественное цитирование

с перекрывающимися доверительными интервалами...
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 03.08.2015 21:47     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #11 множественное цитирование

(elenag1999 @ 03.08.2015 20:18)
Ссылка на исходное сообщение  с перекрывающимися доверительными интервалами...


1) А сколько именно? (если не секрет)

2) А если считать partial AUC в практически значимой области? Может там окажется разница существенной?

3) Еще одна тонкость -- был ли скорректирован выбранный thresholds по Youden’s J statistic с частотами реальных исходов и ценой false negative решений? Возможно что оптимальные точки у моделей другие.

4) Может надо какие то трансформации шкал измерений предикторов совершить для повышения точности модели (иногда в таких простых методах это помогает). Ну или посмотреть насколько лучше при кроссвалидации ведут себя более сложные методы классификации.
Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 04.08.2015 10:51     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #12 множественное цитирование

1) model 1: AUC=0.93 (CI: 0.84-1.02)
model 2: AUC=0.86 (CI: 0.72-1.01)

2) что считать "практически значимой областью"? И как это формализовать?
3) нет. А в каком случае такая коррекция требуется?
4) сложно, легче обойтись "лишним" предиктором...хотя неспортивно.
Участник оффлайн! elenag1999
Постоянный участник



 прочитанное сообщение 04.08.2015 12:17     Сообщение для модератора         Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #13 множественное цитирование

опять 3) - поняла, попробую.
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 06.08.2015 00:12     Сообщение для модератора         Фотография  Личное письмо  Отправить e-mail  Web-адрес
Цитировать Поместить сообщение в колонку новостей  URL #14 множественное цитирование

(elenag1999 @ 04.08.2015 10:51)
Ссылка на исходное сообщение  1) model 1: AUC=0.93 (CI: 0.84-1.02)
    model 2: AUC=0.86 (CI: 0.72-1.01)

2) что считать "практически значимой областью"? И как это формализовать?



1) Судя по AUC первая модель существенно (решающим образом) лучше. ROC надо сравнить бутстрепом (чтоб 1.02 не получалось smile.gif) на достоверность различий.

2) Надо бы глазами посмотреть на ROC моделей на одном графике и нарисовать диапазоны приемлемой в реальной работе чувствительности и специфичности. Нанести трешоилды для реальных частот диагностируемых исходов в популяции на этот же график.
guest: great
IP-штамп: frj5GEfdEWR5M
гость



 прочитанное сообщение Сообщение на английском  31.10.2018 17:47     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #15 множественное цитирование

The information you have posted is very useful. The sites you have referred was good. Thanks for sharing.
http://www.travelpaisa.com
guest: 123
IP-штамп: frJhOCvSv9ICE
гость



 прочитанное сообщение Сообщение на английском  31.05.2022 09:13     Сообщение для модератора       
Цитировать Поместить сообщение в колонку новостей  URL #16 множественное цитирование

SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.

*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 16.04.24 18:43
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft