Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
SanSanich |
Ошибка ООВ около 15%. Повторил на тестовой и проверочной выборке - примерно такая же ошибка. Затем беру новый набор и на нем предсказываю свои классы. Получаю ошибку от 50-7-%. В чем проблема? Помогите. Предварительно использовал самые разные методы для отбора предикторов, но это не помогает. |
PS2004R Постоянный участник |
(SanSanich @ 12.12.2014 21:30) Сделал модель случайного лес randomForest в R. Исходный набор разделил на три части: обучения, тестирования и проверки. Обучил модель с разбивкой на два класса. Ошибка ООВ около 15%. Повторил на тестовой и проверочной выборке - примерно такая же ошибка. Затем беру новый набор и на нем предсказываю свои классы. Получаю ошибку от 50-7-%. В чем проблема? Помогите. Предварительно использовал самые разные методы для отбора предикторов, но это не помогает. А library(Boruta) использовали? Если действительно модель основана на значимых предикторах, то наиболее вероятна следующая ситуация: новый датасет покрывает часть пространства определяемого предикторами в котором при обучении не было точек-случаев, и RF не работает. RF по сути решает задачу интерполяции, всю задачу экстраполяции он сводит к "прямугольным границам", и естественно такими границами ничего хорошего за пределы областей где случаи лежат густо не получишь. Скорее всего обычная линейная регрессия даст лучшее предсказание. Способ решения --- использовать метод который дает хорошее предсказание в режиме экстраполяции. Ну или отрезать точки-случаи которые лежат в стороне от области в которой находятся точки, для них использовать линейную регрессию (или использовать модель построенную на некой идее о устройстве взаимоотношений в датасете). Сообщение было отредактировано PS2004R - 13.12.2014 17:46 |
guest: great IP-штамп: frj5GEfdEWR5M гость |
|
guest: 123 IP-штамп: frJhOCvSv9ICE гость |
|
guest: 123 IP-штамп: fr4iy3.kHUw02 гость |
|
guest: 123 IP-штамп: fr4iy3.kHUw02 гость |
|
guest: 123 IP-штамп: fr4iy3.kHUw02 гость |
|
guest: 123 IP-штамп: frXqkB4MpP2jQ гость |
|
guest: 123 IP-штамп: frAWeMdOsBSXM гость |
|
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема » |