Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 

Щёлкните, чтобы внести в Избранные Темы* R Help -- Давайте составим русский FAQ --
Кураторы темы:* plantago
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.


Добавить сообщение в темуСоздать новую темуСоздать голосование
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 20.04.2017 15:25     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(penkin.2011 @ 20.04.2017 15:21)
Ссылка на исходное сообщение  Коллеги, добрый день. Подскажите, где можно найти пример применения генетического алгоритма при классификации текста в R
гугл не помог(


Вы не могли бы сформулировать как генетический алгоритм должен классифицировать текст?
Участник оффлайн! penkin.2011




 прочитанное сообщение 20.04.2017 15:38     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

PS2004R, пытаюсь научиться у Вас уму-разуму. Не могу вам ответить. Т.е. не может?
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 20.04.2017 16:44     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(penkin.2011 @ 20.04.2017 15:38)
Ссылка на исходное сообщение  PS2004R, пытаюсь научиться у Вас уму-разуму. Не могу вам ответить. Т.е. не может?


Это просто оптимизационный алгоритм. Выдумаете что оптимизировать хочется, и он справиться (с некоторой вероятностью smile.gif.

Например сделайте функцию качества "классификации выборки" (лучше если это не просто сумма, а что то более разумно оценивающее штрафы за ошибки классификации).

В качестве параметров на худой конец можно подсовывать сам вектор классификации, но учтите, что размерность задачи будет расти непомерно быстро. Обычно поэтому подставляют параметры алгоритма который обучается и получает вектор классификации который уже и оценивает придуманная "функции качества".
Участник оффлайн! penkin.2011




 прочитанное сообщение 20.04.2017 18:00     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

вот нашел пример
http://en.proft.me/2014/04/10/how-simulate...c-algorithms-r/
Before creating the model we have to set-up an evaluation function. The evaluation function will evaluate the different individuals (chromosomes) of the population on the value of their gene configuration.

An individual can for example have the following gene configuration: 1001100.
Не понимаю как мне настроить эти хромосомы. В примере то 7 наблюдений, а если у меня их 700 или более
как мне автоматически задать функцию оценки
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 20.04.2017 18:06     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(penkin.2011 @ 20.04.2017 18:00)
Ссылка на исходное сообщение  вот нашел пример
http://en.proft.me/2014/04/10/how-simulate...c-algorithms-r/
Before creating the model we have to set-up an evaluation function. The evaluation function will evaluate the different individuals (chromosomes) of the population on the value of their gene configuration.

An individual can for example have the following gene configuration: 1001100.
Не понимаю как мне настроить эти хромосомы. В примере то 7 наблюдений, а если у меня их 700 или более
как мне автоматически задать функцию оценки


Ну вот _все_ 700 наблюдений функция оценки и должна разом оценить на качество, вернув _одно_ число.

PS и тоже самое дословно я писал постом выше.
Участник оффлайн! penkin.2011




 прочитанное сообщение 20.04.2017 19:34     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Воsmile.gif))
Кажись разобрался на примере регрессии, но пытаюсь генерализировать на нейросеть.

OLS <- function(data, b0, b1, b2){

attach(data, warn.conflicts=F)

Y_hat <- b0 + b1*Wind + b2*Temp

AUC(model)

detach(data)

return(SSE)

}

ga.OLS <- ga(type='real-valued', min=c(-100,-100, -100),
max=c(100, 100, 100), popSize=500, maxiter=500, names=c('intercept', 'Wind', 'Temp'),
keepBest=T, fitness = function(b) -OLS(airquality, b[1],b[2], b[3]))



подскажите, PS2004R, а как мне
1. записать в функцию модель для neuralnat, т.е. я могу подставить формулу
корректно ли будет такая запись? Если нет, то какая корректная?


OLS <- function(data, x1,x,2,x3...x100){

attach(data)

neuralnet(Y <- x1+x2+x3+..x100)

AUC(mymodel)

detach(data)

return(AUC)

}


2. И что тут писать


ga.OLS <- ga(type='real-valued', min=c(-100,-100, -100),
max=c(100, 100, 100), popSize=500, maxiter=500, names=c('intercept', 'Wind', 'Temp'),
keepBest=T, fitness = function(b) -OLS(data, x[1],x[2], x[3],x[100]))
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 20.04.2017 23:20     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(penkin.2011 @ 20.04.2017 19:34)
Ссылка на исходное сообщение  Воsmile.gif))
Кажись разобрался на примере регрессии, но пытаюсь генерализировать на нейросеть.

OLS <- function(data, b0, b1, b2){
 
  attach(data, warn.conflicts=F)
 
  Y_hat <- b0  + b1*Wind + b2*Temp
 
AUC(model)
 
  detach(data)
 
  return(SSE)
 
}

ga.OLS <- ga(type='real-valued', min=c(-100,-100, -100),
            max=c(100, 100, 100), popSize=500, maxiter=500, names=c('intercept', 'Wind', 'Temp'),
            keepBest=T, fitness = function(b) -OLS(airquality, b[1],b[2], b[3]))
подскажите, PS2004R, а как мне
1. записать в функцию модель для neuralnat, т.е. я могу подставить формулу
корректно ли будет такая запись? Если нет, то какая корректная?
OLS <- function(data, x1,x,2,x3...x100){
 
  attach(data)
 
  neuralnet(Y <- x1+x2+x3+..x100)
 
  AUC(mymodel)
 
  detach(data)
 
  return(AUC)
 
}
2. И что тут писать
ga.OLS <- ga(type='real-valued', min=c(-100,-100, -100),
            max=c(100, 100, 100), popSize=500, maxiter=500, names=c('intercept', 'Wind', 'Temp'),
            keepBest=T, fitness = function(b) -OLS(data, x[1],x[2], x[3],x[100]))



Что это за трешь? Он что, работает?
Участник оффлайн! penkin.2011




 прочитанное сообщение 21.04.2017 02:40     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

в том то и дело, что нет, поэтому попросил помочь правильно написать.
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 21.04.2017 09:48     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(penkin.2011 @ 21.04.2017 02:40)
Ссылка на исходное сообщение  в том то и дело, что нет, поэтому попросил помочь правильно написать.


Так как выглядит функция качества "классификации теста"? Ну или что вообще понимается под "классификацией текста"?
Участник оффлайн! passant




 прочитанное сообщение 21.04.2017 10:54     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Уважаемый penkin.2011. Дело в том, что нет "классификации текста" вообще. Есть т.н. сентиментный анализ, есть разделение текстов по рубрикам, есть выявление спама, есть выявление/подтверждение авторства текста ... и т.д. Все это - классификация текста. Каждая из таких задач имеет свои отличия, главные из которых - как правильно объяснить алгоритму, что в рамках "вот этой задачи вот эти два текста принадлежат одному классу". Ведь один и тот-же текст может быть подобный по эмоционально-социальной направленности, но иметь разных авторов, или тему. До тех пор, пока вы четко не сформулируете это (уважаемый PS2004R назвал это "функцией качества") до тех пор у Вас не будет корректно работать ни один алгоритм, что генетический, что любой другой. Без ответа на это нельзя сказать что и почему в Вас "не работает".
Участник оффлайн! plantago
Постоянный участник
Minot, ND



 прочитанное сообщение 02.05.2017 03:32     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail  Web-адрес

R 3.4.0 поломан в нескольких важных местах, рекомендую пока оставаться на R 3.3.3

Всего благодарностей: 1Поблагодарили (1): PS2004R
Участник оффлайн! Boreal




 прочитанное сообщение 02.05.2017 05:39     Сообщение для модератора  Сообщение для куратора темы       Личное письмо

Здравствуйте, посоветуйте как обрабатывать данные не с площадок, а с линейных объектов.
Пример: есть река (верхнее течение, среднее и нижнее). Условно: линия разделена на 3 части, вдоль каждого из этих отрезков отбирали образцы почв, в них определяли содержание органического вещества. Отбирался один образец в точке, расстояние между точками не фиксированное где-то 1 км, где-то 5 км. всего точек 30 в верхнем, 16- в среднем и 24 в нижнем течении. С помощью ДА сравниваем эти участки, однако такой подход хорош для площадок и не учитывает "вытянутость" объекта. Есть тенденции увеличения содержания орг. вдоль течения. Однако как это подтвердить (или опровергнуть) статистически? Посоветуйте метод.

Сообщение было отредактировано Boreal - 02.05.2017 08:37
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 02.05.2017 08:51     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(Boreal @ 02.05.2017 05:39)
Ссылка на исходное сообщение  Здравствуйте, посоветуйте как обрабатывать данные не с площадок, а с линейных объектов.
Пример: есть река верхнее течение, среднее и нижнее. Условно линия разделена на 3 части. на каждой из этих частей вдоль реки отбирали образцы почв и в них определяли содержание органического вещества. Один образец в точке, расстояние между точками не фиксированное где-то 1 км, где-то 5 км. всего точек 30 в верхнем, 16- в среднем и 24 в нижнем течении. Сейчас мы с помощью ДА сравниваем эти участки, однако такой подход хорош для площадок и не учитывает "вытянутость" объекта. Есть тенденции увеличения содержания орг. вдоль течения. Однако как это подтвердить (или опровергнуть) статистически? Посоветуйте метод.


Перевести данные "в расстояния" довольно просто. Это функция dist() .

Идея простая (хотя иногда к ней прилагается еще и свой метод фитинга модели). Берем параметр "положение точки на русле" и скармливаем as.nemeric(dist()) (было бы два показателя "широта+долгота" скармливали бы одновременно два) получая на выходе вектор, и _точно_ также поступаем со всеми остальными параметрами модели.

Подгоняем модель регрессионную по всем критериям поиска состоятельной модели. И т.д как при обычном анализе. (только вариограмму дополнительно посчитать не помешает относительно "расстояний по реке")

Тут правда "вода течет в одну сторону", .. Наверное есть специализированная модель.

----

рисовалка данных взятых на реке https://cran.r-project.org/web/packages/riv...is/rivervis.pdf

вот какой то специализированный пакет (правда качество воды) https://www.r-project.org/nosvn/pandoc/EGRET.html

Сообщение было отредактировано PS2004R - 02.05.2017 09:07
Участник оффлайн! Boreal




 прочитанное сообщение 02.05.2017 10:18     Сообщение для модератора  Сообщение для куратора темы       Личное письмо

Спасибо, попытаемся разобраться, хотя мало что понятно пока....
Участник оффлайн! Boreal




 прочитанное сообщение 03.05.2017 09:14     Сообщение для модератора  Сообщение для куратора темы       Личное письмо

(PS2004R @ 02.05.2017 14:51)
Ссылка на исходное сообщение  Перевести данные "в расстояния" довольно просто. Это функция dist() .

Идея простая (хотя иногда к ней прилагается еще и свой метод фитинга модели). Берем параметр "положение точки на русле" и скармливаем as.nemeric(dist()) (было бы два показателя "широта+долгота" скармливали бы одновременно два) получая на выходе вектор, и _точно_ также поступаем со всеми остальными параметрами модели.


Можно в этом месте по подробнее
вот например изменение параметра CIA по точкам вдоль реки

sample,lat,long,CIA
9,533939.3,1270627.0,55.24
10,533557.9,1265827.1,56.41
11,533229.7,1265335.7,61.57

1. Как записывать координаты, что делать с минутами и секундами?
2. Напишите пожалуйста команду для R как эти координаты перевести в вектор. То есть если я правильно понял то из двух параметров "lat" и "long" получается один вектор?
На выходе если я понимаю правильно получается что-то типа
sample, vector, CIA
9, 15, 55.24
10, 17.5, 56.41
11, 19.7, 61.57
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 03.05.2017 09:35     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(Boreal @ 03.05.2017 09:14)
Ссылка на исходное сообщение  Можно в этом месте по подробнее
вот например изменение параметра CIA по точкам вдоль реки

sample,lat,long,CIA
9,533939.3,1270627.0,55.24
10,533557.9,1265827.1,56.41
11,533229.7,1265335.7,61.57

1. Как записывать координаты, что делать с минутами и секундами?
2. Напишите пожалуйста команду для R как эти координаты перевести в вектор. То есть если я правильно понял то из двух параметров "lat" и "long" получается один вектор?
На выходе если я понимаю правильно получается что-то типа
sample, vector,  CIA
9,          15,      55.24
10,        17.5,  56.41
11,        19.7,  61.57


Базовая ссылка-введение на всё связанное в R с пространственно-распределенными данными https://cran.r-project.org/web/views/Spatial.html

Там в описаниях пакетов есть про чтение долготы и широты.

Техника преобразования состоит в

data.frame(Spatial=as.vector(dist(data.frame(long=x, lang=y))), Data=as.vector(dist(z)) )

где x,y широта и долгота, а z коварианта.

Вот реальный пример (немного больше кода, что бы сохранить диагональ)

CODE

## показатель
> d <- as.matrix(dist(1:5, diag=T))
> as.numeric(d[upper.tri(d, diag=T)])
[1] 0 1 0 2 1 0 3 2 1 0 4 3 2 1 0
## Spatial
> d <- as.matrix(dist(cbind(1:5, 5:1), diag=T))
> as.numeric(d[upper.tri(d, diag=T)])
[1] 0.000000 1.414214 0.000000 2.828427 1.414214 0.000000 4.242641 2.828427
[9] 1.414214 0.000000 5.656854 4.242641 2.828427 1.414214 0.000000


Основной пойнт --- независимо от размерности объекта данных всё сводиться к одному и тому же набору.
Участник оффлайн! oliverst




 прочитанное сообщение 03.05.2017 15:32     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Здравствуйте, подскажите, пожалуйста,я часто использую Statsoft Statistica 10, и при построении нейронной сети statistica имеет удобные параметры, она отображает лучшие модели, скрин:
http://imgur.com/a/1M11H
Возможно ли использование R создать такой же список лучших моделей, что и в Statistica.

например классического примера с Ирисами, собственно как и в статистике
library(neuralnet)
data(iris)
iris$Species <- with(iris, Species == 'setosa') # making some binary variable
neuralnet(Species ~ ., data = iris)
cn <- paste(colnames(iris)[1:4], collapse = ' + ')
fo <- as.formula(paste('Species', '~', cn)) # define the formula
neuralnet(fo, data = iris, linear.output=FALSE)
Участник оффлайн! ИНО
Постоянный участник
Донецк



 прочитанное сообщение 03.05.2017 17:22     Сообщение для модератора  Сообщение для куратора темы       Личное письмо

Вот только на распределение чего-то в реке широта и долгота имеют, как правило, весьма слабое влияние (если только это не великая река пересекающая сразу ряд климатических поясов, но даже в этом случае широта - далеко не самый важный фактор). Лучше б у вас были расстояния по реке от истока или какой-либо другой точки на русле. А если нет, то ИМХО лучше просто огрубить шкалу до упорядоченнных категорий, выбрав для разбиения, например, места впадение притоков и стоков предприятий (если изучаете загрязнение, то это решающий фактор). В любом случае, толку всяко больше будет, чем от градусов с минутами и расстояний по прямой.
Участник оффлайн! Boreal




 прочитанное сообщение 04.05.2017 03:10     Сообщение для модератора  Сообщение для куратора темы       Личное письмо

Да, я с Вами согласен пытаемся по координатам определить км судового хода, так будет более правильно в случае с рекой. PS2004R, Вам спасибо за подробное объяснение, теперь понятно.
trollchenok
IP-штамп: frjNXqNwoMHYw
гость



 прочитанное сообщение 16.05.2017 00:42     Сообщение для модератора  Сообщение для куратора темы     

Здравствуйте. Буду благодарен за помощь.
Хочу посчитать коэффициента похожести Жаккара для двух наборов данных. Они находятся в двух матрицах. По сути похожесть этих матриц для столбцов. Посмотрел пакет vegan, там есть функция для коэфф. похожести (vegdist), но все данные в одной матрице. Не совсем понимаю, можно ли мои данные привести к тому виду, который нужен функции.
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 16.05.2017 08:28     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(trollchenok @ 16.05.2017 00:42)
Ссылка на исходное сообщение  Здравствуйте. Буду благодарен за помощь.
Хочу посчитать коэффициента похожести Жаккара для двух наборов данных. Они находятся в двух матрицах. По сути похожесть этих матриц для столбцов. Посмотрел пакет vegan, там есть функция для коэфф. похожести (vegdist), но все данные в одной матрице. Не совсем понимаю, можно ли мои данные привести к тому виду, который нужен функции.


Там вообще то всё просто устроено, если прочитать ?varespec
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 16.05.2017 14:45     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

(trollchenok @ 16.05.2017 03:42)
Ссылка на исходное сообщение  Здравствуйте. Буду благодарен за помощь.
Хочу посчитать коэффициента похожести Жаккара для двух наборов данных. Они находятся в двух матрицах. По сути похожесть этих матриц для столбцов. Посмотрел пакет vegan, там есть функция для коэфф. похожести (vegdist), но все данные в одной матрице. Не совсем понимаю, можно ли мои данные привести к тому виду, который нужен функции.

Если нужно именно то, что вы написали, то нет никаких проблем: объединить матрицы в одну и считать сходство между нужными столбцами.
Но я сомневаюсь, что для описанной задачи вам нужен индекс сходства Жаккара. Он имеет смысл именно в пределах одной матрицы данных. Т.е. если нужно оценивать сходство столбцов, то в строчках должен находится один объект, для которого в каких-то случаях в двух столбцах будут стоять: 11, 10, 01 или 00. Если в каждой из двух матриц находятся строго одни и те же объекты, то почему матриц две?
Если же в матрицах разные объекты, т.е. эти данные имеют одинаковую структуру, но относятся к разным ситуациям, то сравнение матриц можно провести прокрустовым анализом, который есть в том же vegan: http://cc.oulu.fi/~jarioksa/softhelp/vegan...procrustes.html
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 16.05.2017 19:47     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(Den-N @ 16.05.2017 14:45)
Ссылка на исходное сообщение  Если нужно именно то, что вы написали, то нет никаких проблем: объединить матрицы в одну и считать сходство между нужными столбцами.
Но я сомневаюсь, что для описанной задачи вам нужен индекс сходства Жаккара. Он имеет смысл именно в пределах одной матрицы данных. Т.е. если нужно оценивать сходство столбцов, то в строчках должен находится один объект, для которого в каких-то случаях в двух столбцах будут стоять: 11, 10, 01 или 00. Если в каждой из двух матриц находятся строго одни и те же объекты, то почему матриц две?
Если же в матрицах разные объекты, т.е. эти данные имеют одинаковую структуру, но относятся к разным ситуациям, то сравнение матриц можно провести прокрустовым анализом, который есть в том же vegan: http://cc.oulu.fi/~jarioksa/softhelp/vegan...procrustes.html


Я тоже так подумал в начале, но потом так и не понял при чем тут "похожесть столбцов"? Граф задается "квадратной" матрицей.
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение Сообщение на английском  09.06.2017 12:19     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

https://rstudio.github.io/keras/
Участник оффлайн! passant




 прочитанное сообщение 09.06.2017 17:42     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

(PS2004R @ 09.06.2017 12:19)

Учитывая, что Deep Learnung в последнее время было "слабым звеном" R в конкуренции с Python, похоже, что это отставание теперь ликвидировано. С чем поклонников R можно поздравить.
Участник оффлайн! penkin.2011




 прочитанное сообщение 17.06.2017 18:14     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

итак собрался с мыслями
1. есть папка с json файлами , их нужно соединить.
сделал
http://rgho.st/8dbTCzLSj

library("rjson")
setwd("C:/Users/admin/Downloads/util_v2/")
getwd()

library(jsonlite)
temp <- list.files(path = "C:/admin/synthex/Downloads/util_v2/", pattern="*.json", full.names=TRUE)
movies <- purrr::map_df(temp, function(x) {
purrr::map(jsonlite::fromJSON(x), function(y) ifelse(is.null(y), NA, y))
})
#check output
nrow(movies)
colnames(movies)
#transform json to data frame
newdata <- as.data.frame(movies)

2. Сейчас распарсю json в датафрейм

my.df <- data.frame(lapply(newdata, as.character), stringsAsFactors=FALSE)
colnames(my.df)
head(my.df)
View(my.df)


стало похоже на правду, но
возьмем столбец
court practice
у него некоторые значения могут принимать такой вид
list(blocks = list(cases = list(list(caseRid = c(95918949, 79606236, 93179478, 43126448, 95678859, 13800269, 19524301, 89570158, 28033652, 23098020), firstNumber = c("А40-1390/2016", "А03-15167/2015", "А07-19946/2014", "А40-140785/2014", NA, "А40-63684/2014", "А40-53529/2014", "А60-11711/2014", "А06-208/2014", "А06-10021/2013"), href = c("http://kad.arbitr.ru/Card/16baf1f7-6ed9-4517-b388-7640f405cf17", "http://kad.arbitr.ru/Card/24001b4a-8f9b-4b5f-afbb-e3003d83333e", "http://kad.arbitr.ru/Card/5bd3fbf8-26f2-414c-a61a-86d66a863457", "http://kad.arbitr.ru/Card/cfd9d621-2cbe-4f74-8cdf-6a4bd58121d7", "http://kad.arbitr.ru/Card/e319051b-eb73-4e56-910d-8bcf4bd08c77", "http://kad.arbitr.ru/Card/d3a99b0d-2d77-4a33-b9f1-bda5d2a39d72", "http://kad.arbitr.ru/Card/834abd4b-a388-48d2-8bd0-375e8b910c91", "http://kad.arbitr.ru/Card/0c8eb611-1be0-484a-ba48-7f4fd89be016", "http://kad.arbitr.ru/Card/7d5fd54b-2b86-4b42-b6d4-51487bb1ce24", "http://kad.arbitr.ru/Card/ecb4ee7b-5f29-42d6-b321-df05d2f8f35b"), instances = list(list(courtName = "АС города Москвы", documents = list(items = list(list(date = c("2017-05-22T00:00:00", "2017-04-21T00:00:00", "2017-04-10T00:00:00"), dateLongText = c("22 мая 2017", "21 апреля 2017", "10 апреля 2017"), dateText = c("22 мая 17", "21 апр 17", "10 апр 17"), docName = c("Об отложении судебного разбирательства", "Об отложении судебного разбирательства", "Об отложении судебного разбирательства"), hasLink = c(TRUE, TRUE, TRUE), rid = c(248372775, 248349355, 243099484), type = c("Определение", "Определение", "Определение" ))), total = 20), instanceId = "51c752e9-88c0-424c-894c-b984a47577ef", instanceName = "Первая инстанция", num = "А40-1390/2016"), list(courtName = "АС Алтайского края", documents = list(items = list(list(date = c("2016-03-03T00:00:00", "2015-12-08T00:00:00", "2015-12-08T00:00:00"), dateLongText = c("3 марта 2016", "8 декабря 2015", "8 декабря 2015"), dateText = c("3 марта 16", "8 дек 15", "8 дек 15"), docName = c("Возврат госпошлины", "Протокол судебного заседания", "Почтовое уведомление"), hasLink = c(FALSE, FALSE, FALSE), rid = c(228498467, 75827074, 75827077), type = c("События", "Прочие судебные документы", "Приложения"))), total = 17), instanceId = "89360eb5-938a-4dc6-8415-4695d33db3fa", instanceName = "Первая инстанция", num = "А03-15167/2015"), list(courtName = c("АС Уральского округа", "18 арбитражный апелляционный суд", "АС Республики Башкортостан", "АС Уральского округа", "18 арбитражный апелляционный суд", "18 арбитражный апелляционный суд", "АС Республики Башкортостан"), documents = list(items = list( list(date = c("2015-11-30T00:00:00", "2015-11-03

и это только часть...


Скажите, это баг jsona или я неверно распарсил, потому что остальные столбцы норм
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 19.06.2017 21:58     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(passant @ 09.06.2017 17:42)
Ссылка на исходное сообщение  Учитывая, что Deep Learnung в последнее время  было "слабым звеном" R в конкуренции с Python, похоже, что это отставание теперь ликвидировано. С чем поклонников R можно поздравить.


mxnet дописали таки тоже ( !вот что конкуренция животворящая делает! ) https://github.com/dmlc/mxnet/issues/4386
Участник оффлайн! penkin.2011




 прочитанное сообщение 20.06.2017 18:21     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

коллеги с json я разобрался. Вытащил данные, код большой, не вижу смысла тут на 5 листов его писать.
Но другой вопрос , я построил модель лог регрессии, один из предикторов был character (да, нет, иногда, незнаю)

Как мне теперь прописать уравнение я же не могу Да*на коэфф -такой-то

"Я не конченный тупой, и знаю что есть predict, но мне нужно в ручную уравнение прописать"
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 26.06.2017 10:06     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

Безусловно, что столь мощное и выразительное средство анализа данных, каковым является среда вычислений и визуализации R просто провоцирует "делать все не выходя за пределы R". Но надо не поддаваться соблазну такого "солипсизма" и "помнить о окружающем мире".

Для бесшовного (и бескровного smile.gif взаимодействия с внешним окружением важна экосистема образованная сопутствующими продуктами и приложениями. Вот небольшой, но полный крайне зрелых высокоуровневых продуктов образующих такую экосистему, поддерживающую применение R на всех этапах работы.

https://www.openanalytics.eu/products/
Участник оффлайн! ПолинаШ
Участник



 прочитанное сообщение 13.07.2017 10:25     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Дорогие коллеги! Третий день ничего не могу понять в построенном дереве. Помогите обрести уверенность и понимание "кто виноват".
Вознамерился построить дерево. Но первое же разбиение гонит откровенную лажу:
ZoneP <- read.delim("ZoneP.txt")
library(party)  # Построение дерева методом "условного вывода"
ctree.Site <- ctree(S_water ~ ., data=ZoneP)
n <- nodes(ctree.Site, 13)[[1]]
ZoneP[as.logical(n$weights),  c(1,16)]
  S_water Ephemeridae
52      Э          0
60      Э          0
61      Э          0
62      Э          0
63      Э          0
65      Э          0
66      Э          0
ZoneP[ZoneP$Ephemeridae > 3, c(1,16)]
  S_water Ephemeridae
13      Л          9
14      Л          4
24      Л          10

В узле 13 при условии Ephemeridae > 3 сидят совсем другие объекты, которые Ephemeridae совсем не содержат.

Картинки:
картинка: Ztree.png
Ztree.png — (44.19к)   



Файл/ы:

скачать файл ZoneP.txt
размер: 12.91к
кол-во скачиваний: 14


Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 13.07.2017 11:35     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(ПолинаШ @ 13.07.2017 10:25)
Ссылка на исходное сообщение  Дорогие коллеги! Третий день ничего не могу понять в построенном дереве. Помогите обрести уверенность и понимание "кто виноват".
Вознамерился построить дерево. Но первое же разбиение гонит откровенную лажу:

В узле 13 при условии Ephemeridae > 3  сидят совсем другие объекты, которые Ephemeridae  совсем не содержат.


Кодировку я не понял (понял только что это не utf smile.gif )

CODE


> levels(ZoneP$S_water) <- c("A", "B", "C", "D")
> ZoneP$S_water
 [1] A A A A A A A A A A A A A A A D D D D A A A A A A D B D D D D A D D D D D
[38] A D A A A A A D A D D A A A C D D D D C C C C C C C A C C A D A A A A A A
[75] A A A A D B B B B D D B B B B B B B B B B B D D D D D D D D D D D D D D D
[112] D D D D B B B B B B B B
Levels: A B C D
> ctree.Site <- ctree(S_water ~ ., data=ZoneP)
> plot(ctree.Site)
> table(ZoneP$S_water, ZoneP$Ephydridae)
 
    0  1  2  3  6  7  8  9 14
 A 40  1  1  2  0  0  0  0  0
 B 17  7  0  0  0  0  0  0  0
 C  1  1  1  0  2  2  1  1  1
 D 45  0  0  0  0  0  0  0  0
> str(ZoneP$Ephydridae)
int [1:123] 0 0 0 0 0 0 0 0 0 0 ...
> table(ZoneP$Ephydridae)

 0   1   2   3   6   7   8   9  14
103   9   2   2   2   2   1   1   1
>


Все сходиться

Картинки:
_________________2017_07_13_11_34_04.png - кликните, чтобы открыть увеличенную картинку
_________________2017_07_13_11_34_04.png — (79.55к)   

Участник оффлайн! ПолинаШ
Участник



 прочитанное сообщение 13.07.2017 14:46     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Большое спасибо. Извините за рассеянность. Просто спутала Ephemeridae с Ephydridae (чертова латынь).
Участник оффлайн! DSV2015




 прочитанное сообщение 18.07.2017 17:34     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

replace(x, list, values) — заменяет значения x c индексами из list значениями из values
Мне же нужно заменить значения вектора по указанным значениям. К примеру есть -

x <- c(1, 2, 3, 4, 5)
x

1 2 3 4 5 (было)

Нужно как то заменить 2 на 50 и 4 на 100

1 50 3 100 5 (стало)

Как сделать?
Участник оффлайн! PS2004R
Постоянный участник



 прочитанное сообщение 18.07.2017 22:14     Сообщение для модератора  Сообщение для куратора темы       Фотография  Личное письмо  Отправить e-mail  Web-адрес

(DSV2015 @ 18.07.2017 17:34)
Ссылка на исходное сообщение  replace(x, list, values) — заменяет значения x c индексами из list значениями из values
Мне же нужно заменить значения вектора по указанным значениям. К примеру есть -

x <- c(1, 2, 3, 4, 5)
x

1 2 3 4 5              (было)

Нужно как то заменить 2 на 50 и 4 на 100

1 50 3 100 5            (стало)

Как сделать?


Это базовый функционал

CODE

x[x==2] <- 50
x[x==4] <- 100


Всего благодарностей: 1Поблагодарили (1): DSV2015
Участник оффлайн! binom15




 прочитанное сообщение 08.09.2017 12:46     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Подскажите, пожалуйста, есть ли в R функции для биномиального распределения с несколькими значениями параметров size (size1,size2,size3) и prob (prob1,prob2,prob3) ?
Участник оффлайн! plantago
Постоянный участник
Minot, ND



 прочитанное сообщение 28.09.2017 05:47     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail  Web-адрес

Попробуйте связаться с автором пакета https://cran.r-project.org/web/packages/ext...istr/index.html
Участник оффлайн! penkin.2011




 прочитанное сообщение 28.09.2017 18:29     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Подскажите, по какому принципу на базе расстояния Кука и Стьюдентиризированных остатков
можно понять имеет ли место быть выброс или нет.
пример ряд чисел расстояния Кука
,04907
,00537
,35246
,00046
,00971
,00035
,00056
,00055
,00816
,21835
,00179
,00084
,00881
,00152
,03646
,70577
,00590
,00624
Участник оффлайн! passant




 прочитанное сообщение 29.09.2017 14:02     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Расстояние Кука оценивает эффект от удаления соответствующего наблюдения из модели. В модели без существенных выбросов все значения расстояния Кука примерно одинаковы. Если какие-то значения РК существенно отклоняются, то можно предположить, что соответствующее наблюдение смещает оценки коэффициентов регрессии, т.е считать его выбросом.
Значение PK, при котором значение можно рассматривать как выброс можно определить через F-распределение Фишера (http://forum.disser.ru/index.php?act=attach&type=post&id=284), а можно - использовав более простой подход, взяв в этом качестве значене 4/n, где n- количество элементов в выборке (http://www.machinelearning.ru/wiki/index.php?title=Расстояние_Кука)
Участник оффлайн! penkin.2011




 прочитанное сообщение 29.09.2017 17:42     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

passant,все понятноsmile.gif
а подскажите по такому вопросу:
Вот набор данных
переменная ряд - исходная, и ранжированная по возрастанию
есть 2 высчитанные переменные
1.Разница по медиане
Берется медиана ряда и вычитается конкретное значение
2.Разница по среднему
Берется среднее по ряду и вычитается конкретное значение
Скажите, как на базе разницы между среднем и конкретным значением понять, является ли этозначение выбросом или нет?

Файл/ы:

скачать файл med.zip
размер: 8.55к
кол-во скачиваний: 8


Участник оффлайн! passant




 прочитанное сообщение 29.09.2017 19:20     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

А причем тут медиана или среднее значений ряда к вычислению Расстояния Кука? Вообще-то РК применяется к регрессионной модели, т.е. должна быть как минимум зависимая и независимая переменные, по которым и строиться регрессия а потом уже сравнивая модельные и реальные значения вычисляется РК и принимается решение. А вы предлагаете только один ряд, т.е. единичную выборку. Все, что вы сделали своими разностями - это просто сместили значения выборки.
Участник оффлайн! ИНО
Постоянный участник
Донецк



 прочитанное сообщение 29.09.2017 19:26     Сообщение для модератора  Сообщение для куратора темы       Личное письмо

Скажите, как на базе разницы между среднем и конкретным значением понять, является ли этозначение выбросом или нет?

Надо полагать, что перед Вами стоит задача поиска выбросов в одномерной выборке? Даже не знаю, каким образом Вы оттуда расстояния Кука получили, ибо то для регрессионных моделей, которые, как минимум, двумерны. Для одномерных выбросов свои методы, коим несть числа (например правило "ящика с усами"), но для начала надо определиться: что Вы считаете выбросами и зачем Вам их надо найти? Если данные получены при помощи прибора (или лаборанта smile.gif ), который время от времени глючит и выдает значения измеряемой величины, сильно отличные от истинных, что в теории измерений именуется промахом, - то это одно, тут действительно надо вариационный ряд чистить. А если аномальные значения реально присутствуют в выборке - то совсем другое дело. Удаляя их, чтобы в дальнейшем применить какие-то чувствительные к выбросам методы анализа, Вы должны отдавать себе отчет, что имеет место натягивание совы на глобус, и чем больше "выбросов", тем оно туже. Здесь лучше поменять модель и метод анализа.

Посмотрел на данные: явных выбросов не заметил, есть "подозрительные значения" - но то фигня, они всегда есть. Смутило другое: в некоторых местах значения кучкуются по три, а между - дырки. Обычно такое бывает в результате неких искусственных манипуляций, как, например, объединение выборок полученных на приборах с немного отличными шкалами. Все бы ничего (на оценки параметров распределения это влияет чуть), но некоторые алгоритмы статистического анализа в такой ситуации могут "выловить" совсем не то, что требуется исследователю. Но, может, это мне померещилось, "кучек" слишком мало чтобы уверенно утверждать, что это не результат случайности.

Сообщение было отредактировано ИНО - 29.09.2017 19:29
Участник оффлайн! Den-N
Постоянный участник



 прочитанное сообщение 30.09.2017 12:46     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

(penkin.2011 @ 29.09.2017 20:42)
Ссылка на исходное сообщение  passant,все понятноsmile.gif
а подскажите по такому вопросу:
Вот набор данных ...

1. Вопрос не имеет прямого отношения к R, это - просто статистика. Применительно к R посмотрите что выдаёт поисковик для "outliers detection in R"

2. Насчёт Кука и "натягивания совы" - присоединяюсь. На всякий случай: с выбросами в регрессии разбирался плотно, см. материал в сообщении #72 здесь:
http://forum.disser.ru/index.php?showtopic=2434&st=71

3. Применительно к одномерному массиву есть свои критерии, например критерий Хартли, или сравнение единственного наблюдения с выборкой с помощью критерия Стьюдента и др. меры. Я с этими критериями не особо знаком и не особо люблю. Но если что, почитать можно в Закс Л. Статистическое оценивание и Sokal & Rohlf. Biometry, должно быть у Кобзаря. Прикладная матем. статистика (все книги есть в сети). Формулы простые, считается просто, но см. про сову выше.

4. Прежде чем говорить о выбросах, нужно определиться с распределением показателя. Хотя бы приблизительно. Ведь значение в хвосте асимметричного логнормального распределения по формуле для нормального окажется выбросом, а это - в корне неверно. Поэтому прежде чем искать выбросы, нужно привести асимметричные данные к более симметричному виду (логарифмирование, преобразование Бокса-Кокса и т.п.), а уже затем искать выбросы.

5. И последнее. Выбросы имеют разную природу (см. посты выше). Это может быть неверный набор цифры, а может быть корректное значение из другой популяции, попавшее в вашу выборку, или даже несколько таких значений. В последнем случае правильнее говорить не о выбросах, а о смеси распределений. Так в прикреплённом файле дана гистограмма ваших данных. Видно, что распределение - неоднородное, и делится на 2 однородных в районе 40000. Если вы можете интерпретировать эти подгруппы, то и весь анализ нужно перестраивать уже под 2 группы. Это могут быть здоровые/больные, самцы/самки, молодые и более возрастные особи для видов с метаморфозом в развитии и т.п. Учитывая асимметрию распределения можно построить гистограмму с плотностью распределения для логарифмов, тогда выделяется уже 3 подгруппы. Вы, как специалист в своей области, должны суметь интерпретировать эти 2 или 3 подгруппы. В R eсть пакеты для разделения смеси распределений по навороченному EM-алгоритму (типа mixdist), но можно сделать и "на глазок" - по гистограмме. Главное - интерпретировать и работать с подгруппами раздельно.

Сообщение было отредактировано Den-N - 30.09.2017 17:16

Картинки:
картинка: penkin1.png
penkin1.png — (31.62к)   



Всего благодарностей: 2Поблагодарили (2): plantago, PS2004R
Участник оффлайн! RBlake




 прочитанное сообщение 17.10.2017 18:33     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Здравствуйте. Имеется таблица
ФИО пациента| Данные до лечения1|Данные после лечения1|Данные до лечения2|
Федоров И. 0.80 1.32 10.4
Данные после лечения2
13.6
Подскажите как построить график что бы отразить все эти данные.
Пробовал через ggplot(Data, aes(Ф.И.О., Данные до лечения1)) +
geom_bar(stat="identity", position = "dodge"), но получается только одно значение отобразить, как сделать что бы все данные были на графике
Заранее спасибо!
Участник оффлайн! RBlake




 прочитанное сообщение 17.10.2017 21:08     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Таблица

Сообщение было отредактировано RBlake - 19.10.2017 20:14
Участник оффлайн! ПолинаШ
Участник



 прочитанное сообщение 18.10.2017 18:51     Сообщение для модератора  Сообщение для куратора темы       Личное письмо  Отправить e-mail

Вопрос чисто дилетантский.
По результатам построения линейной модели МНК предлагается ее интерпретировать: "Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Особое значение при этом имеет знак перед коэффициентом регрессии, который говорит о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак минус, то с его увеличением результативный признак уменьшается...."
Теперь мы желаем строить модели персептрона или Random Forrest. Возможные варианты интерпретации смысла и важности предикторов - varImp() из пакета caret или Boruta().
Существует ли кроме важности быстрая возможность оценить в некотором роде совокупную направленность воздействия каждого предиктора на отклик (с увеличением xi растет y или что-то в этом роде именно исходя из результатов моделирования)? Я помню про нелинейность и мультиколлинеарность. И если на последнюю обращать внимание не стоит, то ничего не мешает построить любые парные зависимости между каждой переменной и откликом в отдельности. Но все же спросить хочется...
Guest
IP-штамп: frsMoUrr6hEUk
гость



 прочитанное сообщение 18.10.2017 19:05     Сообщение для модератора  Сообщение для куратора темы     

(ПолинаШ @ 18.10.2017 18:51)
Ссылка на исходное сообщение  Вопрос чисто дилетантский. 
По результатам построения линейной модели МНК предлагается ее интерпретировать: "Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Особое значение при этом имеет знак перед коэффициентом регрессии, который говорит о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак минус, то с его увеличением результативный признак уменьшается...."
Теперь мы желаем строить модели персептрона или Random Forrest. Возможные варианты интерпретации смысла и важности предикторов -  varImp() из пакета caret или Boruta().
Существует ли кроме важности быстрая возможность оценить в некотором роде совокупную направленность воздействия  каждого предиктора на отклик (с увеличением xi растет y или что-то в этом роде именно исходя из результатов моделирования)? Я помню  про нелинейность и мультиколлинеарность. И если на последнюю обращать внимание не стоит, то ничего не мешает построить любые парные зависимости между каждой переменной и откликом в отдельности.  Но все же спросить хочется...


Да, есть масса способов визуализировать. Например

https://cran.r-project.org/web/packages/ran...iner/index.html
https://cran.r-project.org/web/packages/ggR...ndomForests.pdf

и тому подобное.

Всего благодарностей: 1Поблагодарили (1): ПолинаШ

*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 22.10.17 09:38
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft