Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
a-marko Россия |
1. Как величину, обратную ошибке их суммы? 2. Как-то иначе? Буду крайне признателен за совет. Сообщение было отредактировано a-marko - 01.02.2015 16:38 |
PS2004R Постоянный участник |
|
a-marko Россия |
(PS2004R @ 03.02.2015 02:43) Проблема в том, что эта и подобные функции предполагают, что вектор весов равен по длине векторам, между которыми считается корреляция. Вопрос в том, как суммировать веса для данных, если каждый из показателей, между которыми нужно найти корреляцию, имеет свою стандартную ошибку. |
PS2004R Постоянный участник |
(a-marko @ 03.02.2015 08:27) Проблема в том, что эта и подобные функции предполагают, что вектор весов равен по длине векторам, между которыми считается корреляция. Вопрос в том, как суммировать веса для данных, если каждый из показателей, между которыми нужно найти корреляцию, имеет свою стандартную ошибку. если дизайн данных таков, что в нём принципиально не было ни одного парного измерения, то о какой корреляции Вы спрашиваете? даже если построить семплер таких переменных с указанными матожиданиями и стандартными ошибками, то никакой дополнительной информации извлечь не удастся. |
Den-N Постоянный участник |
(PS2004R @ 03.02.2015 13:03) если дизайн данных таков, что в нём принципиально не было ни одного парного измерения, то о какой корреляции Вы спрашиваете? Не сталкивался на практике, но такая ситуация возможна. Например, нужно определить корреляцию двух показателей в 15 образцах почвы. Первый показатель определяется по одной методике и трижды с выводом среднего, а второй - трижды по другой с выводом своего среднего. Получается пара из 2-х значений, каждое из которых измерено со своей точностью. В другой паре -они будут своими. И таких пар 15, причём хочется чтобы неточные измерения меньше влияли на итоговую корреляцию. >a-marko Не попадалось нигде про такое, и вообще со взвешиванием не работаю. Но уж если взвешивать, то логичнее брать в знаменатель веса не сумму, а произведение ошибок, т.к. в основе корреляции - именно произведение стандартизованных значений х и у. А вот что взять в качестве ошибки - стандартное отклонение или стандартную ошибку - сомневаюсь. Если в каждой паре значения получались на основании одного числа определений среднего, то это - не принципиально. |
PS2004R Постоянный участник |
(Den-N @ 03.02.2015 11:13) Не сталкивался на практике, но такая ситуация возможна. Например, нужно определить корреляцию двух показателей в 15 образцах почвы. Первый показатель определяется по одной методике и трижды с выводом среднего, а второй - трижды по другой с выводом своего среднего. Получается пара из 2-х значений, каждое из которых измерено со своей точностью. В другой паре -они будут своими. И таких пар 15, причём хочется чтобы неточные измерения меньше влияли на итоговую корреляцию. Тогда, раз есть парные измерения (раз есть образцы обработанные разными методами, а то исходно очень непонятно сформулировано), то строить семплер. Каждый раз извлекать одно значение для каждой пробы почвы и считать интересующую статистику. |
a-marko Россия |
(Den-N @ 03.02.2015 11:13) Первый показатель определяется по одной методике и трижды с выводом среднего, а второй - трижды по другой с выводом своего среднего. Получается пара из 2-х значений, каждое из которых измерено со своей точностью. В другой паре -они будут своими. И таких пар 15, причём хочется чтобы неточные измерения меньше влияли на итоговую корреляцию. Да, смысл именно такой! В моем случае у меня есть значения обилия нескольких видов за два сезона, каждое со своей ошибкой. Меня интересует корреляция между обилием в первый и второй сезон для всей группы видов в целом - при этом я хочу, чтобы виды, у которых обилие определено точнее, давали больший вклад в корреляцию. (Den-N @ 03.02.2015 11:13) Но уж если взвешивать, то логичнее брать в знаменатель веса не сумму, а произведение ошибок, т.к. в основе корреляции - именно произведение стандартизованных значений х и у. А вот что взять в качестве ошибки - стандартное отклонение или стандартную ошибку - сомневаюсь. Если в каждой паре значения получались на основании одного числа определений среднего, то это - не принципиально. Большое спасибо за совет! Сообщение было отредактировано a-marko - 03.02.2015 20:42 |
a-marko Россия |
(PS2004R @ 03.02.2015 20:01) Тогда, раз есть парные измерения (раз есть образцы обработанные разными методами, а то исходно очень непонятно сформулировано), то строить семплер. Каждый раз извлекать одно значение для каждой пробы почвы и считать интересующую статистику. Спасибо, никогда не пользовался такой техникой. А нет ли у Вас каких нибудь ссылок, где о ней можно узнать подробнее? Правда, в моем случае воспользоваться ей вряд ли удастся, поскольку расчет обилия видов я веду по стандартным упрощенным формулам, которые дают готовые значения со стандартными ошибками. "Разложить" исходные данные на отдельные пробы при этом нельзя. |
PS2004R Постоянный участник |
(a-marko @ 03.02.2015 20:40) Спасибо, никогда не пользовался такой техникой. А нет ли у Вас каких нибудь ссылок, где о ней можно узнать подробнее? Правда, в моем случае воспользоваться ей вряд ли удастся, поскольку расчет обилия видов я веду по стандартным упрощенным формулам, которые дают готовые значения со стандартными ошибками. "Разложить" исходные данные на отдельные пробы при этом нельзя. Вместо аналитического вывода делается прямой счет с помощью монте-карло. Основание как у бутстрепа и рандомизации, например можно на Эфрона сослаться. Я все равно плохо представляю что за данные. Ну не "пробы" а "виды"? Есть набор "чего то" у каждого "чего то" есть матожидание и среднеквадратичное для каждого "показателя" который характеризует каждую из проб. Выборка для этой ситуации это для каждого "чего то" извлечь по значению для каждого из "показателей". Ну и по набору данных посчитать например коэффициент корреляции. Естественно надо повторить этот расчет 10000 раз (а лучше смотреть как этот процесс "сходится") и построить распределение для этих 10000 значений коэффициента корреляции. Если нужны доверительные интервалы и матожидание, то сразу их и получаем в результате. |
a-marko Россия |
(PS2004R @ 04.02.2015 22:46) Вместо аналитического вывода делается прямой счет с помощью монте-карло. Основание как у бутстрепа и рандомизации, например можно на Эфрона сослаться. Понял, спасибо. Я использую методику расчета обилия птиц Равкина-Челинцева. Исходной единицей выборки служит индивидуальная дальность обнаружения особи. Из них рассчитывается среднее гармоническое, которое служит коэффициентом пересчета из числа встреченных птиц в плотность населения. Сложным образом высчитывается и станд. ошибка ее оценки, но на практике используется упрощенная формула 1.2/sqrt(K), где K - число встреч. |
PS2004R Постоянный участник |
(a-marko @ 05.02.2015 10:28) Понял, спасибо. Я использую методику расчета обилия птиц Равкина-Челинцева. Исходной единицей выборки служит индивидуальная дальность обнаружения особи. Из них рассчитывается среднее гармоническое, которое служит коэффициентом пересчета из числа встреченных птиц в плотность населения. Сложным образом высчитывается и станд. ошибка ее оценки, но на практике используется упрощенная формула 1.2/sqrt(K), где K - число встреч. Скорее всего птицы "одного вида" и объединены в "один случай"? Или "особь птицы" как то индивидуально идентифицируется? То что является "точкой" на коррелограмме (scatter plot) и надо извлекать из независимых семплеров для её "x" и "y". За "один цикл" семплинга надо получить по одной реализации для всех "точек". Это будет симулированная выборка, если таких выборок накопить достаточно много, то можно рассчитать по каждой из них нужную статистику и по сумме всех расчетов распределение этой "нужной статистики. Такой подход максимально учтет всю имеющуюся информацию. Сложность расчета показателей не представляет никакой помехи для применения к этим показателям ресемплинга и прямого монте-карло расчета распределения этих показателей по исходным распределениям (или параметрам распределений как в этом случае). |
a-marko Россия |
(PS2004R @ 05.02.2015 14:13) То что является "точкой" на коррелограмме (scatter plot) и надо извлекать из независимых семплеров для её "x" и "y". Проблема в том, что каждый "случай", т.е. значение обилия конкретного вида за конкретный сезон - это НЕ среднее арифметическое из отдельных независимых проб. Оно рассчитывается как N/(B*L), где N - число встреченных птиц, B - среднее гармоническое дальностей их обнаружения, L - длина маршрута. Если бы я рассчитал обилие по данным отдельных "проб", т.е. на основе дальностей обнаружения каждой конкретной встречи, и потом усреднил эти показатели, результат будет совсем другой. Т.е., как мне кажется, независимых семплеров тут просто нет. Значение обилия и их ошибка получаются только на основе всей совокупности регистраций, в рамках принятой математической модели, на которой основан метод. |
PS2004R Постоянный участник |
(a-marko @ 05.02.2015 14:45) Проблема в том, что каждый "случай", т.е. значение обилия конкретного вида за конкретный сезон - это НЕ среднее арифметическое из отдельных независимых проб. Оно рассчитывается как N/(B*L), где N - число встреченных птиц, B - среднее гармоническое дальностей их обнаружения, L - длина маршрута. Если бы я рассчитал обилие по данным отдельных "проб", т.е. на основе дальностей обнаружения каждой конкретной встречи, и потом усреднил эти показатели, результат будет совсем другой. Т.е., как мне кажется, независимых семплеров тут просто нет. Значение обилия и их ошибка получаются только на основе всей совокупности регистраций, в рамках принятой математической модели, на которой основан метод. Это значит что всё еще проще, пишете функцию которая для данной формулы N/(B*L) считает значение по имеющейся выборке. потом перевыбираете эту выборку "с возвращением" достаточное число раз (ну 10000 например) и для каждой выборки получаете значение этой статистики-формулы. Используете полученное распределение (или перцентили нужные, или параметры распределения, или напрямую из неё извлекаете случайные значения для семплеров более высокого порядка). |
a-marko Россия |
(PS2004R @ 05.02.2015 23:47) Это значит что всё еще проще, пишете функцию которая для данной формулы N/(B*L) считает значение по имеющейся выборке. потом перевыбираете эту выборку "с возвращением" достаточное число раз (ну 10000 например) и для каждой выборки получаете значение этой статистики-формулы. Используете полученное распределение (или перцентили нужные, или параметры распределения, или напрямую из неё извлекаете случайные значения для семплеров более высокого порядка). Идея понятна, спасибо! |
guest: great IP-штамп: frj5GEfdEWR5M гость |
|
guest: 123 IP-штамп: frJhOCvSv9ICE гость |
|
guest: 123 IP-штамп: frXqkB4MpP2jQ гость |
|
guest: 123 IP-штамп: frAWeMdOsBSXM гость |
|
« Предыдущая тема · Биофизика и матметоды в биологии · Следующая тема » |