Rambler's Top100
Лёгкая версия форума* Виртуальная клавиатура  English  
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы
Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Междисциплинарный биологический онлайн-журналZbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ


Темы за 24 часа  [ Вход* | Регистрация* ]  
   



Форум: 
 

Щёлкните, чтобы внести в Избранные Темы* Прошу помощи -- у биоинформатиков --
ИнтерЛабСервис - передовые технологии молекулярной диагностики
Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.


 
Добавить сообщение в темуСоздать новую темуСоздать голосование
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 24.03.2017 23:17     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #1 множественное цитирование

Всем привет.
У меня появилась нужда выровнять риды на зебрафишный геном danRer7.fasta
с помощью HISAT2. Геном в два раза меньше человечьего, но тоже не маленький.
Не могу никак найти готовый (пригодный для HISAT2) индекс к этому геному. В описании программы пишут, что для индексирования надо примерно 150Gb RAM на борту компа. У меня немного меньше smile.gif . Может у кого завалялся готовый индекс или хотя бы суперкомпьютер. Буду премного благодарен за иднексирование для HISAT2 зебрафишного генома.
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 27.03.2017 11:24     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #2 множественное цитирование

2 ksm
Конечно это индекс. Только не полный индекс генома зебрафишки. Какаето его часть. В принципе можно и для одного гена строить индекс и мапить на него геном. А за наводку на индекс генома спасибо. Еще бы узнать на какой сборке генома он получен.
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 27.03.2017 12:25     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #3 множественное цитирование

Причем тут Стар? Ему нужно только 30Гб для мапинга. А на Хайсате 8Гб (16 Гб с запасом).
А индексы один раз сделал или скачал и пользуйся ими потом всю жизнь. Мне Хайсат2 нравится за офигенную скорость и связку в новый Туксидо. Думаю на ближайшие лет 5 это станет де факто стандартом для РНК-сек (ИМХО).
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 27.03.2017 13:50     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #4 множественное цитирование

2 ksm
Тут какае то путаница. Попытаюсь разобраться.
Я скачал по вышей ссылке индексы, и скормил их Хайсат2 на РНК-сек данных рыбок. Хайсат2 скушал их и сгенерил мне BAM файлы с элайментом. Но эти файлы не загружаются в IGV weep.gif . Вьюер ругается, что нет в БАМах информации о генах confused.gif . Скорее всего индексы сделаны неправильно.
Я делаю по статье
Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie, and Ballgown
Mihaela Pertea1,2, Daehwan Kim1, Geo Pertea1, Jeffrey T. Leek3, and Steven L. Salzberg1,2,3,4
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5032908/

В ней во втором боксе инструкция как получить свои индексы (на примере chrX) :

$ extract_splice_sites.py chrX_data/genes/chrX.gtf > chrX.ss
$ extract_exons.py chrX_data/genes/chrX.gtf > chrX.exon

Second, build a HISAT2 index:

$ hisat2-build --ss chrX.ss --exon chrX.exon
chrX_data/genome/chrX.fachrX_tran

The --ss and --exon options can be omitted in the command above if annotation is not available.
Note that the index-building step requires a larger amount of memory than the alignment step, and might not be possible on a desktop computer. For example, indexing requires 9 GB of RAM for chromosome X, and 160 GB for the whole human genome. The amount of memory is much smaller if one omits annotation information. Indexing chromosome X using 1 CPU core takes less than 10 minutes. It should take ~2 hours to build an index for the whole human genome using 8 CPU cores.


Индексы без анотации для меня бессмыслены. Тем более, что полученые с помощью их файлы не грузятся в IGV. В чем я неправ?
На сайте Хайсат2 можно скачать готовые индексы. К каждому комплекту прилагается скрипт на Баше как эти индексы сделаны. этот скипт можно немного поправить и адаптировать к нужному геному. По моему самый правильный путь.
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 27.03.2017 18:35     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #5 множественное цитирование

С опциями --ss и --exon мой комп выбирает весь RAM потом весь своп и впадает в анабиоз. Без этих опций довольно шустро генерит индексные файлы. Oсталось выяснить глубинный смысл этих опций и что без них я теряю.
Как вариант я попробовал отмапить риды только на одну хромосому(наиболее мне интересную). Осталось придумать как вытащить из GTF на весь геном подмножество GTF на эту хромосому.
Участник оффлайн! sceptique
Постоянный участник
временной жизни



 прочитанное сообщение 28.03.2017 02:19     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #6 множественное цитирование

(Sergeant @ 27.03.2017 19:35)
Ссылка на исходное сообщение  С опциями --ss  и  --exon мой комп выбирает весь RAM потом весь своп и впадает в анабиоз. Без этих опций довольно шустро генерит индексные файлы. Oсталось выяснить глубинный смысл этих опций и что без них я теряю.
Как вариант я попробовал отмапить риды только на одну хромосому(наиболее мне интересную). Осталось придумать как вытащить из GTF на весь геном подмножество GTF на эту хромосому.

Воткните SSD на >=256ГБ, принудительно удалите свопы на всех других дисках, на SSD руками задайте весь размер диска под своп.

И запускайте. Если повезет - то и геном с индексами и SSD потом буду Ваши и принесут лично Вам пользу. Лучше взять SSD на 512ГБ, с запасом.

Сообщение было отредактировано sceptique - 28.03.2017 02:19
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 28.03.2017 13:04     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #7 множественное цитирование

SSD быстрый если только сравнивать с HDD. А если сравнивать с RAM DDR4 то это черепаха. Да и умрет SSD через неделю от такого свопа. Поэтому у меня на SSD стоит только Ubuntu и OS X Sierra. А все данные и своп на втором диске HDD.
Я сделал свой индекс без опций. И все взлетело. Весь протокол нового Туксидо отработал без ошибок и нашел все DE гены. И в IGV все загрузилось и просто летает. Всем спасибо.
А Hisat2 vs STAR это уже вопрос религии. У меня только 16Gb RAM делать апгрейд памяти только под STAR не вижу смысла.
Участник оффлайн! sceptique
Постоянный участник
временной жизни



 прочитанное сообщение 28.03.2017 13:39     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #8 множественное цитирование

1.5 ГБайт в секунду на чтение и 1 ГБайт/с на запись - это лишь в 30 раз медленнее DDR4. 2 часа * 30 = 60 часов, 3 дня расчетов, должен справиться с однократной задачей, которая всю жизнь потом будет кормить. Стоит тыщ 20-30 нормальный, многовато, но для дела это все же дешевле, чем покупать ненужный шлак за 500 тыщ у которого 256 ГБайт оперативки.

Даже если 500 мег/с туда и сюда, неделю расчетов он должен выдержать. Их проектируют с учетом записанного объема данных в 500ТБайт где-то. Часть этого объема будет буферить кэш записи-чтения.

Если бы был на Вашем месте - попробовал бы. Ну а также обязательно бы попробовал где-то в центре контига генома (или на какой-то хромосоме примерно посередине) разбил бы его примерно пополам и скормил бы проге для аннотации (80 ГБ оперативки на компе найти проще чем 160), а потом бы склеил файлы или руками или в самой проге. Такое (склейка) наверняка возможно и востребовано, и должно быть реализовано.

В любом случае, хоть и не работал с Вашими инструментами по аннотации и не знаю что такое Таксидо (пока) - поздравляю Вас с победой над очередной "последней мыслью" зажравшихся памятью и безпллатным процессорным временем зарубежных биоинформатегофф.

Сообщение было отредактировано sceptique - 28.03.2017 13:52

Всего благодарностей: 1Поблагодарили (1): ksm
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 28.03.2017 15:24     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #9 множественное цитирование

не знаю что такое Таксидо


new Tuxido = HISAT2 + StringTie + Ballgown

Биться за скорость не вижу уже особого смысла. Скорость и так вполне приемлемая.
Примерно 1час/обоазец на i5 (4 core) 16 Gb RAM. Не считая дополнительного времени на QC.
Участник оффлайн! sceptique
Постоянный участник
временной жизни



 прочитанное сообщение 28.03.2017 17:35     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #10 множественное цитирование

У меня тоже i5/16GB DDR3 для личных экспериментов.

А можно для полного профана - что делает эта Ваша связка софта за 1 час полезного? Она мапит короткие риды на аннотированный геном и детектирует новые снипы?
Участник оффлайн! Sergeant
Постоянный участник



 прочитанное сообщение 28.03.2017 19:47     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #11 множественное цитирование

что делает эта Ваша связка софта за 1 час полезного?

За час на риды мапятся на геном (мышка/человечек), BAM файл сортируется и индексируется (опционно), из БАМа вытаскивается GTF. когда все образцы отмапятся все GTF сливаются один общий GTF. Затем в бой вступает StringTie. Он пытается на основе ридов и общего GTF построить транскрипты (разные изоформы). А на основе этих транскиптов Ballgown считает статистику, строит таблицу DE генов, вулканчики всякие рисует и прочие свистульки и погремушки. Чем собственно и богат Биокондактор. На общем фоне все эти R приблуды выполняются практически мгновенно.
Участник оффлайн! watchesbiz
Постоянный участник



 прочитанное сообщение Сообщение на английском  23.11.2021 15:35     Сообщение для модератора         Личное письмо  Отправить e-mail
Цитировать Поместить сообщение в колонку новостей  URL #12 множественное цитирование

https://replicawatches24.tumblr.com/post/64...lica-watches-uk
https://ello.co/replicawatchesuk/post/ubut9ig9g4glx-q6nyphka
https://www.evernote.com/shard/s451/client/...%2BWatches%2BUK
https://www.bloglovin.com/@rolexrelicawatch...replica-watches
https://www.designspiration.com/watcheshutuk/saves/
https://write.as/fakerolexwatches/hints-to-...lica-watches-uk
https://www.dailystrength.org/journals/hint...lica-watches-uk
https://issuu.com/replicawatchesuk/docs/dif...he_replica_watc
https://www.keepandshare.com/discuss2/5601/...lica-watches-uk
https://penzu.com/public/9e250377
https://bestreplicawatc.livejournal.com/336.html
https://www.pearltrees.com/replicawatchesuk/item349627941
https://www.intensedebate.com/people/watches24
https://anonfiles.com/N039Qf66q9/Guide_On_H...atch_Online_pdf

*




Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.
Имя:

 преобразовывать смайлики · показать смайлики
Назначение кнопок:

   Поблагодарить автора сообщения — поблагодарить автора
   Удалить сообщение — удалить
   Редактировать сообщение — редактировать
   Поместить сообщение в колонку новостей — поместить в колонку новостей
   Цитировать — цитировать сообщение
   не входит в цитирование/входит в цитирование — цитировать несколько
   Отметить СПАМ-сообщение — обозначить спам
   Сообщение для модератора — связь с модератором
   Участник онлайн!/Участник оффлайн! — автор онлайн/оффлайн
   Фотография — фотография автора

   - остальные обозначения -
 
   *
« Предыдущая тема · Молекулярная и клеточная биология · Следующая тема »
Быстрый ответДобавить сообщение в темуСоздать новую тему

Rambler   molbiol.ru - методы, информация и программы для молекулярных биологов              

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

Хеликон · Диаэм · ИнтерЛабСервис · Beckman Coulter · SkyGen · ОПТЭК · BIOCAD · Евроген · Синтол · БиоЛайн · Sartorius · Химэксперт · СибЭнзим · Tecan · Даниес · НПП "ТРИС" · Биалекса · ФизЛабПрибор · Genotek · АТГ Сервис Ген · Биоген-Аналитика
Ваш форум  ·  redactor@molbiol.ru  ·  реклама  ·  Дата и время: 18.04.24 13:45
Bridged By IpbWiki: Integration Of Invision Power Board and MediaWiki © GlobalSoft