molbiol.ru -> Прошу помощи

> Все форумы > Тематические форумы > Молекулярная и клеточная биология

Zbio-wiki

NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ

Правила FAQ* Поиск* Участники* Календарь* Избранные темы* Форум Форумов*

Темы за 24 часа [ Вход* | Регистрация* ]

Форум:

* Прошу помощи -- у биоинформатиков --

Операции: Хочу стать куратором* · Подписаться на тему* · Отправить страницу по e-mail · Версия для печати*
Внешний вид:* Схема · [ Стандартный ] · +Перв.сообщ.

Sergeant
Постоянный участник

24.03.2017 23:17

URL #1

Всем привет.
У меня появилась нужда выровнять риды на зебрафишный геном danRer7.fasta
с помощью HISAT2. Геном в два раза меньше человечьего, но тоже не маленький.
Не могу никак найти готовый (пригодный для HISAT2) индекс к этому геному. В описании программы пишут, что для индексирования надо примерно 150Gb RAM на борту компа. У меня немного меньше

. Может у кого завалялся готовый индекс или хотя бы суперкомпьютер. Буду премного благодарен за иднексирование для HISAT2 зебрафишного генома.

Sergeant
Постоянный участник

27.03.2017 11:24

URL #2

2 ksm
Конечно это индекс. Только не полный индекс генома зебрафишки. Какаето его часть. В принципе можно и для одного гена строить индекс и мапить на него геном. А за наводку на индекс генома спасибо. Еще бы узнать на какой сборке генома он получен.

Sergeant
Постоянный участник

27.03.2017 12:25

URL #3

Причем тут Стар? Ему нужно только 30Гб для мапинга. А на Хайсате 8Гб (16 Гб с запасом).
А индексы один раз сделал или скачал и пользуйся ими потом всю жизнь. Мне Хайсат2 нравится за офигенную скорость и связку в новый Туксидо. Думаю на ближайшие лет 5 это станет де факто стандартом для РНК-сек (ИМХО).

Sergeant
Постоянный участник

27.03.2017 13:50

URL #4

2 ksm
Тут какае то путаница. Попытаюсь разобраться.
Я скачал по вышей ссылке индексы, и скормил их Хайсат2 на РНК-сек данных рыбок. Хайсат2 скушал их и сгенерил мне BAM файлы с элайментом. Но эти файлы не загружаются в IGV

. Вьюер ругается, что нет в БАМах информации о генах

. Скорее всего индексы сделаны неправильно.
Я делаю по статье
Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie, and Ballgown
Mihaela Pertea1,2, Daehwan Kim1, Geo Pertea1, Jeffrey T. Leek3, and Steven L. Salzberg1,2,3,4
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5032908/

В ней во втором боксе инструкция как получить свои индексы (на примере chrX) :

$ extract_splice_sites.py chrX_data/genes/chrX.gtf > chrX.ss
$ extract_exons.py chrX_data/genes/chrX.gtf > chrX.exon

Second, build a HISAT2 index:

$ hisat2-build --ss chrX.ss --exon chrX.exon
chrX_data/genome/chrX.fachrX_tran

The --ss and --exon options can be omitted in the command above if annotation is not available.
Note that the index-building step requires a larger amount of memory than the alignment step, and might not be possible on a desktop computer. For example, indexing requires 9 GB of RAM for chromosome X, and 160 GB for the whole human genome. The amount of memory is much smaller if one omits annotation information. Indexing chromosome X using 1 CPU core takes less than 10 minutes. It should take ~2 hours to build an index for the whole human genome using 8 CPU cores.

Индексы без анотации для меня бессмыслены. Тем более, что полученые с помощью их файлы не грузятся в IGV. В чем я неправ?
На сайте Хайсат2 можно скачать готовые индексы. К каждому комплекту прилагается скрипт на Баше как эти индексы сделаны. этот скипт можно немного поправить и адаптировать к нужному геному. По моему самый правильный путь.

Sergeant
Постоянный участник

27.03.2017 18:35

URL #5

С опциями --ss и --exon мой комп выбирает весь RAM потом весь своп и впадает в анабиоз. Без этих опций довольно шустро генерит индексные файлы. Oсталось выяснить глубинный смысл этих опций и что без них я теряю.
Как вариант я попробовал отмапить риды только на одну хромосому(наиболее мне интересную). Осталось придумать как вытащить из GTF на весь геном подмножество GTF на эту хромосому.

sceptique
Постоянный участник
временной жизни

28.03.2017 02:19

URL #6

(Sergeant @ 27.03.2017 19:35)

Воткните SSD на >=256ГБ, принудительно удалите свопы на всех других дисках, на SSD руками задайте весь размер диска под своп.

И запускайте. Если повезет - то и геном с индексами и SSD потом буду Ваши и принесут лично Вам пользу. Лучше взять SSD на 512ГБ, с запасом.

Сообщение было отредактировано sceptique - 28.03.2017 02:19

Sergeant
Постоянный участник

28.03.2017 13:04

URL #7

SSD быстрый если только сравнивать с HDD. А если сравнивать с RAM DDR4 то это черепаха. Да и умрет SSD через неделю от такого свопа. Поэтому у меня на SSD стоит только Ubuntu и OS X Sierra. А все данные и своп на втором диске HDD.
Я сделал свой индекс без опций. И все взлетело. Весь протокол нового Туксидо отработал без ошибок и нашел все DE гены. И в IGV все загрузилось и просто летает. Всем спасибо.
А Hisat2 vs STAR это уже вопрос религии. У меня только 16Gb RAM делать апгрейд памяти только под STAR не вижу смысла.

sceptique
Постоянный участник
временной жизни

28.03.2017 13:39

URL #8

1.5 ГБайт в секунду на чтение и 1 ГБайт/с на запись - это лишь в 30 раз медленнее DDR4. 2 часа * 30 = 60 часов, 3 дня расчетов, должен справиться с однократной задачей, которая всю жизнь потом будет кормить. Стоит тыщ 20-30 нормальный, многовато, но для дела это все же дешевле, чем покупать ненужный шлак за 500 тыщ у которого 256 ГБайт оперативки.

Даже если 500 мег/с туда и сюда, неделю расчетов он должен выдержать. Их проектируют с учетом записанного объема данных в 500ТБайт где-то. Часть этого объема будет буферить кэш записи-чтения.

Если бы был на Вашем месте - попробовал бы. Ну а также обязательно бы попробовал где-то в центре контига генома (или на какой-то хромосоме примерно посередине) разбил бы его примерно пополам и скормил бы проге для аннотации (80 ГБ оперативки на компе найти проще чем 160), а потом бы склеил файлы или руками или в самой проге. Такое (склейка) наверняка возможно и востребовано, и должно быть реализовано.

В любом случае, хоть и не работал с Вашими инструментами по аннотации и не знаю что такое Таксидо (пока) - поздравляю Вас с победой над очередной "последней мыслью" зажравшихся памятью и безпллатным процессорным временем зарубежных биоинформатегофф.

Сообщение было отредактировано sceptique - 28.03.2017 13:52

Поблагодарили (1): ksm

Sergeant
Постоянный участник

28.03.2017 15:24

URL #9

не знаю что такое Таксидо

new Tuxido = HISAT2 + StringTie + Ballgown

Биться за скорость не вижу уже особого смысла. Скорость и так вполне приемлемая.
Примерно 1час/обоазец на i5 (4 core) 16 Gb RAM. Не считая дополнительного времени на QC.

sceptique
Постоянный участник
временной жизни

28.03.2017 17:35

URL #10

У меня тоже i5/16GB DDR3 для личных экспериментов.

А можно для полного профана - что делает эта Ваша связка софта за 1 час полезного? Она мапит короткие риды на аннотированный геном и детектирует новые снипы?

Sergeant
Постоянный участник

28.03.2017 19:47

URL #11

что делает эта Ваша связка софта за 1 час полезного?

За час на риды мапятся на геном (мышка/человечек), BAM файл сортируется и индексируется (опционно), из БАМа вытаскивается GTF. когда все образцы отмапятся все GTF сливаются один общий GTF. Затем в бой вступает StringTie. Он пытается на основе ридов и общего GTF построить транскрипты (разные изоформы). А на основе этих транскиптов Ballgown считает статистику, строит таблицу DE генов, вулканчики всякие рисует и прочие свистульки и погремушки. Чем собственно и богат Биокондактор. На общем фоне все эти R приблуды выполняются практически мгновенно.

watchesbiz
Постоянный участник

23.11.2021 15:35

URL #12

https://replicawatches24.tumblr.com/post/64...lica-watches-uk
https://ello.co/replicawatchesuk/post/ubut9ig9g4glx-q6nyphka
https://www.evernote.com/shard/s451/client/...%2BWatches%2BUK
https://www.bloglovin.com/@rolexrelicawatch...replica-watches
https://www.designspiration.com/watcheshutuk/saves/
https://write.as/fakerolexwatches/hints-to-...lica-watches-uk
https://www.dailystrength.org/journals/hint...lica-watches-uk
https://issuu.com/replicawatchesuk/docs/dif...he_replica_watc
https://www.keepandshare.com/discuss2/5601/...lica-watches-uk
https://penzu.com/public/9e250377
https://bestreplicawatc.livejournal.com/336.html
https://www.pearltrees.com/replicawatchesuk/item349627941
https://www.intensedebate.com/people/watches24
https://anonfiles.com/N039Qf66q9/Guide_On_H...atch_Online_pdf

Кнопка "Транслит" перекодирует
текст из транслита в кирилицу.
Правила перекодировки здесь;
текст в квадратных скобках'[]'
не преобразуется.

Имя:

Отправка сообщений использует JavaScript операции. В вашем броузере не
установлено/отключено выполнение JavaScript программ. Используйте Netscape Navigator
или Internet Explorer (не ранее 3 версии); убедитесь, что выполнение JavaScript
программ разрешено в настройках вашего броузера.