Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | Zbio-wiki NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
Sergeant Постоянный участник |
У меня появилась нужда выровнять риды на зебрафишный геном danRer7.fasta с помощью HISAT2. Геном в два раза меньше человечьего, но тоже не маленький. Не могу никак найти готовый (пригодный для HISAT2) индекс к этому геному. В описании программы пишут, что для индексирования надо примерно 150Gb RAM на борту компа. У меня немного меньше . Может у кого завалялся готовый индекс или хотя бы суперкомпьютер. Буду премного благодарен за иднексирование для HISAT2 зебрафишного генома. |
Sergeant Постоянный участник |
Конечно это индекс. Только не полный индекс генома зебрафишки. Какаето его часть. В принципе можно и для одного гена строить индекс и мапить на него геном. А за наводку на индекс генома спасибо. Еще бы узнать на какой сборке генома он получен. |
Sergeant Постоянный участник |
А индексы один раз сделал или скачал и пользуйся ими потом всю жизнь. Мне Хайсат2 нравится за офигенную скорость и связку в новый Туксидо. Думаю на ближайшие лет 5 это станет де факто стандартом для РНК-сек (ИМХО). |
Sergeant Постоянный участник |
Тут какае то путаница. Попытаюсь разобраться. Я скачал по вышей ссылке индексы, и скормил их Хайсат2 на РНК-сек данных рыбок. Хайсат2 скушал их и сгенерил мне BAM файлы с элайментом. Но эти файлы не загружаются в IGV . Вьюер ругается, что нет в БАМах информации о генах . Скорее всего индексы сделаны неправильно. Я делаю по статье Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie, and Ballgown Mihaela Pertea1,2, Daehwan Kim1, Geo Pertea1, Jeffrey T. Leek3, and Steven L. Salzberg1,2,3,4 В ней во втором боксе инструкция как получить свои индексы (на примере chrX) : $ extract_splice_sites.py chrX_data/genes/chrX.gtf > chrX.ss $ extract_exons.py chrX_data/genes/chrX.gtf > chrX.exon Second, build a HISAT2 index: $ hisat2-build --ss chrX.ss --exon chrX.exon chrX_data/genome/chrX.fachrX_tran The --ss and --exon options can be omitted in the command above if annotation is not available. Note that the index-building step requires a larger amount of memory than the alignment step, and might not be possible on a desktop computer. For example, indexing requires 9 GB of RAM for chromosome X, and 160 GB for the whole human genome. The amount of memory is much smaller if one omits annotation information. Indexing chromosome X using 1 CPU core takes less than 10 minutes. It should take ~2 hours to build an index for the whole human genome using 8 CPU cores. Индексы без анотации для меня бессмыслены. Тем более, что полученые с помощью их файлы не грузятся в IGV. В чем я неправ? На сайте Хайсат2 можно скачать готовые индексы. К каждому комплекту прилагается скрипт на Баше как эти индексы сделаны. этот скипт можно немного поправить и адаптировать к нужному геному. По моему самый правильный путь. |
Sergeant Постоянный участник |
Как вариант я попробовал отмапить риды только на одну хромосому(наиболее мне интересную). Осталось придумать как вытащить из GTF на весь геном подмножество GTF на эту хромосому. |
sceptique Постоянный участник временной жизни |
(Sergeant @ 27.03.2017 19:35) С опциями --ss и --exon мой комп выбирает весь RAM потом весь своп и впадает в анабиоз. Без этих опций довольно шустро генерит индексные файлы. Oсталось выяснить глубинный смысл этих опций и что без них я теряю. Как вариант я попробовал отмапить риды только на одну хромосому(наиболее мне интересную). Осталось придумать как вытащить из GTF на весь геном подмножество GTF на эту хромосому. Воткните SSD на >=256ГБ, принудительно удалите свопы на всех других дисках, на SSD руками задайте весь размер диска под своп. И запускайте. Если повезет - то и геном с индексами и SSD потом буду Ваши и принесут лично Вам пользу. Лучше взять SSD на 512ГБ, с запасом. Сообщение было отредактировано sceptique - 28.03.2017 02:19 |
Sergeant Постоянный участник |
Я сделал свой индекс без опций. И все взлетело. Весь протокол нового Туксидо отработал без ошибок и нашел все DE гены. И в IGV все загрузилось и просто летает. Всем спасибо. А Hisat2 vs STAR это уже вопрос религии. У меня только 16Gb RAM делать апгрейд памяти только под STAR не вижу смысла. |
sceptique Постоянный участник временной жизни |
Даже если 500 мег/с туда и сюда, неделю расчетов он должен выдержать. Их проектируют с учетом записанного объема данных в 500ТБайт где-то. Часть этого объема будет буферить кэш записи-чтения. Если бы был на Вашем месте - попробовал бы. Ну а также обязательно бы попробовал где-то в центре контига генома (или на какой-то хромосоме примерно посередине) разбил бы его примерно пополам и скормил бы проге для аннотации (80 ГБ оперативки на компе найти проще чем 160), а потом бы склеил файлы или руками или в самой проге. Такое (склейка) наверняка возможно и востребовано, и должно быть реализовано. В любом случае, хоть и не работал с Вашими инструментами по аннотации и не знаю что такое Таксидо (пока) - поздравляю Вас с победой над очередной "последней мыслью" зажравшихся памятью и безпллатным процессорным временем зарубежных биоинформатегофф. Сообщение было отредактировано sceptique - 28.03.2017 13:52
|
Sergeant Постоянный участник |
не знаю что такое Таксидо new Tuxido = HISAT2 + StringTie + Ballgown Биться за скорость не вижу уже особого смысла. Скорость и так вполне приемлемая. Примерно 1час/обоазец на i5 (4 core) 16 Gb RAM. Не считая дополнительного времени на QC. |
sceptique Постоянный участник временной жизни |
А можно для полного профана - что делает эта Ваша связка софта за 1 час полезного? Она мапит короткие риды на аннотированный геном и детектирует новые снипы? |
Sergeant Постоянный участник |
что делает эта Ваша связка софта за 1 час полезного? За час на риды мапятся на геном (мышка/человечек), BAM файл сортируется и индексируется (опционно), из БАМа вытаскивается GTF. когда все образцы отмапятся все GTF сливаются один общий GTF. Затем в бой вступает StringTie. Он пытается на основе ридов и общего GTF построить транскрипты (разные изоформы). А на основе этих транскиптов Ballgown считает статистику, строит таблицу DE генов, вулканчики всякие рисует и прочие свистульки и погремушки. Чем собственно и богат Биокондактор. На общем фоне все эти R приблуды выполняются практически мгновенно. |
« Предыдущая тема · Молекулярная и клеточная биология · Следующая тема » |