Рубрики
Без рубрики

Новая эпидемия коронавируса в Китае: как помочь исследователям, используя последовательность выравнивания на 2019-нкове с Mafft

Автор оригинала: Shen Huang.

Новый Коронавирус (2019-NCOV) является смертельным вирусом, который, кажется, возникл в Ухане, Китай. По состоянию на 26 января вирус уже вызвал 76 смертей.

В качестве коронавируса нацелены на органы дыхательных органов человека, 2019-NCOV очень инфекционно – особенно во время влажных и холодных сезонов.

Когда люди чихают, они могут снимать патогены, связанные с дыхательной системой на высокой скорости. Это может заразить людьми во многих отношениях – чаще всего через контакт в рот, нос и глазах.

Чтобы избежать инфекций, вы должны избежать деятельности на свежем воздухе – особенно в людных районах. Также важно часто дезинфицировать свои руки и не потереть глаза своими руками.

Я в Китае, и мои планы на Лунный Новый год теперь разрушены. Поэтому я решил остаться домой и создать этот урок о том, как получить данные генетической последовательности 2019 года-NCOV и выполнить согласование последовательности на нем с Mafft.

Я надеюсь, что эта статья повышает ваш интерес к исследованиям биоинформатики, поэтому вы можете помочь ученым бороться с этими вирусными вспышками.

Что такое согласование последовательности? А что такое mafft?

Выравнивание последовательности является способом организации ДНК, РНК или белка для выявления областей сходства, которые могут выявить функциональные, структурные или эволюционные отношения между последовательностями. Недавние Публикация Предлагаемые перекрестные виды передачи от змеи к человеку с помощью согласования последовательности через Mafft.

Mafft ( m ultiple a лигнимент с использованием f ast f uferier t ransform) – это программа выравнивания нескольких последовательностей, опубликованная в 2002 году. Вы можете использовать его для выполнения последовательности Выравнивание для последовательностей РНК. Коронавирусы Например, вирусы с одноцепочечной РНК, охватывающей оболочкой, полученной из клеточных мембран хоста.

Где вы можете получить данные о последовательности РНК?

Последнее обновление 2019-нкова можно найти на NGDC (Национальный центр данных геномики Китая). В этом руководстве мы проанализируем 2019-NCOV Вирус и SARS-COV Вирус нашел внутри NCBI (Национальный центр биотехнологической информации) банка данных.

SARS-COV, неизменно знают как SARS (сильные острые респираторные синдрома), привели 774 смерти в 17 зарегистрированных странах около 2020 года.

У меня есть копирование и вставленные данные в файл с именем вируса. Он должен выглядеть что-то вроде данных на скриншоте выше, с указанным номером, за которым следует коды в размере партии 10, в течение всего 60 кодов на линию, разделенные пробелами.

Как выполнить согласование последовательности на 2019-NCOV с MAFFT

Во-первых, вам нужно установить mafft. Вы можете установить его через AnaConda со следующими командами.

Ручная установка для разных операционных систем можно найти на Официальный сайт mafft Отказ

conda install mafft

Mafft довольно прост в использовании, но он обрабатывает данные в специальном формате. Вам необходимо предварительно получить полученные данные, чтобы он был выровнен на Mafft.

Вот сценарий Python, который делает это:

import sys
import re
output = ""
for filename in sys.argv[1:]:
	infile = open(filename)
	data = infile.read()
	data = " ".join(re.split("[^atcg\n]", data))
	data = data.replace(" ", "")
	output = output + ">" + filename + "\n" + data + "\n"
print(output)
outfile = open('SEQUENCES.txt', 'w+')
outfile.write(output)

Вы можете сохранить вышеуказанный код Python в файл, называемый «PreProcess.py», внутри того же папки, что и мои данные RNA вирусов. Затем мы можем запустить следующую команду Bash в папке для предварительной обработки данных.

python3 preprocess.py 2019-nCoV_HKU-SZ-002a_2020 icSARS-C7-MA

Выходной файл под названием «Sequences.txt» теперь должен выглядеть как-то ниже. Имя вируса добавляется в верхней части файла. Номера белого пространства и индекса также выделены.

Теперь вы можете выполнить выравнивание последовательности с Mafft в вашем терминале со следующими шагами:

  1. Найдите свою рабочую папку.
  2. Позвоните «Mafft» внутри вашего терминала.
  3. Для входного файла поместите «последовательности.Тист».
  4. Для вывода файла, поставьте «yource.txt».
  5. Выберите «1» для «формата Clustal» в качестве формата вывода.
  6. Выберите «1» для «Авто» в качестве стратегии.
  7. Оставьте все остальные аргументы Blank.

Вот GIF меня, бегая в моем терминале:

После того, как вы попали в Enter, вам просто нужно дождаться MAFTT, чтобы выровнять ваши коды РНК.

Готовый продукт должен выглядеть как-то ниже:

Обратите внимание, что «-» используется для сдвига кодов и «*» используется для выделения сходств между последовательностями.

Поздравляем, вы только что узнали, как выполнить выравнивание последовательности с Mafft! Теперь вы можете играть с кодом гена и воспользоваться информацией о выравнивании, однако, что вам нравится.

Помогите Ухану бороться с смертельной болезнью как разработчика, ученые данных и многое другое:

https://github.com/wuhan2020/wuhan2020

Немного больше обо мне: я разработчик, который во всем видах вещей. Я написал несколько других интересных учебных пособий, как эти:

Как создать красивые фонарики, которые устраивают себя словами

Как бросить Leprechaun-Hats на свой веб-сайт с компьютерным зрением

Хотите, чтобы я написал учебник о чем-то? Дай мне знать. Счастливое кодирование.