Программы пакета BLAST Найти ближайшего гомолога белка PFLB_ECOLI в геноме Pasteurella multocida AC (EMBL): AE006043. Координаты выравнивания в записи: 1165..3483. CDS гомолога аннотирован. Координаты в нуклеотидной последовательности 1156..3486. AC белка в UniProt: Q9CPG6. E-value этой находки равен 0. BLAST не предлагает другие гомологи с E-value < 0,01, но существует еще две находки с очень большим E-value. Задание выполнено с помощью следующих программ в командной строке Unix: formatdb: formatdb -i pm_genome.fasta -p F -n pm TBLASTN: blastall -p tblastn -d pm -i X.fasta -o Y.fasta Поиск гомологов белка PFLB_ECOLI в геномах трех бактерий (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida) E-value находки из предыдущего пункта остался равным 0. Всего имеется находок с E-value < 0,01 две: AC (EMBL): AE006043 (Pasteurella multocida). Координаты выравнивания в записи: 1165..3483. AC (EMBL): AE004262 (Vibrio cholerae). Координаты выравнивания в записи: 4345.. 6612. Их E-value = 0. Задание выполнено с помощью следующих программ в командной строке Unix: genpath=/home/export/samba/public/tmp genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" formatdb: FTBLASTN: formatdb -i "$genomes" -n 3g -p blastall -p tblastn -d pm -i X.fasta -o Y.fasta Поиск гомологов гена белка PFLB_ECOLI в геномах трех бактерий (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida) Получен большой список гомологов, но из них всего лишь две находки имеют E-value < 0,01. Они совпадают с найденными в пункте 2. Их E-value соответственно равны 3e-54 и e-133 для AE006043 и AE004262. Задание выполнено с помощью следующих программ в командной строке Unix: BLASTN: blastall -p blastn -d 3g -i X.fasta -o Y.fasta Программы поиска Fasta и Megablast Найти гомологов гена белка PFLB_ECOLI в геноме Pasteurella multocida Найдены два достоверных гомолога: AC: AE006043. E-value: 4.7e-112. AC: AE006042. E-value: 1.1e-21. Первая находка соответствует результатам 1-3 пунктов. Вторая же находка новая. Это значит, что нуклеотидные последовательности похожи, но белковые последовательности различаются. Это можно объяснить ошибкой программ: fasta34 или TBLASTN. Задание выполнено с помощью следующих программ в командной строке Unix: fasta34: fasta34 X.fasta vm_genome.fasta 6 Оценка возможностей поиска нуклеотидного фрагмента в BLAST-банке из трех геномов (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida) Фрагмент генома Pasteurella multocida, относящийся к участку, кодирующему гомолог белка PFLB_ECOLI (AE006043), длиной 100 оснований: aagtaatgttaatttgttgaaaattaaaatattttaacaataaattgatctggcgtaaga aaaaatggctttgggtgttttttgaacaaaaaagcgcttt Задание выполнено с помощью следующих программ в командной строке Unix: MEGABLAST: megablast -d 3g -i X.fasta -o Y.fasta Поскольку программа по умолчанию использует для поиска последовательности длинной в 28 нуклеотидов, то достаточно заменить каждый 29-й нуклеотид, чтобы Megablast не дал результата. Попробуем: aagtaatgttaatttgttgaaaattaaTatattttaacaataaattgatctggcgAaaga aaaaatggctttgggtgttttttTaacaaaaaagcgcttt На 100 нуклеотидов надо заменить 3. Сколько гомологов глициновых тРНК E.coli находит discontigous Megablast в геномах (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida)? Задание выполнено посредством программы Megablast. Используем следующие параметры: -t – длина разрывного слова (16, 18, 21). -W – определяет длину слова, по которому происходит поиск гомологов (11 или 12). -N – тип разрывного слова: оптимальный или кодирующий. Выберем параметр, при котором происходит выдача обоих вариантов (2). -D – определяет способ вывода данных. Выберем следующий вариант: megablast -d 3g -i glu_ec.fasta -o glu_megablast.fasta -t 16 -W 11 -N 2 При таких параметрах найдено 88 гомологов.