Práticas em Bioinfo III

Prof. Heron OH

2023/01

     Olá, esta é mais uma de um conjunto de práticas em bioinformática desenvolvidas para o curso de Biomedicina da PUC MG. Você pode encontrar as demais práticas aqui.

Scripts bioinformáticos

     Na prática passada você aprendeu a construir um script que desempenhava uma função simples, de saudação, utilizando funções/programas (outros scripts) existentes na linguagem bash. Da mesma maneira, é possível utilizar estes funções/programas para resolver os problemas de bioinformática que vimos nos exercícios, como a transformação de sequências de DNA em seu complemento reverso, em RNA, ou até mesmo em proteínas.

     As ferramentas de linha de comando são especialmente eficientes para o processamento de informações de texto e tabelas. Assim, uma vez que a informação genética pode ser bem representada nesses tipos de arquivo, é possível aproveitar todo o poder dessas ferramentas, num contexto biológico.

     Mas não é necessário que cada bioinformata faça seus próprios programas. À medida que o universo da bioinfo se desenvolve, as ferramentas mais eficientes e práticas acabam se estabelecendo e se difundindo, de maneira semelhante ao que ocorre no mundo da ciência.

     Esta é a grande vantagem da (bio)informática. Por ser baseada (principalmente) em ferramentas de código aberto, qualquer pessoa pode fazer melhorias, reformulações, ou construir novas funções a partir das ferramentas existentes. E não é preciso reinventar a roda! Problemas clássicos, ou recorrentes, tendem a já possuir soluções disponíveis a alguns cliques de distância.

Tradução: o ribossomo digital

     Figura central no funcionamento celular e no fluxo da informação biológica, o ribossomo é uma máquina perfeita, modelada pela seleção natural. Como um computador na célula, ele é capaz de decodificar a traduzir a informação contida no RNA mensagiro (mRNA) em uma sequência correspondente de amino ácidos, produzindo as proteínas que desempenham as mais diversas atividades.

     Reproduzir um ribossomo no mundo virtual é relativamente simples: basta escrever um script que, para cada trinca de letras de um arquivo .fasta (representando 3 nucleotídeos do DNA/mRNA), identifique uma letra (representando um amino ácido, ou um sinal de parada, correspondentes). Este script precisaria conter um dicionário, com todas as correspondências entre as trincas de nucleotídeos e cada amino ácido, utilizando letras como representações, como o código sequências biológicas da IUPAC (a International Union of Pure and Applied Chemistry).

Baixando um tradutor

     A partir de uma busca rápida no Google, com as palavras chave “DNA protein translate command line”, você observará que há muitas opções pacotes e programas. Um programa de tradução de DNA|proteína muito utilizado é o transeq, do pacote EMBOSS (o European Molecular Biology Open Software Suite). Este é um pacote que reúne dezenas de programas para trabalhar com arquivos de sequências e outros arquivos comuns na bioinformática. Ele foi desenvolvido em conjunto, por pesquisadores de diferentes centros de pesquisa como o EMBL-EBI, o WSI, o BBSRC e o MRC. O pacote EMBOSS pode ser instalado de maneira semelhante a qualquer aplicativo da distribuição de Linux que estamos usando (Ubuntu - Debian), com o sistema de gerenciamento de pacotes apt.

Instale o pacote EMBOSS utilizando o sistema de gerenciamento de pacotes apt.

sudo apt install emboss

Após a instalação, verifique que agora você possui a ferramenta/script transeq, e abra seu manual.

transeq --help

Traduzindo um arquivo .fasta

     Antes de começar, vamos organizar uma pasta para trabalhar com os arquivos desta prática.

Na sua home, crie uma pasta aula3 para os arquivos da prática de hoje. Entre nesta pasta.

cd

mkdir aula3

cd aula3

     Agora, vamos criar o arquivo que utilizaremos. Vamos trabalhar com a sequência do gene Citocromo C Oxidase I, um gene que codifica uma das proteínas da Cadeia transportadora de elétrons da fosforilação oxidativa, responsável pela respiração celular, na mitocôndria.

Abra o vi, para editar um arquivo de nome COI.fasta. Entre no modo de inserção.

vi mtCOI.fasta

Cole o conteúdo a seguir dentro do seu arquivo no editor de textos vi. Depois salve o conteúdo e saia.

>NC_012920.1:5904-7445 Homo sapiens mitochondrion, complete genome
ATGTTCGCCGACCGTTGACTATTCTCTACAAACCACAAAGACATTGGAACACTATACCTATTATTCGGCG
CATGAGCTGGAGTCCTAGGCACAGCTCTAAGCCTCCTTATTCGAGCCGAGCTGGGCCAGCCAGGCAACCT
TCTAGGTAACGACCACATCTACAACGTTATCGTCACAGCCCATGCATTTGTAATAATCTTCTTCATAGTA
ATACCCATCATAATCGGAGGCTTTGGCAACTGACTAGTTCCCCTAATAATCGGTGCCCCCGATATGGCGT
TTCCCCGCATAAACAACATAAGCTTCTGACTCTTACCTCCCTCTCTCCTACTCCTGCTCGCATCTGCTAT
AGTGGAGGCCGGAGCAGGAACAGGTTGAACAGTCTACCCTCCCTTAGCAGGGAACTACTCCCACCCTGGA
GCCTCCGTAGACCTAACCATCTTCTCCTTACACCTAGCAGGTGTCTCCTCTATCTTAGGGGCCATCAATT
TCATCACAACAATTATCAATATAAAACCCCCTGCCATAACCCAATACCAAACGCCCCTCTTCGTCTGATC
CGTCCTAATCACAGCAGTCCTACTTCTCCTATCTCTCCCAGTCCTAGCTGCTGGCATCACTATACTACTA
ACAGACCGCAACCTCAACACCACCTTCTTCGACCCCGCCGGAGGAGGAGACCCCATTCTATACCAACACC
TATTCTGATTTTTCGGTCACCCTGAAGTTTATATTCTTATCCTACCAGGCTTCGGAATAATCTCCCATAT
TGTAACTTACTACTCCGGAAAAAAAGAACCATTTGGATACATAGGTATGGTCTGAGCTATGATATCAATT
GGCTTCCTAGGGTTTATCGTGTGAGCACACCATATATTTACAGTAGGAATAGACGTAGACACACGAGCAT
ATTTCACCTCCGCTACCATAATCATCGCTATCCCCACCGGCGTCAAAGTATTTAGCTGACTCGCCACACT
CCACGGAAGCAATATGAAATGATCTGCTGCAGTGCTCTGAGCCCTAGGATTCATCTTTCTTTTCACCGTA
GGTGGCCTGACTGGCATTGTATTAGCAAACTCATCACTAGACATCGTACTACACGACACGTACTACGTTG
TAGCCCACTTCCACTATGTCCTATCAATAGGAGCTGTATTTGCCATCATAGGAGGCTTCATTCACTGATT
TCCCCTATTCTCAGGCTACACCCTAGACCAAACCTACGCCAAAATCCATTTCACTATCATATTCATCGGC
GTAAATCTAACTTTCTTCCCACAACACTTTCTCGGCCTATCCGGAATGCCCCGACGTTACTCGGACTACC
CCGATGCATACACCACATGAAACATCCTATCATCTGTAGGCTCATTCATTTCTCTAACAGCAGTAATATT
AATAATTTTCATGATTTGAGAAGCCTTCGCTTCGAAGCGAAAAGTCCTAATAGTAGAAGAACCCTCCATA
AACCTGGAGTGACTATATGGATGCCCCCCACCCTACCACACATTCGAAGAACCCGTATACATAAAATCTA
GA

Verifique o conteúdo do arquivo que você criou:

cat mtCOI.fasta

     Agora, vamos traduzir essa proteína utilizando a função recém-instalada, transeq.

Traduza a sequência do arquivo mtCOI.fasta para o arquivo mtCOI.pep.

transeq mtCOI.fasta

     Observe que o programa te perguntou, interativamente, qual nome ele deveria dar ao arquivo de output. Isto poderia ser evitado caso você fornecesse o nome desse arquivo como argumento -outseq $nome-do-arquivo-de-saída.

     Agora, vamos ver o conteúdo do arquivo gerado.

Liste os arquivos e visualize o contaúdo do arquivo gerado pelo transeq.

ls

cat mtCOI.pep

     Atenção! Observe que há algo de estranho na sequência gerada. Note que o símbolo * aparece algumas vezes em meio à sequência de letras que representa os amino ácidos. Esse símbolo, em arquivos fasta de amino ácidos representa códons de parada*, os códons que dizem para o ribossomo que a tradução daquela proteína terminou.

     Mas, sendo o COI uma proteína única e sem íntrons, estes códons de parada não deveriam estar presentes no meio de sua sequência. Para tentarmos entender melhor, vamos usar um recurso externo.

Trabalhando na internet

     Muitos programas de bioinformática, especialmente os mais utilizados, apresentam versões online, e são hospedados em sites onde qualquer pessoa pode ter acesso aos seus recursos. Em última análise, esses programas estão realizando as mesmas operações que quando são rodados no seu próprio computador, mas nesse caso o seu processamento é feito por sevidores remotos (em outro local).

     Para a tradução de arquivos de sequências biológicas, um serviço online muito bom e muito utilizado é o Expasy translate tool, mantido pelo SBI (Swiss Institute of Bioinformatics). Vamos realizar a tradução da nossa sequência utilizando esse serviço.

Acesse o site da ferramenta Expasy translate tool.

Cole a sequência do arquivo mtCOI.fasta na caixa de texto para tradução, com ou sem o cabeçalho (>).

Acione o botão Translate, utilizando os parâmetros default.

     Veja que obtivemos um resultado semelhante, porém mais completo. Agora, temos 6 possibilidades de tradução, que correspondem a 3 fases de leitura (ORFs - Open Reading Frames) para cada uma das duas fitas, a fita codificadora e a fita complementar.

ORFs - Open Reading Frames](https://en.wikipedia.org/wiki/Open_reading_frame)

     Isso acontece porquê o local de início da tradução pelo ribossomo não é exato, mas sim definido pela própria composição da sequência, em funções de sinais como o primeiro códon de iniciação, que também corresponde à incorporação do amino ácido metionina (representado por M, ou Met). Ou seja, todas as protéinas tem sua síntese iniciada por uma metionina (em eucariotos e archea; e por fenil-metionina (fMet) em bactérias, mitocôndrias e plastídeos).

     Agora, vamos entender os nossos resultados. Na página gerada pelo Expasy translate tool, observe que há um campo Genetic code que está definido como Standard. Veja as outras opções disponíveis. Vamos avaliar outras possivilidades. Lembre-se que: o gene COI é um gene mitocondrial.

Altere o Genetic code de Standard para Vertebrate mitochondrial. Acione o botão Translate novamente.

     Veja que agora temos um resultado mais pertinente com a realidade! O primeiro resultado (correspondente à fita codificadora em sua primeira fase de leitura) apresenta uma proteína completa, iniciada por uma metionina, e finalizada por um códon de parada!

     Ou seja, o nosso resultado estava errado pois estávamos utilizando o código genético (o dicionário) errado! Os nossos ribossomos e os ribossomos de nossas mitocôndrias utilizam códigos ligeiramente diferentes.

     Este é um exemplo de que, quando um script/programa/código funciona, não significa que ele gerou um resultado correto, biológicamente pertininete. A expertise do bioinformata esta justamente em compreender o que o o computador executou, avaliar se o resultado faz sentido e, caso não, entender o que precisa ser modificado para o funcionamento adequado.

Exercícios

Utilizando a ferramenta transeq, refaça a tradução da sequência do arquivo mtCOI.fasta. Lembre-se de explorar as possibilidades de configuração com o argumento –help.

Visualize o arquivo gerado e confira se o resultado esperado foi obtido.


Voltar para a página inicial

