Olá, esta é mais uma de um conjunto de práticas em bioinformática desenvolvidas para o curso de Biomedicina da PUC MG. Você pode encontrar as demais práticas aqui.
Na prática passada você aprendeu as características dos arquivos .fasta e .fastq, e as suas aplicações. Na prática de hoje daremos sentido biológico as sequências guardadas nesses arquivos, e aprenderemos sobre alinhamento e idetificação de sequências.
Bancos de dados de sequências biológicas
Após a identificação do DNA como a molécula responsável pelo armazenamento da informação genética dos organismos, e a compreensão de que entidades biológicas chamadas genes tem sequências definida, os esforços dos geneticistas se direcionaram para a caracterização da diversidade dessas entidades, e de como suas variações refletem na biologia de cada organismo.
Todas tecnologias de sequenciamento de DNA - sejam de Sanger, short reads ou long reads - tem sido utilizadas para alcançar este objetivo. E se as primeiras gerações de sequenciadores demoravam dias para caracterizar um gene ou um pedaço dele, as gerações mais recentes possibilitam conhecer genomas e transcriptomas inteiros em algums horas. À medida que tantas informações começaram a ser acumuladas, compreendeu-se que tão importante quando sequenciar, é armazenar essas sequências e os diversos metadados a elas relacionados. Quaisquer informações extrínsecas à sequência são importantes pois agregam conhecimento, e permitem comparações, a busca por padrões, e outras análises que possibilitam evidenciar padrões biológicos.
Existem diversos bancos de dados biológicos, providos tanto de informações quanto de propósitos diferentes e complementares. Estes bancos são geralmente públicos, o que significa que qualquer um pode tanto submeter quanto baixar depósitos (sequências e suas informações associadas). o National Center for Biotechnology Information (NCBI) é um conjunto é um centro nacional de informações em biotecnologia dos Estados Unidos. Ele é parte do National Institute of Health (NIH) e é um importante recurso para pesquisadores, cientistas e profissionais da área de biologia e biomedicina. Seu principal objetivo do NCBI é fornecer acesso a uma ampla gama de informações biológicas, incluindo sequências de DNA, sequências de proteínas, literatura científica, dados genômicos, ferramentas de análise e recursos para pesquisa biomédica. O NCBI mantém diversos bancos de dados, como o PubMed (que indexa artigos científicos), o Protein Data Bank (que armazena informações sobre estruturas tridimensionais de proteínas), e o GenBank (que contém sequências), além muitos outros.
Além disso, o NCBI desenvolve e disponibiliza várias ferramentas online para análise de sequências, busca de informações e pesquisa. Essas ferramentas são amplamente utilizadas por cientistas e pesquisadores em todo o mundo para realizar análises de bioinformática, estudar genes, proteínas e doenças, e realizar descobertas científicas importantes.
O GenBank é considerado o repositório universal das sequências biológicas conhecias. Ele é integrado com e recebe atualizações diárias dos bancos de dados de sequências da Europa - o European Nucleotide Archive (ENA) - e do Japão - o DNA Data Bank of Japan (DDBJ). Desta maneira, praticamente todas as sequências conhecidas, sejam de DNA, RNA, proteína, ou outros tipos podem ser encontradas lá, e atualmente este banco possui mais de 2.9 bilhões de sequências únicas, correspondentes a mais de 504.000 espécies diferentes (REF).
Identificando sequências biológicas
Conectando no servidor
Nesta aula trabalharemos novamente na edna, nosso servidor computacional para análises bioinformáticas.
Utilizando as credenciais fornecidas durante a aula, conecte no servidor de trabalho via SSH. Quando solicitado, forneça a senha:
#ex:
#ssh usuario@111.222.333.444
ssh $USER@$IP
DICA: Lembre-se que as palavras iniciadas com um $ são variáveis, ou seja, são palavras cujo significado depende da informação que armazenam. Assim, no comando acima você deve substituir $USER e IP pelas credenciais correspondentes.
Entrando na sua pasta de análises
Uma vez na edna, navegue até o diretório que criamos na prática passada e que tem o seu nome ($ALUNO) e sua turma ($TURMA). Iremos trabalhar com as sequências que estão na pasta ~/$TURMA/$ALUNO/arquivos/fasta/seqs.
Navegue até a sua pasta de análises
cd ~/$TURMA/$ALUNO/arquivos/fasta/seqs
ls
Selecionando sequências
Você recebeu estas 3 sequências diferentes. Qual gene elas representam? Vieram de qual organismo? Estas informações não estão intrínsecas à sequência, e precisamos recorrer a recursos externos para saber estas respostas.
Utilize algum comando de visualização para conhecer o conteúdo destes arquivos.
# ver uma seq
cat seq1.fasta
# ver todas
cat seq*
Combine todos os arquivos em um só para análise conjunta.
# combinar todas seqs
cat seq* > seqs.fasta
Dentro da sua pasta (~/$TURMA/$ALUNO) crie uma pasta para realisarmos a análise de hoje. Entre na pasta criada.
cd ~/$TURMA/$ALUNO/
mkdir analises
cd analises
Utilizando a versão online do BLAST
Entre no site do BLAST e realize a mesma busca.
Use algum comando para visalizar uma das suas 3 sequências. Copie a sequência e cole na caixa de buscas do site do BLAST. Rode uma análise com os parâmetros default, ou seja, sem fazer alterações.
Compare estes resultados com os que você obteve na análise local.
Alinhado sequências
Assim como o BLAST busca por sequências semelhantes utilizando alinhamentos locais entre query e subject, existem diversas outras análises que podem utilizar essa estratégia. Por exemplo, apesar de serem semelhantes, qual a diferença entre estas 3 sequências com as quais estamos trabalhando? Podemos responder esta pergunta com um alinhamento. Há dois tipos principais de alinhamentos, o Alinhamento local e o Alinhamento global:
Alinhamento Global: Este alinhamento compara duas sequências biológicas em sua totalidade, desde o início até o final. Ele identifica as regiões conservadas e as diferenças entre as sequências, alinhando todos os caracteres em ambos os conjuntos de dados. Esse tipo de alinhamento é útil quando as sequências têm comprimentos semelhantes e quando se deseja comparar as sequências como um todo. O alinhamento global é frequentemente usado para identificar similaridades entre proteínas ou genes de diferentes espécies, o que ajuda a inferir relações evolutivas e descobrir funções conservadas.
Alinhamento Local: Este alinhamento compara apenas as regiões mais semelhantes entre as sequências biológicas. Em vez de alinhar as sequências inteiras, ele identifica subsequências semelhantes, chamadas de alinhamentos locais, dentro das sequências maiores. Esse tipo de alinhamento é útil quando as sequências são de comprimentos diferentes ou quando se deseja identificar regiões específicas de similaridade, como motivos funcionais ou domínios conservados em proteínas. O alinhamento local é frequentemente usado para identificar regiões de homologia em sequências de DNA, RNA ou proteínas, permitindo inferências sobre estrutura e função. Este é o alinhamento utilizado pelo BLAST.
Agora vamos alinhar nossas sequências. Faremos isso com o programa MUSCLE, um alinhador clássico. Seu nome significa MUltiple Sequence Comparison by Log- Expectation. Ele pode ser encontrado em versão online aqui.
Entenda o funcionamento do programa. Em seguida, alinhe as sequências do arquivo combinado que você construiu.
muscle --help
# com output na tela
muscle -in ~/$TURMA/$ALUNO/arquivos/seqs/seqs.fasta -clw
# com output salvo em arquivo
muscle -in ~/$TURMA/$ALUNO/arquivos/seqs/seqs.fasta -clw -out seqs.algn
ls
less -S seqs.algn
Observe o alinhamento. Onde estão as diferenças?
Esta sequência é de nucleotídeos. Você consegue perceber alguma diferença? Essas sequências geram proteínas iguais? Como seria o alinhamento com a de aminoácidos? Vamos traduzir:
Traduza as sequencias do seu arquivo combinado.
transeq -sequence ~/$TURMA/$ALUNO/arquivos/seqs/seqs.fasta -outseq ~/$TURMA/$ALUNO/arquivos/seqs/seqs.pep
Alinhe as sequências do arquivo combinado que você traduziu em aminoácidos.
muscle -in ~/$TURMA/$ALUNO/arquivos/seqs/seqs.pep -clw
# com output salvo em arquivo
muscle -in ~/$TURMA/$ALUNO/arquivos/seqs/seqs.pep -clw -out seqs_pep.algn
ls
less -S seqs_pep.algn
Observe o alinhamento. O que as diferenças podem significar, conhecendo a origem e a função da proteínas que estamos analisando?
Voltar para a página inicial
