Olá, esta é mais uma de um conjunto de práticas em bioinformática desenvolvidas para o curso de Biomedicina da PUC MG. Você pode encontrar as demais práticas aqui.
Arquivos .fasta e .fastq
Na prática passada você aprendeu a utilizar um script bioinformático para realizar a tradução de uma sequência de nucleotídeos na sequência correspondente de AA, a partir de um arquivo .fasta. Hoje iremos explorar mais este tipo de arquivo tão utilizado na bioinfo.
Como já vimos, os arquivos .fasta são arquivos que armazenam sequências de DNA, RNA ou proteínas. Cada arquivo pode conter uma única sequência ou várias, sendo ocasionalmente referido como multifasta. É neste formato que são armazenados genomas de referência e genes. Este também é o arquivo utilizado para alinhamentos e buscas por similaridade, como o BLAST.
Já os arquivos .fastq são arquivos que armazenam sequências burtas geradas por sequenciadores de nova geração (NGS), e apresentam, além da sequência das reads, identificadores de qualidade baseados na métrica de qualidade PHRED. Estes arquivos podem armazenar centenas de milhares de sequências, que precisam ser processadas para fornecer alguma informação biológica.
Como veremos a seguir, há funcionalidades específicas para cada um desses arquivos. No entanto, algumas avaliações mais simples podem ser realizadas com ambos, observando suas diferenças estruturais.
Acessando servidores
Como sabemos pela prática, a instalação de alguns programas de bioinformática na plataforma WSL requer privilégios de administrador, o que dificulta seu uso em computadores institucionais, como os das aulas práticas. Assim, hoje iremos conectar diretamente a um servidor computacional para realizar nossas análises. Servidor ou Servidora é um dos nomes que se dá a um computador em que uma ou mais pessoas trabalham remotamente, ou seja, você conecta a ele a partir do seu computador, que serve apenas como uma interface. Enquanto conectado, todo o processamento computacional é realizado no Servidor. Assim, eventualmente, os arquivos que forem usados, precisam ser tranferidos de um computador para o outro, e aprenderemos como fazer isso hoje.
Os servidores são computadores muito poderosos, e, por isso, muito visados por hackers. Desta maneira, a conexão com eles deve ser realizada de maneira segura, e não se deve compartilhar credenciais de acesso sem os devidos cuidados. Assim, esta prática não apresentará todas as informações necessárias para a conexão. Estas informações serão transmitidas apenas durante a aula.Mas, caso você esteja realizando as práticas no seu próprio computador, você pode instalar os programas que utilizaremos sem restrição, e pode realizar todos os passos práticos localmente. Não será uma tarefa simples para iniciantes, mas as instruções para a instalação de cada programa estão disponíveis nos respectivos links, e qualquer suporte pode ser solicitado diretametne comigo.
Instalando os programas
Caso você vá realizar a prática durante a aula, no servidor, pode ir para a próxima sessão. Mas caso você vá realizar a prática no seu própiro computador, os programas que utilizaremos podem ser encontrados aqui:
Os arquivos que utilizaremos podem ser baixados aqui.
Conexão por SSH
A maneira mais utilizada para a conexão com servidores ou outros computadores é a conexão por SSH. Este é um protocolo de rede criptografado, que se baseia na utilização de usuários e senhas para tornar segura a conexão entre dois computadores. Assim, cada usuário precisa ter uma conta (login e senha) cadastrada no computador alvo (o Servidor). Para nossas práticas, criei um usuário geral para todos conectarmos simultaneamente num de nossos Servidores.
Utilizando as credenciais fornecidas durante a aula, conecte no servidor de trabalho via SSH. Quando solicitado, forneça a senha:
#ex:
#ssh usuario@111.222.333.444
ssh $USER@$IP
Caso a conexão seja realizada com sucesso, você verá uma tela de boas vindas com informações sobre o servidor.
Utilizando o comando htop verifique as características de hardware e os processos que estão rodando no servidor. Para retornar para a linha de comando, saia utilzando a tecla q.
htop
Preparativos
Como todos estamos utilizando um mesmo usuário no servidor, todos podemos alterar ou remover os arquivos gerados por outras pessoas. Assim, para evitar ações indesejadas iremos criar pastas para cada aluno e sempre realizar os comandos dentro das respectivas pastas. Além disso, sempre utilizar caminhos completos e confira os comandos antes de executá-los, especialmente comandos de remoção.. Caso tenha dúvida não execute o comando sem solicitar ajuda. E lembre-se:
\(\underline{NÃO\space EXISTE\space DESFAZER\space NA\space LINHA\space DE\space COMANDO!!!!}\)
Crie sua pasta
Cada aluno criará uma pasta para organizar seus arquivos de trabalho.
Na pasta correspondente à sua $TURMA, dentro da home do usuário, crie uma pasta com um nome único. Caso haja alguém com nome parecido na sala, use suas iniciais ou apelido para diferenciar:
cd #para ir para a home
cd $TURMA
mkdir heronoh #por exemplo, no meu caso
cd heronoh
pwd
Copie os arquivos
Copie os arquivos que iremos utilizar para a sua pasta.
Se estiver trabalhando localmente, ou seja, no seu computador, os arquivos que utilizaremos podem ser baixados aqui.
Utilizando caminhos completos, copie os arquivos da pasta principal para a sua pasta, substituindo as variáveis $ALUNO e $TURMA pelos nomes correspondentes:
DICA: utilize tab para autocompletar e evitar erros!
#confira onde você está
pwd
# verifique que sua pasta está vazia
ls -lh ~/$TURMA/$ALUNO/
#copie os arquivos
cp -r ~/arquivos ~/$TURMA/$ALUNO/
# verifique se foram copiados corretamente
ls -lh ~/$TURMA/$ALUNO/
#veja a estrutura da pasta que você copiou
tree ~/$TURMA/$ALUNO/
Contando sequências
Em arquivos .fasta
Como já sabemos, arquivos .fasta e .fastq são arquivos de texto. Assim, qualquer programa/função/script desenvolvido para trabalhar com arquivos de texto podem ser utilizados nestes arquivos. Vejamos algumas.
Vamos vizualizar os arquivos fasta presentes na pasta ~/\(TURMA/\)ALUNO/arquivos/fasta/mito. Entre nesta pasta e liste os arquivos:
DICA: utilize tab para autocompletar e evitar erros!
#entre na pasta
cd ~/$TURMA/$ALUNO/arquivos/fasta/mito
#confira onde você está
pwd
#liste os arquivos
ls
#liste os arquivos com mais informações
ls -lah
Vamos vizualizar o arquivo human_mtDNA_genome.fasta de 4 maneiras diferentes. Observe o output de cada comando e entenda as diferenças. Varie os argumentos para compreender sua função:
#abrir o arquivo inteiro
cat human_mtDNA_genome.fasta
#abrir o começo do arquivo
head -10 human_mtDNA_genome.fasta
#abrir o final do arquivo
tail -14 human_mtDNA_genome.fasta
#abrir o arquivo inteiro, interativamente
less human_mtDNA_genome.fasta
#---> utilize as setas para mover, e saia com a tecla "q"
Como já sabemos, arquivos .fasta tem uma estrutura definida: uma linha de cabeçalho, sempre iniciada por > seguida de uma ou mais linhas de sequência. Cada cabeçalho representa uma sequência no arquivo. Assim, como saber quantas sequências temos num arquivo? O comando grep é utilizado para localizar/buscar/extrair/contar padrões de texto em arquivos de texto. Vamos usá-lo:
Experimente as variações do comando grep:
#veja o arquivo com que trabalharemos agora
less human_mtDNA_CDSs.fasta
#extrair linhas de cabeçalho no arquivo fasta
grep ">" human_mtDNA_CDSs.fasta
#contar linhas de cabeçalho no arquivo fasta
grep -c ">" human_mtDNA_CDSs.fasta
#extrair uma sequência usando o grep
#---->extraia apenas a sequência do gene COX1
grep "COX1" -A10 human_mtDNA_proteins.fasta
grep "COX1" -A8 human_mtDNA_proteins.fasta
#salve a sequência e seu cabeçalho em um novo arquivo
grep "COX1" -A8 human_mtDNA_proteins.fasta > human_COX1_protein.fasta
#confira o resultado
cat human_COX1_protein.fasta
Em arquivos .fastq
Entendendo os arquivos .fastq
Utilizando o mesmo raciocínio da sessão anterior, podemos investigar os arquivos .fastq.
Vamos vizualizar os arquivos fasta presentes na pasta ~/\(TURMA/\)ALUNO/arquivos/fastq. Entre nesta pasta e liste os arquivos:
DICA: utilize tab para autocompletar e evitar erros!
#entre na pasta
cd ~/$TURMA/$ALUNO/arquivos/fastq
#confira onde você está
pwd
#liste os arquivos
ls
#liste os arquivos com mais informações
ls -lah
Veja os nomes dos arquivos. Observe que eles estão organizados em pares que diferem apenas pelo radical R1 e R2. Esses radicais representam os pares de reads, ou seja, duas extremidades de um mesmo DNA sequenciado em uma posição da flow cell. Apesar de separados, cada sequência num arquivo tem sua correspondente no outro.
Vamos vizualizar o arquivo amostra_137_S135_L001_R1_001.fastq de 4 maneiras diferentes. Observe o output de cada comando e entenda as diferenças. Varie os argumentos para compreender sua função:
#abrir o arquivo inteiro
cat amostra_137_S135_L001_R1_001.fastq
#abrir o começo do arquivo
head -10 amostra_137_S135_L001_R1_001.fastq
#abrir o final do arquivo
tail -14 amostra_137_S135_L001_R1_001.fastq
#abrir o arquivo inteiro, interativamente
less amostra_137_S135_L001_R1_001.fastq
#---> utilize as setas para mover, e saia com a tecla "q"
Veja que este é um arquivo bem grande e mais complexo. Não faz sentido vizualizá-lo completamente. Vamos entender sua estrutura:
Utilizando o comando wc conte quantas linhas temos em cada arquivo nesta pasta:
#contar linhas
wc -l amostra_*
Com o comando head abra o começo do arquivo para entendermos sua estrutura
#contar linhas
head amostra_137_S135_L001_R1_001.fastq
### Estrutura do .fastq
# @........... = cabeçalho
# ACTGACTGA... = sequência
# + = separador
# 123ABC*&%... = código ASCII para qualidade PHRED de cada base
@M02913:268:000000000-JGD64:1:1101:21802:2015 1:N:0:ACTGAGCG+CTATTATG
TCAACCAACCACAAAGACATTGGCACCCTCTACTTAGTATTCGGTGCCTTAGCCGCAATATTTTGCACAGCCCTTAGCCTTCTAATTCGGGCAGAGCTTTCCCAACCTGGCGCCCTCTAGGTGA
+
AAC-AFGGGGEGGFFAFGGGGFAFGFFGFFGF<FFGGGGGG9,,B,@FC,,;CC@++6@9,CE,,6,,,:<CCEF,,6CCD@F,,EFE<,+@@?,BEF,,9CFE,BCC,,B+8
Contando seqs em arquivos .fastq
Como vimos acima, arquivos .fastq tem uma estrutura definida: uma linha de cabeçalho, **sempre iniciada por _@_** seguida de uma linha de sequência, seguida por uma linha de separador (+) e a última linha de indicadores de qualidade PHRED. Cada read do arquivo é representada por 4 linha sequenciais, contadas a partir do cabeçalho.
O comando grep também pode ser utilizado para contar reads num .fastq, mas, como o sinal @ pode ser também um indicador de qualidade, devemos ser mais específicos. Observe:
Conte o número de reads no arquivo com o comando grep:
#conte os sinais @ presentes no arquivo
grep -c "@" amostra_137_S135_L001_R1_001.fastq
#conte os sinais @ presentes NO COMEÇO DAS LINHAS do arquivo
grep -c "^@" amostra_137_S135_L001_R1_001.fastq
#reveja a estrutura do arquivo. Qual é o próximo caracter após o @ nos cabeçalhos?
head amostra_137_S135_L001_R1_001.fastq
#conte os sinais @ presentes NO COMEÇO DAS LINHAS do arquivo, seguidos do próximo caracter comum no cabeçalho
grep -c "^@M" amostra_137_S135_L001_R1_001.fastq
# conte todas as linhas no arquivo .fastq
wc -l amostra_137_S135_L001_R1_001.fastq
expr 1 + 1
expr 2 * 2
# use o comando expr pra calcular o valor obtido dividido por quatro (use espaços entre os termos)
## entenda o que será o primeiro termo
cat fastq/amostra_131_S158_L001_R1_001.fastq | wc -l
## substitua o primeiro termo da equação utilizando `` para delimitá-lo
expr `cat fastq/amostra_131_S158_L001_R1_001.fastq | wc -l` / 4
Controle de qualidade
Uma máxima da bioinformática e das ciências de dados em geral é trash in, trash out, que se traduz em onde entra lixo, sai lixo, ou seja, análises com inputs ruins geram outputs ruins. Assim, é extremamente importante separar o joio do trigo. A primeira etapa de uma análise - e talvez a mais importante - é a curadoria da informação que se vai utilizar; sua qualidade irá influenciar todo o resto.
Uma vez que os arquivos .fastq apresentam indicadores de qualidade para todas as bases de todas as reads, é possível selecionar apenas as reads (ou suas partes) que apresentem qualidade satisfatória para utilização nas análises subsequentes, minimizando a propagação de erros através do pipeline, que podem resultar em ruído ou mesmo em padrões biológicos inexistentes. Mas, como fazer essa avaliação para tantas sequências e arquivos de uma só vez?
Os programas FastQC & MultiQC possibilitam uma inspeção qualitativa e quantitativa de conjuntos de dados provenientes de sequenciadores de nova geração. Estes programas leem todos indicadores de qualidade de todas as reads e os convertem em diversos sumários gráficos que facilitam a avaliação de um ou múltiplos arquivos .fastq.
FastQC
O programa FastQC foi desenvolvido em 2010, e é escrito na linguagem de programação Java. Ele gera reports em HTML para cada arquivo .fastq por vez, o que reflete o estado da arte das aplicações NGS de sua época, onde geralmente uma ou poucas amostras eram sequenciadas por corrida.
Sua utilização é extremamente simples, como veremos a seguir.
Crie uma pasta qualidade para armazenarmos os resultados do FastQC. Em seguida, rode o programa para ambas as reads de um par de arquivos da sua escolha:
# entre na pasta correspondente a esta aula
cd ~/$TURMA/$ALUNO/
# crie uma subpasta
mkdir qualidade
# veja as instuções de uso do programa (saia com "q")
fastqc --help | less
# rode o programa, apontando o caminho completo para os arquivos de entrada (input) e para a pasta de saída (output)
fastqc $CAMINHO_COMPLETO/$ARQUIVO_FASTQ_R1 -o $CAMINHO_COMPLETO/qualidade
# repita a análise para o arquivo R2 correspondente
fastqc $CAMINHO_COMPLETO/$ARQUIVO_FASTQ_R2 -o $CAMINHO_COMPLETO/qualidade
# veja os outputs criados
ls $CAMINHO_COMPLETO/qualidade
Observe que foram gerados 2 arquivos para cada arquivo .fastq. Um deles, o .zip, contém as informações geradas na análise, que são sumarizdas no outro arquivo, o .html.
Transferindo arquivos
Para a visualização desse report em .html é necessário um navegador de internet, que não existe na linha de comando, pois requer uma interface gráfica. Assim, estes arquivos precisam ser copiados para o computador local, via linha de comando, para depois serem abertos num navegador de internet.
Essa transferência de arquivos é feita de maneira semelhante à conexão por SSH do computador local com o servidor, e utiliza o comando scp. Vamos fazer isso.
Identifique o caminho completo, no servidor, para os arquivos que se deseja copiar
# liste os arquivos html usando o caminho completo
ls $CAMINHO_COMPLETO/qualidade/*html
Abra um novo terminal linux. Utilize o comando scp para copiar os arquivos do servidor para o computador local. Substitua as variáveis $TURMA e $ALUNO pelo conteúdo respectivo à suas pastas, ou use o caminho completo que você identificou no passo anterior.
#crie uma pasta localmente para armazenar os arquivos
cd
mkdir qualidade
cd qualidade
# utilize o comanod scp para copiar
# estrutura do comando:
# scp endereço:o_que para_onde
# scp -P $PORTA $USUARIO@$IP:$CAMINHO_COMPLETO/$ARQUIVO_QUE_SE_QUER_COPIAR $PASTA_DE_DESTINO_NO_COMPUTADOR_LOCAL
scp -P 8722 $USER@$IP:/home/biomed/$TURMA/$ALUNO/arquivos/qualidade/*html .
#lembre-se que . sigifica "aqui, na pasta onde estou"
# liste os arquivos que você copiou
ls -lh
# abra o navegdor de arquivos do windows na pasta onde está
explorer.exe .
# clique 2x no arquivo para abrí-lo no navegador
Pronto! Agora podemos explorar esse report!
Analise o conteúdo do report.
MultiQC
O programa MultiQC foi desenvolvido em 2016, e é escrito na linguagem de programação Python. Ele foi desenvolvido para facilitar a avaliação de múltiplos arquivos .fastq por vez, dado que, com o avanço e barateamento das plataformas NGS, múltiplas amostras e bibliotecas passaram a ser sequenciadas simultâneamente. Este programa utiliza os diversos relatórios gerados pelo FastQC e os combina em um único sumário gráfico, também em HTML, com uma apresentação mais moderna e interativa.
Vamos criar utilizá-lo para criar um único report, desta vez para os reports do FastQC para todos arquivos de reads.
Utilizando o FastQC, gere reports para todos arquivos .fastq, em um único comando:
# volte para a pasta onde estão os primeiros reports
cd qualidade
# rode o FastQC para todos arquivos simultaneamente
fastqc $CAMINHO_COMPLETO/arquivos/fastq/*.fastq -o $CAMINHO_COMPLETO/qualidade
# veja os outputs criados
ls $CAMINHO_COMPLETO/qualidade
Utilizando o MultiQC, gere um report sumarizando todos arquivos criados pelo FastQC:
# volte para a pasta onde estão os primeiros reports
cd qualidade
# crie uma pasta para o multiqc
mkdir multiqc
# entre na pasta
cd multiqc
#confira o caminho onde está
pwd
# veja as instuções de uso do programa (saia com "q")
multiqc --help | less
# rode o programa
multiqc --interactive $CAMINHO_COMPLETO/quality/multiqc --outdir .
# veja os outputs criados
ls $CAMINHO_COMPLETO/qualidade/multiqc
Transferindo arquivos
Agora, de maneira semelhante ao que já fizemos, vamos copiar esse report gerado pelo MultiQC para o computador local, para podermos visualizá-lo.
Abra um novo terminal linux. Utilize o comando scp para copiar os arquivos do servidor para o computador local. Substitua as variáveis $TURMA e $ALUNO pelo conteúdo respectivo à suas pastas, ou use o caminho completo que você identificou no passo anterior.
#crie uma pasta localmente para armazenar os arquivos
cd qualidade
mkdir multiqc
cd multiqc
pwd
# utilize o comanod scp para copiar
# estrutura do comando:
# scp endereço:o_que para_onde
# scp -P $PORTA $USUARIO@$IP:$CAMINHO_COMPLETO/$ARQUIVO_QUE_SE_QUER_COPIAR $PASTA_DE_DESTINO_NO_COMPUTADOR_LOCAL
scp -P 8722 $USER@$IP:/home/biomed/$TURMA/$ALUNO/arquivos/qualidade/multiqc/*html .
#lembre-se que . sigifica "aqui, na pasta onde estou"
# liste os arquivos que você copiou
ls -lh
# abra o navegdor de arquivos do windows na pasta onde está
explorer.exe .
# clique 2x no arquivo para abrí-lo no navegador
Pronto! Agora podemos explorar esse report!
Analise o conteúdo do report.
Voltar para a página inicial
