next up previous
Next: About this document ... Up: dynamic Previous: Simulation d'alignements


Le programme de séquençage BLAST.

Les séquences se présentent sous forme de fichier texte au format FASTA: la première ligne décrit la séquence considérée (par exemple nom de la protéine correspondante), les lignes suivantes sont des suites de lettres choisies dans l'alphabet adéquat (par exemple A, C, G, T pour l'ADN, 20 lettres possibles pour les protéines, cf. le tutoriel). Sur pcm2 le répertoire /var/db/blast/data/ contient des bases de données d'ADN et de protéines au format FASTA ce qui peut servir d'exemple.

Le programme blast peut être exécuté en mode distant depuis un navigateur Internet, (cherchez BLAST dans les signets Bioinformatique, on y trouve également un tutoriel (en anglais)).
Avantages: l'interface est plus conviviale et il n'y a pas de problème d'installation ni de mise-à-jour du logiciel et des bases de données.
Inconvénients: il n'y a aucun contrôle de la puissance de calcul allouée et dépend du bon fonctionnement du réseau, ne peut être utilisé à l'intérieur d'un autre programme.

On a donc aussi installé blast sur le serveur local pcm2 avec un nombre limité de bases de données de séquences d'ADN et de protéines. Ce qui permet également de s'exercer à l'usage du logiciel en évitant d'encombrer ces serveurs Internet.
En mode local, il existe deux commandes : blastall et blastpgp.

  1. Exemples de lignes de commandes pour tester contre une séquence de la base ecoli.nt (comparaison d'ADN):
    blastall -p blastn -d /var/db/blast/data/ecoli.nt -i test.txt
    Cette commande compare la séquence du fichier test.txt avec la base de donnée ecoli.nt et affiche le résultat de la comparaison. Utilisez Shift-PageUp et Shift-PageDown pour parcourir les résultats. En utilisant l'option -o test.out ou la redirection > test.out, on peut envoyer le résultat dans le fichier test.out, puis on peut le lire avec un éditeur de texte, par exemple :
    emacs test.out &
  2. Options importantes de blastall:
    -p ...: blastp ou blastn (protéine ou nucléotide), blastx (nucléotide contre protéine avec toutes les possibilités de lecture), tblastn (protéine par rapport à nucléotide, toutes possibilités de lecture) ou tblastx (nucléotide contre nucléotide toutes possibilités de lecture).1-d ...: nom de la base de séquences par défaut nr. Plusieurs noms de base de donnée peuvent être donnés.
    -i ...: nom du fichier contenant la séquence à tester
    -o ...: nom du fichier contenant le résultat de l'analyse.
    Taper blastall - pour avoir la liste complète des options.
  3. blastpgp:
    Il s'agit d'une version spéciale de blastp qui recherche des profils, ce qui peut par exemple servir à rechercher des séquences homologues2


next up previous
Next: About this document ... Up: dynamic Previous: Simulation d'alignements
2001-01-24