FASTA
: la première ligne décrit la séquence
considérée (par exemple nom de la protéine correspondante),
les lignes suivantes sont des suites de lettres choisies dans
l'alphabet adéquat (par exemple A, C, G, T pour l'ADN, 20
lettres possibles pour les protéines, cf. le tutoriel).
Sur pcm2
le répertoire /var/db/blast/data/
contient
des bases de données d'ADN et de protéines au format FASTA
ce qui peut servir d'exemple.
Le programme blast
peut être exécuté en mode distant
depuis un navigateur Internet, (cherchez BLAST dans les signets
Bioinformatique, on y trouve également un tutoriel (en anglais)).
Avantages: l'interface est plus conviviale et il n'y a
pas de problème d'installation
ni de mise-à-jour du logiciel et des bases de données.
Inconvénients: il n'y a aucun contrôle de la puissance de calcul
allouée et dépend du bon fonctionnement du réseau,
ne peut être utilisé à l'intérieur d'un autre programme.
On a donc aussi installé blast
sur le serveur local
pcm2
avec un nombre limité de bases de données de séquences
d'ADN et de protéines. Ce qui permet également de s'exercer à
l'usage du logiciel en évitant d'encombrer ces serveurs Internet.
En mode local, il existe deux commandes : blastall
et blastpgp
.
ecoli.nt
(comparaison d'ADN):
blastall -p blastn -d /var/db/blast/data/ecoli.nt -i test.txt
test.txt
avec
la base de donnée ecoli.nt
et affiche le résultat de la
comparaison. Utilisez Shift-PageUp et Shift-PageDown pour parcourir
les résultats. En utilisant l'option -o test.out
ou la redirection
> test.out
, on peut envoyer le résultat dans le fichier
test.out
, puis on peut le lire avec un éditeur de texte, par
exemple :
emacs test.out &
blastall
:
-p ...
: blastp
ou blastn
(protéine ou nucléotide),
blastx
(nucléotide contre protéine avec toutes les possibilités
de lecture), tblastn
(protéine par rapport à nucléotide,
toutes possibilités de lecture) ou tblastx
(nucléotide contre
nucléotide toutes possibilités de lecture).1-d ...
: nom de la base de séquences par défaut nr
.
Plusieurs noms de base de donnée peuvent être donnés.
-i ...
: nom du fichier contenant la séquence à tester
-o ...
: nom du fichier contenant le résultat de l'analyse.
blastall -
pour avoir la liste complète des options.
blastpgp
:
blastp
qui recherche
des profils, ce qui peut par exemple servir à rechercher des séquences
homologues2