Réservé aux initiés à la bioinformatique et à la programmation

aleatoire_seq.py

15/12/2014 15:50
Ce script python génère des séquences d'ADN aléatoires de nombre et de longueur définit par l'utilisateur.   Exemple de ligne de commande: python aleatoire_seq.py [Nombre de nucléotides par séquence] [Nombre de séquences]   #! /usr/bin/env python # -*- coding: UTF8...

countfasta.pl

09/12/2014 15:45
Ce script écrit en perl permet de produire un histogramme des longueurs de séquences fasta et surtout de calculer quelques statistiques: -nombre total de séquences -longueur totale (taille cumulée de toutes les séquences) -valeur de N25, N50 et N75 -Taux global de GC   #!/usr/bin/perl -w #...

countseqs.sh

10/12/2014 14:51
Ce script bash permet de calculer rapidement le nombre de séquences présentes dans un fichier au format fasta   #!/bin/sh # ~/bin/countseqs # Counts the number of sequences in a FASTA format file grep ">" $1 | wc -l

dna2protein.pl

09/12/2014 15:42
Ce script écrit en perl permet de traduire des séquences nucléotidiques en protéines.   # This script will convert your DNA sequence to PROTEIN Sequence # While executing this script it asks for the file name of the DNA sequence. If the sequence file is not available in the same directory...

extract-seq-by_minlen.pl

09/12/2014 15:41
Ce script écrit en perl permet d'extraire les séquences à partir d'un seuil de longueur   #!/usr/bin/perl -w #Extract fasta sequences from a fasta file based on the sequence length use strict; use warnings; use Getopt::Std; use IO::String; use Bio::SeqIO; use...

fasta-make-index.pl

09/12/2014 15:34
Ce script écrit en perl génère un index pour un fichier de séquences au format fasta.   #!/usr/athena/bin/perl # # # $pgm = $0;            # name of program $pgm =~...

fastafetch.pl

09/12/2014 15:19
Ce script écrit en perl est très utile enfin de récupérer rapidement à partir d'un gros fichier de séquence en format fasta, quelques séquences d'intéret. Attention: Avant de lancer ce script, assurez vous d'avoir construit un index avec le script fasta-make-index.pl fournit sur le...

fastasplit.pl

10/12/2014 14:00
Ce script perl permet de diviser un très gros fichier de séquence fasta en plusieurs petits fichiers fasta contenant un nombre de séquences que vous choississez. Cela est intéressant en particulier pour paralléliser vos futures analyses.   #!/usr/bin/perl use strict; use warnings; use...

fasta_to_fastq.py

10/12/2014 14:12
Ce script python permet de générer un fichier fastq à partir d'un fichier fasta et un fichier contenant les valeurs de qualité des séquences fasta.   #!/usr/bin/env python import sys from Bio import SeqIO from Bio.SeqIO.QualityIO import PairedFastaQualIterator #Takes a FASTA file,...

fastq_to_fasta.py

10/12/2014 14:15
Ce script python génère un fichier fasta à partir d'un fichier fastq   #!/usr/bin/env python #Takes a single FASTQ file and splits to .fasta + .qual files import sys from Bio import SeqIO if len(sys.argv) == 1:     print "Please specify a  single .fastq file to...

get_gc_content.pl

09/12/2014 14:54
Ce script en perl génère un fichier tabulé nommé "gc_out.txt" avec pour chaque séquence au format fasta, sa taille, son taux de GC et le nombre de A, T, C et G présent dans la séquence.    #!/usr/bin/perl...

get_randomSQ.py

15/12/2014 15:53
Cet script python récupère aléatoirement un nombre de séquences demandées dans un fichier fasta nommé obligatoirement query.fasta   Exemple de ligne de commande: python get_randomSQ.py [Nombre de séquences demandées]   #! /usr/bin/env python # -*- coding: UTF8 -*- #Get...

gff_to_genbank.py

09/12/2014 15:16
Ce script écrit en python permet de créer un fichier en fomat GenBank à partir d'un fichier de séquences fasta et un fichier tabulé GFF. Très utile si vous souhaitez soumettre vos séquences à GenBank.   """Convert a GFF and associated FASTA file into GenBank...

rejectSeqsWithTooManyNs.pl

10/12/2014 13:56
Ce script écrit en perl permet de trier vos séquences nucléiques en format fasta en fonction de leur proportion en "N". Attention de noter la proportion "à l'anglaise", c'est à dire 0.01 et non 0,01 si vous souhaitez fixer un seuil de 1% de N.   #!/usr/bin/perl use strict; use...

removeEmptySeqs.pl

10/12/2014 14:08
Ce script perl élimine toutes les séquences "vides". (Cela est utilie si vous télécharger de grandes bases de données comme GenBank).   #!/usr/bin/perl #script to pull out any empty sequence entries in a multifasta file #When using entrez at the NCBI to retrieve fasta formatted sequences,...

seqfilediff.pl

11/12/2014 15:42
Ce script perl compare deux fichiers de séquences au format fasta     #!/usr/bin/perl use warnings; use strict; use Bio::SeqIO; use Getopt::Long; use constant USAGE =><<END; SYNOPSIS: seqfilediff.pl [OPTIONS] [file1] <file2> DESCRIPTION: Reports the differences...

shortenID.pl

10/12/2014 14:33
Ce script perl diminue le nom des séquences fasta en supprimant les identifications multiples.   #!/usr/bin/perl use strict; use warnings; use Bio::SeqIO; =head1 Name shortenID.pl =head1 Usage shortenID.pl  =head1 Synopsis This scripts takes a fasta file and...

shortenID2.pl

10/12/2014 14:35
Ce script perl permet de diminuer le nom des séquences fasta en ne gardant que l'identifiant du gène (GI number).     #!/usr/bin/perl use strict; use warnings; use Bio::SeqIO; =head1 Name shortenID.pl =head1 Usage shortenID.pl  =head1 Synopsis This scripts...

stat_descriptive.pl

09/12/2014 15:00
Ce script écrit en perl fournit des statistiques descriptives globales pour un fichier de séquences au format fasta ou fastq. Il calcule le nombre totale de séquences, la longueur minimale, maximale, moyenne et médiane.   #!/usr/bin/perl =pod =head1...

tabtofasta.pl

10/12/2014 14:17
Ce script perl convertit un fichier tabulé en fichier fasta à condition que la première colonne contienne les identifiants et la deuxième colonne la séquence.   #!/usr/bin/perl #a script pretty much ripped off from the Bioperl web page SeqIO HOWTO...

translate2aa.pl

09/12/2014 15:05
Ce script écrit en perl traduit des séquences nucléotidiques (ADN ou ARN) en séquences protéiques en utilisant l'outil getorf d'EMBOSS. Il sélectionne de manière automatique l'ORF la plus grande à partir d'un seuil de taille fournit par l'utilisateur. Attention, ce script nécessité d'installer le...

Venn_stats.pl

09/12/2014 15:10
Ce script écrit en perl produit des statistiques Venn en comparant des lignes de plusieurs fichiers.   #!/usr/bin/perl use strict; use warnings; # Produce Venn stats for N files.  As Perl can use any # string for a hash key this is fairly easy using hashes. # Files need not be...

vlookup.awk

09/12/2014 15:11
Ce script écrit en awk est l'équivalent de la fonction "recherchev" (ou "vlookup" dans la version anglaise) disponible dans Excel. La différence majeure est la vitesse d'éxécution (ce script est extrêment plus rapide) et le poids du calcul (pas de risque de plantage avec ce script même pour de très...