Prestations de services "NGS"

Analyse de la qualité et filtrage des reads

Utilisation de NGS QC Toolkit (version 2.2.3)

Des reads single-end ou pairés au format FASTQ peuvent être analysés par NGS QC Toolkit. Les reads sont filtrés en fonction de leur qualité et sont présentés dans un ou plusieurs ficher(s) FASTQ. Un rapport, au format HTML accompagné de graphes, est généré pour présenter toutes les statistiques relatives aux reads analysés:

  • pourcentage de reads de faible qualité
  • pourcentage de reads contaminés par l'adaptateur
  • qualité moyenne des bases en fonction de la position de la base dans le read
  • distribution du contenu en GC

 

Assemblage de Novo de séquences ADN (DNAseq de Procaryotes et Eucaryotes supérieurs) :

Séquences provenant soit de la technologie Illumina, soit de 454, soit des 2 mélangées, en single end, mate pair ou paired end.

Assemblage avec ABySS (version 1.3.4) :

ABySS est un assembleur de novo, parallélisé, pour les reads courts. Il utilise un algorithme d’assemblage basé sur un graphe de De Bruijn. Il requiert des reads single-end et/ou pairés au format fasta/fastq et génère un assemblage au format fasta.

Assemblage avec MIRA (version 3.9.4) :

Mira (Mimicking Intelligent Read Assembly) est un assembleur pour les petits génomes. Il est basé sur une approche overlap-layout-consensus et supporte les reads issus de séquençage Sanger, 454, Ion Torrent, Solexa et Pacific Biosciences. Il requiert des reads single-end et/ou pairés au format fasta/fastq et génère un assemblage au format fasta.

Assemblage avec CLC (version 3.2.2) :

CLC est un réputé pour être l'assembleur le plus performant à l'heure actuelle. Son algorithme est basé sur un graphe de De Bruijn. Il requiert des reads single-end et/ou pairés au format fasta/fastq et génère un assemblage au format fasta.

Alignement de séquences sur un génome de référence :

Avec BWA - Burrows-Wheeler Aligner (version 0.6.1) :

Deux algorithmes différents sont utilisés selon les cas : samse/sampe pour les reads single-end ou paired end de moins de 200 bp, ou bwasw pour les séquences de plus de 200 bp.

Avec GEM library (version 1.2) :

Pour les alignments de reads sur plusieurs séquences.

Avec Bowtie (0.12.8 et 2.0.0-beta7) :

Cet outil est destiné à aligner des reads courts sur de grands génomes de manière rapide et en minimisant la mémoire utilisée.

Finishing :

GAA - graph accordance assembly (version 1.1) :

L'utilisation de cet outil requiert deux assemblages issus de deux assembleurs différents au format fasta. Il aligne les contigs de l'assemblage pris pour requête, sur les contigs de l'assemblage choisi comme référence pour obtenir de plus grands contigs.

OPERA (version 1.1) :

Cet outil de scaffolding requiert un assemblage au format fasta et des reads pairés au format fastq. Il aligne les reads sur l'assemblage pour regrouper les contigs en scaffolds.

Analyses de métagénomique (ARN16S)

Detection de chimères

Utilisation du logiciel DECIPHER (version 1.1.2)

  • mode "short length" si les séquences font moins de 1000 nt
  • mode "full length" si les sequences font au moins 1000 nt

Assignation taxonomique des reads

Utilisation du script Tango (version 1.2.0)
Nécessite un fichier taxonomie au format Newick sans redondance, ou le fichier au format fasta des séquences 16S du site GreenGenes

Suite logicielle khmer (version 0.4)

khmer est un ensemble d'outils pour effectuer des analyses et des transformations basées sur la composition en k-mers. Ces étapes sont particulièrement utile dans le cas de l'analyse de Métagénomes - Nécessite des fichiers .fastq ou .fasta

  • normalisation de la couverture des reads («normalisation numérique»)
  • séparation des reads en ensembles disjoints qui ne se connectent pas dans un graphe de Bruijn («partitionnement»)
  • élimination des reads qui ne seront pas utilisés par un assembleur utilisant les graphes de de Bruijn
  • élimination des reads avec des K-mers à faible ou haute abondance

Prédiction de SNP

Utilisation de l'outil SAMtools (version 0.1.18)

  • requiert un génome de référence au format FASTA, des reads au format FASTA ou FASTQ
  • génère un fichier contenant les données sur les SNP détectés (format VCF)