Colloque

Traduire les données génomiques en information pertinente pour les biologistes : la prédiction des gènes et l'annotation de séquences du génome complet de l'arabette

Sébastien Aubourg

Patrice Déhais

Dimitri Holstens

Catherine Mathé

Jeroen Raes

Stephane Rombauts

Vincent Thareau

Klaas Vandepoele

Pierre Rouzé

Membre a labase

Sébastien Aubourg

Résumé du colloque

Le choix de l'arabette (Arabidopsis thaliana) comme espèce modèle pour l'étude de la structure et de l'expression des génomes végétaux il y a près de dix ans, justifié entre autres par la petite taille de son génome (140 Mb) a conduit à une énorme accumulation de données, structurales d'abord (cartes et séquences), fonctionnelles ensuite (mutants d'insertions, données d'expression relatives au transcriptome et au protéome). Le défi de la bioinformatique n'est pas tant de gérer ce flux de données génomiques que d'en extraire le maximum d'information biologique pertinente pour l'organisme modèle et utile pour d'autres espèces, en particulier les plantes cultivées, de guider et assister l'expérimentation et de bâtir un corpus intégré des connaissances. L'annotation de la séquence génomique est une étape de ce processus. La séquence complète du génome de l'arabette produite par les six consortiums publics (USA :3, EU :2, Japon :1) est attendue pour cette année 2000. Cependant en disposer est d'une utilité limitée si on n'est pas en mesure de localiser sur la séquence chacun des +/-25000 gènes attendus - et chacun de leurs éléments, exons et introns notamment - et d'attribuer à chacun les informations fonctionnelles les plus pertinentes. L'annotation actuelle des contigs de l'arabette est très médiocre (1) et non cohérente (2). Après avoir participé au développement des outils de prédictions de sites d'épissage NetPlantGene (3) et NetGene2 (4), notre équipe contribue au développement d'Eugène, un logiciel intégré de recherche de gènes, et d'une plate-forme de gestion de tâches pour l'annotation. Pour ce faire nous avons évalué la performance des programmes existants avec un jeu d'essai réaliste, et montré leur complémentarité (6). Nous avons aussi démontré que les gènes de l'arabette se groupaient en deux classes selon l'usage des codons, classes qui recouvrent une réalité biologique, et que la prédiction des gènes pouvait être améliorée en utilisant cette observation (7). Nous participons maintenant à la ré-annotation effective du génome de l'arabette selon une approche qui sera décrite.

Contexte

Section :

Biologie informatique

Thème du colloque :

Biologie informatique

Responsables :

Nadia El-Mabrouk

Hôte : Université de Montréal

Découvrez d'autres communications scientifiques

Dans le même colloque
Du même congressiste

Titre du colloque :

Biologie informatique

The Know-It-All Project : providing advanced database technology for genomics

Gregory Butler

An information-based sequence distance and its applications to whole genome phylogeny

Ming Li

Reconstruction d'un génome dupliqué ancestral

Nadia El-Mabrouk

Voir tous les contenus de ce colloque

Autres communications du même congressiste :

Thème du colloque :

Biologie informatique

Traduire les données génomiques en information pertinente pour les biologistes : la prédiction des …

Sébastien Aubourg

Traduire les données génomiques en information pertinente pour les biologistes : la prédiction des …

Sébastien Aubourg

Traduire les données génomiques en information pertinente pour les biologistes : la prédiction des …

Sébastien Aubourg