Intérêt d’une référence du pangénome humain pour l’étude des variants structuraux

Abstract

Les variants structuraux sont des variants génomiques affectant entre 50 nucléotides et plusieurs mégabases. Ils englobent des variants de formes très variées, de la simple délétion/duplication aux insertions d'éléments transposables, mais aussi les polymorphismes de régions répétées comme les microsatellites ou les inversions complexes et translocations. À cause de leur taille, ils ont souvent un impact fonctionnel plus important que les substitutions ou petites insertions-déletions de quelques nucléotides. Cependant, ils sont plus difficiles à identifier, même à partir de données de séquençage lectures courtes. Pour les variants communs, une solution est de les intégrer dans la référence génomique utilisée pour analyser les données de séquençage. Cette référence devient un pangénome (représentant plusieurs génomes) qui représente mieux la diversité génétique humaine en intégrant des variants connus. Les lectures de séquençage alignent mieux sur cette référence pangénomique, même en présence de variants structuraux complexes. Dans le Human Pangenome Reference Consortium, nous utilisons les dernières techniques de séquençage, d'assemblage, et d'alignement de génomes pour construire un pangénome humain qui contiendra la quasi-totalité des variants communs. En parallèle, nous avons développé des outils efficaces d'alignement de lectures de séquençage, courtes ou longues, sur cette référence pangénomique. Nous avons aussi montré que les variants structuraux sont mieux génotypés lorsqu'un pangénome est utilisé comme référence pour l'alignement de lectures courtes. Cette ressource pangénomique peut aussi améliorer l'analyse de variants structuraux dans des régions particulièrement complexes du génome. Par exemple, nous avons développé une méthode pour caractériser la région RCCX, avec le gène CYP21A2, à partir de séquençage lectures longues. C'est en intégrant les génomes assemblés par HPRC et en analysant les lectures sur notre pangénome RCCX que nous arrivons à identifier clairement des conversions géniques et fusions pathogéniques.

Date
Location
Strasbourg, France