Das Erbgut aller höheren Lebewesen ist im Zellkern auf Chromosomen gespeichert. Diese bestehen aus Strängen des Moleküls DNA. Die Erbinformation selbst ist in einer Abfolge von hintereinanderliegenden Basenpaaren kodiert, wobei es vier „Buchstaben“ gibt, die durch die Moleküle Adenin (A), Cytosin (C), Guanin (G) und Tyrosin (T) repräsentiert sind.
Verschiedene Lebewesen haben unterschiedliche Zahlen von Chromosomen: beim Menschen sind es 23 unterschiedliche, bei der Kartoffel 12, beim Weizen 7. Zusätzlich gibt es unterschiedliche Kopien oder „Haplotypen“ der Chromosomen: Beim Menschen liegen zwei Kopien vor – eine kommt von der Mutter, eine vom Vater –, bei Kartoffeln sind es vier, bei Weizen sogar sechs. Lebewesen mit zwei Kopien nennt mit „diploid“, solche mit einer größeren Zahl „polyploid“. Die Kopien sind fast identisch, aber eben nicht ganz; die Unterschiede machen die Variabilität der Organismen innerhalb einer Population aus.
Um die Erbinformation zu entschlüsseln, machen sich die Forscherinnen und Forscher an ein großes Puzzlespiel: Sie nehmen dafür zunächst eine größere Zahl an Zellen, zerteilen dann deren Erbgut in viele kleine Schnipsel – sogenannte „Reads“ – und sequenzieren die Information, die auf diesen kleinen Schnipseln steht. Dies ist notwendig, da die heutigen Techniken nur kleine DNA-Abschnitte verarbeiten können.
Heraus kommt eine riesige Menge an Daten – Milliarden von Reads, ein Datenvolumen von mehreren hundert Gigabyte. Sie bestehen aus unterschiedlich langen Sequenzen aus den Buchstaben A, C, G und T. Die Aufgabe von Bioinformatikern ist nun, deren Position innerhalb eines Chromosoms zu bestimmen, dann die entstehenden Abschnitte einem Chromosom (das sogenannte „Mapping“) zuzuordnen und schließlich noch den richtigen Kopien des Chromosoms zu finden. Letzteres nennt man „Phasing“. Erschwert wird die Aufgabe durch Sequenzierungsfehler, wodurch eigentlich gleiche Teile unterschiedliche Buchstabenkombinationen aufweisen können.
Für das Mapping gibt es gute und effiziente Tools. Noch unzureichend sind die bioinformatischen Werkzeuge für das Phasing. Genau darauf hat sich ein Team von Bioinformatikern der HHU konzentriert. In einem gemeinsamen, DFG-geförderten Projekt unter Leitung von Prof. Dr. Gunnar Klau (Arbeitsgruppe Algorithmische Bioinformatik) und Prof. Dr. Tobias Marschall (Institut für Medizinische Biometrie und Bioinformatik, Universitätsklinikum Düsseldorf) und in Zusammenarbeit mit Prof. Dr. Björn Usadel (Institut für Biological Data Science) haben sie das Softwaretool „WhatsHap polyphase“ entwickelt und erfolgreich sowohl an Modelldaten als auch am Genom der Kartoffel getestet.
Das neue Tool löst das Problem in einem zweiphasigen Prozess. Zunächst werden die Reads geclustert, also in Gruppen aufgeteilt. Reads in einer Gruppe kommen wahrscheinlich von einem Haplotypen oder aus einer Region identischer Haplotypen. In einer zweiten Phase werden die Haplotypen durch die Cluster „gefädelt“. Hierbei werden die Reads möglichst gleichmäßig auf die Haplotypen verteilt und es wird darauf geachtet, dass diese möglichst wenig zwischen Clustern hin- und herspringen.
Das neue Tool wurde in das übergeordnete, frei verfügbare Paket „WhatsHap“ eingespielt. Dieses war bisher in der Lage, erfolgreich das Phasing bei diploiden Chromosomensätzen wie dem des Menschen durchzuführen. Mit der neuen Ergänzung des Düsseldorfer Teams ist nun auch das Phasing bei polyploiden Organismen möglich. Dazu Prof. Klau: „Mit unserer neuen Technik kann nun das Erbgut von Pflanzen in hoher Auflösung und mit geringer Fehlerrate gephased werden.“
Originalpublikation
Sven D. Schrinner, Rebecca Serra Mari, Jana Ebler, Mikko Rautiainen, Lancelot Seillier, Julia J. Reimer, Björn Usadel, Tobias Marschall und Gunnar W. Klau, Haplotype Threading: accurate polyploid phasing from long reads. Genome Biology, 21. September 2020
DOI: 10.1186/s13059-020-02158-1