Forscher erstellen Stammbaum mit 13 Millionen Menschen

Der umfangreiche Datensatz gibt Aufschluss über Fragen der jüngeren Menschheitsgeschichte – beispielsweise zum Verwandtschaftsgrad verheirateter Paare.

Monday, March 5, 2018,
Von Nicole Wetsman
Dieser Familienstammbaum aus einem riesigen Datensatz zeigt 6.000 Individuen aus sieben Generationen – Hochzeiten sind rot ...
Dieser Familienstammbaum aus einem riesigen Datensatz zeigt 6.000 Individuen aus sieben Generationen – Hochzeiten sind rot markiert.
Bild Courtesy Columbia University

Die Informationen, die in den verzweigten Bahnen von Familienstammbäumen versteckt liegen, können Menschen dabei helfen, Fragen über ihre Vorfahren, ihre körperlichen Merkmale oder sogar ihr Krankheitsrisiko zu beantworten.

Jetzt haben Wissenschaftler einen gewaltigen Familienstammbaum mit 13 Millionen Menschen erstellt, der elf Generationen umfasst. Damit wollen sie Antworten auf einige große Fragen über die menschliche Bevölkerung klären, von der Erblichkeit einer langen Lebenserwartung bis hin zur Art und Weise, auf die sich ganze Familien in den letzten Jahrhunderten ausgebreitet und verheiratet haben.

Der riesige Datensatz ist der größte wissenschaftlich validierte Familienstammbaum, der auf öffentlich zugänglichen Informationen basiert, sagt Yaniv Erlich, ein Datenwissenschaftler und Biologe am New York Genome Center. Sein Team veröffentlichte die Ergebnisse im Fachmagazin „Science“.

Die Arbeit mit den Daten war schwierig, da es keine bereits ausgearbeiteten Methoden dafür gab, auf die sich das Team stützen konnte. „Für Genomdatensätze gibt es spezifische Werkzeuge, Datenstrukturen und Methoden, aber für [unser Projekt] hatten wir nichts davon“, sagt Erlich. „Wir mussten das Rad quasi unterwegs erfinden.“

Die Profile des Stammbaums sind geografisch beschränkt – 85 Prozent stammen aus Nordamerika und Europa. Generell ist es eine Herausforderung, bei so einem großen Datensatz – der zudem aus Informationen einzelner Individuen stammt – sicherzustellen, dass es keine Fehler gibt. Jede Schlussfolgerung sollte daher mit Vorsicht genossen werden, warnt Paola Sebastiani, eine Professorin für Biostatistik an der School of Public Health der Universität Boston.

„Wissenschaftlich gesehen braucht man sehr saubere Daten, um gute, verlässliche wissenschaftliche Entdeckungen zu machen“, erklärt sie. Dennoch lobt sie die Bemühungen des Teams dabei, die komplexen Daten zu überprüfen und zu analysieren. „Ihre Leistung ist beeindruckend.“

EIN BAUM WÄCHST

Erlich und sein Team erstellten ihren Familienstammbaum mit Informationen der Genealogie-Webseite Geni.com (Erlich ist mittlerweile der Chefwissenschaftler für MyHeritage, die Muttergesellschaft von Geni.com). Das Team begann mit 86 Millionen Profilen und sortierte Anomalien und offensichtliche Fehleinträge aus – Leute, die drei biologische Eltern zu haben schienen oder deren Eltern auch als ihre Kinder eingetragen waren.

Am Ende erhielten sie 5,3 Millionen Stammbäume, von denen der größte 13 Millionen Menschen umfasste.

Dieser Abschnitt des neuen Familienstammbaums zeigt 70.000 Menschen, die durch Heirat (rot) und gemeinsame Vorfahren miteinander verwandt sind.
Bild Courtesy Columbia University

Es ist schwer und zeitaufwändig, umfangreiche Genealogien von Hand zu erstellen, sagt Erlich. Darum waren die Informationen aus öffentlicher Hand so wertvoll, nicht zuletzt auch deshalb, weil sie aus so vielen verschiedenen Quellen stammten. „Die meisten benutzen für gewöhnlich Kirchenbücher eines bestimmten Ortes“, sagt Erlich.

Um sicherzugehen, dass nicht nur Menschen aus einer bestimmten sozioökonomischen Schicht ihre Informationen hochluden, verglich das Team seine Daten mit Sterbeurkunden aus dem US-Bundesstaat Vermont. Etwa 1.000 der Menschen mit Profilen im Datensatz überschnitten sich mit den Aufzeichnungen aus Vermont, und diese Leute wiesen die gleichen Eigenschaften auf wie die im restlichen Staat. Daraus schloss das Team, dass seine Daten für die Gesamtbevölkerung repräsentativ waren, zumindest in Bezug auf diesen Staat.

Als nächstes wählte das Team Erlich zufolge Fragestellungen rund um Langlebigkeit und Familienverteilung aus, um den Nutzen seines Stammbaums zu testen. Zuerst verglichen die Forscher die geografische Distanz zwischen den Geburtsorten verheirateter Paare mit ihrer familiären Beziehung über mehrere Generationen hinweg. Zwischen 1650 und 1850 waren verheiratete Paare im Schnitt Cousins vierten Grades.

Einige Theorien im Bereich der Evolutionsstudien deuten darauf hin, dass die genetische Verwandtschaft zwischen Ehepartnern geringer ist, je weiter ihre Geburtsorte voneinander entfernt liegen. Obwohl das Aufkommen des Schienenverkehrs im frühen 19. Jahrhundert dafür sorgte, dass Leute, die zwischen 1800 und 1850 geboren wurden, im Schnitt größere Entfernungen zurücklegen konnten, waren verheiratete Paare während jener Zeit aber tatsächlich enger miteinander verwandt. Erst in den nachfolgenden Jahrzehnten sank der Verwandtschaftsgrad wieder.

Anhand dieser Ergebnisse schlossen die Autoren, dass kulturelle Veränderungen – und nicht einfach nur neue Verkehrsmittel an sich – dafür sorgten, dass Leute nicht länger ihre Cousins und Cousinen heirateten. Allerdings wollen sie noch nicht darüber spekulieren, welche kulturellen Faktoren das im Detail sein könnten.

AUF DER SPUR DES LANGEN LEBENS

Das Team analysierte außerdem drei Millionen Paare verwandter Menschen im Datensatz, um nach erkennbaren Mustern für Langlebigkeit zu suchen. Sie fanden heraus, dass die Gene zu etwa 16 Prozent zur Langlebigkeit beitrugen – etwa zehn Prozentpunkte weniger als die 25 Prozent, die üblicherweise in Forschungen zu Langlebigkeit genannt werden.

Aber Sebastiani, die sich mit Langlebigkeit und dem menschlichen Alterungsprozess beschäftigt, warnt davor, diese Schlussfolgerung zu überinterpretieren. „Es gibt eine Menge Verwirrung um die Definitionen von Langlebigkeit“, sagt sie.

Wenn man die Definition eher weit fasst und auf Menschen anwendet, die in ihren Achtzigern oder Neunzigern sterben, erhält man für gewöhnlich Ergebnisse, die auf eine geringere genetische Beteiligung schließen lassen. Wenn man sich jedoch Menschen ansieht, die über 100 Jahre alt werden, spielen die Gene eine zunehmend größere Rolle, so Sebastiani. Aber Menschen, die so lange leben, sind selten.

„Daher ist Big Data vermutlich nicht gerade am besten geeignet, um Langlebigkeit zu untersuchen.“

Geni.com und MyHeritage bieten seit Kurzem eigene DNA-Tests an, und Erlich zufolge könnte künftige Forschungsarbeiten sich auch mit den genetischen Informationen beschäftigen, die Nutzer über diesen Service zur Verfügung stellen.

Der Familienstammbaum, den Erlich und sein Team gebaut haben, ist außerdem öffentlich verfügbar. Er jedenfalls würde sich freuen, wenn andere Forscher diese Ressource nutzen, um genealogische und wissenschaftliche Fragen zu beantworten.

„Wir hoffen, dass die Leute ihn benutzen“, sagt er. „Man kann lokale Katastrophen, einzelne Familien, anthropologische Fragestellungen und Fruchtbarkeitsraten untersuchen – für all diese Dinge könnte man die Daten nutzen.“

 

Wei­ter­le­sen