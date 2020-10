Ob der Kohlendioxid-Gehalt in der Atmosphäre zu einem bestimmten Zeitpunkt oder die Anzahl infizierter Personen in einer Region - Daten sind von großer Bedeutung zur Feststellung und Behebung von Problemen. Vor allem sind sie ein Treibstoff für die Wissenschaft. Und die Bedeutung von Messergebnissen und statistischen Zählungen für den Erkenntnisgewinn nimmt immer mehr zu. Nicht zuletzt wächst auch die Datenmenge. Das verlangt neue Methoden in der Forschung und technische Infrastrukturen, speziell der Computertechnik, um mit den gigantischen Datenmengen überhaupt umgehen zu können.

Einen Eindruck darüber, wie weit sich »datengetriebene Forschung« in den unterschiedlichen Wissenschaftsdisziplinen mittlerweile verbreitet hat, gab in dieser Woche der deutsche Wissenschaftsrat mit einer neuen Empfehlung, die sich an Forschungspolitiker und Organisatoren in den Wissenschaftseinrichtungen richtete. So lässt sich durch Nutzung großer Datensätze nicht nur die automatische Sprachverarbeitung verbessern, die großen Handelströme rund um den Erdball analysieren oder neuartige Städtemodelle entwickeln. Selbst so vermeintlich computerfreie oder -arme Bereiche wie die Literaturwissenschaft benutzen Rechner längst nicht mehr nur als bessere Schreibmaschinen.

Heftromane automatisch gelesen

So werden in einem Forschungsprojekt, das den Erzählmechanismen der Trivialliteratur auf die Spur kommen will, die digitalen Textarchive der Deutschen Nationalbibliothek genutzt. Dabei werden 9000 deutschsprachige Heftromane (auch Groschenromane genannt) aus den Jahren 2009 bis 2019 - darunter die Science-Fiction-Saga »Perry Rhodan«, aber auch Krimis und Liebesromane - quasi automatisch gelesen. Gesucht wird unter anderem, welche Substantive in welcher Literaturgattung wie häufig und in welchem Kontext vorkommen. Erste Ergebnisse konnten laut Wissenschaftsrat zwei gängige Thesen über die Trivialliteratur widerlegen: »Heftromane sind weniger homogen als in älterer Forschung behauptet und zeigen eine deutliche Binnenvarianz«. Will sagen: Die Romantypen der Weltraumhelden und ärztlichen Herzensbrecher sind sehr unterschiedlich aufgebaut und benutzen auch in ihren Themensegmenten ein breites Set an Narrativen. »Außerdem ist die Sprache der Heftromane nicht eindeutig schlichter«, so der Wissenschaftsrat, »und insbesondere die Science-Fiction-Romane weichen hier deutlich ab«. Datengetriebene Forschung hat uns diese Erkenntnis ermöglicht.

Foto: Archiv

Ein immer größer werdendes Problem ist für die Wissenschaftswelt, die wachsende Datenmenge längerfristig zu speichern und untereinander austauschbar zu machen. Eine Lösung, an der seit Jahren auf europäischer Ebene gearbeitet wird, ist die »European Open Science Cloud« (EOSC), die europaweite Daten-Cloud für die Forschung. In der vorigen Woche kamen rund 700 Experten auf dem Gebiet teils real in Berlin, überwiegend aber coronabedingt per Videoschaltung zur Jahreskonferenz zusammen.

Die Einrichtung übergreifender Daten-Plattformen ist derzeit generell das große Thema in Europa. Unter dem Stichwort »Digitale Souveränität« soll eine Unabhängigkeit von den US-amerikanischen »Daten-Kraken« Amazon, Google, Microsoft und Facebook erreicht werden. Von einer Dynamik wie beim Aufbau von »Gaia-X«, der europäischen Datenplattform für die Wirtschaft, ist beim wissenschaftlichen Pendant, der European Open Science Cloud (EOSC), allerdings noch nicht viel zu spüren. Eher gemächlich nimmt die »Datenwolke für die Wissenschaft« Gestalt an. Vor vier Jahren, als die EU-Kommission den Anstoß für die EOSC-Planungen gab, wurde ein Vollbetrieb im Jahre 2020 anvisiert. Jetzt wird dagegen über Umsetzungsschritte bis ins Jahr 2027 gesprochen. Gut Ding will erkennbar Weile haben.

Die Operation ist allerdings auch komplex. Es sollen nicht nur die rund zwei Millionen Wissenschaftler in Europa, deren Forschungsdaten bislang überwiegend auf Festplatten und USB-Sticks gespeichert sind, per Cloud-Computing zusammengeführt werden. Der Zugang soll auch, um ein Informationschaos zu verhindern, technisch nach den sogenannten FAIR-Prinzipien geregelt werden. Soll heißen, dass Daten auffindbar, zugänglich, interoperabel und wiederverwendbar sind (FAIR: findable, accessible, interoperable and reusable). Forschungsergebnisse sollen auf diese Weise gemeinsam genutzt und und Forschungsdaten wiederverwendbar gemacht werden, wovon nicht nur die Wissenschaft, sondern auch Wirtschaft und Gesellschaft profitieren könnten.

»Die Etablierung einer European Open Science Cloud sowie der Nationalen Forschungsdaten-Infrastruktur in Deutschland wird weitreichende Folgen für die wissenschaftliche Praxis im digitalen Zeitalter insgesamt haben, die deutlich über die notwendigen Standardisierungen im Forschungsdatenmanagement hinausgehen«, sagt Raphael Ritz. Er ist Bereichsleiter Datendienste bei der Max Planck Computing and Data Facility (MPCDF - (ehemals Rechenzentrums Garching) bei München und koordiniert das 1,7-Millionen-Euro-Projekt »Ökosystem Datenmanagement: Analysen - Empfehlungen - FAIRification«, das untersucht, wie die Potenziale des rasanten digitalen Datenwachstums systematisch und »FAIR« aufbereitet und genutzt werden können. Damit die Daten wieder auffindbar sind und untereinander zugeordnet werden können, haben die Forscher spezielle Identifizierungspunkte und einen Satz an Metadaten eingeplant. Für die Max-Planck-Gesellschaft, ergänzt Ritz, sei es »von fundamentaler Bedeutung, zu diesen Entwicklungen im Interesse der Exzellenz der Grundlagenforschung in Deutschland im internationalen Kontext beizutragen.«

Geldfragen noch ungeklärt

In der Berliner Konferenz wurde die zukünftige Struktur der EOSC vorgestellt, darunter die im Sommer nach belgischem Recht gegründete »EOSC Association«. Die Umsetzung beginnt nach Angaben des Bundesforschungsministeriums ab 2021 »auf der Grundlage einer Partnerschaftsvereinbarung zwischen der EOSC Association, der Kommission und der EU-Mitgliedstaaten«. Innerhalb des nächsten Rahmenprogramms für Forschung und Innovation, Horizont Europa, wird EOSC als eine von etwa 50 strategischen Partnerschaften unterstützt. Der weitere Aufbau der EOSC soll in drei Stufen erfolgen. In den Jahren 2021 bis 2023 soll der »Kern-Betrieb« (EOSC-Core) zur Bereitstellung der »Authentifizierungs- und Autorisierungsinfrastruktur« anlaufen. Stufe 2 sieht im Zeitraum 2024 bis 2025 die Erweiterung um den Zugriff auf Mehrwertdienste, -anwendungen und -tools (EOSC-Exchange) vor. Von 2026 bis 2027 ist die Web-Bereitstellung von FAIR-Daten und -Diensten geplant sowie die Verbindung des europäischen Netzes mit anderen Open-Science-Communities auf der ganzen Welt.

Zu den Investitionskosten werden gegenwärtig keine exakten Angaben gemacht, auch weil der Etat für das künftige Forschungsrahmenprogramm Horizont Europa derzeit in Brüssel noch verhandelt wird. Allerdings stellt das Basisdokument für die EOSC-Zukunft seinerseits Überlegungen zu Invest- und Marktvolumina an. So beliefen sich die öffentlichen Ausgaben der Niederlande für »Open Science« im Jahr 2019 auf 150 Millionen Euro. Hochgerechnet auf die gesamte EU mit 27 Mitgliedsstaaten würde dies einen jährlichen Aufwand von zwei Milliarden Euro für eine öffentliche Dateninfrastruktur bedeuten.