Das Deutsche Kompetenzzentrum Cloud-Technologien für Datenmanagement und -verarbeitung (de.KCD) ist eine standort- und domänenübergreifende Anlaufstelle für die Vermittlung von Kompetenzen im Umgang mit Daten unter Nutzung Cloud-basierter Technologien, Ressourcen und Methoden sowohl für Einrichtungen und vernetzte Zentren, als auch für Forschende aller Karrierestufen.
In der aktuellen Phase des digitalen Wandels sind wissenschaftlicher und wirtschaftlicher Erfolg sowie die Anschlussfähigkeit zukunftsweisender Projekte abhängig von (i) der systematischen und strukturierten Erfassung relevanter Roh- und Meta-Daten durch expertise-gestaltetes Datenmanagement, (ii) der Entwicklung und Bereitstellung innovativer Cloud-Angebote und automatisierter Workflows, (iii) dem Aufbau und der Vermittlung von Expertise im Bereich Cloud-basierter Datenverarbeitung, sowie (iv) der Verfügbarkeit einer leistungsfähigen und unabhängigen Cloud-Infrastruktur.
Das de.KCD greift diese Herausforderungen gezielt auf, um sowohl Kompetenzen im Bereich Cloud-Computing und Datenmanagement zu bündeln, als auch um notwendige Hardwarekapazitäten sowie Cloud-Dienste bereitzustellen und auszubauen. Das Projekt setzt dazu geeignete Maßnahmen für ein Cloud-basiertes Datenmanagement und die standardisierte Datenanalyse um. Es bietet Cloud-Infrastruktur, Speicher- und Analysemöglichkeiten sowie generische Schulungen zur Wissensvermittlung über verschiedene Fachbereiche hinweg. Durch virtuelle Lern- und Arbeitsumgebungen werden die Zugangsbarrieren gesenkt. Zusätzlich werden Technologien entwickelt, um komplexe Forschungsfragen zu beantworten und Daten aus verschiedenen Disziplinen zu integrieren. Über diese Maßnahmen hinaus ist ferner das Ziel von de.KCD die Förderung der Zusammenarbeit und des Wissensaustausches zwischen Forschungsstandorten durch die Schaffung eines vernetzten, kollaborativen Datenraums für nationale und internationale Forschungsprojekte.
Im Hinblick auf konkrete datenwissenschaftliche Methoden wollen wir in erster Linie die Nutzung von Cloud-basierten Infrastrukturen für verteiltes und skalierbares Datenmanagement sowie die notwendigen Kompetenzen für eine standardisierte und automatisierte Datenverarbeitung vermitteln. Gemäß den FAIR-Prinzipien gehören hierzu spezifische Fachkenntnisse für eine reproduzierbare Handhabung von Daten und für den Einsatz entsprechender Software-Werkzeuge. Dies wird z.B. durch die Verwendung von Software-Container-Lösungen (z.B. BioContainers) in Verbindung mit cloud-basierten Datenmanagementsystemen (z.B. verteilte Datenbanken) ermöglicht.
Für eine skalierbare und automatisierte Verarbeitung von Forschungsdaten vermitteln wir Kompetenzen zu Workflows (z.B. Nextflow oder Galaxy), welche eine leichtere Nachverfolgbarkeit (Data Provenance) der Erhebung, Erzeugung, Verarbeitung und Reproduzierbarkeit von Forschungsdaten gewährleisten (z.B. als maschinenlesbare Ergebnisse in Form von Research Data Objects). Kenntnisse zur Bewertung und Nutzung von Versionskontrollsystemen zur revisionssicheren Speicherung von z.B. unterschiedlich parametrisierten Workflows oder individueller Auswertungsskripten komplettiert die Datenkompetenzvermittlung in diesem Bereich.
Eine flexible Virtualisierung sowie die Verwendung unterschiedlicher und spezialisierter Software-Lösungen (z.B. GPU-basierte Algorithmen) für Cloud-basierte Datenanalysen erfordert oft den Einsatz dedizierter Cloud-basierter Software-Stacks. Hierzu werden Wissenschaftler und Daten-Analysten aus allen Fachbereichen aktiv bei der Entwicklung und der Etablierung von zugeschnittenen Software-Stacks unterstützt, diese periodisch zu erneuern und automatisiert zu testen, um das zugrunde liegende Datenmanagement sowie das Management der virtualisierten Compute-Umgebung bestmöglich zu automatisieren und zu skalieren.
Um eine sichere und datenschutzkonforme Verarbeitung besonders schützenswerter, sensibler oder personenbezogener Daten in der Cloud zu ermöglichen, werden Voraussetzungen für Trusted Research Environments (TREs) beschrieben und Material zur automatisierten Einrichtung dieser in Cloud-Umgebungen entworfen und getestet, mit dem Ziel diese an zertifizierten Cloud-Standorten bereitzustellen und auch für Schulungen einzusetzen. Da hierzu unterschiedliche technische und organisatorische Umsetzungsmodelle möglich sind, sollen diese im Rahmen dedizierter User Meetings unter Einbeziehung von Nutzern und bestehende Anbietern von TREs vorgestellt und auf ihre fachlichen, rechtlichen und technischen Vor- und Nachteile hin verglichen werden.
Um Forscher dahingehend zu unterweisen, eigene Daten-Verarbeitung und -Analysen unter Einbeziehung diverser Cloud-Technologien durchzuführen, entwickeln wir in de.KCD ein strukturiertes Schulungsprogramm und Selbst-Lerneinheiten bestehend aus Lernpfaden und Modulen, ergänzt durch eine skalierbare, Cloud-gestützten Trainingsinfrastruktur mit vorkonfigurierten Lernumgebungen. Dies bildet als ganzes die Wissens- und Kompetenzbasis von de.KCD und repräsentiert ein gemeinschaftsgetriebenes Framework für die Sammlung FAIRer Schulungsmaterialien für Softwaredeveloper, Systemadministratoren, als auch Wissenschaftler. Dabei legen wir besonderen Wert auf Train-the-Trainer-Lektionen, sodass die generischen Materialien in andere fachspezifische Domänen hineingetragen und diese dort, in angepasster Form, für entsprechende Schulungen verwendet werden.
Unsere Schulungsinhalte bieten wir neben online aufrufbaren Selbstlerneinheiten auch in Form von über das Jahr verteilter Online-, Hybrid- und Face-to-Face-Kurse für Forscher aller Karrierestufen an, welche in unserem Basisportal mit angeschlossenen Trainingskalender angekündigt werden. Ergänzt werden diese Formate durch jährlich stattfindende Sommerschulen, um den Teilnehmern eine intensive und interaktive Lernerfahrung zu bieten, in der sie neue Kenntnisse erwerben, ihr Verständnis für ein bestimmtes Fachgebiet vertiefen und sich mit anderen Teilnehmern und Experten zu aktuellen Themen austauschen können. Die Sommerschulen werden auch die Vernetzung unter den Teilnehmern fördern und so die Zusammenarbeit und den Austausch in der akademischen Gemeinschaft stärken.
Die Verbundpartner des de.KCD Konsortiums arbeiten bereits äußerst erfolgreich und vertrauensvoll im Rahmen des de.NBI-Netzwerkes zusammen und betreiben die kooperative und verteilte de.NBI Cloud-Infrastruktur, um Forschenden einen kostenfreien Zugang zu hoch skalierbaren Speicher- und Rechenkapazitäten auf einer einheitlichen technischen Basis zur Verfügung zu stellen. Die Partner von de.KCD - gleichzeitig auf die Betreiberstandorte der de.NBI Cloud - sind: