The German Competence Center Cloud Technologies for Data Management and Processing (de.KCD) is a cross-location and cross-domain contact point for teaching skills in handling data using cloud-based technologies, resources and methods for institutions and networked centers as well as for researchers at all career levels.
In the current phase of digital transformation, scientific and economic success as well as the connectivity of future-oriented projects depend on (i) the systematic and structured collection of relevant raw and metadata through expertise-based data management, (ii) the development and provision of innovative cloud offerings and automated workflows, (iii) the development and transfer of expertise in the field of cloud-based data processing, and (iv) the availability of a powerful and independent cloud infrastructure.
The de.KCD specifically addresses these challenges in order to bundle expertise in cloud computing and data management, as well as to provide and expand the necessary hardware capacities and cloud services. The project implements suitable measures for cloud-based data management and standardized data analysis. It offers cloud infrastructure, storage and analysis options as well as generic training for knowledge transfer across different specialist areas. Virtual learning and working environments lower the barriers to access. In addition, technologies are being developed to answer complex research questions and integrate data from different disciplines. Beyond these measures, de.KCD also aims to promote collaboration and knowledge exchange between research locations by creating a networked, collaborative data space for national and international research projects.
With regard to specific data science methods, we primarily want to teach the use of cloud-based infrastructures for distributed and scalable data management as well as the necessary skills for standardized and automated data processing. In accordance with the FAIR principles, this includes specific expertise for the reproducible handling of data and the use of appropriate software tools. This is made possible, for example, through the use of software container solutions (e.g. BioContainers) in conjunction with cloud-based data management systems (e.g. distributed databases).
For scalable and automated processing of research data, we teach skills in workflows (e.g. Nextflow or Galaxy) that ensure easier traceability (data provenance) of the collection, generation, processing and reproducibility of research data (e.g. as machine-readable results in the form of Research Data Objects). Knowledge of the evaluation and use of version control systems for the audit-proof storage of e.g. differently parameterized workflows or individual evaluation scripts completes the data competence transfer in this area.
Flexible virtualization and the use of different and specialized software solutions (e.g. GPU-based algorithms) for cloud-based data analysis often requires the use of dedicated cloud-based software stacks. To this end, scientists and data analysts from all specialist areas are actively supported in the development and establishment of tailored software stacks, which are periodically renewed and automatically tested in order to automate and scale the underlying data management and the management of the virtualized compute environment in the best possible way.
Um eine sichere und datenschutzkonforme Verarbeitung besonders schützenswerter, sensibler oder personenbezogener Daten in der Cloud zu ermöglichen, werden Voraussetzungen für Trusted Research Environments (TREs) beschrieben und Material zur automatisierten Einrichtung dieser in Cloud-Umgebungen entworfen und getestet, mit dem Ziel diese an zertifizierten Cloud-Standorten bereitzustellen und auch für Schulungen einzusetzen. Da hierzu unterschiedliche technische und organisatorische Umsetzungsmodelle möglich sind, sollen diese im Rahmen dedizierter User Meetings unter Einbeziehung von Nutzern und bestehenden Anbietern von TREs vorgestellt und auf ihre fachlichen, rechtlichen und technischen Vor- und Nachteile hin verglichen werden.
Um Forschende dahingehend zu unterweisen, eigene Daten-Verarbeitung und -Analysen unter Einbeziehung diverser Cloud-Technologien durchzuführen, entwickeln wir in de.KCD ein strukturiertes Schulungsprogramm und Selbst-Lerneinheiten bestehend aus Lernpfaden und Modulen, ergänzt durch eine skalierbare, Cloud-gestützten Trainingsinfrastruktur mit vorkonfigurierten Lernumgebungen. Dies bildet als ganzes die Wissens- und Kompetenzbasis von de.KCD und repräsentiert ein gemeinschaftsgetriebenes Framework für die Sammlung FAIRer Schulungsmaterialien für Softwaredeveloper, Systemadministratoren, als auch Wissenschaftler. Dabei legen wir besonderen Wert auf Train-the-Trainer-Lektionen, sodass die generischen Materialien in andere fachspezifische Domänen hineingetragen und diese dort, in angepasster Form, für entsprechende Schulungen verwendet werden.
Unsere Schulungsinhalte bieten wir neben online aufrufbaren Selbstlerneinheiten auch in Form von über das Jahr verteilter Online-, Hybrid- und Face-to-Face-Kurse für Forschende aller Karrierestufen an, welche in unserem Basisportal mit angeschlossenen Trainingskalender angekündigt werden. Ergänzt werden diese Formate durch jährlich stattfindende Sommerschulen, um den Teilnehmern eine intensive und interaktive Lernerfahrung zu bieten, in der sie neue Kenntnisse erwerben, ihr Verständnis für ein bestimmtes Fachgebiet vertiefen und sich mit anderen Teilnehmern und Experten zu aktuellen Themen austauschen können. Die Sommerschulen werden auch die Vernetzung unter den Teilnehmern fördern und so die Zusammenarbeit und den Austausch in der akademischen Gemeinschaft stärken.
Die Verbundpartner des de.KCD Konsortiums arbeiten bereits äußerst erfolgreich und vertrauensvoll im Rahmen des de.NBI-Netzwerkes zusammen und betreiben die kooperative und verteilte de.NBI Cloud-Infrastruktur, um Forschenden einen kostenfreien Zugang zu hoch skalierbaren Speicher- und Rechenkapazitäten auf einer einheitlichen technischen Basis zur Verfügung zu stellen. Die Partner von de.KCD - gleichzeitig auch die Betreiberstandorte der de.NBI Cloud - sind: