Jahresberichte

Entwicklung, Implementierung und Dokumentation von Data Processing Workflows

Markus Wolfien, Rostock (Leiter) 

Tätigkeit vom 1. Januar 2021 bis 31. Dezember 2021

Die Erstellung von Workflows bildet einen zentralen Punkt innerhalb der Datenanalyse und der Datenintegration, da der Vergleich und die Auswahl geeigneter Analysewerkzeuge für ein bestimmtes Problem sehr komplexe Herangehensweisen erfordert. Deshalb beschäftigt sich die Projektgruppe (PG) mit der Sichtung, Erstellung und Implementierung von Workflows sowie deren zugrundeliegenden Rahmenbedingungen. Die PG besteht aus dreizehn aktiven und passiven Mitgliedern, die überwiegend im akademischen Bereich innerhalb und außerhalb der GMDS beschäftigt sind. Die Tätigkeiten umfassen die Organisation von Workshops, das Verfassen von Publikationen sowie ein themenbezogener Informationsaustausch über Datenanalyseabläufe und ein jährliches Treffen auf der GMDS Jahrestagung. Im Jahr 2021 geschah dies abermals online.

Im Hinblick auf das steigende Interesse an RNA Einzelzell- und Einzelnukleussequenzierung wurden Workflows weiterentwickelt und bewertet, um diese Formate eingehender untersuchen zu können. Diesbezüglich wurde ein Buchkapitel veröffentlicht um einen Überblick über die aktuellen Entwicklungen in der Einzelzellanalytik zu geben [1]. Eine Einführung sowie praktische Anleitung zur Auswahl des am besten geeigneten Sequenzierungsverfahrens für individuelle experimentelle Anforderungen im Zuge der Untersuchung biologischer Hypothesen werden vorgestellt. Grundlegende Datenanalyseansätze werden hervorgehoben, gefolgt von einer Diskussion über fortgeschrittene, nachgeschaltete Ansätze zur Anreicherung der aus Einzelzellexperimenten gewonnenen Informationen (z.B. Trajektorienanalysen, Pseudozeitanalysen und Netzwerkinferenz). Zusätzlich werden ungelöste Herausforderungen diskutiert, damit der Leser die häufigsten Fallstricke vermeiden kann. Im Zuge dessen wurde auch aktiv am Workshop der PG „Single Cell Data“ teilgenommen und ein entwickeltes Tool zur Einzelzellannotation vorgestellt [2].

Aufgrund der anhaltenden COVID-19-Beschränkungen im Jahr 2021 wurde der in Zusammenarbeit mit de.NBI (https://www.denbi.de/) geplante Workshop am 12. und 16. April 2021 online durchgeführt (Link). Der Kurs behandelte die Thematik „Bioinformatics carpentry utilizing Galaxy“ und konzentrierte sich auf bioinformatische Herangehensweisen unter die Nutzung von Galaxy (https://usegalaxy.eu/). Jeder Tag begann mit einem interaktiven Vortrag, gefolgt von einer praktischen Sitzung. Die Teilnehmenden erhielten eine Einführung in Galaxy, lernten Tools für das Datenhandling und Datenvorverarbeitung von Sequenzdaten anzuwenden, und konnten sich einen Überblick über verschiedene Galaxy-Instanzen verschaffen. Die Nutzung von Algorithmen und Auswertungen zu Maschinellem Lernen wurden ebenfalls thematisiert.

 Vorgesehene Aktivitäten in 2022

Es ist ein Projekttreffen auf der GMDS Jahrestagung in Kiel geplant.

Referenzen

1.        Wolfien, M.; David, R.; Galow, A.-M. Single-Cell RNA Sequencing Procedures and Data Analysis. In Bioinformatics; Exon Publications, 2021; pp. 19–35.<o:p></o:p>

2.        Bej, S.; Galow, A.M.; David, R.; Wolfien, M.; Wolkenhauer, O. Automated annotation of rare-cell types from single-cell RNA-sequencing data through synthetic oversampling. BMC Bioinformatics 202122, 1–17, doi:10.1186/S12859-021-04469-X/FIGURES/7.<o:p></o:p>

Amtszeit der Leiter*innen und deren Vertretung 
Oktober 2021 bis September 2024