Projektgruppen

Entwicklung, Implementierung und Dokumentation von Data Processing Workflows

Tätigkeiten der Projektgruppe

Ziele der Projektgruppe:

Die Anwendungen der Informatik in den Biowissenschaften spielen eine immer größere Rolle. Eine zentrale Herausforderung besteht darin, die am besten geeignete Software und zugrundeliegenden Algorithmen zu kombinieren, vergleichen und in spezifische Datenanalyseworkflows zu integrieren. Ziel der aktuellen Forschung sowie der Arbeitsgruppe ist es auf die Bedürfnisse von für Nicht-Computerexperten einzugehen und ihnen eine eigenständige Analyse mit Hilfe von Workflows zu ermöglichen. Dazu können aktuelle Tools innerhalb von Managementplattformen wie Bioconductor, Galaxy, Knime und Snakemake sowie weitere Ansätze wie BioConda, Common Workflow Language oder Docker kombiniert werden.
Die Verwendung von Workflows beugt zum einen vor, dass (i) Tools, die nicht mehr auf dem aktuellsten Stand gehalten werden oder nie für ein spezielles Problem entwickelt wurden, Kontext spezifisch genutzt werden und (ii) Tools, die kontinuierlich gepflegt werden und dementsprechend ihr Verhalten und ihre Parameter mit der Zeit ändern können, konserviert werden können. Eine weitere Herausforderung ist der Vergleich, das Benchmarking, die Auswahl und die Integration der am besten geeigneten Tools, was zeitaufwendig ist und Fachkenntnisse in Bezug auf die Rechenleistung erfordert. Abhängig von der Anzahl der Samples, der Skala der Zeitreihen und der Sequenzierungstiefe können Berechnungen mit hohen Rechenressourcen wie Cluster-, Grid- und Cloud-Computing-Lösungen verbunden sein. Eine adaptive Verwaltung verfügbarer Datenverarbeitungsressourcen durch Lastverteiler und Warteschlangensysteme ist bei der Erstellung von Analyseworkflows häufig unvermeidbar.
Ein aktueller Lösungsansatz zur Bereitstellung von Workflows, einschließlich aller notwendigen Tools und Abhängigkeiten, sind Softwarekanäle und Container wie Bioconda, Docker oder rkt. Diese Container stellen sich als mögliche Lösung für viele der früheren Probleme heraus, da sie die Paketierung von Workflows in einem isolierten und in sich abgeschlossenen System erlauben, was die Verteilung und Ausführung von Tools auf eine leicht übertragbare Weise auf ein breites Spektrum von rechnerischen Verfahren vereinfacht.
Zusammenfassend lässt sich sagen, dass Workflows, Management Frameworks und Cloud-Computing-Services die Lücke zwischen Tool-Entwicklern und Endbenutzern schließen und eine einfach anwendbare und skalierbare Datenanalyse fördern. Dies wiederum ermöglicht eine verbesserte Datenreproduzierbarkeit, Prozessdokumentation und Überwachung von Datenanalysen.

Veröffentlichungen im Kontext der AG Workflows

Lott SC, Wolfien M, Riege K, Bagnacani A, Wolkenhauer O, Hoffmann S, Hess WR
Customized workflow development and data modularization concepts for RNA-Sequencing and metatranscriptome experiments
Journal of Biotechnology
doi.org/10.1016/j.jbiotec.2017.06.1203

 Tätigkeit vom 1. Januar 2019 bis 31. Dezember 2019

Workflows bilden einen zentralen Punkt innerhalb der Datenanalyse und der Datenintegration, da eine Auswahl geeigneter Analysewerkzeuge für ein bestimmtes Problem sehr komplexe Herangehensweisen erfordert. Deshalb beschäftigt sich die Projektgruppe (PG) mit der Sichtung, Erstellung und Implementierung von Workflows sowie deren zugrundeliegenden Rahmenbedingungen. Die PG besteht aus neun aktiven und passiven Mitgliedern, die überwiegend im akademischen Bereich innerhalb und außerhalb der GMDS beschäftigt sind. Die Tätigkeiten umfassen die Organisation von Workshops, das Verfassen von Publikationen sowie ein themenbezogener Informationsaustausch über Datenanalyseabläufe und ein jährliches Treffen auf der GMDS Jahrestagung.

Workshops und Aktivitäten in 2019
In 2019 wurden deutschlandweit innerhalb der PG drei Workshops mit insgesamt ca. 30 Teilnehmenden ausgerichtet. Die ein- und mehrtägigen Workshops gaben generelle Einblicke über die Datenanalyse und Integration mit Hilfe von Workflows innerhalb der Galaxy Datenanalyseplattform (https://usegalaxy.eu/). Die Eckpunkte der Workshops lauten wie folgt:

  1. 3-Tages Workshop über „ Galaxy for linking bisulfite sequencing with RNA sequencing “ in Rostock (März)
  2. Tutorial auf der GMDS Jahrestagung 2019 über „ NGS data analysis with Galaxy for clinical applications “ in Dortmund (September)
  3. 3-Tages Workshop über „ Galaxy for linking bisulfite sequencing with RNA sequencing “ in Freiburg (Oktober)

Die PG war ebenfalls an der Veröffentlichung eines  Buchkapitels in Springer (Methods in Molecular Biology book series - Computational Biology of Non-Coding RNA)  mit dem Titel „Workflow Development for the Functional Characterization of ncRNAs“ involviert (Wolfien et al. 2019 https://doi.org/10.1007/978-1-4939-8982-9_5). Dort wurde allgemein über experimentelle Protokolle zu Identifizierung von nicht kodierenden RNAs diskutiert, sowie bioinformatische Hilfestellungen und Software vorgestellt und erläutert die eine Identifizierung und Charakterisierung dieser Transkripte vornehmen kann.

Vorgesehene Aktivitäten in 2020
Es ist bereits ein Workshop und Projekttreffen auf der GMDS Jahrestagung geplant.