Projektgruppen

Entwicklung, Implementierung und Dokumentation von Data Processing Workflows

Tätigkeiten der Projektgruppe

Ziele der Projektgruppe:

Die Anwendungen der Informatik in den Biowissenschaften spielen eine immer größere Rolle. Eine zentrale Herausforderung besteht darin, die am besten geeignete Software und zugrundeliegenden Algorithmen zu kombinieren, vergleichen und in spezifische Datenanalyseworkflows zu integrieren. Ziel der aktuellen Forschung sowie der Arbeitsgruppe ist es auf die Bedürfnisse von für Nicht-Computerexperten einzugehen und ihnen eine eigenständige Analyse mit Hilfe von Workflows zu ermöglichen. Dazu können aktuelle Tools innerhalb von Managementplattformen wie Bioconductor, Galaxy, Knime und Snakemake sowie weitere Ansätze wie BioConda, Common Workflow Language oder Docker kombiniert werden.
Die Verwendung von Workflows beugt zum einen vor, dass (i) Tools, die nicht mehr auf dem aktuellsten Stand gehalten werden oder nie für ein spezielles Problem entwickelt wurden, Kontext spezifisch genutzt werden und (ii) Tools, die kontinuierlich gepflegt werden und dementsprechend ihr Verhalten und ihre Parameter mit der Zeit ändern können, konserviert werden können. Eine weitere Herausforderung ist der Vergleich, das Benchmarking, die Auswahl und die Integration der am besten geeigneten Tools, was zeitaufwendig ist und Fachkenntnisse in Bezug auf die Rechenleistung erfordert. Abhängig von der Anzahl der Samples, der Skala der Zeitreihen und der Sequenzierungstiefe können Berechnungen mit hohen Rechenressourcen wie Cluster-, Grid- und Cloud-Computing-Lösungen verbunden sein. Eine adaptive Verwaltung verfügbarer Datenverarbeitungsressourcen durch Lastverteiler und Warteschlangensysteme ist bei der Erstellung von Analyseworkflows häufig unvermeidbar.
Ein aktueller Lösungsansatz zur Bereitstellung von Workflows, einschließlich aller notwendigen Tools und Abhängigkeiten, sind Softwarekanäle und Container wie Bioconda, Docker oder rkt. Diese Container stellen sich als mögliche Lösung für viele der früheren Probleme heraus, da sie die Paketierung von Workflows in einem isolierten und in sich abgeschlossenen System erlauben, was die Verteilung und Ausführung von Tools auf eine leicht übertragbare Weise auf ein breites Spektrum von rechnerischen Verfahren vereinfacht.
Zusammenfassend lässt sich sagen, dass Workflows, Management Frameworks und Cloud-Computing-Services die Lücke zwischen Tool-Entwicklern und Endbenutzern schließen und eine einfach anwendbare und skalierbare Datenanalyse fördern. Dies wiederum ermöglicht eine verbesserte Datenreproduzierbarkeit, Prozessdokumentation und Überwachung von Datenanalysen.

Veröffentlichungen im Kontext der AG Workflows

Lott SC, Wolfien M, Riege K, Bagnacani A, Wolkenhauer O, Hoffmann S, Hess WR
Customized workflow development and data modularization concepts for RNA-Sequencing and metatranscriptome experiments
Journal of Biotechnology
doi.org/10.1016/j.jbiotec.2017.06.1203

GMDS Jahresbericht 2022

Projektgruppe
Entwicklung, Implementierung und Dokumentation von Data Processing Workflows

Markus Wolfien, Dresden (Leiter) 

Tätigkeit vom 1. Januar 2022 bis 31. Dezember 2022

Die Erstellung von Workflows bildet einen zentralen Punkt innerhalb der Datenanalyse und der Datenintegration, da der Vergleich und die Auswahl geeigneter Analysewerkzeuge für ein bestimmtes Problem sehr komplexe Herangehensweisen erfordert. Deshalb beschäftigt sich die Projektgruppe (PG) mit der Sichtung, Erstellung und Implementierung von Workflows sowie deren zugrundeliegenden Rahmenbedingungen. Die PG besteht aus dreizehn aktiven und passiven Mitgliedern, die überwiegend im akademischen Bereich innerhalb und außerhalb der GMDS beschäftigt sind. Die Tätigkeiten umfassen die Organisation von Workshops, das Verfassen von Publikationen sowie ein themenbezogener Informationsaustausch über Datenanalyseabläufe und ein jährliches Treffen auf der GMDS Jahrestagung. Im Jahr 2022 geschah dies abermals online.

Trotz des seit langem bestehenden Interesses an personalisierter Entscheidungsunterstützung auf der Grundlage von Patientendaten bleibt die Datenknappheit und Verfügbarkeit eine immense Herausforderung. In einer kürzlich erschienenen Arbeit der Projektgruppe wurde die Bedeutung der KI-gesteuerten Generierung synthetischer Daten für die Verbesserung maschineller Lerntechniken in medizinischen Bereichen wie der Systemmedizin und der medizinischen Informatik erörtert und in einen Arbeitsablauf integriert [1]. In der Arbeit wird vorgeschlagen, synthetische Daten, insbesondere im Kontext des Palliativpflege-Screenings, zu verwenden, um die ML-gestützte Entscheidungsfindung zu verbessern, indem Datenbeschränkungen überwunden und Einblicke in aktuelle Perspektiven und mögliche Auswirkungen bereitgestellt werden. 

Vorgesehene Aktivitäten in 2023

Es ist ein Projekttreffen auf der GMDS Jahrestagung 2023 in Heilbronn, sowie zwei Workshops und ein BarCamp geplant. 

Referenzen

1.        Hahn, W.; Schütte, K.; Schultz, K.; Wolkenhauer, O.; Sedlmayr, M.; Schuler, U.; Eichler, M.; Bej, S.; Wolfien, M. Contribution of Synthetic Data Generation towards an Improved Patient Stratification in Palliative Care. J. Pers. Med. 2022, Vol. 12, Page 1278202212, 1278, doi:10.3390/JPM12081278.

Amtszeit der Leiter*innen und deren Vertretung 
Oktober 2021 bis September 2024

ARCHIV DER TÄTIGKEITSBERICHTE

  • Aktivitäten im Jahr 2021

    Aktivitäten im Jahr 2021

    Tätigkeit vom 1. Januar 2021 bis 31. Dezember 2021

    Die Erstellung von Workflows bildet einen zentralen Punkt innerhalb der Datenanalyse und der Datenintegration, da der Vergleich und die Auswahl geeigneter Analysewerkzeuge für ein bestimmtes Problem sehr komplexe Herangehensweisen erfordert. Deshalb beschäftigt sich die Projektgruppe (PG) mit der Sichtung, Erstellung und Implementierung von Workflows sowie deren zugrundeliegenden Rahmenbedingungen. Die PG besteht aus dreizehn aktiven und passiven Mitgliedern, die überwiegend im akademischen Bereich innerhalb und außerhalb der GMDS beschäftigt sind. Die Tätigkeiten umfassen die Organisation von Workshops, das Verfassen von Publikationen sowie ein themenbezogener Informationsaustausch über Datenanalyseabläufe und ein jährliches Treffen auf der GMDS Jahrestagung. Im Jahr 2021 geschah dies abermals online.

    Im Hinblick auf das steigende Interesse an RNA Einzelzell- und Einzelnukleussequenzierung wurden Workflows weiterentwickelt und bewertet, um diese Formate eingehender untersuchen zu können. Diesbezüglich wurde ein Buchkapitel veröffentlicht um einen Überblick über die aktuellen Entwicklungen in der Einzelzellanalytik zu geben [1]. Eine Einführung sowie praktische Anleitung zur Auswahl des am besten geeigneten Sequenzierungsverfahrens für individuelle experimentelle Anforderungen im Zuge der Untersuchung biologischer Hypothesen werden vorgestellt. Grundlegende Datenanalyseansätze werden hervorgehoben, gefolgt von einer Diskussion über fortgeschrittene, nachgeschaltete Ansätze zur Anreicherung der aus Einzelzellexperimenten gewonnenen Informationen (z.B. Trajektorienanalysen, Pseudozeitanalysen und Netzwerkinferenz). Zusätzlich werden ungelöste Herausforderungen diskutiert, damit der Leser die häufigsten Fallstricke vermeiden kann. Im Zuge dessen wurde auch aktiv am Workshop der PG „Single Cell Data“ teilgenommen und ein entwickeltes Tool zur Einzelzellannotation vorgestellt [2].

    Aufgrund der anhaltenden COVID-19-Beschränkungen im Jahr 2021 wurde der in Zusammenarbeit mit de.NBI (https://www.denbi.de/) geplante Workshop am 12. und 16. April 2021 online durchgeführt (Link). Der Kurs behandelte die Thematik „Bioinformatics carpentry utilizing Galaxy“ und konzentrierte sich auf bioinformatische Herangehensweisen unter die Nutzung von Galaxy (https://usegalaxy.eu/). Jeder Tag begann mit einem interaktiven Vortrag, gefolgt von einer praktischen Sitzung. Die Teilnehmenden erhielten eine Einführung in Galaxy, lernten Tools für das Datenhandling und Datenvorverarbeitung von Sequenzdaten anzuwenden, und konnten sich einen Überblick über verschiedene Galaxy-Instanzen verschaffen. Die Nutzung von Algorithmen und Auswertungen zu Maschinellem Lernen wurden ebenfalls thematisiert.

     Vorgesehene Aktivitäten in 2022


    Es ist ein Projekttreffen auf der GMDS Jahrestagung in Kiel geplant.

    Referenzen

    1.        Wolfien, M.; David, R.; Galow, A.-M. Single-Cell RNA Sequencing Procedures and Data Analysis. In Bioinformatics; Exon Publications, 2021; pp. 19–35.<o:p></o:p>

    2.        Bej, S.; Galow, A.M.; David, R.; Wolfien, M.; Wolkenhauer, O. Automated annotation of rare-cell types from single-cell RNA-sequencing data through synthetic oversampling. BMC Bioinformatics 202122, 1–17, doi:10.1186/S12859-021-04469-X/FIGURES/7.<o:p></o:p>

    Amtszeit der Leiter*innen und deren Vertretung 
    Oktober 2021 bis September 2024 

  • Aktivitäten im Jahr 2019

    Aktivitäten im Jahr 2019

     Tätigkeit vom 1. Januar 2019 bis 31. Dezember 2019

    Workflows bilden einen zentralen Punkt innerhalb der Datenanalyse und der Datenintegration, da eine Auswahl geeigneter Analysewerkzeuge für ein bestimmtes Problem sehr komplexe Herangehensweisen erfordert. Deshalb beschäftigt sich die Projektgruppe (PG) mit der Sichtung, Erstellung und Implementierung von Workflows sowie deren zugrundeliegenden Rahmenbedingungen. Die PG besteht aus neun aktiven und passiven Mitgliedern, die überwiegend im akademischen Bereich innerhalb und außerhalb der GMDS beschäftigt sind. Die Tätigkeiten umfassen die Organisation von Workshops, das Verfassen von Publikationen sowie ein themenbezogener Informationsaustausch über Datenanalyseabläufe und ein jährliches Treffen auf der GMDS Jahrestagung.

    Workshops und Aktivitäten in 2019
    In 2019 wurden deutschlandweit innerhalb der PG drei Workshops mit insgesamt ca. 30 Teilnehmenden ausgerichtet. Die ein- und mehrtägigen Workshops gaben generelle Einblicke über die Datenanalyse und Integration mit Hilfe von Workflows innerhalb der Galaxy Datenanalyseplattform (https://usegalaxy.eu/). Die Eckpunkte der Workshops lauten wie folgt:

    1. 3-Tages Workshop über „ Galaxy for linking bisulfite sequencing with RNA sequencing “ in Rostock (März)
    2. Tutorial auf der GMDS Jahrestagung 2019 über „ NGS data analysis with Galaxy for clinical applications “ in Dortmund (September)
    3. 3-Tages Workshop über „ Galaxy for linking bisulfite sequencing with RNA sequencing “ in Freiburg (Oktober)

    Die PG war ebenfalls an der Veröffentlichung eines  Buchkapitels in Springer (Methods in Molecular Biology book series - Computational Biology of Non-Coding RNA)  mit dem Titel „Workflow Development for the Functional Characterization of ncRNAs“ involviert (Wolfien et al. 2019 https://doi.org/10.1007/978-1-4939-8982-9_5). Dort wurde allgemein über experimentelle Protokolle zu Identifizierung von nicht kodierenden RNAs diskutiert, sowie bioinformatische Hilfestellungen und Software vorgestellt und erläutert die eine Identifizierung und Charakterisierung dieser Transkripte vornehmen kann.

    Vorgesehene Aktivitäten in 2020
    Es ist bereits ein Workshop und Projekttreffen auf der GMDS Jahrestagung geplant.