Menu
Projekt
Allergiedaten Analysieren in MLM-SOS-ALL
Projekt auf einen Blick

Projekt auf einen Blick

MLM-SOS-ALL ist ein Beispiel für ein Datenanalyse-Projekt zwischen den beiden Partnern in DAViS (SIAF und FH Graubünden). Mit Machine Learning und Modelling wird nach molekularen, genetischen und umweltbedingten Faktoren gesucht wird, die für die Entstehung und Verbreitung allergischer Krankheiten verantwortlich sind.

Ausgangslage

Ausgangslage

Die zugrundeliegenden Daten wurden vorgängig in der SOS-ALL Studie (South-African – Swiss: Mechanisms of the Development of Allergy) in einem Konsortium aus SIAF, Universität Kapstadt, Kinderspital Zürich und Dermatologischer Klinik des Universitätsspitals Zürich erhoben, und bestehen aus einem grossen RNA-Sequenzier-Datensatz und detaillierter Information zu den Patienten, ihren Lebensumständen und der Krankengeschichte. Die Probanden in der SOSALL Studie sind Kinder aus Stadt und Land, aus der Schweiz und aus Südafrika, mit atopischer Dermatitis und ohne diese Erkrankung.

Projektziel

Projektziel

Die umfangreiche Datenanalyse in MLM-SOS-ALL wird gemeinsam von den DAViS-Partnern SIAF und FH Graubünden vorangetrieben. In einer kombinierten Analyse der Datensätze, die über die bisher verwendeten biostatistischen Methoden hinausgeht, sollen Hinweise gefunden werden, die zu einem besseren Verständnis der komplexen Zusammenhänge führen, die das Auftreten allergischer Erkrankungen vor allem in der Stadt fördern. Zudem sollen Risikofaktoren und Biomarker für die Entstehung von Allergien identifiziert werden, die zu Präventions-Massnahmen und verbesserter Diagnostik genutzt werden können.

Umsetzung

Umsetzung

Bei der Arbeit an den SOS-ALL-Datensätzen werden die Fragebogen-Daten und die RNA-Sequenzier-Daten zuerst jeder für sich analysiert. Für die Analyse der Fragebogen-Daten werden erst statistische Tests angewendet um signifikante Unterschiede in den Lebensbedingungen zwischen Stadt und Land, zwischen mit und ohne atopische Dermatitis, und in der Verknüpfung der beiden Variablen zu finden. Das entspricht der klassischen biostatistischen Analyse. Im MLM-SOS-ALL-Projekt werden nun zusätzlich Methoden aus dem Machine Learning angewendet, um aus all den in den Fragebogen enthaltenen Daten diejenige Kombination aus Einträgen zu finden, die eine Unterscheidung von gesund oder mit atopischer Dermatitis abhängig von den unterschiedlichen Lebensbedingungen erlauben. Dieser Schritt erfordert vorgängig eine gründliche und iterative Vor-Prozessierung der ‘rohen’ Fragebogen-Daten, um einen Datensatz zu generieren, der möglichst wenig Lücken und keine Inkonsistenzen aufweist. Parallel dazu werden die RNA-Sequenzierdaten analysiert. Auch hier besteht der erste Schritt in der biostatistischen Analyse, dieses Mal mit dem ARMOR Workflow, der die Prozessierung, Normalisierung und statistische Analyse auf beiden Variablen gleichzeitig erlaubt. Dieser Workflow ist von der Rechenleistung her auf dem sehr grossen Datensatz (149 Proben x ~15'000 RNAs) sehr intensiv und konnte schlussendlich auf dem Computer-Cluster an der FH Graubünden laufen gelassen werden. Die Ergebnisse dieser Analyse werden im Folgeschritt mit Techniken aus dem ‘Data Mining’ ausgewertet und mit den Ergebnissen aus der Analyse der Fragebogen verknüpft. Zum Beispiel: in der Stadt und auf dem Land wird mit unterschiedlichen Brennstoffen gekocht und geheizt, was auch mit dem Auftreten von atopischer Dermatitis zusammenzuhängen scheint; finden sich nun also in den RNA-Sequenzier-Daten Hinweise auf bekannte biologische Prozesse, die durch die Belastung mit Feinstaub angeregt werden? In einem nächsten Schritt ist das Ziel, mit den bisher identifizierten signifikanten Merkmalen aus der Analyse der Fragebogen-Daten und der RNA-Sequenzier-Daten eine kombinierte Analyse mit Machine Learning zu machen, um aus beiden Bereichen diejenigen Merkmale zu finden, die spezifisch für atopische Dermatitis sind.

Beispiel Analyse
Team

Team

Wissenschaftlicher Projektleiter
Thomas Keller

Das Projekt wurde zudem von den folgenden Personen unterstützt:

  • Katja Bärenfaller, SIAF (Gesamtprojektleitung)
  • Damir Zhakparov, SIAF
Weiterführende Information

Weiterführende Information

Beteiligte

Das Projekt wurde vom Schweizerischen Institut für Informationswissenschaft (SII) in Zusammenarbeit mit dem Schweizerischen Institut für Allergie- und Asthmaforschung (SIAF) in der Gesamtleitung umgesetzt.