Linked Data – Zukunftsorientierte Organisation und Nutzung von Daten
Daten sind das Fundament von Erkenntnissen: Daten zu Niederschlag und Luftdruck für Meteorologinnen, Börsendaten für Wirtschaftswissenschaftler, Genomdaten für Medizinerinnen. Daten sind aber auch die Basis für Entscheide: Fahrplandaten für Reisende, Fertigungsmessdaten für Qualitätsverantwortliche und betriebliche Kennzahlen für Manager. In einem Forschungsprojekt wurde aufgezeigt, wie KMU mit «Linked Data» viele und heterogene Daten organisieren und nutzen können.
Text: Prof. Dr. Niklaus Stettler, Prof. Bruno Wenk / Bild: Prof. Bruno Wenk, kursiv
In Unternehmen werden Daten meist in applikationsspezifischen Datenbanken gespeichert und verwaltet. Benötigen mehrere Applikationen dieselben Daten (z. B. Kundendaten), müssen diese mehrfach erfasst und gepflegt werden. In der Praxis führt das nicht selten dazu, dass Adressdaten unzuverlässig sind. Schnittstellen für den Datenaustausch zwischen unterschiedlichen Datenbanken («Datensilos») können punktuell Abhilfe schaffen. Eventuell werden die Daten aus unterschiedlichen Datenbanken auch in einem Data Warehouse zusammengefasst oder es wird ein betriebswirtschaftliches Standardsoftwareprodukt (z. B. SAP) eingesetzt, das viele Geschäftsprozesse mit ihren Daten integriert. All diese Lösungen sind jedoch relativ starr. Beispielsweise wäre ein grosser Aufwand nötig, um die internen Daten von Marketing und Verkauf mit externen Daten zu Aufwärts- und Abwärts-Trends zu ergänzen und dadurch die Grundlagen für Entscheidungen zu erweitern.
Datensätze und deren Verknüpfungen in Textform beschreiben
«Linked Data» bietet einen neuen, zukunftsorientierten Ansatz zur Organisation und Nutzung vieler und heterogener Daten. Das Grundkonzept besteht darin, die Daten und ihre Beziehungen zu anderen Daten in einem standardisierten Format in Textform darzustellen. Dazu dient RDF (Resource Description Framework). Weil die Datensätze und deren Verknüpfungen in Textform vorliegen, können sie leicht verändert und ergänzt werden. Die Datenverwaltung wird so selbst in einem Unternehmen relativ einfach. Die Abfragesprache SPARQL (SPARQL Protocol And RDF Query Language) wiederum dient der Formulierung und Ausführung von Abfragen in diesem Raum der textbasierten Daten. Sie erlaubt es, indirekte Beziehungen zwischen unterschiedlichen Datensätzen, die nicht offensichtlich sind, zu entdecken.
Linked Data ist ein Ansatz, der theoretisch gut beschrieben ist und zu überzeugen vermag. Insbesondere für Wissensorganisationen verspricht der Ansatz neue Lösungsmöglichkeiten, die selbst mit der rasanten Steigerung der Anforderungen an die Datenverarbeitung im Zuge der Digitalisierung mitzuhalten vermögen. Doch der vielversprechende Ansatz setzt sich nur langsam durch. Noch existieren kaum Hilfestellungen, die es Unternehmen erlauben würden, in diese neue Welt der Datenverwaltung vorzustossen.
Linked (Open) Data – von der Theorie zur Praxis
Mit dem anwendungsorientierten Forschungsprojekt «Linked (Open) Data – von der Theorie zur Praxis», das von der Gebert Rüf Stiftung finanziert wurde, versuchen das Schweizerische Institut für Informationswissenschaft SII und das Institut für Photonics und ICT IPI (beide FH Graubünden) dazu beizutragen, dass Linked Data seinen Weg in die Praxis häufiger finden kann. Die Forschenden haben für ein (fiktives) KMU eine Linked-Enterprise-Data-Applikation entwickelt und sowohl die konzeptionellen Überlegungen als auch die Entwicklungsschritte auf dem Weg zu dieser Applikation im Detail dokumentiert. Damit soll das Potenzial der Technologie nachvollziehbar gemacht werden. Zugleich sollen Informationsarchitekten und -architektinnen anhand dieser Applikation ersehen können, wie sie vorgehen müssen, um das Potenzial auch zu nutzen.
Linked-Enterprise-Data-Applikation für fiktives KMU
Das fiktive KMU will mit dem Web-Portal energyinfo.ch Information rund um das Thema Energie einem breiteren Publikum zugänglich machen. In Form von Tutorials sollen Technologien und Produkte erklärt werden. Links zu Gesetzen und Verordnungen weisen auf die Rahmenbedingungen zur Nutzung dieser Technologien hin und schliesslich hilft ein Firmenverzeichnis den Usern, die richtigen Anbieter von Dienstleistungen und Produkten zu finden.
Um den Themenbereich Energie zu strukturieren, musste ein Thesaurus mit Begriffen wie «Energieumwandlung», «Wärmepumpe», «Elektroheizung», «Motor» usw. erstellt werden. Dieser soll die Daten zu Firmen, Produkten, Lerneinheiten etc. erschliessen, sodass eine Besucherin/ein Besucher des Portals erfahren kann, dass es mehrere Arten von Wärmepumpen gibt, wie sie sich unterscheiden, welche Firmen entsprechende Produkte herstellen oder installieren und welche Gesetze und Verordnungen es dabei zu beachten gilt. Doch die Erstellung eines solchen Thesaurus ist aufwändig – einfacher ist es, wenn ein bestehendes Vokabular genutzt und an die eigenen Bedürfnisse angepasst werden kann. Dazu wurde der frei zugängliche Umweltthesaurus des Deutschen Umweltbundesamtes genutzt. Da dieser Thesaurus bereits im Linked-Data-Format RDF vorliegt, kann er problemlos ergänzt werden. So konnten auch die spezifisch schweizerischen Begriffe in das Vokabular übernommen werden.
Das Potenzial von Linked Enterprise Data liegt nicht zuletzt darin, dass externe Quellen wie dieser Thesaurus oder die Gesetzessammlung des Bundes in die eigene Informationsumgebung eingebunden werden können. Aber nicht nur externe, auch interne Daten sollen in die Linked-Data-Umgebung integriert werden. In der Beispielapplikation wurden Daten aus einer bestehenden Datenbank des fiktiven KMU integriert. Mit Hilfe eines Software-Layers können SPARQL-Abfragen in passende Abfragen für die betreffende relationale Datenbank umgewandelt werden, so dass die Suche sowohl Treffer in der Linked-Data-Umgebung als auch in der Datenbank zu Tage fördert.
Verknüpfung externer und interner Daten
Zusätzlich zur Linked-Enterprise-Data-Applikation wurde im Projekt auch eine Beispielanwendung von Linked Open Data konstruiert. Öffentliche Verwaltungen publizieren ihre im gesetzlichen Auftrag gesammelten Daten immer häufiger auf Web-Portalen (Open Government Data). In der Schweiz geschieht dies auf opendata.swiss. Allerdings liegen die meisten Daten noch in herkömmlichen Formaten vor (z.B. in tabellarischer Form). Diese Daten sind schwer zu interpretieren und zu nutzen. Neu hat die Bundesverwaltung jedoch auch ein Linked-Data-Service-Portal (LINDAS) für Daten im RDF-Format eröffnet. Hier können Personen, die die Abfragesprache SPARQL beherrschen, sich auf die Suche nach Zusammenhängen machen.
In der Beispielapplikation haben die Forschenden der FH Graubünden gezeigt, wie eigene Daten in RDF umgewandelt und in einem Datastore zur Verfügung gestellt werden können und wie im Anschluss daran diese Daten in Beziehung zu öffentlichen Daten – zum Beispiel denjenigen der Bundesverwaltung – gesetzt werden können. Verlinkt mit den eigenen Unternehmensdaten können viele Daten der öffentlichen Verwaltung durchaus von Nutzen sein.
Lösung für Informationssilos
Mit diesem Projekt konnten die Forschenden die oft postulierte Flexibilität eines Linked-Data-Ansatzes nachvollziehbar machen. Besonders wichtig für die Praxis ist, dass es möglich ist, auch die Daten aus bestehenden Fachanwendungen in einer flexiblen Linked-Data-Umgebung zu nutzen. Damit hat diese Technologie das Potenzial, zur Basistechnologie für die Datenhaltung zu werden. Der Umstieg zu einer flexibleren Datenhaltung kann schrittweise erfolgen und doch können Daten schon schnell einmal miteinander verknüpft werden. Für alle Organisationen, die an einem Zuviel von Datenbanken und Informationssilos leiden, stellt Linked Data eine ernsthaft zu prüfende Alternative dar.
Das Projekt hat aber auch gezeigt, dass auf dem Weg zur Standardanwendung noch einige Hürden zu überwinden sind. Bis dahin sind Linked-Data-Projekte noch ein aufwändiges, auf lange Sicht aber sicherlich lohnendes Unterfangen.
Beitrag von
Professor für Archivwissenschaft und Records Management, Leiter Schweizerisches Institut für Informationswissenschaft SII
Bruno Wenk, Prof.
Professor für Multimedia-Kommunikationssysteme, Institut für Photonics und ICT (IPI)