Projekt auf einen Blick
Im Rahmen des DISCOVER-Projekts werden Methoden für die automatische Datenakquise, die Extraktion und Integration von entscheidungsrelevanter Information aus heterogenen Onlinequellen entwickelt, welche auch in der Lage sind, Inhalte aus dem Deep Web zu analysieren.
Projekt
DISCOVER – Knowledge discovery, extraction and fusion for improved decision makingLead
Schweizerisches Institut für Informationswissenschaft (SII) Mehr über Schweizerisches Institut für Informationswissenschaft (SII)Forschungsfelder
Data Analytics Mehr über Data AnalyticsAuftrag/Finanzierung
Innosuisse, Venture Valuation VV AGDauer
Dezember 2016 – Januar 2019
Ausgangslage
Die Venture Valuation AG erstellt unabhängige Bewertungen von Pharma- und Biotech-Startups und ihren Produkten und Technologien. Zudem betreibt das Unternehmen Biotechgate, eine Plattform, welche umfangreiche Information zu Stakeholdern aus den Branchen Biotechnologie, Pharmazie und Medizintechnik aggregiert und strukturiert zur Verfügung stellt. Dies beinhaltet zum Beispiel Angaben zur Produkt-Pipeline von Unternehmen, zu deren Finanzierung, zu abgeschlossenen Lizenzverträgen oder Management-Kontaktinformationen. Der Datenumfang von Biotechgate ist in den letzten Jahren signifikant gestiegen, wobei auch bestehende Datensätze einem stetigen Wandel unterworfen sind, welcher umfangreiche Investitionen in die Datenakquise und -kuration erfordert.
Projektziel
Das DISCOVER-Projekt entwickelt Komponenten, welche Datenbeschaffungsprozesse automatisieren und somit deren Effizienz signifikant erhöhen. Dabei stehen die Erweiterung von Biotechgate um Informationen zu klinischen Studien, die Erhöhung der Datenaktualität und -qualität sowie die Reduktion der Kosten für die Datenakquise im Mittelpunkt.
Umsetzung
Signifikante Teile des World Wide Webs sind für Suchmaschinen nicht zugänglich, da die entsprechenden Webressourcen aus umfangreichen themenspezifischen Datenbanken gespeist werden. In der Praxis sind diese Datenquellen, welche auch als «Deep Web» bezeichnet werden, oft besonders relevant, da sie meist umfangreiche, qualitativ hochwertige und sehr spezifische Fachinformationen enthalten. Im DISCOVER-Projekt wurden Methoden für die automatische Datenakquise, -extraktion und -kuration entwickelt, welche auch in der Lage sind, Informationen aus dem Deep Web zu analysieren. Das System greift dabei auf domänenspezifisches Hintergrundwissen zu, welches zum Beispiel in Ontologien, Datenbanken oder ökonomischen Modellen encodiert ist, so dass Abfragen auf Deep Web Ressourcen optimiert werden können.
Dadurch wird die DISCOVER Pipeline in die Lage versetzt, auf Informationen zu klinischen Studien zuzugreifen, welche auf der WHO Clinical Trials Platform publiziert wurden. Die Sequenzierung der Zugriffe wird dabei durch domänenspezifische Modelle determiniert. Im nächsten Schritt analysieren «Knowledge-Extraktion»-Methoden die gespiegelten Inhalte, um relevante Informationen – wie zum Beispiel Studieninhalt, Symptome und Studienfortschritt – mittels Text und Data Mining zu extrahieren. Die entsprechenden Datensätze werden im Anschluss normalisiert und in Biotechgate gespeichert.
Eine weitere DISCOVER-Schlüsselkomponente analysiert die Websites aller in Biotechgate verfügbaren Organisationen, identifiziert in diesen Websites die Management- und Ansprechpersonen und gleicht die entsprechenden Datensätze mit Biotechgate ab. Dadurch wird es möglich, automatisch Änderungen im Management zu erkennen und somit die Aktualität von Biotechgate sicherzustellen, ohne dass dies zu höheren Kosten für die Datenkuration führt. Zudem werden die Websites nach relevanten Publikationen zu abgeschlossenen Lizenzabkommen, Finanzierungsrunden oder M&A-Aktivitäten abgesucht, so dass diese Informationen den Kunden von Biotechgate zeitnah zur Verfügung gestellt werden kann.
Resultate
In der Praxis führen die im Rahmen des DISCOVER-Projekts entwickelten Innovationen dazu, dass den Kunden des Industriepartners aktuellere und umfangreichere Daten zur Bewertung von Biotech- und Pharmaunternehmen zur Verfügung stehen. Gleichzeitig konnte Biotechgate um klinische Studien erweitert und die Aktualität der Daten erhöht werden. Das DISCOVER- Projekt wurde durch Innosuisse gefördert. Diese Unterstützung hat massgeblich dazu beigetragen, Methoden der Grundlagen- und angewandten Forschung in kommerziell wertvolle Anwendungen eines innovativen Schweizer Unternehmens zu integrieren.
Team
Neben Mitarbeitenden der FH Graubünden war folgende Person am Projekt beteiligt:
- Adrian Brasoveanu
Weiterführende Information
Beteiligte
Das Projekt wurde vom schweizerischen Institut für Informationswissenschaft (SII) im Auftrag von Innosuisse und Venture Valuation VV AG umgesetzt.