“Hyperdatenbanken: Infrastruktur für den Informationsraum”

Feature | 2. Juni 2003 von admin 0

Hans-Jörg Schek

Hans-Jörg Schek

An welche Grenzen stoßen Datenbanksysteme heutzutage?

Schek: Von Grenzen kann man vielleicht weniger sprechen. Vielmehr lautet die Frage, ob Datenbanksysteme noch als zentrale Infrastruktur für die Entwicklung von Informationssystemen gelten dürfen. Vor etwa 20 Jahren wurden die Datenbanksysteme der ersten Generation durch relationale Datenbanken abgelöst. Damals war es das erklärte Ziel, eine bessere Plattform für die Entwicklung von datenintensiven Anwendungen zu bilden. SQL wurde sogar als Sprache für die Endanwender betrachtet, also für Ad-hoc-Anfragen direkt an die Datenbank. Damit sollte eine Schnittstelle geschaffen sein, die es ermöglichte, bei wichtigen strategischen Festlegungen zur Entscheidungsfindung beizutragen. Ein solcher Vorgang wird heute Data Warehousing oder Data Mining genannt.

Heute befinden wir uns in einem Geflecht unüberschaubar vieler Informationsquellen. Wir sprechen von einem Informationsraum, der über unbegrenzt viele Informationspunkte und Verbindungen zwischen diesen Informationspunkten verfügt. Datenbanken spielen in einem Informationsraum weiterhin eine wichtige, wenn auch weniger prominente Rolle. Sie treten “nur” in der Rolle komfortabler, zuverlässiger und leistungsfähiger Speicherserver auf, die sich an beliebig vielen Punkten des Informationsraumes befinden können und dort ihren Dienst tun. Dreh- und Angelpunkt und Infrastruktur für die Entwicklung heutiger verteilter Anwendungen sind Datenbanken jedoch bereits seit 10 Jahren nicht mehr.

Welches Entwicklungspotenzial ist noch möglich, etwa bezüglich Funktionalität, Skalierbarkeit, Performance, Verfügbarkeit oder Bedienbarkeit?

Schek: Bei dieser Frage nehmen wir jetzt an, dass das Datenbanksystem die Rolle eines komfortablen Speicherservers hat, wie das beispielsweise auch in einer SAP-R/3-Architektur der Fall ist. Trotz des erreichten hohen Standards bei kommerziellen Systemen gibt es dennoch spannende Fragen. Ich möchte zwei erwähnen: Zum einen wünschen wir uns eine so genannte Scale-Out-Fähigkeit, zum anderen Datenbanksysteme, die sich selbst optimieren. Die Scale-Out-Eigenschaft wurde vor einigen Jahren von Jim Gray im Gegensatz zum üblichen Scale-Up verlangt. Es bedeutet, dass wir eine beliebig hohe Leistungsfähigkeit und Speicherkapazität erreichen wollen, indem wir einen Datenbankserver auf einem Rechencluster mit Standard-Hardware- und Software-Komponenten betreiben und um eine größere Leistungsfähigkeit zu erreichen, einfach das Cluster entsprechend vergrößern. Selbstoptimierende Datenbanksysteme, das zweite Thema, sind seit langem ein Traum, heutzutage aber auch eine Notwendigkeit angesichts der komplexer werdenden Systeme. Gerade auch im Zusammenhang mit Datenbankcluster stellt sich die Frage nach optimaler Datenverteilung und optimaler Replikation beziehungsweise Partitionierung und dann die Frage der Anfrageoptimierung. Die Forderung von Scale-Out-Skalierbarkeit erfordert verstärkt das automatische Selbstkonfigurieren, wie es beispielsweise in IBM’s Autonomic Computing gefordert wird.

Sie forschen derzeit an Hyperdatenbanken. Was ist das genau und welche Einsatzmöglichkeiten und Vorteile bieten sie?

Schek: Ich möchte zwei Definitionen geben: Eine erste lautet, dass eine Hyperdatenbank eine Datenbank über Datenbanken ist. Die zweite sagt, dass eine Hyperdatenbank eine Grundsoftware ist, die auf jedem Rechner eines Informationsverbunds vorhanden ist, ähnlich wie die TCP/IP-Netzwerkschicht. Bei der ersten Definition “Datenbank über Datenbanken” interessiert uns die Verwaltung der eigentlichen Daten weniger. Vielmehr fragen wir uns, wie verteilte Dienste und Dienstaufrufe verwaltet, verwendet und zusammengesetzt werden können. Wir fragen uns, welche Infrastruktur auf einer nächst höheren Ebene über Datenbanken angesiedelt sein sollte, die uns den Umgang mit zahlreichen Informationsdiensten (Web Services) erleichtert. Eine Hyperdatenbank ist eine solche Infrastruktur. Ähnlich wie eine Datenbank auf Daten arbeitet eine Hyperdatenbank auf Diensten. Sie ist daher dort, wo wir heute Middleware sehen.

Bei der zweiten Definition gehen wir von der Verteilung aus. Die Netzwerkkomponente sorgt für das Versenden und Routen von Bytes zwischen beliebigen Punkten des Informationsraumes. Die Hyperdatenbankkomponente sorgt demgegenüber für das Verarbeiten und Routen von Anwendungsprozessen, auch transaktionale Prozesse oder kurz “Flows” genannt. Flows fassen mehrere Dienstaufrufe zusammen, spezifizieren Alternativen und sehen Fehlerbehandlung vor. Die Hyperdatenbank sorgt dafür, dass Ausführungs- und Terminierungseigenschaften bei der parallelen Verarbeitung von Flows garantiert werden. Um Engpässe zu vermeiden und um verwundbare zentrale Komponenten zu reduzieren, wenden wir “Peer-to-Peer”- und Grid-Computing-Überlegungen an, die sich aus dem verteilten Rechnen und aus der Netzwerktechnologie heraus entwickelt haben. Auf unserem Webauftritt http://www-dbs.inf.ethz.ch befinden sich mehr Details.

Informationen vermehren und verändern sich fortwährend. Wie lässt sich ein solcher “information space” bändigen, um immer aktuelle und konsistente Daten verfügbar zu haben?

Schek: Dies ist ein außerordentlich wichtiger Gesichtspunkt und ein weiterer Grund für unsere Namensgebung “Hyperdatenbank”. Wie eine moderne Datenbank automatisch ein geordnetes, das heißt korrektes und konsistentes Ändern von Daten regelt, so soll die Hyperdatenbank die Änderungen des Informationsraumes, beispielsweise das Kommen und Gehen von Informationsanbietern, und die Wartung von Abhängigkeiten im Informationsraum übernehmen. Hierzu werden bei bestimmten Ereignissen automatisch die entsprechenden transaktionalen Prozesse gestartet. Beispielsweise beim Registrieren eines neuen Dienstanbieters wird jeder Punkt des Informationsraumes, der dies wissen muss, automatisch mit der neuen Information versorgt.

Welche neuen Anwendungsgebiete – beispielsweise mobile Geräte – sehen Sie? Welche sind aus Ihrer Sicht besonders wichtig?

Schek: Hier kann ich unmittelbar an das oben Gesagte anknüpfen. Der Informationsraum besteht nicht nur aus mehr oder weniger stationären Komponenten, sondern auch in stark zunehmendem Maße aus mobilen Informationsanbietern und Verbrauchern. Wir haben heute bereits PDAs (Personal Digital Assistants) und Mobiltelefone. In der Zukunft werden neue Techniken der Mensch-Maschine-Kommunikation und unsichtbare Computer die Interaktion im Informationsraum ermöglichen oder erleichtern. Mobile Komponenten sind in bestimmten Situationen bewusst oder notgedrungen vom Netzwerk getrennt und erwarten, dass sie nach dem Einschalten automatisch die für sie bestimmte lnformation und die Änderungen relevanter Informationen bekommen. Eine andere Form mobiler Information tritt beim Gesundheitsmonitoring auf. Wir werden, wenn wir wollen, verschiedene Sensoren mit uns herumtragen, die uns im Zusammenspiel mit anderen Informationsquellen, beispielsweise der elektronischen Patientenakte, und über die lnteraktion mit dem Arzt helfen, rechtzeitig gewarnt zu werden und Gegenmaßnahmen zu treffen. Die Technologie wird es uns erlauben, im fortgeschrittenen Alter oder bei Pflegebedürftigkeit mobil zu bleiben und dennoch im Notfall sofort fachmännisch versorgt zu werden.

Ich sehe gerade in der Gesundheitsvorsorge und in der nachklinischen Patientenversorgung die Hauptanwendung der Informationstechnologie, speziell der Entwicklungen im Pervasive Computing und dem daraus folgenden Umgang mit allgegenwärtiger “ubiquitärer” Information. Ich habe deswegen sehr gerne eine weitere Professur an der Privaten Universität für Medizinische Informatik und Technologie Tirol (UMIT) in Innsbruck angenommen. An der UMIT bin ich – in Zusammenarbeit mit der ETH Zürich – dabei, die Hyperdatenbankforschung mit medizinischen Informationssystemen zu verbinden und dort vor allem Mobilität und Sensordaten stärker in die bisherigen Arbeiten einzubeziehen.

Wie lassen sich Informationen und Daten personalisieren und welche Probleme bereitet dies?

Schek: Das ist zurzeit ein absolut heißes Thema, auch wenn es schon seit Jahrzehnten in der Forschung beachtet wurde. Heute aber ist es uns allen bewusster. Wir sind ja heute alle damit konfrontiert und erleben, dass wir zwar in erstaunlich kurzer Zeit Antworten aus Web-Suchmaschinen bekommen, aber häufig nicht das, was wir eigentlich wollen. Die Frage nach relevanter Information ist von der Person, von der Situation und von ihrem räumlichen und zeitlichen Kontext abhängig. Zwar können wir uns vorstellen, dass wir Subskriptionen auf bestimmte Information und Änderungen von Information definieren können und dass uns eine Hyperdatenbankinfrastruktur zuverlässig damit versorgt. Jedoch sind wir noch weit davon entfernt, die Relevanz richtig einzuschätzen und geeignete Relevanzrückkopplung anzuwenden.

Ein einfaches Beispiel mag das veranschaulichen: Wenn ich im Auto auf dem Weg zum Flughafen in einen Stau gerate, so interessiert mich vor allem, ob ich meinen Flug noch erreiche, eventuell ist er ja verspätet. Es ist für mich in dieser Situation weniger wichtig zu erfahren, dass sich der Wert meines Aktienfonds signifikant geändert hat, selbst wenn ich mich auf eine solche Informationsänderung abonniert habe. Im Rahmen unserer Hyperdatenbankforschung sind wir dabei, aus multimedialen Objekten möglichst viele Merkmale verschiedenster Sorten zu extrahieren und zu verwalten, um so Relevanz- und Relevanzrückkopplung beim Retrieval zu verbessern. Von “intelligentem Retrieval” und personalisierter Information sind wir aber noch weit weg.

Gibt es Kooperationen mit der Industrie – etwa SAP – und wie sehen diese aus?

Schek: Wir hatten in der Vergangenheit verschiedene Kooperationen mit der Industrie, alle im Bereich Middleware und Infrastruktur für Informationssysteme, unter anderem mit Telekurs, ABB und Schindler. Die wichtigsten Kooperationen zurzeit sind eine Kooperation mit Microsoft Research, wo unsere Forschung über Datenbankcluster gefördert wird, und eine Kooperation mit SAP, wodurch die Ausbildung der Studenten an SAP R/3 gefördert wird. Zu Web Services und Flow Engines bestehen gute Kontakte zu lBM. Außerdem sind wir dabei, wie gesagt, die Kooperationen in der Medizinischen Informatik mit den bei der UMIT angesiedelten Firmen zu etablieren.

Was ist Ihr persönliches Motto?

Schek: (Fast) nie aufzugeben…

Tags:

1 comment

  1. Gunter H. Gnoss

    Meine Frage: Können Sie sich ein RDBMS in einer vertikalen Organisation vorstellen?

Leave a Reply