>
Andreas Blumauer
Andreas Blumauer

Semantic Web – von der Vision des WWW-Architekten Tim Berners-Lee ist die Wirklichkeit noch weit entfernt. Was sind die Gründe für diese langsame Entwicklung?

Die Vision von Tim Berners-Lee ist ein gewaltiger Entwicklungsschritt – er ist nicht von heute auf morgen zu realisieren. Damit er verwirklicht werden kann, gilt es zunächst Fragen der Interoperabilität auf terminologischer, organisatorischer und technischer Ebene zu lösen. Sie sind sozusagen die Voraussetzung für das Semantic Web. Die Herausforderung ist nämlich nicht nur von rein technischer Natur, auch wenn das auf den ersten Blick so scheint. Daher müssen unterschiedliche Disziplinen die Aufgabenstellungen erkennen und verarbeiten, wie beispielsweise Dokumentare und Bibliothekare, Wissensmanager, Linguisten sowie Informatiker.

Unter Semantic Web verstehen viele den “denkenden” Computer, der die vergleichsweise “undeutliche” Eingabe versteht, und aus dem Kontext das generiert, was an Information gesucht wird. Inwieweit stimmt diese Vorstellung?

Diese Vorstellung trifft auf einen spezifischen Anwendungsfall semantischer Technologien zu, dennoch sollte “Semantic Web” nicht auf die Suchproblematik reduziert werden. Vielmehr handelt es sich dabei um eine Methodik oder Technik, die dazu dient, Informations- und Wissensobjekte sinnvoll und kontextabhängig zu vernetzen. Dazu zählen nicht nur Dokumente, sondern auch Begriffe, Prozesse oder sogar Menschen.

Semantische Suchmaschinen sollen dem Wesen des menschlichen Denkens angeglichen werden. Wie muss man sich das praktisch vorstellen und wie soll das überhaupt funktionieren?

Menschen “speichern” Wissen und Erfahrungen, zum einen als Bilder, aber auch als Netze von Begriffen, Ober- und Unterbegriffen oder assoziierten Themen, die auf diese Weise zu komplexen Konzepten miteinander verwoben werden. Darüber hinaus “erinnert” der Mensch Regeln, wie “Hunde fressen Fleisch, aber kein Obst”. Diese Regel ist dann auf alle Hunde anwendbar und muss nicht für jede einzelne Hundegattung extra abgespeichert werden. Durch die Bildung und Externalisierung derartig gewachsener Wissensnetze oder Ontologien “lernt” der Computer mehr über die Welt und ihre Begriffe, die darin vorkommen, schränkt so den Suchraum ein und liefert demnach präzise Ergebnisse.

Wo stößt das Semantic Web an seine Grenze, sprich was ist mit den Informationen, nach denen gar nicht gesucht wird?

Das Semantic Web ist natürlich nur so intelligent wie die dahinterliegenden Wissensmodelle, das sind beispielsweise Ontologien. Zusätzlich können aber auch statistische und linguistische Verfahren der Textanalyse automatische Erweiterungen der Suchanfragen unterstützen. Diese Query-Expansion mit Hilfe semantischer Netze oder auch “Inferencing” auf logischer Ebene, das sogenannte “automatische Schließen”, ermöglicht die Suche nach Information, “nach der gar nicht gesucht wird”. Kurz gesagt: Abhängig vom zugrundeliegenden Wissensmodell ist prinzipiell vieles möglich. Ich möchte aber ausschließen, dass Maschinen jemals kreativ werden oder “intuitiv” Information ausgeben können. Im Übrigen: Wenn Sie einmal den Suchbegriff mit einer Tilde (“~”) davor in Google eingeben, wie “~RSS”, dann bemerken Sie, dass sich auch Google nicht völlig dem Einsatz semantischer Technologien verschließt: Sie erhalten nämlich alle Seiten, die mit RSS thematisch zu tun haben – ohne dass der Begriff erwähnt sein muss.

Sprache ist lebendig und an sich unscharf, das heißt in ihren Begrifflichkeiten nicht eindeutig. Wie geht das Semantic Web mit dieser Schwierigkeit um?

Die Unschärfe der Sprache lässt sich durch den Aufbau und Einsatz semantischer Modelle, wie Taxonomien, Thesauri, semantischen Netzen und Ontologien sowie mittels Einsatz statistischer Verfahren bis zu einem gewissen Grad “abfedern”. Darin liegt ja auch der Mehrwert semantischer Technologien: Die Suche nach dem Begriff “Ohntologie” liefert trotz Rechtschreibfehler gewünschte Ergebnisse. Zudem kann der User vom System gefragt werden, in welchem Kontext für ihn der Begriff “Ontologie” von Interesse ist; dies wiederum wird durch semantische Modelle ermöglicht. Auch Mehrdeutigkeiten von Begriffen lassen sich derart abfangen, und das spart im Endeffekt Zeit und kostet weniger Nerven.

In einer Zeit, in der Myriaden von Informationseinheiten im Netz zu finden sind – wie steht es da mit dem Thema Glaubwürdigkeit und Verlässlichkeit dieser Informationen? Wäre hier nicht eine Kontrollinstanz vonnöten, die die Informationsqualität klassifiziert?

Eine Kontrollinstanz wäre zwar wünschenswert, diese birgt aber auch enorme Gefahren in sich. Im Semantic Web wird es genauso wenig zentrale Instanzen geben wie im heutigen Internet. Vielmehr handelt es sich dabei um ein Netz aus unzähligen kleinen Netzen. Natürlich lassen sich durch geeignete Meta-Information auch Aspekte der Glaubwürdigkeit und der Verlässlichkeit von Information beschreiben; das ist im “Trust-Layer” in der Semantic-Web-Architektur des W3C so vorgesehen.

Welcher Schabernack mit Meta-Information getrieben wird, wissen wir aus früheren Zeiten des Internets, in der manche Seiten mit x-beliebigen Meta-Tags versehen wurden. Dieses Problem ist auch mit Blick auf das Semantic Web nicht lösbar. Das ist eine der Fragen, die gegenwärtig im Mittelpunkt der heutigen Forschungsaktivitäten steht. Demnach wird es im Semantic Web keine zentralen Kontrollinstanzen geben, die Informationen nach ihrer Qualität klassifizieren; vielmehr ist von Themencluster bzw. abgeschotteten Domänen die Rede, die mit Hilfe von Ontologien sinnvoll beschrieben werden können, und die wiederum mittels Termfrequenzanalysen – hinsichtlich der Bedeutung einzelner Begriffe und dem Vorkommen von Konzepten – laufend untersucht werden. Diese Vorgehensweise zeichnet einen Weg im Semantic Web vor: Dokumente, die bestimmte Eigenschaften in ihrer Struktur und Terminologie nicht aufweisen, fallen durch den Rost – de facto passiert das bei Google heute schon.

Welche Anwendungen existieren bereits und wo kommen sie zum Einsatz?

Das Semantic World Wide Web (WWW), das vor allem von Tim Berners-Lee angesprochen wird, lässt sicherlich noch einige Jahre auf sich warten. Experten rechnen mit einem Zeithorizont von fünf bis sechs Jahren. Abhängig davon, was unter Semantic WWW verstanden werden soll, sind bereits deutliche Vorboten zu spüren: Denken Sie nur daran, welche rasante Entwicklung RSS-News-Feeds derzeit erleben und welche neuen Anwendungen und Geschäftsmodelle sich daraus ergeben. Klar, es fehlt vor allem noch an Ontologien, auf Basis derer Mehrwert-Services generierbar sind. Aber insgesamt gesehen existieren in spätestens zwei bis drei Jahren erste Semantic-Web-Firmen, die damit Geld verdienen werden.

Im Intranet hingegen gibt es schon zahlreiche Beispiele, in denen semantische Technologien, wie auch komplexe Ontologien zum Einsatz kommen und wissensintensive Geschäftsprozesse erfolgreich unterstützen. Chancenreich sind in diesem Bereich vor allem die early-adopters, indem sie entsprechende Wettbewerbsvorteile für ein Unternehmen generieren. Dementsprechend bleibt zu hoffen, dass kleine und mittlere Unternehmen (KMUs) den Vorteil semantischer Technologien bald für sich entdecken. Bei diesen geht es insbesondere um die Vernetzung von Wissensträgern, um Community-Building, Verbesserung der Kommunikation und der Personalisierung von Information. Dagegen dreht es sich bei Großunternehmen primär um die Optimierung von Prozessketten über die Konzerngrenzen hinaus.

Wann ist mit einem Markt-Roll-out auf breiter Basis zu rechnen?

Die Nachfrage nach semantischen Technologien nimmt deutlich zu: Potentielle Kunden sind vermehrt sensibilisiert, sollten aber nicht den Fehler begehen, die Semantic-Web-Thematik rein auf “Suchen und Finden” zu reduzieren. Denn da bliebe einiges an Potential auf der Strecke – wie im Bereich des Terminologie-Managements oder im E-Learning, um zwei weitere Beispiele zu nennen. Ein wesentlicher Faktor bei der Marktakzeptanz spielen natürlich die verfügbaren Standards, wie OWL zur Beschreibung von Ontologien als auch Abfragesprachen wie SPARQL. Denken Sie nur daran, welchen “Boost” Datenbanksysteme erlebt haben, als letztlich SQL verfügbar war; ähnliches passiert derzeit mit Ontologie-Datenbanken. Sie bilden künftig die Basis der gesamten Dateninfrastruktur des Semantic Web.

Wer pflegt zu guter Letzt die Metadaten und wer bezahlt für ihre Nutzung? Gibt es hierzu schon Überlegungen, sozusagen ein Geschäftsmodell?

Metadaten-Pflege lässt sich nur teilweise automatisieren. Das ist von der notwendigen Informationsqualität abhängig, die durch den Anwendungskontext vorgegeben ist. In diesem Punkt muss zum Teil mit erheblichem redaktionellem Aufwand gerechnet werden. Es macht keinen Sinn, krampfhaft nach einem Geschäftsmodell zur Rechtfertigung dieser Kosten zu suchen. Vielmehr sind zahlreiche Unternehmen gerade in den heutigen Tagen Opfer der Informationsflut und so mancher Hersteller verspricht hilfreiche Lösungen von der Stange. Das Problem wird sich rasant weiter verschärfen: Allein die intelligente Vernetzung von Information ist die Antwort auf diese Misere. Dabei spielen Ontologien und Metadaten eine wesentliche Rolle. Machen wir nicht noch einmal den Fehler, den Gurus der Künstlichen Intelligenz zu glauben, die damals verkündet haben, bald werden die Maschinen uns Menschen auf Knopfdruck verstehen. Die Metadaten-Pflege ist letztlich damit zu rechtfertigen, dass sie Zeit beim Suchen nach Information einspart und insgesamt kontextsensitivere Information höherer Qualität verarbeitet werden kann.

Wissen ist Macht – wie können Unternehmen das Semantic Web zu ihrem Vorteil nutzen?

Unternehmen können das Semantic Web als Vernetzungstechnik verwenden. Wie so oft steckt hinter einem technischen Begriff meist mehr als ein Softwareprodukt. Der Einsatz semantischer Technologien verlangt Organisationen einiges an Reife ab. Nicht jedes Unternehmen ist in der Lage einfach eine Ontologie aufzubauen und zu verwenden, da diese auf komplexen Kommunikationsprozessen beruht: Vertriebsprozesse, Führungsaufgaben, Forschung und Entwicklung oder auch Ausbildungsaktivitäten lassen sich mit Semantic-Web-Technologien verbessern – prinzipiell alle Aktivitäten, bei denen Information qualitativ hochwertig verfügbar sein muss.

SEMANTIC WEB