Intelligente Suchmaschinen sparen Zeit

Feature | 11. April 2005 von admin 0

Gerhard Weikum

Gerhard Weikum

Was muss die Internetsuchmaschine der Zukunft Ihrer Meinung nach leisten können?

Weikum: Künftige Suchmaschinen müssen eine gigantische Vielfalt an Datensammlungen durchsuchen können, denn Datenbanken wachsen in allen Bereichen in atemberaubendem Tempo: in der Geschäftswelt ebenso wie in der Wissenschaft und im Alltag. Die Suche nach Informationen sollte möglichst „intelligent“ sein, also Treffer liefern, die auch ein menschlicher Experte als bestmögliche Antwort ansehen würde. Außerdem soll sie – trotz enormer Datenmengen – so schnell sein, wie wir es von Google heute gewöhnt sind.

Bei welcher Art von Suchanfragen stoßen heutige Technologien an ihre Grenzen und warum?

Weikum: Google und andere Suchmaschinen sind im Falle einfacher Anfragen nicht zu schlagen. Die Schwachstelle heutiger Suchmaschinen liegt dagegen bei komplizierten Anfragen. Das sind Suchanfragen, die sich nicht einfach mit zwei Schlüsselwörtern ausdrücken lassen oder bei denen es überhaupt nur wenige gute Treffer gibt. Wenn beispielsweise IT-Experten nach Tipps zu ganz spezifischen Softwareproblemen oder Wissenschaftler nach neuesten Erkenntnissen und Spezialliteratur suchen, bieten Google & Co momentan nur eine geringe Hilfe. Bei der zufälligen Wahl bestimmter Schlüsselwörter spielt Glück häufig eine große Rolle. Oder aber die Google-Suche führt den Anwender zwar in die Nähe einer guten Seite, doch bis zur gesuchten Information sind weitere Internetseiten durchzuklicken.

Wie lassen sich Suchmaschinen für komplexe Anfragen „fit machen“?

Weikum: Suchmaschinen benötigen mehr Kontext. Zum einen bei Anfragen wie etwa ein Interessens- und Erfahrungsprofil des Benutzers, und auch im Hinblick auf die Daten. Dazu zählen eine klare Struktur und Annotationen sowie die Beziehungen von Wörtern zu verwandten Begriffen wie beispielsweise die Tatsache, dass Hexen in der Literatur typischerweise Frauen sind oder dass Schottland zu Großbritannien gehört. Kontextbewusstsein und Hintergrundwissen lässt sich dem Computer beibringen. Das wiederum führt zu einer Suchmaschine, die in der Lage ist, knifflige Anfragen hinreichend zu beantworten.

Sie entwickeln derzeit eine Software, die eine neue Art von Internetsuchmaschinen ermöglichen soll. Was ist das Neue und Besondere daran?

Weikum: Wir kombinieren Ontologien mit Methoden des statistischen Lernens und Wissensrepräsentationsformen aus dem Gebiet der Künstlichen Intelligenz. Zusätzlich verwenden wir Suchalgorithmen aus dem Datenbankbereich. Im Rahmen der Software-Entwicklung hatten wir uns ursprünglich mit den Techniken beschäftigt, die die Suche auf XML-Daten beschleunigen. XML-Daten sind Daten mit ausdrucksstarken Annotationen, sozusagen Konzept-Wert-Paare wie beispielsweise „Ort = Saarbrücken“ oder „Person = Lady Macbeth“. Diese Daten verfügen jedoch im Gegensatz zu voll strukturierten Datenbanken nicht unbedingt über ein einheitliches Namens- und Typschema, weil auch dokumentübergreifende, inhaltliche Festlegungen möglich sind. Die Suche auf solchen Daten ist somit wesentlich ausdrucksstärker, aber erheblich aufwändiger.

Gegenüber herkömmlichen Suchmaschinen erhalten wir den Mehrwert besonders durch die Verwendung einer mächtigen Ontologie. Eine Ontologie ist eine Sammlung von Konzepten, zwischen denen semantische Beziehungen modelliert sind. Die wichtigsten Beziehungstypen sind Synonymie (Sinnverwandschaft), Hypernomie (Verallgemeinerung) und Hyponomie (Spezialisierung). Ein Beispiel hierzu: „Lady“ ist ein Hyponom von „Woman“. Suchen wir mit einem Ähnlichkeitsoperator nach „Person = Woman“, finden wir eben auch ontologisch eng verwandte Begriffe, beispielsweise „Lady Macbeth“ oder „die dritte Hexe“. Die Ontologie als Hintergrundwissensbank verknüpft mit der Suchmaschine, gleicht das Ungleichgewicht zwischen Benutzer- und Datenterminologie aus.
Dieselben Techniken lassen sich ebenfalls auf Web-Daten anwenden. Internet- und Intranet-Suche bilden so eine Einheit. Vorteilhaft für die Suche ist auch die Generierung von Konzept-Wert-Paaren als Annotationen zu den im Web dominanten HTML-Seiten. Wir verwenden hierfür Heuristiken und Werkzeuge, die Eigennamen erkennen, sogenannte Named-Entity-Recognition-Werkzeuge. Damit lassen sich wichtige Überschriftselemente, Personen oder Orte markieren. Außerdem haben wir einen fokussierten Crawler entwickelt, der gefundene Web-Seiten mit einem trainierten Klassifikator automatisch in eine persönliche Themenhierarchie einordnet. Zur Klassifikation verwenden wir Support Vector Machines (SVMs). Sie sortieren Daten, indem sie erlernte Muster wieder erkennen. Sprich für ein fokussiertes Crawling lernt der Klassifikator aus Beispielen. Nach Beendigung der Lernphase starten wir den fokussierten Crawl mit wenigen guten Startseiten aus und finden so inhaltlich passende Seiten im Web.

Was ist an der ontologiegestützten, konzeptbasierten Suche besser als am bisherigen Ansatz des „Semantic Webs“, das ja bisher nur sehr eingeschränkt funktioniert?

Weikum: Die meisten Verfechter des Semantic Webs versuchen, alle Daten, Metadaten und Ontologien mit rein logikbasierten Formalismen zu repräsentieren. Das funktioniert bei klar abgegrenzten Anwendungsbereichen. Aber auf der Ebene des World Wide Web oder sehr großer Intranets sehe ich die Notwendigkeit, sowohl auf der Daten-, als auch auf der ontologischen Ebene, mit widersprüchlichen sowie mehrdeutigen Begriffen und Begriffsnetzen umzugehen. Indem wir statistische Methoden einsetzen, können wir stark korrelierte und häufig verwendete Begriffspaare, wie beispielsweise „Frau“, „Weib“ und „Lady“, von den in der Verwendung exotischen Begriffen trennen und vermeiden so, dass wir bei der Suche nach einer Frau unangebrachte Schlüsselwörter wie „Matriarch“ oder „Femme Fatale“ benutzen.

Wer hat Interesse an dieser Software? Möchte der Kunde nicht lieber gleich eine „fertige“ Suchmaschine kaufen?

Weikum: Suchmaschinentechnologie sollte in die Infrastruktur der jeweiligen Anwendungen eingebettet sein, beispielsweise in eine digitale Bibliothek für Wissenschaftler, in ein Beratungszentrum zum Gesundheitswesen oder in eine Business-Intelligence-Anwendung zur besseren Vorbereitung wichtiger Geschäftsentscheidungen. Für den Web-Nutzer zu Hause schwebt uns ein intelligenter Suchassistent in Form einer Softwarelösung vor, die auf jedem PC installierbar ist. Diese Software sollte eine vollständige Suchmaschine enthalten, die nachts Daten im Internet traversiert und analysiert, und daraus einen lokalen Index aufbaut.

Der Vorteil gegenüber herkömmlichen zentralen Suchmaschinen wie Google wäre, dass die lokale Suchmaschine auf den jeweiligen Benutzer zugeschnitten werden könnte. Die meisten Anfragen eines Benutzers würden dann lokal von der eigenen Suchmaschine beantwortet. Ist man mit der Antwort nicht zufrieden, kontaktiert der Assistent andere gleichberechtigte Suchmaschinen. Auf diese Weise entsteht ein Peer-to-Peer-System zur kollaborativen Suche. Ein derartiges Informationsnetz könnte selbst den von allen Benutzern gemeinsam erbrachten Trainings-Input ausnutzen, beispielsweise die Bookmark-Sammlungen von Millionen von Benutzern oder das Relevanz-Feedback, das Benutzer implizit durch ihre Klicks oder explizit durch Bewertungen von Web-Seiten geben. Die Güte der Suchresultate ließe sich auf diese Weise wesentlich verbessern, insbesondere dann, wenn sich thematisch verwandte Peers dynamisch und selbstorganisierend zusammenschließen. Dieser Ansatz könnte auch die Gefahr von De-Facto-Monopolen großer Suchmaschinen bannen und so zu einer Demokratisierung der Informationssuche führen.

Leave a Reply