Mekka für Informationssuchende

Feature | 13. Januar 2003 von czeidler 0

Welche Möglichkeiten der Informationsgewinnung im Internet sind noch zu wenig entwickelt und können daher nicht wirkungsvoll genutzt werden?

Kraft: Obwohl sich in den vergangenen Jahren die Technologien im Bereich Suchmaschinen ständig weiterentwickelt haben, steckt die Informationsgewinnung im Internet noch in den Anfängen. Die ersten Suchmaschinen nutzten die Struktur von HTML-Dokumenten nicht aus und verstanden sich hauptsächlich auf das Indizieren des reinen Textinhalts. Zum zweiten wurde die Hyperlink-Struktur des Webs komplett ignoriert – das führte zu irrwitzigen Suchergebnissen wie “10,326,839 documents matching your query”. Die Zeit brachte hier Änderungen mit sich; Suchmaschinen und Ranking-Algorithmen wurden verfeinert, HTML-bezogene Besonderheiten – etwa Text im Titel, Metatags, Text in Markup – gesondert im Index abgespeichert. Populäre Suchmaschinen, wie beispielsweise Google, zeigen, wie sich die Hyperlink-Struktur des Webs erfolgreich ausnutzen lässt, um die Qualität der Suchergebnisse dramatisch zu verbessern.

Wie lauten die aktuellen Herausforderungen?

Kraft: Das Hauptproblem der Zukunft wird sein, dass sich der Informationsgehalt im Internet schnell und kontinuierlich vermehrt. Das exponenzielle Wachstum dieser Inhalte ist bereits heute eine der großen Herausforderungen für den Aufbau und die Konzeption von Suchmaschinen. Des Weiteren sind die indizierten Daten nicht strukturiert; das macht es schwer, gezielt Informationen aufzufinden. Zuletzt sehe ich noch erhebliche Schwierigkeiten mit Spam. Ich meine damit Anwender, die den Versuch unternehmen, das Ranking von Suchmaschinen auszutricksen, um mit ihren Produkten möglichst oben in den Ergebnislisten zu landen. Alle diese Teilaspekte münden in der Notwendigkeit, die Qualität der Suchergebnisse zu verbessern. Mit den derzeitigen, konventionellen Mitteln ist bezüglich dieser Aufgabenstellung derzeit das Limit erreicht. Es gilt neue Methoden aus dem Bereich “Machine learning” und “Artificial Intelligence” zu ersinnen und zur Anwendungsreife zu bringen.

Wie ist in diesem Zusammenhang die von Ihnen mit entwickelte Suchmaschine “Grand Central Station” zu sehen?

Kraft: Die Ergebnisse des Projekts waren ein erster Schritt in die genannte Richtung. Eines der wichtigsten Resultate ist die breite Unterstützung verschiedener Dokument-Formate: Information in nahezu allen gängigen Dokument-Formaten werden in ein universelles Dokument-Format – XML – konvertiert und dieses anschließend speziell indiziert. Grand Central Station ist in diesem Zusammenhang mehr als ein Instrument zu verstehen, mit dem die Rahmenbedingungen für die Informationsgewinnung und -extrahierung geschaffen sind.

Welche Eigenschaften hat Grand Central Station im Vergleich mit anderen Suchmaschinen?

Kraft: Die Herausforderung ist, aus unstrukturierten Dokumenten, wie etwa HTML – das in den meisten Fällen auch noch fehlerhaft ist – strukturierte Information zu extrahieren, die sich dann für eine gezielte Suche verwenden lässt. Zum Beispiel ist es möglich, nach dem Autor oder nach anderen Attributen eines Dokuments zu suchen, die bei der Umwandlung in XML gesondert abgelegt wurden.

Mit “jCentral” lässt sich im Internet nach Programmcode in Java oder XML suchen. Wie funktioniert das?

Kraft: jCentral und xCentral waren die ersten Applikationen, die aus Grand Central Station entstanden sind. Sie sind herkömmlichen Suchmaschinen in Bezug auf eine strukturierte Suche deutlich überlegen. Beispielsweise “weiß” jCentral, dass es sich bei einer Suche um ein Java-Programm handelt. Das erlaubt es, nach bestimmten Programm-Konstrukten in dieser Sprache zu suchen. Dazu zählen etwa Klassennamen, sowie Klassen, die bestimmte Interfaces implementierten, oder nach anderen Attributen, die typisch für Java-Softwarecode sind. Dasselbe leistet die xCentral-Suchmaschine für XML. Das war ein wesentlicher Fortschritt gegenüber den Standard-Formularen von Suchmaschinen, die meistens nur nach Keywords suchen lassen.

In welcher Weise profitieren Softwareentwickler von einer solchen Suchmaschine?

Kraft: jCentral lässt sich in eine Entwicklungsumgebung integrieren, beispielsweise IBMs WebSphere Studio Application Developer. Dort könnte die Suchmaschine die Software-Entwickler während der Programm- und Software-Entwicklung auf intelligente Weise unterstützen. Will der Entwickler beispielsweise eine Sortier-Routine einbinden, kann sich aber wegen fehlender Informationen bezüglich der Performance oder des Speicherbedarfs der vorhandenen Routinen nicht entscheiden, so könnte jCentral diese Informationen direkt in die Entwicklungsumgebung liefern. Damit lässt sich die Produktivität eines Software-Entwicklers erheblich steigern.

Web Services sind zur Zeit ein Schlagwort – entsprechende Produkte werden unter anderem auch von SAP angeboten. Wann machen für Sie Web Services einen Sinn und wie sehen Sie deren Entwicklung?

Kraft: Web Services stehen für die natürliche Evolution des Internet. Zur Zeit wird das Internet hauptsächlich von Menschen benutzt und darauf ist auch der Aufbau des Internet abgestimmt. Doch dies wird sich in Zukunft ändern – oder hat sich zum Teil schon geändert. Die Informationen im Web werden von Software-Agenten oder anderen intelligenten Maschinen direkt verarbeitet. Alle Arten von Unternehmen und Organisationen werden sich das zunutze machen, um effizienter und unternehmensübergreifend arbeiten zu können. Mit der Zeit könnte daraus das “Semantic Web” resultieren, welches dann letztendlich wiederum uns alle in der Art und Weise, wie wir arbeiten und kommunizieren, betreffen würde.Das “Semantic Web” ist die Evolution des Webs. Zu Beginn war das Internet hauptsächlich für Personen ausgelegt, die fähig waren, statische Webseiten zu lesen. Danach wurden Webseiten von so genannten CGI scripts dynamisch erzeugt. Bei all diesen Fortschritten und dem Trend hin zu dynamisch aufbereiteten Webseiten steht die Person jedoch immer noch im Vordergrund. Maschinen können Webseiten nur schwer automatisch verarbeiten. Das “Semantic Web” soll hier Abhilfe schaffen, indem zusätzliche Daten an Webseiten beziehungsweise “Semantik” zu der Information hinzugefügt werden, die die Maschinen automatisch bearbeiten können. Damit sind sie dazu in der Lage, Information zu extrahieren und Entscheidungen zu fällen. Sie könnten dann beispielsweise automatisch einen Arztbesuch ausmachen oder einen Trip automatisch planen inklusive Flugzeug-, Hotel- und Mietwagen-Reservierung.

Eine Ihrer zentralen Arbeiten ist ein Programm, das Computer mit dem Ziel vernetzt, Aufgaben auf Tausenden von PCs getrennt zu bearbeiten und die Teillösungen am Ende wieder zusammenzuführen. In welchen Fällen findet das Programm Anwendung?

Kraft: Die Idee ist bereits einige Jahre alt. Mit der Arbeit wurde der Grundstein für das so genannte “Grid Computing” gelegt. Derzeit sind die Forscher sehr aktiv in diesem Bereich, die entsprechenden Technologien sind hauptsächlich für anspruchsvolle wissenschaftliche Berechnungen interessant. Es spricht aber nichts dagegen, sich dieser Technologie auch für kommerzielle Anwendungen zu bedienen. Der Bereich hat das Potenzial für viele interessante Entwicklungen während der kommenden Jahre.

Wie stellen Sie sich die Informationsbeschaffung beziehungsweise Suchvorgänge der Zukunft vor?

Kraft: Intelligente Suchmaschinen, die dezentral arbeiten und von ihren Benutzern lernen, automatisch ihre Suchergebnisse zu verbessern. Das “Semantic Web” kann in diesem Zusammenhang helfen, gezieltere Abfragen zu befriedigen. Das wird wahrscheinlich viele Forscher, einschließlich mich selbst, für die kommenden Jahre beschäftigen.

Was ist Ihr persönliches Motto?

Kraft: Kreativ sein und versuchen, mit neuen Ideen die Informations-Technologien weiterzuentwickeln.

Tags: ,

Leave a Reply