Presse-Informationen
iX

  1. heise group
  2. Presse-Informationen
  3. iX

Zukunftsvisionen intelligent archivieren
iX-Report: Text-Mining auf der Weltausstellung

Hannover, 14. September 2000 - Im Expo-Themenpark "Planet of Visions" können Besucher auch ihre eigenen Zukunftsvisionen hinterlassen. Diese unzähligen Eingaben werden mittels eines neuen Verfahren zur Textanalyse, dem so genannten "Text Mining", ausgewertet. Wie dieses Verfahren funktioniert, erläutert iX, Magazin für professionelle Informationstechnik, in seiner aktuellen Ausgabe 10/2000.

Die Bibliothek der Visionen umfasst bei 1100 neuen Texten pro Tag mittlerweile rund 100.000 Dokumente. Darunter befinden sich, neben vielen Flapsigkeiten und Nonsens-Eingaben, so manche Bonmots, hellsichtige Prognosen und düstere Befürchtungen.

Um derartig große unstrukturierte Textmengen zu sichten, zu gliedern und weltweit lesbar zu machen, haben die Ausstellungsmacher auf Basis von IBMs Softwarepaket "Intelligent Miner For Text" eine 3D-Welt entworfen, in der die Texte thematisch in Leseräumen geordnet sind. Von jedem Raum aus führen Gänge mit bestimmten Bezügen zu anderen Themen. Über den Durchgängen der Leseräume und der Eingangshalle stehen als Orientierungshilfe die wichtigsten Oberbegriffe, die den Raum, respektive die darin liegenden Texte hinter dem Durchgang charakterisieren. Der Begriff, der den dahinter liegenden Cluster am genausten beschreibt, wird als erster und größter dargestellt.

Damit die Textbasis nicht durch ständige Wiederholungen und nichts sagende Statements unnütz aufgebläht wird, kommen etliche Tausend Zeilen Programmiercode zum Einsatz. Das ganze Projekt läuft auf zwei Windows-NT- und einem Linux-Rechner.

"Dieses Expo-Projekt", so iX-Redakteurin Kersten Auel, "könnte für so manche kommerzielle Anwendung von Bedeutung sein". Mittels Text Mining könnten Unternehmen aus der Flut täglich hereinströmender E-Mails herausfiltern, welche Probleme mit den eigenen Produkten gehäuft auftreten. Auch die unzähligen Suchergebnisse bei Anfragen im Web könnten mit diesem Verfahren besser und schneller strukturiert werden.