ApolloText

Intelligente Dokumentensuche


Apollo bietet erstmals Intelligenz bei der Suche und Analyse von Texten. Da mittlerweile der Anteil unstrukturierter Dokumente mehr als 85% beträgt, ist Apollo´s Fähigkeit zum Handling gerade solcher Dokumente von großem wirtschaftlichen Interesse.



1. Schreibweisenunabhängige Suche

Es werden alle Worte im Zieltext gesucht, deren Schreibweise ähnlich zum eingegeben Wort ist. Damit werden automatisch alle Wortformen (Singular/Plural etc.) sowie ggf. falsch geschriebene Worte gefunden. Optional kann dies mit einer grammatikalischen Prüfung (sprachabhängig) verknüpft werden bei der Suchworte mit übereinstimmender Stammform bevorzugt werden.
Beispiel: gesucht sei "Verfehlung"

Im Zieltext gefunden werden "Verfehlungen" und "Empfehlung". Bei einer Berücksichtung der gemeinsamen Stammform von "Verfehlung" und "Verfehlungen" ist die Ähnlichkeit dann wesentlich höher, damit erscheinen diese Treffer auch weiter oben im Ranking.

Anmerkung: grundsätzlich werden immer alle möglichen Treffer gefunden, zusätzliche Selektionskriterien verschieben nur die Reihenfolge.

Die Grammatikprüfung ist deshalb optional, da sie bei Eigennamen keinen Sinn macht und kontraproduktiv ist. Über die Verwendung der Grammatikprüfung entscheidet die Auswertung der Suchergebnisse: Wenn das eingegebene Wort als Name bekannt ist (Eigenname, geografische Bezeichnung etc.) sollte eine Prüfung auf Stammformen etc. entfallen.



2. Verwendung von Syntaxinformation

Bei einer Sucheingabe aus mehreren Worten wird vor dem eigentlichen Suchvorgang eine Syntaxüberprüfung der Eingabe vorgenommen (sprachabhängig). Dabei können sowohl fehlende Eigenschaften von Suchworten ergänzt (z.B. Erkennung eines mehrdeutigen Worts als Nomen durch einen vorangestellten Artikel) als auch suchmodifizierende Aussagen extrahiert werden. Dies gilt vor allem für Negationen (..hat keine .. oder ...ist nicht...), die bei der Auswertung der Suchergebnisse mitberücksichtig werden müssen.

Anmerkung: Diese Art von Information wird zu einem eingelernten Satz bereits beim Einlernen extrahiert, da ja ein Satz als "Aussage" komplett mit den zugehörigen syntaktischen und semantischen Eigenschaften eingetragen wird.



3. Bedeutungsabhängige Suche

Für jedes Suchwort (genauer: für jeden eingegebenen Suchbegriff, der auch aus einem kompletten Satz bestehen kann) wird in einem ersten Schritt aus einem vortrainierten Assoziativspeicher eine Menge von Begriffen mit ähnlicher Bedeutung extrahiert. Diese Begriffe werden mit den schreibweisenabhängigen Begriffen zur Suche verwendet. Die relative Gewichtung von assoziativer und schreibweisenabhängiger Suche kann über einen Gewichtungsparameter kontinuierlich verändert werden (.0 => nur Schreibweise; 1.0 => nur Assoziationen).


4. Einlernen von Texten

Grundsätzlich können beliebige Texte in beliebigen Sprachen eingelernt werden. Aus Effizienzgründen sollten hier aber Sprachabhängigkeiten berücksichtigt werden:

a) Sprache ist völlig unbekannt

In diesem Fall existiert keine "Weltwissen" zu dieser Sprache. Das notwendige Weltwissen wird dabei während der Trainingsphase aufgebaut, wobei hier vermutlich nur die Worte selbst mit ihren verschiedenen Schreibweisen, grundsätzliche Satzstrukturen sowie Statistiken über die Auftrittshäufigkeiten gefunden werden. Diese Informationen reichen allerdings bereits aus um Funktionen wie "automatische Stopworterkennung", grobe Syntaxinformationen (Adjektiv/Nomen-Strukturen etc.) und andere einfache Dinge zu ermöglichen.
Die Einteilung der zu extrahierenden "bedeutungstragenden Einheit" als Satz ist auf dieser Ebene nur über die Formatierung (Satzzeichen, Absätze) möglich.

b) bekannte Sprache mit unvollständigem Weltwissen

Zwar werden auch hier unbekannte Worte neu in das Weltwissen mit aufgenommen, über das vorhandene prozedurale und lexikalische Wissen über diese Sprache können aber auch neuen Worte häufig zusätzliche Merkmale zugeordnet werden:
Wenn eine Sprache Artikel benutzt (prozedurale Information) und ein neues Wort nach einem Artikel und vor einem Verb steht dann ist das Wort vermutlich ein Nomen. Dessen Stammform kann dann (vor allem bei Verwendung eines morphologischen Lexikons) aus den Angaben zum Artikel sowie den bekannten Zerlegungsalgorithmen (Vorsilben, pre- postfix,..) erschlossen werden.
Auf diese Weise ergibt sich automatisch beim Einlernen größerer (sinnvoller!!) Textmengen eine Erweiterung der Weltwissensbasis. Diese Information kann dann auch für eine bessere Form der Extraktion von Sätzen etc. verwendet werden.

c) vollständiges Weltwissen

In diesem Fall ist neben dem wortbasierten Anteil und der syntaktischen Information zur Grammatik der Sprache auch Assoziativwissen vorhanden. Dies ermöglicht die oben angesprochene Assoziativsuche aber auch eine Verbesserung der Erkennung von neuen Worten beim Einlernen von unbekannten Texten. Auch eine automatische Erweiterung und Verbesserung des prozeduralen Wissens ist hier möglich.



5. Einlernen von Assoziativwissen

Zu diesem Zweck werden dem System Texte angeboten, die sinnvolle Aussagen in grammatikalisch im wesentlichen korrekter Form zu einem bestimmten Thema enthalten. Zusätzlich zum "Allgemeinwissen" wie es z.B. in einer Enzyklopädie enthalten ist, kann damit auch Spezialwissen zu bestimmten Themen (Rechtswissenschaften, Naturwissenschaft allgemein, Astronomie..) eingelernt werden. Dieses Wissen verbreitert dann die Basis für die Assoziativsuche.
Anmerkung: Auch bei dieser Art von Training wird das Weltwissen selbst parallel erweitert. Insbesondere der Wortschatz wird sich hier sachbezogen vergrößern, was auch die Voraussetzung für die Verbesserung der Suche ist.

2008 superWise Technologies AG | Impressum | Kontakt