Einen Dateistapel über eine Datendatei importieren
Der Therefore™ Document Loader kann verwendet werden , um einen Dateistapel in Therefore™ zu importieren, wenn die Indexdaten in einer zugehörigen Datendatei enthalten sind In der folgenden Anleitung wird der Importvorgang beschrieben, mit verschiedenen Schritten je nach dem Datendateityp.
-
Bevor Sie ein Profil erstellen können, muss in Therefore™ eine geeignete Kategorie existieren, in der die exportierten Dokumente gespeichert werden können. In dieser Phase ist ein gewisses Maß an Überlegung und Planung erforderlich, denn eine gute Indexierung führt später zu einer besseren Verarbeitung der Dokumente.
-
Starten Sie den Document Loader und klicken Sie unter "Profil" auf "Neu".
Hinweis: Profile können auch in Therefore™ Solution Designer erstellt und verwaltet werden.
-
Das Dialogfeld "Profil" wird geöffnet. Geben Sie einen Namen für das Profil ein. Im nächsten Schritt richten Sie einen Datenextraktor ein, um die Indexdaten aus der Datendatei zu extrahieren. Klicken Sie auf die Schaltfläche "Durchsuchen" für den Datenextraktor. Gehen Sie dann wie folgt vor, je nach dem Typ der Datei, in der die Daten enthalten sind:
Datendateityp ist XML
-
Wählen Sie "XML-Datenextraktor" in der Dropdownliste.
-
Das Dialogfeld "Datenextraktor" wird geöffnet und Sie sehen eine Vorschau der XML-Datei. Das XML-Tag, das das Dokument definiert, muss hier festgelegt werden. Alle Dokumentinformationen werden dann zwischen Einträgen dieses Tags gespeichert. Wenn das Tag beispielsweise "Rechnung" ist, würden die Informationen zwischen jeweils zwischen <Rechnung> und </Rechnung> erscheinen.
-
Der Datenextraktor kann jetzt alle Indexfeld-Tags extrahieren, die später zum Zuweisen der Kategoriefelder verwendet werden.
-
Bevor Sie fortfahren, müssen Sie prüfen, welches Tag die Referenzdateien definiert, die den Inhalt des Dokuments bilden. Notieren Sie sich dieses Tag, denn es wird im nächsten Schritt der Profilerstellung verwendet. Dies ist nicht erforderlich, wenn die XML-Datendatei selbst die Datei ist, die gespeichert werden soll.
Datendateityp ist textbasiert (z. B. TXT, CSV, DAT)
-
Wählen Sie "Text-Zeile-Datenextraktor".
-
Das Dialogfeld "Datenextraktor" wird geöffnet und Sie sehen eine Vorschau der Textdatei. Geben Sie das Trennzeichen an. Daraufhin werden die Teilenummern mit Werten automatisch aufgelistet.
-
Geben Sie Namen für die Teilenummern (Indexdatenfelder) ein, die extrahiert werden sollen. Je nachdem, welches Feld zum Identifizieren getrennter Dokumente verwendet werden soll, wählen Sie unter "Dokumentumbruch" die Option "Bei Änderung" aus. Darüber hinaus können Sie die Einstellungen für Anführungszeichen entsprechend den Einstellungen in der Textdatei einrichten.
-
Nachdem Sie alle Indexfelder definiert haben, müssen Sie den Teil benennen, der die Referenzdateien mit dem Inhalt des Dokuments definiert. Klicken Sie auf "OK", um den Datenextraktor zu schließen.
Nachdem Sie einen Extraktor konfiguriert haben, fahren Sie mit den folgenden Schritten fort.
-
-
Klicken Sie auf die Schaltfläche "Durchsuchen" für Skripte und geben Sie das folgende Skript ein: FilesToSave = ExtractList("Dateiname"). Dabei ist "Dateiname" der Name des Tags, das die Referenzdateien mit dem Inhalt des Dokuments definiert. Der Befehl "ExtractList" wird verwendet, da ein Dokument mehrere referenzierte Dateien enthalten kann.
-
Wählen Sie die Kategorie aus, in der die Dokumente gespeichert werden sollen. Wenn "Automatisch anfügen" in den Kategorieeigenschaften konfiguriert ist, können Sie diesen Modus anders einstellen als für die Kategorie vorgegeben. Die Felder der Kategorie können jetzt den Indexfeldern zugeordnet werden, die Sie in den Schritten oben identifiziert haben. Klicken Sie auf die Dropdownliste vor jedem Kategoriefeld und wählen Sie das entsprechende Indexfeld aus.
-
Testen Sie das Profil, indem Sie auf "Testen" klicken und eine Testdatei auswählen. Klicken Sie auf "Speichern", um das Indexierungsprofil zu speichern.
-
Geben Sie den Speicherort für die zu importierende Datendatei und für die Protokolldatei an. Wählen Sie das gewünschte Profil aus und klicken Sie auf "Verarbeiten", um mit dem Import der Dateien zu beginnen.
-
Starten Sie nach Abschluss des Imports den Therefore™ Navigator und prüfen Sie, ob der Vorgang ohne Probleme abgelaufen ist.
Unterschiedliche Datumsformate behandeln
Wenn das Datumsformat in den zu importierenden Dokumenten vom Datumsformat auf dem Computer abweicht, auf dem der Document Loader ausgeführt wird, können Sie die Funktion "ToDate" verwenden. Wenn Datumsangaben in den Dokumenten beispielsweise im Format TT.MM.JJJJ erscheinen und das System ein anderes Datumsformat verwendet, könnten Sie den folgenden Ausdruck in der Zuweisungsspalte der Indexprofilkonfiguration verwenden:
ToDate(Extract("Invoice Date"), "DD.MM.YYYY")
Positionszeilen
Für das Importieren von Zeilenelementen wird ein Skript benötigt, Nachfolgend finden Sie ein Beispiel für eine XML-Datendatei mit einer Tabelle namens "myTable", die die Spalten "Text" und "Number" enthält.
<myTable>
<Text> Text1 </Text>
<Number> 1 </Number>
</myTable>
<myTable>
<Text> Text2 </Text>
<Number> 2 </Number>
</myTable>
Informationen aus PDF-Inhalten extrahieren
-
Wählen Sie "PDF-Datenextraktor".
-
Das Dialogfeld "Datenextraktor" wird geöffnet und Sie sehen eine Vorschau der PDF-Datei. Ziehen Sie mit der Maus einen Bereich um die gewünschten Daten.
-
Das Dialogfeld "Neues Indexelement" wird geöffnet, in dem die Position in der Datei bereits vorgegeben ist. Geben Sie dem Element einen Namen und wählen Sie "Bei Änderung" für den Dokumentumbruch, wenn das Element als Indikator für den Dokumentumbruch verwendet werden soll. Klicken Sie auf "OK", um das Element zu speichern. Wiederholen Sie diesen Vorgang, um wie erforderlich weitere Indexdaten hinzuzufügen.
-
Definieren Sie ein zweites Indexierungsprofil, mit dem die Datendatei verarbeitet wird. Wählen Sie je nach Typ der erstellten Datendatei den entsprechenden Datenextraktor aus. In diesem Beispiel wird eine TXT-Datei verwendet, die die Namen und Pfade der zu importierenden PDF-Dateien enthält.
-
Fügen Sie das folgende Skript zu diesem Indexierungsprofil hinzu:
KopierenExecuteProfile "PDF Import Test Profile", Extract("PDF file")\
FilesToSave = Extract("PDF file")
Dabei ist "PDF-Import-Testprofil" der Name des ursprünglich erstellten PDF-Datenextraktionsprofils und "PDF-Datei" ist der Name des Felds, das im "Text-Zeile-Datenextraktor" für den Dokumentumbruch definiert ist. Mit diesem Skript ruft das Profil zuerst das PDF-Extraktor-Profil auf und es extrahiert und speichert die Daten für jede verarbeitete PDF-Datei. -
Beachten Sie, dass das Feld "Skript" im Indexierungsprofil rot erscheint, was darauf anzeigt, dass das Skript ungültig ist. Dies kann ignoriert werden, da das Skript korrekt ausgeführt wird.
-
Wählen Sie im Therefore™ Document Loader die Datendatei und das Profil mit dem Text-Zeile-Datenextraktor aus. Klicken Sie auf "Verarbeiten", um den Importvorgang zu starten.
Siehe auch:
Beispielskripte für Indexierungsprofile