Importation d’un lot de fichier à l'aide d'un fichier de données

Therefore™ Document Loader vous permet d'importer un lot de fichiers dans Therefore™ en plaçant les données d'index dans un fichier de données associé. Le didacticiel ci-dessous divise le processus d'importation en plusieurs étapes adaptées au type du fichier de données.

Avant de créer un profil d'importation, vous devez définir une catégorie appropriée dans Therefore™, dans laquelle seront mémorisés les documents exportés. Mettez au point une indexation adaptée, car elle a une incidence majeure sur le traitement futur des documents.

Démarrez Document Loader et cliquez sur Nouveau sous Profil.

Remarque :

Vous pouvez également créer et gérer les profils dans Therefore™ Solution Designer.

La boîte de dialogue Profil s'affiche. Entrez le nom du profil. L'étape suivante consiste à configurer un extracteur de données pour extraire les données d'index du fichier de données. Cliquez sur le bouton Parcourir associé au champ Extracteur de données. Suivez les instructions adaptées au type de fichier contenant les données :

Type de fichier : XML
1. Sélectionnez « Extracteur de données XML » dans la liste déroulante.
2. Un aperçu du fichier XML s'ouvre dans la boîte de dialogue « Extracteur de données ». Vous devez définir ici le marqueur XML qui définit le document. Toutes les informations concernant le document seront placées entre des instances de ce marqueur. À titre d'exemple, si le marqueur correspond à « Invoice », les informations sont placées entre <Invoice> et </Invoice>.
3. L'extracteur de données peut maintenant extraire tous les marqueurs de champ d'index qui seront utilisés ultérieurement pour mapper les affectations de champ de catégorie.
4. Avant de poursuivre la procédure, identifiez le marqueur du fichier XML qui définit les fichiers de référence qui composent le contenu du document. Prenez note de ce marqueur, que vous utiliserez à l'étape suivante de la création du profil. Il n'est pas nécessaire dans les cas de figure où le fichier de données XML en tant que tel doit être mémorisé.
Type de fichier : texte (TXT, CSV, DAT, etc.)
1. Sélectionnez « Extracteur de données de ligne de texte ».
2. Un aperçu du fichier texte s'ouvre dans la boîte de dialogue « Extracteur de données ». Renseignez le champ « Séparateur ». Les numéros de section contenant des valeurs sont automatiquement recensés.
3. Entrez le nom des numéros de section (champs de données d'index) à extraire. Selon le champ à utiliser pour identifier différents documents, sélectionnez « En cas de modification » dans « Interruption de document ». Selon les paramètres du fichier texte, vous pouvez également définir l'utilisation de guillemets.
4. Une fois tous les champs de données d’index spécifiés, assignez un nom à la section définissant les fichiers de référence qui composent le contenu du document. Cliquez sur OK pour fermer l'extracteur.
Une fois l'extracteur configuré, procédez comme suit.
Cliquez sur le bouton Parcourir associé au champ Script et entrez le script suivant : FilesToSave = ExtractList("FileName") où « FileName » est le nom du marqueur qui définit les fichiers de référence qui composent le contenu du document. La commande « ExtractList » est utilisée, car un document peut comporter plusieurs fichiers référencés.
Sélectionnez la catégorie dans laquelle seront mémorisés les documents. Si vous avez configuré l'ajout automatique dans les propriétés de la catégorie, vous pouvez spécifier dans Mode d'ajout automatique une option autre que Catégorie par défaut. Vous pouvez maintenant associer les champs de la catégorie aux champs d'index identifiés dans le cadre des étapes ci-dessus. Cliquez dans la liste déroulante devant chaque champ de catégorie et sélectionnez le champ d'index correspondant.
Pour tester le profil, cliquez sur « Test » et sélectionnez un fichier test. Cliquez sur Mémoriser pour mémoriser le profil d'indexation.
Indiquez l'emplacement du fichier de données à importer, ainsi que celui du fichier journal. Sélectionnez le profil approprié et cliquez sur « Processus » pour démarrer l'importation des fichiers.
Une fois l'importation terminée, démarrez Therefore™ Navigator et vérifiez qu'aucun problème n'a été détecté.

Gestion des formats de date

Lorsque le format de date des documents à importer n'est pas identique au format de date utilisé par le système d'exploitation de l'ordinateur sur lequel s'exécute Document Loader, vous pouvez utiliser la fonction « ToDate ». À titre d'exemple, si le format de date en vigueur dans les documents correspond à JJ.MM.AAAA, mais que le système utilise un autre format, entrez le script suivant dans la colonne Affectation de la configuration du profil d'indexation :

Copier

ToDate(Extract("Invoice Date"), "DD.MM.YYYY")

Lignes de facture

L'importation de lignes de facture nécessite l'utilisation d'un script. Vous trouverez ci-dessous un exemple relatif à un fichier de données XML et une table « myTable » contenant deux colonnes, « Text » et « Number ».

Copier

<myTable>
   <Text> Text1 </Text>
   <Number> 1 </Number>
</myTable>
<myTable>
   <Text> Text2 </Text>
   <Number> 2 </Number>
</myTable>

Extraction d'informations de contenus PDF

Sélectionnez « Extracteur de données PDF ».
Un aperçu du fichier texte s'ouvre dans la boîte de dialogue « Extracteur de données ». À l'aide du curseur de la souris, dessinez un rectangle autour des données requises.
Dans la boîte de dialogue d'indexation qui s'affiche, la position des données au sein du fichier est déjà renseignée. Assignez un nom à l'élément et sélectionnez « En cas de modification » si vous voulez utiliser cet élément en tant que séparateur de document. Cliquez sur OK pour mémoriser la configuration. Répétez cette procédure pour ajouter d'autres données d'index.
Définissez un second profil d'indexation qui traitera le fichier de données. Sélectionnez l'extracteur de données adapté au type de fichier de données créé. Cet exemple utilise un fichier TXT contenant le nom et le chemin des fichiers PDF à importer.
Ajoutez le script suivant à ce profil d'indexation :
Copier
```
ExecuteProfile "PDF Import Test Profile", Extract("PDF file")\
FilesToSave = Extract("PDF file")
```
Dans le script ci-dessus, « PDF Import Test Profile » est le nom du profil d'extraction de données PDF créé et « PDF file » identifie le champ défini dans « Extracteur de données de ligne de texte » en tant que séparateur de document. Avec ce script, le profil appelle d'abord le profil d'extraction de données PDF, puis extrait et mémorise les données pour chaque fichier PDF traité.
Notez que le champ « Script » dans le profil d'indexation s'affiche en rouge, ce qui signifie que le script n'est pas valide. N'en tenez pas compte, car le script s'exécutera correctement.
Dans Therefore™ Document Loader, sélectionnez le fichier de données et choisissez le profil associé à l'extracteur de données de ligne de texte. Cliquez sur Processus pour démarrer l'importation des fichiers.

Voir aussi :
Exemples de script associés aux profils d'indexation