Aller au contenu principal

Connecteur de source de fichier plat

Le connecteur de source Fichier plat dans DataSync vous permet de récupérer des données à partir de fichiers texte structurés tels que CSV et TXT pour un chargement ou une synchronisation dans votre entrepôt de données. Pour les gros fichiers, vous pouvez ajuster le balayage des lignes ou remplacer la détection automatique à l'aide d'un fichier Schema.ini personnalisé. Vous pouvez également vous connecter aux ressources CSV locales, réseau ou hébergées dans le cloud en définissant le paramètre URL et toutes les propriétés d'authentification requises.

Après avoir créé toutes les connexions sources requises, configurez votre connexion de destination pour finaliser la configuration.

Créer une connexion de source dans DataSync

  1. Connectez-vous à DataSync.
  2. À partir de l'écran d'accueil, sélectionnez Connections.
  3. À côté de Source Connections, cliquez sur New.
  4. Sélectionnez Fichier Plat.
  5. Dans le panneau Propriétés de la connexion, entrez les propriétés de connexion.
  6. (Optionnel) Dans le panneau Autres propriétés de la connexion, sélectionnez Ajouter une propriété et entrez les paramètres pour chaque propriété.
  7. Dans le panneau Paramètres avancés, configurez les paramètres, y compris le Type de suivi et d'autres valeurs selon vos besoins.
  8. Cliquez sur Save.

Paramètres

Propriétés de la connexion

ParamètreDescription
DescriptionNom unique pour la connexion. Exemple : Fichier Plat
URIEmplacement du fichier source ou du dossier. Prend en charge les chemins locaux ou réseau et peut pointer vers un seul fichier CSV ou un dossier contenant plusieurs CSV.
Exemples : C:\Data\SalesData.csv ou \\Serveur\Partage\Data
Inclure les typesTypes de fichiers à inclure : CSV, TXT, ou les deux.
DélimiteurFormat utilisé pour l'analyse : Virgule, Onglet, ou Personnalisé.
Délimiteur personnaliséCaractère utilisé lorsque le délimiteur est défini sur Personnalisé. Exemple : ;
Caractère de citationCaractère utilisé pour citer les valeurs dans le fichier.
Principales lignes à ignorerNombre de lignes à ignorer en haut du fichier.
Exclure l'extension de fichierSuppression de l'extension de fichier des noms de table lors de l'extraction.
La première ligne contient l'en-têteParamètre de la ligne d'en-tête où la première ligne est considérée comme les en-têtes de colonne.
Inclure les sous-répertoiresInclusion de fichiers et de schema.ini des dossiers imbriqués.
Utiliser les numéros de ligneAjout d'une colonne RowNumber comme clé lors de la mise à jour ou de la suppression de fichiers CSV.
Verbosité
  • 1 – Journal des requêtes, des comptes de lignes, début/fin d'exécution, erreurs.
  • 2 – Inclut le niveau 1 plus les requêtes de cache, les en-têtes HTTP.
  • 3 – Inclut le niveau 2 plus les corps de requête/réponse.
  • 4 – Inclut le niveau 3 plus la communication au niveau du transport.
  • 5 – Inclut le niveau 4 plus toutes les commandes d'interface.
Activer la mise en PoolOption de pooling de connexion pour la performance.
Délai d'inactivité du PoolTemps d'inactivité maximal pour les connexions avant de les retourner au pool, en secondes.
Taille maximale du PoolNombre maximum de connexions autorisées dans le pool.
Temps d'attente du PoolTemps d'attente maximal pour l'attribution de connexion avant qu'une erreur ne soit générée, en secondes.

Autres propriétés de la connexion

Propriétés supplémentaires de chaîne de connexion non spécifiées dans le panneau Propriétés de la connexion. Pour chaque propriété ajoutée, vous pouvez choisir Visible ou Crypé. En sélectionnant Crypé, la valeur est cachée de l'interface et stockée de manière chiffrée dans l'arrière-plan, comme lors de la définition de mots de passe. Les propriétés typiques sont énumérées ci-dessous.

PropriétéValeur
CharsetCodage des caractères pour le fichier source lorsqu'il est encodé en ANSI. Aucun paramètre n'est nécessaire pour les fichiers encodés en UTF‑8.
Exemple: windows-1252
CultureFormat régional déterminant les séparateurs décimaux et de milliers. Doit correspondre entre les fichiers source/destination et la configuration de DataSync.
Exemples: fr-FR pour les virgules ou en-US pour les points.
RowScanDepthNombre de lignes analysées pour déterminer les types de données des colonnes de la table. Par défaut : 100.
Exemples:

  • 5000 pour analyser plus de lignes avec précision.
  • 0 analyse le fichier entier.
AggregateFilesTous les fichiers combinés à partir du répertoire URI dans une seule table appelée AggregatedFiles. Le schéma par défaut provient du premier fichier sauf si MetadataDiscoveryURI est défini.
Exemple: agrégation de plusieurs CSV d'inventaire de produit.
IncludeFilesListe de chaînes de caractères séparées par des virgules des extensions de fichiers autorisées. Par défaut : CSV,TXT,TAB. Prend en charge NOEXT pour les fichiers sans extensions et les archives (ZIP, TAR, GZ). Peut également filtrer par masques de fichiers et attributs de date/heure.
Exemples:
IncludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" ou
IncludeFiles=2020*.csv,TXT
ExcludeFilesListe de chaînes de caractères séparées par des virgules des extensions de fichiers exclues. Prend en charge les filtres de date/heure similaires à IncludeFiles.
Exemple: ExcludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'"
InsertModeMode d'insertion dans les fichiers CSV:

  • FilePerBatch – Crée un nouveau CSV par lot (obligatoire pour NEC Cloud).
  • SingleFile – Insère toutes les données dans un seul fichier, uniquement pour les chemins locaux/réseau.
CreateBatchFolderOption de créer un dossier lorsque InsertMode est défini sur FilePerBatch. Par défaut : true.
BatchNamingConventionFormat de nom pour les fichiers batch:

  • Timestamp_BatchNumberyyyyMMddhhmmssSSS_batchNumber.
  • TableName_BatchNumberTableName_batchNumber.csv (par défaut).

Paramètres avancés

Les paramètres avancés contrôlent comment le connecteur de fichier plat suit les changements, gère la configuration régionale et temporelle, et traite les lots de données lors de l'extraction. Ces options permettent un ajustement fin pour la performance et la précision, et doivent être configurées en fonction de votre environnement système et de vos exigences opérationnelles.

ParamètreDescription
Tracking TypeMéthode pour suivre les changements : Aucun ou Date.
RegionParamètre de région pour le connecteur, si requis par votre configuration.
Time ZoneFuseau horaire correspondant au serveur d'application Fichier Plat.
Time OffsetDécalage de rafraîchissement en secondes pour compenser les problèmes de synchronisation dans la sélection des enregistrements. La valeur minimale est 0 ; la valeur maximale est 3600 secondes.
Batch SizeQuantité d'enregistrements traités dans chaque lot lors de l'extraction. Des tailles de lot plus grandes augmentent l'utilisation de la mémoire mais peuvent améliorer la performance jusqu'à un certain point. La valeur par défaut est 2000 et le maximum ne doit pas dépasser 10000 enregistrements. Ajustez selon votre vitesse réseau et la performance de votre disque ; dans la plupart des cas, la valeur par défaut (2000) fonctionne le mieux.