Connecteur de source de fichier plat
Le connecteur de source Fichier plat dans DataSync vous permet de récupérer des données à partir de fichiers texte structurés tels que CSV et TXT pour un chargement ou une synchronisation dans votre entrepôt de données. Pour les gros fichiers, vous pouvez ajuster le balayage des lignes ou remplacer la détection automatique à l'aide d'un fichier Schema.ini personnalisé. Vous pouvez également vous connecter aux ressources CSV locales, réseau ou hébergées dans le cloud en définissant le paramètre URL et toutes les propriétés d'authentification requises.
Après avoir créé toutes les connexions sources requises, configurez votre connexion de destination pour finaliser la configuration.
Créer une connexion de source dans DataSync
- Connectez-vous à DataSync.
- À partir de l'écran d'accueil, sélectionnez Connections.
- À côté de Source Connections, cliquez sur New.
- Sélectionnez Fichier Plat.
- Dans le panneau Propriétés de la connexion, entrez les propriétés de connexion.
- (Optionnel) Dans le panneau Autres propriétés de la connexion, sélectionnez Ajouter une propriété et entrez les paramètres pour chaque propriété.
- Dans le panneau Paramètres avancés, configurez les paramètres, y compris le Type de suivi et d'autres valeurs selon vos besoins.
- Cliquez sur Save.
Paramètres
Propriétés de la connexion
| Paramètre | Description |
|---|---|
| Description | Nom unique pour la connexion. Exemple : Fichier Plat |
| URI | Emplacement du fichier source ou du dossier. Prend en charge les chemins locaux ou réseau et peut pointer vers un seul fichier CSV ou un dossier contenant plusieurs CSV. Exemples : C:\Data\SalesData.csv ou \\Serveur\Partage\Data |
| Inclure les types | Types de fichiers à inclure : CSV, TXT, ou les deux. |
| Délimiteur | Format utilisé pour l'analyse : Virgule, Onglet, ou Personnalisé. |
| Délimiteur personnalisé | Caractère utilisé lorsque le délimiteur est défini sur Personnalisé. Exemple : ; |
| Caractère de citation | Caractère utilisé pour citer les valeurs dans le fichier. |
| Principales lignes à ignorer | Nombre de lignes à ignorer en haut du fichier. |
| Exclure l'extension de fichier | Suppression de l'extension de fichier des noms de table lors de l'extraction. |
| La première ligne contient l'en-tête | Paramètre de la ligne d'en-tête où la première ligne est considérée comme les en-têtes de colonne. |
| Inclure les sous-répertoires | Inclusion de fichiers et de schema.ini des dossiers imbriqués. |
| Utiliser les numéros de ligne | Ajout d'une colonne RowNumber comme clé lors de la mise à jour ou de la suppression de fichiers CSV. |
| Verbosité |
|
| Activer la mise en Pool | Option de pooling de connexion pour la performance. |
| Délai d'inactivité du Pool | Temps d'inactivité maximal pour les connexions avant de les retourner au pool, en secondes. |
| Taille maximale du Pool | Nombre maximum de connexions autorisées dans le pool. |
| Temps d'attente du Pool | Temps d'attente maximal pour l'attribution de connexion avant qu'une erreur ne soit générée, en secondes. |
Autres propriétés de la connexion
Propriétés supplémentaires de chaîne de connexion non spécifiées dans le panneau Propriétés de la connexion. Pour chaque propriété ajoutée, vous pouvez choisir Visible ou Crypé. En sélectionnant Crypé, la valeur est cachée de l'interface et stockée de manière chiffrée dans l'arrière-plan, comme lors de la définition de mots de passe. Les propriétés typiques sont énumérées ci-dessous.
| Propriété | Valeur |
|---|---|
Charset | Codage des caractères pour le fichier source lorsqu'il est encodé en ANSI. Aucun paramètre n'est nécessaire pour les fichiers encodés en UTF‑8. Exemple: windows-1252 |
Culture | Format régional déterminant les séparateurs décimaux et de milliers. Doit correspondre entre les fichiers source/destination et la configuration de DataSync. Exemples: fr-FR pour les virgules ou en-US pour les points. |
RowScanDepth | Nombre de lignes analysées pour déterminer les types de données des colonnes de la table. Par défaut : 100. Exemples:
|
AggregateFiles | Tous les fichiers combinés à partir du répertoire URI dans une seule table appelée AggregatedFiles. Le schéma par défaut provient du premier fichier sauf si MetadataDiscoveryURI est défini.Exemple: agrégation de plusieurs CSV d'inventaire de produit. |
IncludeFiles | Liste de chaînes de caractères séparées par des virgules des extensions de fichiers autorisées. Par défaut : CSV,TXT,TAB. Prend en charge NOEXT pour les fichiers sans extensions et les archives (ZIP, TAR, GZ). Peut également filtrer par masques de fichiers et attributs de date/heure. Exemples: IncludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" ou IncludeFiles=2020*.csv,TXT |
ExcludeFiles | Liste de chaînes de caractères séparées par des virgules des extensions de fichiers exclues. Prend en charge les filtres de date/heure similaires à IncludeFiles. Exemple: ExcludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" |
InsertMode | Mode d'insertion dans les fichiers CSV:
|
CreateBatchFolder | Option de créer un dossier lorsque InsertMode est défini sur FilePerBatch. Par défaut : true. |
BatchNamingConvention | Format de nom pour les fichiers batch:
|
Paramètres avancés
Les paramètres avancés contrôlent comment le connecteur de fichier plat suit les changements, gère la configuration régionale et temporelle, et traite les lots de données lors de l'extraction. Ces options permettent un ajustement fin pour la performance et la précision, et doivent être configurées en fonction de votre environnement système et de vos exigences opérationnelles.
| Paramètre | Description |
|---|---|
| Tracking Type | Méthode pour suivre les changements : Aucun ou Date. |
| Region | Paramètre de région pour le connecteur, si requis par votre configuration. |
| Time Zone | Fuseau horaire correspondant au serveur d'application Fichier Plat. |
| Time Offset | Décalage de rafraîchissement en secondes pour compenser les problèmes de synchronisation dans la sélection des enregistrements. La valeur minimale est 0 ; la valeur maximale est 3600 secondes. |
| Batch Size | Quantité d'enregistrements traités dans chaque lot lors de l'extraction. Des tailles de lot plus grandes augmentent l'utilisation de la mémoire mais peuvent améliorer la performance jusqu'à un certain point. La valeur par défaut est 2000 et le maximum ne doit pas dépasser 10000 enregistrements. Ajustez selon votre vitesse réseau et la performance de votre disque ; dans la plupart des cas, la valeur par défaut (2000) fonctionne le mieux. |