CSV_READER

CSV_READER считывает данные из плоских файлов в формате CSV
. Этот шаг похож на FLAT_FILE_READER, но работает только с CSV-файлами.
Порты CSV_READER:
Тип порта | Номер | Обязательный | Описание | Метаданные |
---|---|---|---|---|
Output | 0 | да | Для корректных записей | Любые |
Атрибуты CSV_READER:
Атрибут | Обязательный | Описание | Возможные значения |
---|---|---|---|
fileURL | да | Путь к источнику данных (плоский файл) для чтения. Для обращения по FTP используйте шаблон ftp://username:password@hostname:port/path-to-file | ${READ_DIR}/in.txt |
charset | нет | Кодировка файла, читаемого с помощью этого шага. | encoding="windows-1251" |
dataPolicy | нет | Определяет обработку неправильно отформатированных или неверных данных. Может принимать значения "strict", "lenient" | dataPolicy="strict" по умолчанию |
trim | нет | Указывает, следует ли удалять начальные и конечные пробелы из строк в момент прохождения данных через CSV_READER. | trim="default" по умолчанию. Возможные значения: true, false, default |
header | нет | Указывает, следует ли удалять заголовок файла. | header="true" по умолчанию. Возможные значения: true, false |
quotedStrings | нет | Поля, содержащие специальные символы (запятая, новая строка или двойные кавычки), должны быть заключены в кавычки. В качестве символа кавычки принимаются только одинарные/двойные кавычки. Если установлено значение true, специальные символы не рассматриваются как разделители и удаляются при чтении компонентом. Пример: Чтобы прочитать входные данные "25"|"Джон", установите для параметра quotedStrings значение true и установите для символа кавычки значение quoteChar="" ". В результате будут получены два поля: 25|Джон. | quotedStrings="false" по умолчанию |
quoteChar | нет | Символы, в которые будет заключено значение поля при quotedStrings="true". | quoteChar="" " |
fieldDelimiter | нет | Разделитель полей | fieldDelimiter="," |
recordDelimiter | нет | Разделитель записей | recordDelimiter="/n" |
Обрезание данных
- Входные строки обрабатываются в соответствии с типом данных поля следующим образом:
- Пробелы удаляются как из начала, так и из конца поля для типов данных
boolean
,date
,integer
. - Входная строка остаётся полем, включающим начальные и конечные пробелы в случае типа данных
string
.
- Если для атрибута trim установлено значение
true
, все начальные и конечные пробельные символы удаляются. Поле, состоящее только из пробелов, преобразуется в нулевое значение (строка нулевой длины). Значениеfalse
подразумевает сохранение всех начальных и конечных символов пробелов. Входная строка может содержать пробелы только если представляет строковый тип данных. В случае trim = "default", поведение зависит от типа обрабатываемых данных: для типа string, значение строки останется с начальными и конечными пробелами, если они были, для остальных типов - пробелы будут убраны. По умолчанию trim="default".