有关gpfdist设置和性能

有关gpfdist设置和性能

考虑下列优化ETL网络性能的场景。

  • 允许网络流量同时使用所有的ETL主机网络接口卡(NIC)。在ETL主机上运行一个gpfdist实例,然后在 on the ETL host, then declare the host name of each NIC in the 用户的外部表定义(见创建外部表 - 例子)的LOCATION子句中声明每一个NIC的主机名。
图 1. 使用带多个NIC的单一gpfdist实例的外部表

  • 在ETL主机上的多个gpfdist实例之间平均划分外部表数据。例如,在一个有两个NIC的ETL系统上,运行两个gpfdist实例(每个NIC上一个)来优化数据装载性能并且在这两个gpfdist之间平均划分外部表数据文件。
图 2. 使用带多个NIC的多个gpfdist实例的外部表

注意: 当用户提交文件给gpfdist时,用竖线(|)来分隔格式化好的文本。Greenplum数据库将逗号分隔的文本字符串包括在单引号或者双引号中。gpfdist必须移除这些引号来解析字符串。使用竖线分隔格式化好的文本避免了这种额外的步骤并且可以改进性能。