400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
YMatrix 文档
关于 YMatrix
标准集群部署
数据写入
数据迁移
数据查询
运维监控
参考指南
工具指南
数据类型
存储引擎
执行引擎
系统配置参数
SQL 参考
常见问题(FAQ)
新架构 FAQ
集群部署 FAQ
SQL 查询 FAQ
MatrixGate FAQ
运维 FAQ
监控告警 FAQ
PXF FAQ
PLPython FAQ
性能 FAQ
收集有关一个数据库的统计信息。
ANALYZE [VERBOSE] [table [ (column [, ...] ) ]]
ANALYZE [VERBOSE] {root_partition_table_name|leaf_partition_table_name} [ (column [, ...] )]
ANALYZE [VERBOSE] ROOTPARTITION {ALL | root_partition_table_name [ (column [, ...] )]}
ANALYZE 收集有关数据库中表内容的统计信息,并将结果存储在系统表 pg_statistic 中。 随后,YMatrix 数据库使用这些统计信息来帮助确定最有效的查询执行计划。
如果不使用任何参数,则 ANALYZE 会收集当前数据库中每个表的统计信息。 您可以指定表名称以收集单个表的统计信息。 您可以指定一组列名,在这种情况下,仅收集这些列的统计信息。
ANALYZE 不会收集外部表的统计信息。
对于分区表,ANALYZE 在叶子分区上收集其他统计信息,即 HyperLogLog(HLL)统计信息。 HLL 统计信息用于得出针对分区表的查询的不同值(NDV)数量。
{ root_partition_table_name | leaf_partition_table_name } [ (column [, ...] ) ]
ROOTPARTITION [ALL]
ANALYZE ROOTPARTITION sales_curr_yr;
VERBOSE
table
column
仅在明确选择外表时才进行分析。 并非所有外部数据包装器都支持 ANALYZE。 如果表的包装器不支持 ANALYZE,则该命令将显示警告并且不执行任何操作。
最好定期或在对表内容进行重大更改之后立即运行 ANALYZE。 准确的统计信息有助于 YMatrix 数据库选择最合适的查询计划,从而提高查询处理的速度。 只读数据库的常见策略是在一天的低使用时间内每天运行一次 VACUUM 和 ANALYZE。 (如果有大量更新活动,这是不够的。)您可以使用 gp_toolkit 模式中的 gp_stats_missing 视图来检查缺少统计信息的表:
SELECT * from gp_toolkit.gp_stats_missing;
ANALYZE 要求对目标表进行 SHARE UPDATE EXCLUSIVE 锁定。 此锁与以下锁冲突:SHARE UPDATE EXCLUSIVE,SHARE,SHARE ROW EXCLUSIVE,EXCLUSIVE,ACCESS EXCLUSIVE。
如果您在不包含数据的表上运行 ANALYZE,则不会为该表收集统计信息。 例如,如果您对具有统计信息的表执行 TRUNCATE 操作,然后对该表运行 ANALYZE,则统计信息不会更改。
对于分区表,如果分区表具有大量已分析的分区,而只有几个叶子分区具有分区,则指定要分析的表部分,根分区或子分区(叶子分区表)可能会有用 改变了。
对于包含已被交换以使用外部表的叶子分区的分区表,ANALYZE 不会收集外部表分区的统计信息:
YMatrix 数据库服务器配置参数 optimizer_analyze_root_partition 影响何时在分区表的根分区上收集统计信息。 如果该参数为 on(默认值),则在运行 ANALYZE 时,不需要 ROOTPARTITION 关键字来收集根分区上的统计信息。 在根分区上运行 ANALYZE 或在分区表的子叶分区上运行 ANALYZE 且其他子叶分区具有统计信息时,将收集根分区统计信息。 如果该参数是 off,则必须运行 ANALZYE ROOTPARTITION 来收集根分区统计信息。
ANALYZE 收集的统计信息通常包括每列中一些最常用值的列表以及显示每列中近似数据分布的直方图。 如果ANALYZE 认为它们不重要(例如,在唯一键列中没有公共值),或者列数据类型不支持适当的运算符,则可以忽略其中一个或两个。
对于大型表,ANALYZE 会从表内容中随机抽取一个样本,而不是检查每一行。这样就可以在很短的时间内分析非常大的表。但是请注意,统计信息仅是近似的,并且每次运行 ANALYZE 都会略有变化,即使实际的表内容没有变化。这可能会导致 EXPLAIN 所显示的计划者估算成本发生细微变化。在极少数情况下,这种不确定性将导致查询优化器在 ANALYZE 运行之间选择不同的查询计划。为了避免这种情况,请通过调整 default_statistics_target 配置参数来提高ANALYZE收集的统计信息的数量,或者通过使用 ALTER TABLE ... ALTER COLUMN ... SET (n_distinct ...)(请参阅 ALTER TABLE)。目标值设置最常用值列表中的最大条目数和直方图中的最大 bin 数。默认目标值是 100,但是可以向上或向下调整该值以权衡规划器估计的准确性与 ANALYZE 所花费的时间以及 pg_statistic 中占用的空间量。特别是,将统计目标设置为零会禁用该列的统计收集。对于从未用作查询的 WHERE,GROUP BY 或 ORDER BY 子句一部分的列,执行此操作可能很有用,因为计划器将不会使用此类列的统计信息。
要分析的列中最大的统计信息目标确定为准备统计信息而采样的表行数。 增加目标会导致进行 ANALYZE 所需的时间和空间成比例增加。
ANALYZE 估计的值之一是出现在每列中的不同值的数量。 因为仅检查了行的子集,所以即使使用最大可能的统计目标,此估计有时也可能非常不准确。 如果此错误导致查询计划不正确,则可以手动确定更准确的值,然后与 ALTER TABLE ... ALTER COLUMN ... SET STATISTICS DISTINCT 一起安装。
当 YMatrix 数据库执行ANALYZE操作以收集表的统计信息并检测到所有采样的表数据页均为空(不包含有效数据)时,YMatrix 数据库将显示一条消息,指出应该执行 VACUUM FULL 操作。 如果采样页为空,则表统计信息将不准确。 对表进行大量更改(例如删除大量行)后,页面将变为空。 VACUUM FULL 操作可删除空白页,并允许 ANALYZE 操作收集准确的统计信息。
如果该表没有统计信息,则服务器配置参数 gp_enable_relsize_collection 将控制 Postgres 查询优化器使用默认统计信息文件还是使用 pg_relation_size 函数估计表的大小。 默认情况下,如果统计信息不可用, Postgres 优化器将使用默认的统计信息文件来估计行数。
收集表 mytable 的统计信息:
ANALYZE mytable;
SQL 标准中没有 ANALYZE 语句。