Рекомендации по проектированию таблиц и распределению данных

Рекомендации по проектированию таблиц

В зависимости от характеристик различных движков хранения вы можете гибко создавать разные типы таблиц, соответствующие требованиям конкретных сценариев. Ниже приведены примеры для справки.

1. Таблицы MARS3

Таблицы MARS3 зависят от расширения matrixts. Перед созданием таблицы с использованием этого движка хранения необходимо сначала создать расширение в целевой базе данных.

Примечание!
Расширение matrixts применяется на уровне базы данных. Его достаточно создать один раз на базу данных; повторное создание не требуется.

=# CREATE EXTENSION matrixts;

При создании таблицы используйте USING MARS3 для указания движка хранения и ORDER BY для определения ключа сортировки. Пример базового создания таблицы:

=# CREATE TABLE mars3(
    time timestamp with time zone,
    tag_id int,
    i4 int4,
    i8 int8
)
USING MARS3 ORDER BY (tag_id, time);

Дополнительно рассмотрим типичный пример сценария временных рядов в IoT:

=# CREATE TABLE vehicle_basic_data_mars3(
  daq_time timestamp ,
  vin varchar(32)  COLLATE "C" ,
  lng float ,
  lat float ,
  speed float ,
  license_template varchar(16) ,
  flag integer
)
USING MARS3
WITH (compresstype=auto, automode=2, compress_threshold=1200,
        mars3options='rowstore_size=64')
DISTRIBUTED BY (vin)
ORDER BY (vin, daq_time)
PARTITION BY RANGE (daq_time)
( START ('2022-07-01 00:00:00') INCLUSIVE
  END ('2022-08-01 00:00:00') EXCLUSIVE
  EVERY (INTERVAL '1 day')
,DEFAULT PARTITION OTHERS);

После успешного создания таблицы MARS3 рекомендуется создать индекс mars3_brin по ключу сортировки. Индекс mars3_brin является разреженным, оказывает минимальное влияние на объём диска и производительность вставки. В сочетании с упорядоченной природой ключа сортировки он обеспечивает оптимальную эффективность запросов по столбцам ключа сортировки.

Индексы mars3_brin также можно создавать по столбцам, не входящим в ключ сортировки. Однако без преимущества упорядоченности данных производительность запросов может быть несколько снижена. Добавляйте такие индексы по мере необходимости.

=# CREATE INDEX idx_mars3 ON vehicle_basic_data_mars3 USING mars3_brin(vin, daq_time);

Ниже приведены рекомендации, основанные на параметрах и операторах из примера выше:

Примечание!
Мы рекомендуем следовать предложенным принципам проектирования, но не советуем копировать их бездумно. Сценарии временных рядов сильно различаются; поэтому анализ каждого конкретного случая остаётся обязательным.

Выбор ключа сортировки

Проектирование таблицы должно учитывать выбор ключа сортировки. Цель ключа сортировки — обеспечить физическое совместное размещение данных в одном временном измерении или с похожими атрибутами. Это снижает количество операций поиска при вводе-выводе и повышает эффективность запросов. Следовательно, выбор ключа сортировки должен соответствовать основным шаблонам бизнес-запросов.

Если требуется точечный поиск по одному устройству, ключом сортировки должен быть идентификатор устройства (vin) в контексте временного ряда.
Если требуется детальный запрос, агрегация или запрос по нескольким устройствам в заданном временном диапазоне для одного устройства, ключом сортировки должен быть (vin, daq_time).

Рекомендуется выбирать поле уникального идентификатора субъекта данных. Если доступна метка времени, добавьте её перед полем идентификатора, чтобы сформировать ключ сортировки. В примере ключ сортировки — (vin, daq_time).

`COLLATE "C"`

Эта опция должна применяться только к полю кодировки устройства; другие поля в ней не нуждаются. Использование этой опции улучшает скорость сортировки и выполнения запросов для текстовых столбцов.

`USING MARS3`

Это фиксированный синтаксис, необходимый для создания таблицы MARS3. Не изменяйте это содержимое.

Параметры `WITH (...)`

Пример: WITH (compresstype=auto, automode=2, compress_threshold=1200, mars3options='rowstore_size=64, nbuckets = 2')

compresstype=auto, automode=2: Используется типизированный кодировщик, который является методом сжатия по умолчанию в 6.8.2 и выше, с приоритетом скорости кодирования и декодирования. Если нужно явно использовать универсальный алгоритм сжатия, можно выбрать zstd, lz4 или другой поддерживаемый метод. Для пользовательских схем сжатия см. Using Compression.
rowstore_size=64: Устанавливает размер L0 Run в 64 МБ. Порог сжатия установлен в 1200 строк.
nbuckets = 2: Устанавливает количество bucket в 2. Допустимые значения nbuckets — от 1 до 128. Значение по умолчанию — 1, что означает отсутствие bucketing. Подробности использования см. в разделе MARS3 Bucket Best Practices.

Примечание!
Bucket опирается на семантику hash-распределения. Для таблиц без hash-распределения режим Bucket не дает практического эффекта, и все данные помещаются в bucket 0.

Примечание!
Хотя значение nbuckets можно изменить после создания, изменение этого параметра вызывает полную перезапись таблицы. Чтобы предотвратить случайную потерю данных, текущая реализация предупреждает пользователя о необходимости перезаписи. Для фактического выполнения перезаписи необходимо включить специальный параметр GUC.

`DISTRIBUTED BY (vin)`

Используйте этот пункт для выбора ключа распределения. Ключ распределения определяет, как данные распределяются по узлам данных (Segments), что существенно влияет на производительность. Основные критерии выбора:

Минимизация перекоса данных: Обеспечьте равномерное распределение данных для максимального использования параллельного выполнения запросов.
Оптимизация соединений: При проектировании соединений между несколькими таблицами на этапе начального проектирования выравнивайте ключи соединения с ключами распределения, чтобы избежать ненужного перемещения данных.

В примере в качестве ключа распределения используется идентификатор устройства (vin). Это позволяет выполнять запросы к данным одного устройства локально, избегая накладных расходов на перераспределение данных между узлами.

`PARTITION BY RANGE (daq_time)`

Этот пункт указывает ключ секционирования для секционированной таблицы.

Рекомендуется использовать время в качестве ключа секционирования по двум причинам:

Это позволяет автоматически удалять устаревшие данные при использовании Автоматического управления секциями.
Это позволяет использовать pruning секций для фильтрации нерелевантных временных секций.

Размер секции должен составлять от одного до десяти миллионов строк. Слишком малое количество строк на секцию приводит к чрезмерному потреблению памяти для управления метаданными, а слишком большое — снижает эффективность pruning и усложняет удаление устаревших данных. Слишком большое число секций также увеличивает накладные расходы catalog, relcache, DDL, autovacuum и фонового управления, поэтому не следует механически дробить секции только по временной гранулярности.

В примере в качестве ключа секционирования используется время сбора данных (daq_time). Большинство запросов включают фильтрацию по этому времени. Например, для запроса данных за последний день добавьте условие WHERE daq_time >= CURRENT_DATE - INTERVAL '1 day'. База данных быстро определит соответствующие подтаблицы, найдёт данные и эффективно выполнит запрос.

`START ... END ... EVERY ... DEFAULT PARTITION OTHERS`

START ('2022-07-01 00:00:00') INCLUSIVE END ('2022-08-01 00:00:00') EXCLUSIVE: Определяет диапазон для начальной секции: с 1 июля 2022 года в полночь (включительно) до 1 августа 2022 года в полночь (исключительно).
EVERY (INTERVAL '1 day'): Подсекции имеют временной интервал в один день. В зависимости от объёма данных также можно использовать интервалы hour, month или year.
- Если сервер получает от 1 до 10 миллионов записей в день, оптимальным будет интервал 1 day.
- Если ежедневный объём составляет сотни тысяч записей, подходит интервал 1 month.
- Если ежедневный объём менее 10 000 записей, достаточно интервала 1 year.
DEFAULT PARTITION OTHERS: Определяет секцию по умолчанию. Все данные, выходящие за пределы явно заданных диапазонов, будут сохранены здесь.

Достижение оптимальной производительности запросов с помощью `VACUUM` / `VACUUM FULL`

Функциональность: Выполнение VACUUM преобразует неупорядоченные Runs на основе строк в упорядоченные Runs на основе столбцов. VACUUM FULL выполняет действия VACUUM и дополнительно объединяет несколько Runs в один, обеспечивая превосходную производительность запросов. Однако VACUUM FULL требует эксклюзивной блокировки целевой таблицы, запрещая одновременный доступ.
Время выполнения:
- При непрерывной загрузке данных в таблицы MARS3 операции очистки обычно не требуются немедленно.
- После стабилизации данных выполните операции очистки перед запуском запросов.
- После значительных изменений данных в базе данных или конкретной таблице немедленно запустите операции очистки после обновления.

Режим уникальности для сценариев пакетной передачи данных

Если устройства передают данные пакетами с одинаковой меткой времени, MARS3 может объединять дублирующиеся записи (одинаковые daq_time и vin).

Чтобы включить эту функцию, необходимо вручную указать uniquemode=true при создании таблицы, так как значение по умолчанию — false.

При uniquemode=true: Если устройство 'A01' отправляет три записи в '2022-01-01 00:00:00', система сохраняет только последнюю запись, перезаписывая две предыдущие.
При uniquemode=false (по умолчанию): Все три записи сохраняются без изменений.

Примечание!
Если включён Unique Mode, первый столбец в предложении ORDER BY должен быть определён с ограничением NOT NULL. Unique Mode в MARS3 поддерживает DELETE, но не поддерживает явный UPDATE. Для обновления данных по тому же Unique Key вставьте новую запись с тем же Unique Key.

Пример создания таблицы с Unique Mode:

=# CREATE TABLE vehicle_basic_data_mars3_um(
  daq_time timestamp ,
  vin varchar(32)  COLLATE "C" NOT NULL,
  lng float ,
  lat float ,
  speed float ,
  license_template varchar(16) ,
  flag integer
)
USING MARS3
WITH (compresstype=auto, automode=2, compress_threshold=1200, uniquemode=true,
        mars3options='rowstore_size=64')
DISTRIBUTED BY (vin)
ORDER BY (vin, daq_time)
PARTITION BY RANGE (daq_time)
( START ('2022-07-01 00:00:00') INCLUSIVE
  END ('2022-08-01 00:00:00') EXCLUSIVE
  EVERY (INTERVAL '1 day')
,DEFAULT PARTITION OTHERS);

2. Таблицы HEAP

Таблицы HEAP являются движком хранения по умолчанию в YMatrix. Если вы не укажете явно движок хранения при создании таблицы, система по умолчанию создаст таблицу HEAP.

=# CREATE TABLE disk_heap(
    time timestamp with time zone,
    tag_id int,
    read float,
    write float
)
DISTRIBUTED BY (tag_id);

3. Таблицы AORO

Таблицы AORO — это append-only таблицы с ориентацией на строки.
AORO поддерживает сжатие на уровне таблицы, но не поддерживает сжатие на уровне столбца.

=# CREATE TABLE disk_aoro(
    time timestamp with time zone,
    tag_id int,
    read float,
    write float
)
WITH(appendonly=true, orientation=row, compresstype=zlib, compresslevel=4)
DISTRIBUTED BY (tag_id);

Рекомендации: выбор между HEAP и AO

Рекомендации по выбору между таблицами HEAP и AO следующие:

Используйте движок хранения HEAP для таблиц и секций, которые часто обновляются, удаляются или в которые выполняются вставки по одной строке.
Используйте движок хранения HEAP для таблиц и секций, подверженных одновременным обновлениям, удалениям и вставкам.
Используйте движок хранения AO для таблиц и секций, которые изначально загружаются и редко обновляются в дальнейшем, а последующие вставки выполняются только пакетными операциями. Никогда не выполняйте одиночные обновления, удаления или вставки по одной строке в таблицах AO. Поддерживаются одновременные пакетные вставки, но одновременные пакетные обновления или удаления не разрешены.
Пространство, занимаемое обновлёнными или удалёнными строками в таблицах AO, не освобождается и не переиспользуется так эффективно, как в таблицах HEAP. Поэтому движок хранения AO не подходит для часто обновляемых таблиц. Его цель — поддержка крупных таблиц с однократной загрузкой, редкими обновлениями и частыми аналитическими запросами.

Итог: рекомендации по проектированию таблиц и распределению данных

Движки хранения и стратегии распределения данных YMatrix предоставляют гибкие и эффективные решения для различных бизнес-сценариев.

Пользователи могут делать выбор на основе нескольких измерений: «Тип бизнеса (OLAP/OLTP/гибридный) + Характеристики данных (объём/частота обновлений) + Требования к запросам (измерения/методы соединения)»:

Выбор движка хранения: отдавайте предпочтение движку MARS3 для гибридных сценариев; выбирайте таблицы AO для чисто аналитических нагрузок; используйте HEAP для транзакционных нагрузок.
Стратегия распределения: применяйте хеш-распределение для основных бизнес-таблиц, реплицированное распределение — для небольших справочных таблиц и случайное распределение — для временных таблиц.

Благодаря научному подходу к выбору вы сможете максимально раскрыть производительность кластера YMatrix и добиться эффективного взаимодействия между хранением данных и обработкой запросов.

← Предыдущая

Лучшие практики DDL

Подключение: Executor

Русский

English

简体中文

Рекомендации по проектированию таблиц и распределению данных