Релиз распределённой СУБД Apache Cloudberry (Incubating) 2.0.0

Состоялся выпуск распределённой СУБД Apache Cloudberry 2.0.0. Решение продолжает развитие открытой кодовой базы проекта СУБД Greenplum, который был переведена компанией Broadcom в закрытую разработку после приобретения VMware. Исходный код проекта написан на C, PLpgSQL и C++ и опубликован на GitHub под лицензией Apache License 2.0.

Релиз Apache Cloudberry (Incubating) 2.0.0 отмечен разработчиками как первый выпуск проекта, после передачи кода сообществу Apache. Этот проект в настоящее время находится в инкубаторе Apache и будет переведён в число первичных проектов Apache после готовности инфраструктуры и сопровождающих.

По информации OpenNET, СУБД Cloudberry представляет собой распределённую редакцию открытой СУБД PostgreSQL, оптимизированную для выполнения аналитических запросов над большими массивами данных (Data Warehouse). Для параллельной обработки данных в проекте применяется массово‑параллельная архитектура (MPP, massively parallel processing), обеспечивающая масштабируемость хранилища до петабайтных размеров за счёт разделения данных на сегменты и задействования для их хранения и обработки кластера из группы серверов.

Основные улучшения и доработки в Apache Cloudberry 2.0.0:

осуществлён переход на кодовую базу PostgreSQL 14 (проект Greenplum базировался на PostgreSQL 12);

добавлена поддержка динамических таблиц, позволяющих автоматически обновлять результаты запросов. Новая возможность полезна при необходимости работы с актуальными данными, например, для анализа данных в режиме реального времени, архитектур Lakehouse и автоматизированных обработчиков ETL (Extract, Transform, Load);

реализован новый гибридный формат хранилища PAX (Partition Attributes Across), сочетающий возможности хранилищ на основе строк и столбцов. Формат PAX позволяет добиться высокой производительности как при высокой нагрузке на запись, так и при выполнении аналитических запросов;

значительно оптимизировано планирование и выполнение распределённых запросов;

улучшено управление ресурсами: повышена эффективность работы с памятью и ЦП на узлах кластера;

улучшено распределение данных по узлам и параллельная обработка запросов;

расширены стратегии резервного копирования в распределённых окружениях;

информация о лицензиях и оформление заголовков файлов с кодом приведены к соответствию требованиям Фонда Apache. Из релизов в исходном коде исключены бинарные артефакты;

улучшен процесс сборки компонентов проекта на языках C++ и Python.

В подготовке к релизу Apache Cloudberry 2.0.0 приняли участие 26 разработчиков.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии