Состоялся выпуск распределённой СУБД Apache Cloudberry 2.0.0. Решение продолжает развитие открытой кодовой базы проекта СУБД Greenplum, который был переведена компанией Broadcom в закрытую разработку после приобретения VMware. Исходный код проекта написан на C, PLpgSQL и C++ и опубликован на GitHub под лицензией Apache License 2.0.
Релиз Apache Cloudberry (Incubating) 2.0.0 отмечен разработчиками как первый выпуск проекта, после передачи кода сообществу Apache. Этот проект в настоящее время находится в инкубаторе Apache и будет переведён в число первичных проектов Apache после готовности инфраструктуры и сопровождающих.
По информации OpenNET, СУБД Cloudberry представляет собой распределённую редакцию открытой СУБД PostgreSQL, оптимизированную для выполнения аналитических запросов над большими массивами данных (Data Warehouse). Для параллельной обработки данных в проекте применяется массово‑параллельная архитектура (MPP, massively parallel processing), обеспечивающая масштабируемость хранилища до петабайтных размеров за счёт разделения данных на сегменты и задействования для их хранения и обработки кластера из группы серверов.
Основные улучшения и доработки в Apache Cloudberry 2.0.0:
осуществлён переход на кодовую базу PostgreSQL 14 (проект Greenplum базировался на PostgreSQL 12);
добавлена поддержка динамических таблиц, позволяющих автоматически обновлять результаты запросов. Новая возможность полезна при необходимости работы с актуальными данными, например, для анализа данных в режиме реального времени, архитектур Lakehouse и автоматизированных обработчиков ETL (Extract, Transform, Load);
реализован новый гибридный формат хранилища PAX (Partition Attributes Across), сочетающий возможности хранилищ на основе строк и столбцов. Формат PAX позволяет добиться высокой производительности как при высокой нагрузке на запись, так и при выполнении аналитических запросов;
значительно оптимизировано планирование и выполнение распределённых запросов;
улучшено управление ресурсами: повышена эффективность работы с памятью и ЦП на узлах кластера;
улучшено распределение данных по узлам и параллельная обработка запросов;
расширены стратегии резервного копирования в распределённых окружениях;
информация о лицензиях и оформление заголовков файлов с кодом приведены к соответствию требованиям Фонда Apache. Из релизов в исходном коде исключены бинарные артефакты;
улучшен процесс сборки компонентов проекта на языках C++ и Python.
В подготовке к релизу Apache Cloudberry 2.0.0 приняли участие 26 разработчиков.
Источник: habr.com