hive - Самое интересное в блогах

rss_habr

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

Пятница, 11 Ноября 2022 г. 17:48 (ссылка)

Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.

Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.

https://habr.com/ru/post/698758/?utm_source=habrahabr&utm_medium=rss&utm_campaign=698758

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

Среда, 12 Октября 2022 г. 11:05 (ссылка)

Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.
Читать дальше →

https://habr.com/ru/post/692552/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692552

Метки: Блог компании VK Администрирование баз данных Big Data Хранение данных Хранилища данных vk cloud базы данных Spark Hive Hadoop Delta Lake

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

Среда, 21 Сентября 2022 г. 12:11 (ссылка)

Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК.

Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Serves портале.

https://habr.com/ru/post/686778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686778

Метки: Блог компании Группа НЛМК Системное администрирование IT-инфраструктура Big Data kafka hadoop nifi dwh ops hive impala hbase

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

Среда, 07 Сентября 2022 г. 10:48 (ссылка)

НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет.

Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.

https://habr.com/ru/post/682978/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682978

Метки: Блог компании Группа НЛМК Высокая производительность Системное администрирование Big Data kafka nifi hadoop dwh ops apache kafka hive impala

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автогенерация ETL-кода

Четверг, 09 Июня 2022 г. 23:28 (ссылка)

С развитием информационных технологий у их пользователей все сильнее и сильнее появляется желание автоматизации рутинных операций, в том числе и автоматической генерации кода. Где это уже возможно?

Я расскажу об автоматической генерации ETL-кода, которая реализована в Сбере на примере одной из использующихся платформ. Поток трансформаций данных в нашем решении называется графом. Этот граф является ориентированным ациклическим графом (DAG, directed acyclic graph). Автоматическую генерацию графов оказалось возможно реализовать благодаря наличию специального инструмента spec-to-graph, который как раз для этого и предназначен. Он позволяет формировать трансформации графа согласно написанному коду, служащему шаблоном. В этом шаблоне указывается, какие трансформации с какими параметрами следует использовать и в каком порядке нужно их соединить. Мы используем подход по генерации графов из базовых субграфов (стандартизированных маленьких графов). Т.е. мы разбиваем ETL-процесс на элементарные операции, каждую из которых реализует некоторый базовый субграф. А из субграфов формируется итоговый граф, осуществляющий загрузку данных. Данные мы грузим из Hive в Hive, дополнительно используя промежуточные индексные структуры в HBase.

https://habr.com/ru/post/668828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668828