|
rss_habr
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действиюПятница, 11 Ноября 2022 г. 17:48 (ссылка)
Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером. Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться. Читать далееhttps://habr.com/ru/post/698758/?utm_source=habrahabr&utm_medium=rss&utm_campaign=698758
rss_habr
Подводные камни Spark: что делать с перезаписью и дополнением в таблицахСреда, 12 Октября 2022 г. 11:05 (ссылка)
https://habr.com/ru/post/692552/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692552
rss_habr
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)Среда, 21 Сентября 2022 г. 12:11 (ссылка)
Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК. Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Serves портале. Читать далееhttps://habr.com/ru/post/686778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686778
rss_habr
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)Среда, 07 Сентября 2022 г. 10:48 (ссылка)
Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем. Читать далееhttps://habr.com/ru/post/682978/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682978
rss_habr
Автогенерация ETL-кодаЧетверг, 09 Июня 2022 г. 23:28 (ссылка)
С развитием информационных технологий у их пользователей все сильнее и сильнее появляется желание автоматизации рутинных операций, в том числе и автоматической генерации кода. Где это уже возможно? Я расскажу об автоматической генерации ETL-кода, которая реализована в Сбере на примере одной из использующихся платформ. Поток трансформаций данных в нашем решении называется графом. Этот граф является ориентированным ациклическим графом (DAG, directed acyclic graph). Автоматическую генерацию графов оказалось возможно реализовать благодаря наличию специального инструмента spec-to-graph, который как раз для этого и предназначен. Он позволяет формировать трансформации графа согласно написанному коду, служащему шаблоном. В этом шаблоне указывается, какие трансформации с какими параметрами следует использовать и в каком порядке нужно их соединить. Мы используем подход по генерации графов из базовых субграфов (стандартизированных маленьких графов). Т.е. мы разбиваем ETL-процесс на элементарные операции, каждую из которых реализует некоторый базовый субграф. А из субграфов формируется итоговый граф, осуществляющий загрузку данных. Данные мы грузим из Hive в Hive, дополнительно используя промежуточные индексные структуры в HBase. Читать далееhttps://habr.com/ru/post/668828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668828
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |