Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 28 сообщений
Cообщения с меткой

elt - Самое интересное в блогах

Следующие 30  »
rss_habr

Что делают дата-инженеры, когда данные сами движутся между десятками систем?

Четверг, 22 Декабря 2022 г. 17:41 (ссылка)

Привет, Хабр! Меня зовут Андрей Гончаров, я дата-инженер в Garage Eight, и сегодня я расскажу о том, как мы подходим к батч-процессингу и нашей self-service платформе данных. Почему self-service? Традиционный подход к работе с данными подразумевает, что данные готовят и перемещают между информационными системами дата-инженеры.

Однако, с ростом data-driven компаний растут и потребности бизнеса, нужно анализировать и перемещать все больше данных между все большим количеством информационных систем, и требуется это все большему количеству потребителей данных: аналитикам, продакт-менеджерам, разработчикам и другим. В связи с чем растет и нагрузка на дата-инженеров, они работают со всё растущим количеством данных, бизнес-сущностей, и, по сути, владеют ими. Остается мало времени на модернизацию дата-инженерных инструментов, растет техдолг. Для снижения нагрузки можно увеличивать дата-инженерный штат, что является не лучшим вариантом — в таком случае, нам потребуется дата-департамент, растущий пропорционально с бизнесом.

Давайте посмотрим, как мы решаем описанные проблемы.

Поехали!

https://habr.com/ru/post/707180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707180

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] ETL и ELT: ключевые различия, о которых должен знать каждый

Вторник, 22 Ноября 2022 г. 12:02 (ссылка)

image


ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.



В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать дальше →

https://habr.com/ru/post/695546/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695546

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH

Вторник, 15 Ноября 2022 г. 17:21 (ссылка)

Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.

Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.

В этой публикации попробую резюмировать свои знания:

— Каталог поддерживаемых источников и приемников данных

— Метод чтения данных из источников (Extract)

— Способы репликации в целевое Хранилище (Load)

— Работа с изменениями структуры данных (Schema Evolution)

— Трансформации перед загрузкой данных (EtLT)

— Тип развертывания решения (Deployment)

Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.

Читать далее

https://habr.com/ru/post/699498/?utm_source=habrahabr&utm_medium=rss&utm_campaign=699498

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

Понедельник, 24 Октября 2022 г. 11:28 (ссылка)

image


Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.



Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).



В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.
Читать дальше →

https://habr.com/ru/post/693360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=693360

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Сравнение процессов ETL и ELT

Понедельник, 25 Апреля 2022 г. 11:43 (ссылка)

ETL означает извлечение, преобразование и загрузку. Это относится к процессу сбора данных из нескольких источников и подготовки данных для интеграции и загрузки на целевую платформу, такую как хранилище данных или аналитическая среда.

ELT аналогичен, но загружает данные в необработанном формате, оставляя преобразования для людей, чтобы они могли применить их для «самостоятельной аналитики». Оба метода являются типичными примерами развертывания конвейера данных.

Что такое ETL?

ETL (Extract, Transform, Load) — это аббревиатура автоматизированной методологии разработки конвейера данных, с помощью которой данные собираются и подготавливаются для последующего использования в аналитической среде, такой как хранилище данных.

Извлечение данных (Extract)

Извлечение данных — это первый этап процесса ETL, когда данные извлекаются из различных исходных систем. Данные могут быть полностью необработанными, например данные датчиков с устройств, или ,это неструктурированные данные из отсканированных медицинских документов или электронных писем компании. Это могут быть потоковые данные, поступающие из сети социальных сетей или транзакции покупки/продажи на фондовом рынке практически в режиме реального времени, или они могут поступать из существующих корпоративных баз данных и хранилищ данных.

Трансформация (Transform)

На этапе преобразования к данным применяются правила и процессы для их подготовки к загрузке в целевую систему. Обычно это делается в промежуточной рабочей среде, называемой «площадкой подготовки» («staging area» ). Здесь данные очищаются для обеспечения надежности и согласования для обеспечения совместимости с целевой системой. Могут быть применены многие другие преобразования, в том числе:

Читать далее

https://habr.com/ru/post/662746/?utm_source=habrahabr&utm_medium=rss&utm_campaign=662746

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<elt - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda