|
rss_habr
Что делают дата-инженеры, когда данные сами движутся между десятками систем?Четверг, 22 Декабря 2022 г. 17:41 (ссылка)
Привет, Хабр! Меня зовут Андрей Гончаров, я дата-инженер в Garage Eight, и сегодня я расскажу о том, как мы подходим к батч-процессингу и нашей self-service платформе данных. Почему self-service? Традиционный подход к работе с данными подразумевает, что данные готовят и перемещают между информационными системами дата-инженеры. Однако, с ростом data-driven компаний растут и потребности бизнеса, нужно анализировать и перемещать все больше данных между все большим количеством информационных систем, и требуется это все большему количеству потребителей данных: аналитикам, продакт-менеджерам, разработчикам и другим. В связи с чем растет и нагрузка на дата-инженеров, они работают со всё растущим количеством данных, бизнес-сущностей, и, по сути, владеют ими. Остается мало времени на модернизацию дата-инженерных инструментов, растет техдолг. Для снижения нагрузки можно увеличивать дата-инженерный штат, что является не лучшим вариантом — в таком случае, нам потребуется дата-департамент, растущий пропорционально с бизнесом. Давайте посмотрим, как мы решаем описанные проблемы. Поехали!https://habr.com/ru/post/707180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707180
rss_habr
[Перевод] ETL и ELT: ключевые различия, о которых должен знать каждыйВторник, 22 Ноября 2022 г. 12:02 (ссылка)
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё. В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных. Читать дальше → https://habr.com/ru/post/695546/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695546
rss_habr
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWHВторник, 15 Ноября 2022 г. 17:21 (ссылка)
Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely. Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто. В этой публикации попробую резюмировать свои знания: — Каталог поддерживаемых источников и приемников данных — Метод чтения данных из источников (Extract) — Способы репликации в целевое Хранилище (Load) — Работа с изменениями структуры данных (Schema Evolution) — Трансформации перед загрузкой данных (EtLT) — Тип развертывания решения (Deployment) Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса. Читать далееhttps://habr.com/ru/post/699498/?utm_source=habrahabr&utm_medium=rss&utm_campaign=699498
rss_habr
[Перевод] Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDWПонедельник, 24 Октября 2022 г. 11:28 (ссылка)
Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений. Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW). В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища. Читать дальше → https://habr.com/ru/post/693360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=693360
rss_habr
[Перевод] Сравнение процессов ETL и ELTПонедельник, 25 Апреля 2022 г. 11:43 (ссылка)
ETL означает извлечение, преобразование и загрузку. Это относится к процессу сбора данных из нескольких источников и подготовки данных для интеграции и загрузки на целевую платформу, такую как хранилище данных или аналитическая среда. ELT аналогичен, но загружает данные в необработанном формате, оставляя преобразования для людей, чтобы они могли применить их для «самостоятельной аналитики». Оба метода являются типичными примерами развертывания конвейера данных. Что такое ETL? ETL (Extract, Transform, Load) — это аббревиатура автоматизированной методологии разработки конвейера данных, с помощью которой данные собираются и подготавливаются для последующего использования в аналитической среде, такой как хранилище данных. Извлечение данных (Extract) Извлечение данных — это первый этап процесса ETL, когда данные извлекаются из различных исходных систем. Данные могут быть полностью необработанными, например данные датчиков с устройств, или ,это неструктурированные данные из отсканированных медицинских документов или электронных писем компании. Это могут быть потоковые данные, поступающие из сети социальных сетей или транзакции покупки/продажи на фондовом рынке практически в режиме реального времени, или они могут поступать из существующих корпоративных баз данных и хранилищ данных. Трансформация (Transform) На этапе преобразования к данным применяются правила и процессы для их подготовки к загрузке в целевую систему. Обычно это делается в промежуточной рабочей среде, называемой «площадкой подготовки» («staging area» ). Здесь данные очищаются для обеспечения надежности и согласования для обеспечения совместимости с целевой системой. Могут быть применены многие другие преобразования, в том числе: Читать далееhttps://habr.com/ru/post/662746/?utm_source=habrahabr&utm_medium=rss&utm_campaign=662746
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |