|
rss_habr
Пишем ETL-процесс на Python, часть 2Воскресенье, 22 Января 2023 г. 09:02 (ссылка)
Сегодня мы сделаем web-интерфейс для управления запуском ETL-процесса. В прошлой статье мы написали консольный скрипт, который разово разово запускает выгрузку. Но как это передать заказчику ?! Читатьhttps://habr.com/ru/post/711590/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711590
rss_habr
Пишем ETL-процесс на PythonСреда, 11 Января 2023 г. 15:57 (ссылка)
ETL-процесс без итерации по спискам и прочей “вложенности” на основе паттерна проектирования “Цепочка обязанностей”. Читатьhttps://habr.com/ru/post/710106/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710106
rss_habr
ETL и коннекторы к источникам данных: российские реалииСреда, 11 Января 2023 г. 09:09 (ссылка)
За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова. Зачем? Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать. Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание. Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна. Читать далееhttps://habr.com/ru/post/709996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709996
rss_habr
[Перевод] ETL и ELT: ключевые различия, о которых должен знать каждыйВторник, 22 Ноября 2022 г. 12:02 (ссылка)
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё. В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных. Читать дальше → https://habr.com/ru/post/695546/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695546
rss_habr
Мониторинг в Apache NiFi. Часть втораяВторник, 01 Ноября 2022 г. 18:38 (ссылка)
Задачи отчетности (Reporting Tasks) В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task). Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга. Читать далееhttps://habr.com/ru/post/695926/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695926
rss_habr
[Перевод] Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDWПонедельник, 24 Октября 2022 г. 11:28 (ссылка)
Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений. Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW). В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища. Читать дальше → https://habr.com/ru/post/693360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=693360
rss_habr
Мониторинг в Apache NiFi. Часть перваяПонедельник, 10 Октября 2022 г. 09:55 (ссылка)
Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера. Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana. Читать далееhttps://habr.com/ru/post/692154/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692154
rss_habr
Dagster | ТуториалВторник, 27 Сентября 2022 г. 12:05 (ссылка)
Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д. На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним. Читать далееhttps://habr.com/ru/post/690342/?utm_source=habrahabr&utm_medium=rss&utm_campaign=690342
rss_habr
Технологии NiFi & Kafka: применение (часть 2)Среда, 24 Августа 2022 г. 06:17 (ссылка)
Добрый день, меня зовут Рустам Ахметов, я архитектор ГК Юзтех и интеграционной шины данных UseBus. В предыдущей статье я рассказывал о Kafka и её аналогах, а сегодня хочу рассмотреть NiFi. Вы узнаете: Читать далееhttps://habr.com/ru/post/684312/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684312
rss_habr
[Перевод] Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписанияВоскресенье, 15 Августа 2022 г. 01:06 (ссылка)
Полное руководство по созданию DAG в Apache Airflow DAG, позволяющих создать конвейер данных из разных источников, запускаемый в определенные периоды времени с заданной логикой. Первая часть. Источник: DAGs: The Definitive Guide от astronomer.io Добро пожаловать в полное руководство по Apache Airflow DAG, представленное командой Astronomer. Эта электронная книга охватывает все, что вам нужно знать для работы с DAG, от строительных блоков, из которых они состоят, до рекомендаций по их написанию, динамической генерации, тестированию, отладке и многому другому. Это руководство, написанное практикующими для практикующих. Читать далееhttps://habr.com/ru/post/682384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682384
rss_habr
Создание Data Lake и Warehouse на GCPВоскресенье, 19 Июня 2022 г. 19:56 (ссылка)
Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse. Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse. В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL. Читать далееhttps://habr.com/ru/post/672280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672280
rss_habr
Автогенерация ETL-кодаЧетверг, 09 Июня 2022 г. 23:28 (ссылка)
С развитием информационных технологий у их пользователей все сильнее и сильнее появляется желание автоматизации рутинных операций, в том числе и автоматической генерации кода. Где это уже возможно? Я расскажу об автоматической генерации ETL-кода, которая реализована в Сбере на примере одной из использующихся платформ. Поток трансформаций данных в нашем решении называется графом. Этот граф является ориентированным ациклическим графом (DAG, directed acyclic graph). Автоматическую генерацию графов оказалось возможно реализовать благодаря наличию специального инструмента spec-to-graph, который как раз для этого и предназначен. Он позволяет формировать трансформации графа согласно написанному коду, служащему шаблоном. В этом шаблоне указывается, какие трансформации с какими параметрами следует использовать и в каком порядке нужно их соединить. Мы используем подход по генерации графов из базовых субграфов (стандартизированных маленьких графов). Т.е. мы разбиваем ETL-процесс на элементарные операции, каждую из которых реализует некоторый базовый субграф. А из субграфов формируется итоговый граф, осуществляющий загрузку данных. Данные мы грузим из Hive в Hive, дополнительно используя промежуточные индексные структуры в HBase. Читать далееhttps://habr.com/ru/post/668828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668828
rss_habr
BI с Redshift от ETL до бордовЧетверг, 02 Июня 2022 г. 12:15 (ссылка)
Привет, хабр, я Node.js разработчик, и я хочу поделиться с вами опытом по реализации business intelligence (BI) процесса. В какой-то момент наш бизнес вырос до размера, пусть и небольшого, когда считать различные цифры и проводить аналитику в excel таблицах уже сложно и медленно, да и количество людей работающих с данными значительно выросло. Тогда зашла речь об автоматизации этого процесса и визуализации различного рода аналитики. Так мы подошли к мысли, что пора реализовывать BI внутри компании. Читать далееhttps://habr.com/ru/post/669240/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669240
rss_habr
[Перевод] Создаем простой ETL на PythonПонедельник, 02 Мая 2022 г. 19:37 (ссылка)
В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования конвейера для таких задач. https://habr.com/ru/post/664020/?utm_source=habrahabr&utm_medium=rss&utm_campaign=664020
rss_habr
[Перевод] Сравнение процессов ETL и ELTПонедельник, 25 Апреля 2022 г. 11:43 (ссылка)
ETL означает извлечение, преобразование и загрузку. Это относится к процессу сбора данных из нескольких источников и подготовки данных для интеграции и загрузки на целевую платформу, такую как хранилище данных или аналитическая среда. ELT аналогичен, но загружает данные в необработанном формате, оставляя преобразования для людей, чтобы они могли применить их для «самостоятельной аналитики». Оба метода являются типичными примерами развертывания конвейера данных. Что такое ETL? ETL (Extract, Transform, Load) — это аббревиатура автоматизированной методологии разработки конвейера данных, с помощью которой данные собираются и подготавливаются для последующего использования в аналитической среде, такой как хранилище данных. Извлечение данных (Extract) Извлечение данных — это первый этап процесса ETL, когда данные извлекаются из различных исходных систем. Данные могут быть полностью необработанными, например данные датчиков с устройств, или ,это неструктурированные данные из отсканированных медицинских документов или электронных писем компании. Это могут быть потоковые данные, поступающие из сети социальных сетей или транзакции покупки/продажи на фондовом рынке практически в режиме реального времени, или они могут поступать из существующих корпоративных баз данных и хранилищ данных. Трансформация (Transform) На этапе преобразования к данным применяются правила и процессы для их подготовки к загрузке в целевую систему. Обычно это делается в промежуточной рабочей среде, называемой «площадкой подготовки» («staging area» ). Здесь данные очищаются для обеспечения надежности и согласования для обеспечения совместимости с целевой системой. Могут быть применены многие другие преобразования, в том числе: Читать далееhttps://habr.com/ru/post/662746/?utm_source=habrahabr&utm_medium=rss&utm_campaign=662746
rss_habr
Machine Learning много не бывает: отчёт с ML-митапаЧетверг, 21 Апреля 2022 г. 12:06 (ссылка)
Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена. Под катом найдете запись докладов: • Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop, • Го обсудим: продакшен ML на Golang, • Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса, • Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру. После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний. Запись под катомhttps://habr.com/ru/post/661601/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661601
rss_habr
Требования к ETL-сервисам – построение аналитических решений на базе myBI ConnectПонедельник, 18 Апреля 2022 г. 15:44 (ссылка)
Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет. Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного: • Требования и ожидаемые результаты • Функциональные возможности • Сценарии использования и бизнес-ценность • Планы развития, продвинутое моделирование и BI Читать далееhttps://habr.com/ru/post/661555/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661555
rss_habr
Добро пожаловать в семьюЧетверг, 14 Апреля 2022 г. 15:58 (ссылка)
Привет, Хабр! Меня зовут Игнат Нахай и это мой первый пост. Я работаю в команде по внедрению платформы ZIIoT для промышленности. Конкретнее – отвечаю за архитектурные решения при внедрении платформы в информационный слой заказчика. ZIIoT объединяет все источники промышленных данных на предприятии и через набор MES-сервисов позволяет управлять качеством, отслеживать генеалогию продукции, анализировать производительность, проводить оперативное и детальное планирование, контролировать состояние и распределение ресурсов и много чего еще. В связи с этим в платформе рождается большой объем информации, которая востребована в других информационных системах предприятия. Здесь я расскажу, как мы решали задачу построения информационных потоков и как нам в этом помог Apache NIFI. Читать далееhttps://habr.com/ru/post/660987/?utm_source=habrahabr&utm_medium=rss&utm_campaign=660987
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |