Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 169 сообщений
Cообщения с меткой

olap - Самое интересное в блогах

Следующие 30  »
rss_habr

ETL и коннекторы к источникам данных: российские реалии

Среда, 11 Января 2023 г. 09:09 (ссылка)

За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова.

Зачем?

Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать.

Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание.

Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна.

Читать далее

https://habr.com/ru/post/709996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709996

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Автоматизация обработки данных

Четверг, 15 Декабря 2022 г. 11:09 (ссылка)

Основная статья Взаимодействие DWH Oracle и MS SQL

Завершающим этапом для загрузки, обработки данных и наполнения данных куба, можно назвать автоматизацию выполнения задач по расписанию. Для реализации этого в MS SQL Server имеется SQL Agent.

Предварительно необходимо создать учетную запись (Credential) (см. Рис. 1), из-под которой будет выполняться запуск заданий (Job). Эта учетная запись должна быть связана с доменной учетной записью, которой будет предоставлены привилегии. Этой учетной записи можно выдавать доступы, например, в каталогах для загрузки и выгрузки файлов, доступа к серверам и т.п. Если данную учетную запись не создавать, то необходимо выдавать доступы для учетной записи SQL Agent, что может не соответствовать с вашей политикой безопасности в организации.

Читать далее

https://habr.com/ru/post/705662/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705662

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Оптимизация данных в MS SQL

Четверг, 15 Декабря 2022 г. 10:51 (ссылка)

Основная статья Взаимодействие DWH Oracle и MS SQL

Одним из методов для оптимизации обработки, хранения и администрирования данных в базе данных и кубах MS SQL — это процесс создании партицирования данных.

Partitioning (партицирование или по-другому секционирование) — это разбиение таблицы на несколько частей, а эти части на одну или несколько файловых групп. Партицирование необходимо для целей ускорения доступа чтения или изменения данных и администрирования. Так как выровненный индекс по таблице будет содержаться в каждой условно своей секции, то при чтении или изменении данных будет обращение к конкретной секции и конкретному индексу в этой секции.

Со стороны администрирования для процесса переноса (например архивирования) данных в другую таблицу без физического перемещения данных, а перемещения только логической секций, подлежащих этой операции, выполнение этого действия происходит мгновенно, что экономит время и ресурсы машины. Для этого необходимо подготовить таблицу «архив» — копию по структуре с таблицей источника, она может быть не партицированна.

Пример кода для переноса в таблицу:

Читать далее

https://habr.com/ru/post/705656/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705656

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Взаимодействие DWH Oracle и MS SQL

Среда, 14 Декабря 2022 г. 19:14 (ссылка)

В ряде статей планирую рассказать о подготовке данных, основных этапах разработки и дальнейшего использования данных в Microsoft Analysis Services (SSAS), о процессе построения аналитического хранилища данных на Microsoft SQL Server (MS SQL), о взаимодействии с базами данным Oracle и другими источниками нашего банка Совкомбанк, а также рассказать о возможностях MS SQL которые мы используем.

Основной задачей для создания аналитического хранилища является автоматизация сбора информации с источников, ее трансформации и представления готовых данных бизнес – аналитикам, помощи в анализе данных в управленческом учете, что помогает и упрощает исследования деятельности организации, нахождения проблем в бизнесе и последующих решений выявленных проблем.

Чаще всего аналитики сталкиваются с проблемами оперативного изменения агрегированных данных и выявлении факторов влияющими на эти данные. Довольно часто аналитики получают и анализирую данных в плоском сгруппированном виде, не всегда есть возможность без подключения технических специалистов разложить составляющие на самый низкий уровень гранулярности, определить неточности в данных. И физически человек не способен воспринимать многомиллионные строки данных, например в excel. Для этого на помощь приходит SSAS. В него можно загрузить большой объем данных и при необходимости развернуть до основных составляющих данных.

Дополнительно поставлю вопросы как цели: как мы упрощаем жизнь для бизнес – аналитиков, как вовремя и качественно сдаем отчетность в ЦБ, как с легкостью обрабатываем терабайты данных для предоставления их пользователям?

Читать далее

https://habr.com/ru/post/705538/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705538

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Вся правда о кубах данных OLAP: развенчиваем мифы

Среда, 07 Декабря 2022 г. 10:27 (ссылка)





Кубы данных — не самая простая тема в дата-инжиниринге. Это тот самый случай, когда на пять запросов об определении приходятся пять разных вариантов ответа. Эта неоднозначность породила неудачную универсальную метафору, с помощью которой описываются кубы данных, — схему трехмерного куба. При этом в объяснениях нет примеров, рассказывающих, как в дата-пайплайне реализуется эта концепция.
Читать дальше →

https://habr.com/ru/post/703508/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703508

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Воскресенье, 27 Ноября 2022 г. 13:30 (ссылка)

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?

Читать далее

https://habr.com/ru/post/701794/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701794

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

Понедельник, 24 Октября 2022 г. 11:28 (ссылка)

image


Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.



Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).



В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.
Читать дальше →

https://habr.com/ru/post/693360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=693360

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

Пятница, 16 Сентября 2022 г. 10:48 (ссылка)

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

Читать далее

https://habr.com/ru/post/688126/?utm_source=habrahabr&utm_medium=rss&utm_campaign=688126

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Связь GreenPlum и PostgreSQL

Пятница, 12 Августа 2022 г. 16:36 (ссылка)

GreenPlum — популярное решение для масштабных аналитических систем и в небольших стартапах, и в крупных корпорациях. Оно предлагает понятный пользователям синтаксис ANSI SQL, хорошо ложится на облачный ландшафт, позволяет обучать и применять модели машинного обучения, а ещё поддерживает реляционную СУБД PostgreSQL. В статье поговорим, как связаны GreenPlum и PostgreSQL, разберём их сходства и отличия.

Читать далее

https://habr.com/ru/post/682248/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682248

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Архитектура аналитических систем на платформе 1С

Четверг, 07 Июля 2022 г. 10:05 (ссылка)

Около года назад фирма 1С выпустила свой продукт для построения аналитических систем класса Business Intelligence (BI) 1С:Аналитика. Отличие этого продукта от других BI решений в первую очередь в том, что продукт глубоко интегрирован с платформой 1С:Предприятие, поэтому 1С:Аналитика решает только свою специализированную задачу построения удобного BI интерфейса для подготовки отчетов и работы с ними. Поэтому важным вопросом для понимания продукта и его внедрения становится вопрос общей архитектуры аналитической системы, построенной с помощью 1С:Аналитики. В этой статье мы хотим кратко описать классический подход к построению аналитических систем, и как решение на базе платформы 1С соответствует такому подходу. Мы не претендуем на академическое изложение предмета, поэтому заранее просим прощение за возможную свободу в терминологии или изложении материала.

Читать далее

https://habr.com/ru/post/675126/?utm_source=habrahabr&utm_medium=rss&utm_campaign=675126

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<olap - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda