data engineering - Самое интересное в блогах

rss_habr

Netflix. Архитектура системы персонализации и рекомендаций

Понедельник, 20 Июня 2022 г. 11:00 (ссылка)

Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами.

В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений.

https://habr.com/ru/post/672324/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672324

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Интересный метод построения карт на основе движения робота

Понедельник, 20 Июня 2022 г. 05:56 (ссылка)

В современном мире, где робот пылесос является обыденностью, а статьи про новые автопилотируемые автомобили публикуются регулярно, давно не секрет, что для своих задач эти чудо машины строят карту движения, чтобы знать куда ехать.

https://habr.com/ru/post/672298/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672298

Метки: python Data Engineering data science

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Создание Data Lake и Warehouse на GCP

Воскресенье, 19 Июня 2022 г. 19:56 (ссылка)

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.

https://habr.com/ru/post/672280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672280

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Начинающий программист vs Избирком СПб

Четверг, 16 Июня 2022 г. 19:09 (ссылка)

Это история о том, как я писал код на Python 3, который собирает и систематизирует данные по избирательным комиссиям в моём родном городе Санкт-Петербурге. Ну, и про то, что я там накопал в извлечённых данных.

Я новичок в программировании, первый раз столкнулся с такой задачей и понятия не имел, как это делается, но стоило только начать...

https://habr.com/ru/post/671832/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671832

Метки: python HTML Data Engineering python3 beginner data scraping избирком избирательная система

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов

Вторник, 14 Июня 2022 г. 13:24 (ссылка)

Привет! На связи Евгений Бокарев и Надежда Грачёва, в этой статье мы расскажем про внедрение switchback A/B-тестов в логистике Delivery Club. Обсудим, как оценивать результат эксперимента, если эффективность доставки одного заказа влияет на другие. И на примере покажем, как мы снизили долю невыполненных заказов, с какими сложностями столкнулись и как их решали.

https://habr.com/ru/post/670762/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670762

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автогенерация ETL-кода

Четверг, 09 Июня 2022 г. 23:28 (ссылка)

С развитием информационных технологий у их пользователей все сильнее и сильнее появляется желание автоматизации рутинных операций, в том числе и автоматической генерации кода. Где это уже возможно?

Я расскажу об автоматической генерации ETL-кода, которая реализована в Сбере на примере одной из использующихся платформ. Поток трансформаций данных в нашем решении называется графом. Этот граф является ориентированным ациклическим графом (DAG, directed acyclic graph). Автоматическую генерацию графов оказалось возможно реализовать благодаря наличию специального инструмента spec-to-graph, который как раз для этого и предназначен. Он позволяет формировать трансформации графа согласно написанному коду, служащему шаблоном. В этом шаблоне указывается, какие трансформации с какими параметрами следует использовать и в каком порядке нужно их соединить. Мы используем подход по генерации графов из базовых субграфов (стандартизированных маленьких графов). Т.е. мы разбиваем ETL-процесс на элементарные операции, каждую из которых реализует некоторый базовый субграф. А из субграфов формируется итоговый граф, осуществляющий загрузку данных. Данные мы грузим из Hive в Hive, дополнительно используя промежуточные индексные структуры в HBase.

https://habr.com/ru/post/668828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668828

Метки: Блог компании Сбер Программирование SQL Data Engineering ETL BigData Hive HBase Автогенерация разработчик аналитик код таблица

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как гуманитарии используют знания айтишников: Data-журналистика

Четверг, 09 Июня 2022 г. 19:53 (ссылка)

Как мы выяснили в прошлой статье, разделение на гуманитариев и технарей — это больше стереотип, чем научный подход. Сегодня поговорим о профессии, в которой соединяются оба направления. Дата-журналисты создают истории на основе больших данных. Разберёмся, какими навыками они обладают и сколько зарабатывают.

https://habr.com/ru/post/670660/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670660

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как быстро создать обучающий датасет для задач обнаружения объектов YOLO с помощью Label Studio

Четверг, 09 Июня 2022 г. 12:44 (ссылка)

Обнаружение объектов — одна из подзадач компьютерного зрения для идентификации определенных объектов. Например, люди, здания, растений, дорожных знаков или транспортные средства на изображениях и видео.

Для создания таких моделей существует множество различных типов алгоритмов, таких, как Scale-invariant feature transform (SIFT), Detectron, RefineDet или You Only Look Once (YOLO). Их часто используют в самых разных отраслях, начиная с автономного вождения и охранных систем, заканчивая автоматизацией на производстве и распознаванием лиц.

Как и с любой моделью машинного обучения, всё начинается с создания обучающего набора данных. Сделать это можно разными способами: можно заказать разметку данных, а можно всё сделать самому.

Конечно, второй вариант займет намного больше времени и сил, но с помощью правильно подобранного ПО можно неплохо упростить задачу. Сейчас я подробно расскажут, как быстро создать обучающий датасет для задач детекции объектов YOLO с помощью Label Studio.

Посмотрим, что у тебя там...

https://habr.com/ru/post/670532/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670532

Метки: Машинное обучение Data Mining Data Engineering Big Data object detection data labeling data annotation training data

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затрат

Среда, 08 Июня 2022 г. 11:46 (ссылка)

Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark.

https://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266

Метки: Блог компании OTUS Data Engineering дата инженер spark потоковая обработка данных Apache Spark

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Apache NiFi: как решить ошибки, которые не гуглятся

Вторник, 07 Июня 2022 г. 10:11 (ссылка)

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.

Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать дальше →

https://habr.com/ru/post/669812/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669812

Метки: Блог компании Группа НЛМК Apache Big Data Хранение данных NiFi data engineering data NiFi Deployment

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Неоплатонизм и информатика

Воскресенье, 05 Июня 2022 г. 20:20 (ссылка)

В современной информатике, точнее – в области машинного обучения и нейронных сетей – нашла оригинальное применение концепция платоновских идеальных сущностей. Платонические корни распознавания образов и, соответственно, роль платонизма в работе нейронок, а также в Data Science, заслуживают подробного осмысления, что я и попытаюсь обрисовать в этом посте.

Пост навеян мыслями Виктора Сиротина @visirok о том, что программирование и проектирование программных продуктов являются материализацией идей. Отдельно благодарю Виктора за наше насыщенное общение, вышедшее за пределы Хабра, за его внимание к моему блогу, а также за возможность ознакомиться с его мемуарами. Впрочем, показатели трех последних постов Виктора в его блоге говорят сами за себя – надеюсь, он будет радовать Хабр и новыми превосходными работами, и все читатели, которым понравится данный пост, также не забудут подписаться на Виктора. А теперь приступим.

https://habr.com/ru/post/669668/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669668

Метки: машинное обучение Научно-популярное Искусственный интеллект Data Engineering платонизм ИИ философия алгоритмы

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как мы участвовали в чемпионате по DS длиной 3,5 месяца

Пятница, 03 Июня 2022 г. 17:55 (ссылка)

В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи.

Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории.

Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали.

https://habr.com/ru/post/669522/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669522

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

Пятница, 03 Июня 2022 г. 16:32 (ссылка)

Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.

https://habr.com/ru/post/669510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669510

Метки: Big Data Data Engineering dwh surrogate key хэш

Комментарии (0)Комментировать В цитатник или сообщество

« Предыдущие 30

<data engineering - Самое интересное в блогах

Страницы: 1 .... 8 9 [10]