spark - Самое интересное в блогах

rss_habr

Ищем боттлнеки за 30 минут с помощью Jaeger трейсов

Четверг, 28 Июля 2022 г. 15:31 (ссылка)

Всем привет! Меня зовут Артем, я бэкенд-разработчик в команде клиентского бэкенда. Одна из важных частей моей работы — это снижение латенси нашего бэкенда. История, о которой я расскажу в статье, как раз и началась с одной из таких задач. Звучала она следующим образом:

В одном из эндпоинтов чекаута 99 перцентиль латенси пробивает SLO. Нужно это исправить.

Соответственно, возникает вопрос: как максимально быстро и точно найти причину тормозов очень низкочастотного запроса на 99 перцентиле и что делать, чтобы ее устранить? Ответом на него стала библиотека для полуавтоматического поиска узких мест в распределененных системах. Ссылка на гитхаб будет в конце статьи.

Читать дальше →

https://habr.com/ru/post/679300/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679300

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Варианты использования Java ML библиотек совместно с Spring, Docker, Spark, Rapids, CUDA

Вторник, 27 Июля 2022 г. 01:37 (ссылка)

В данной статье рассматривается способ использования GPU nVidia с технологией CUDA в Docker-контейнерах для распределенной тренировки моделей машинного обучения на нескольких машинах. Цель статьи - показать вариант использования Big Data Tool Apache Spark в Docker-контейнерах, совместно с акселератором GPU вычислений Rapids на устройствах nVidia CUDA, с применением библиотек DJL, Spark ML, XGBoost, в приложении Spring Boot на Java 8 (требование Rapids), на нескольких машинах под управлением ОС Windows 10 Pro для решения задачи тренировки моделей машинного обучения в распределенной системе.

https://habr.com/ru/post/679248/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679248

Метки: Java сезон java spark sparkjava

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Понедельник, 04 Июля 2022 г. 16:03 (ссылка)

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

При помощи PySpark Structured Streaming можно быстро разрабатывать масштабируемые сервисы обработки данных в реальном времени. Такой подход позволяет в короткие сроки сделать выгодное предложение клиенту, вовремя заметить аномалию в системе или же отображать актуальные данные.

https://habr.com/ru/post/674944/?utm_source=habrahabr&utm_medium=rss&utm_campaign=674944

Метки: Блог компании Neoflex python Big Data neoflex spark pyspark kafka streaming structured streaming json avro

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Создание Data Lake и Warehouse на GCP

Воскресенье, 19 Июня 2022 г. 19:56 (ссылка)

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.

https://habr.com/ru/post/672280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672280

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

«Kubernetes как часть data platform»

Вторник, 14 Июня 2022 г. 17:03 (ссылка)

Привет, Хабр! Меня зовут Денис, в компании oneFactor я занимаю позицию архитектора, и одна из моих обязанностей — это развитие технического стека компании. В этой статье я расскажу про нашу data platform’у (далее просто DP или платформа) и про мотивацию внедрения в неё Kubernetes. Также подсвечу трудности, с которыми мы столкнулись в рамках пилота. И расскажу про набор активностей, которые не вошли в пилот, но будут выполнены во время миграции. Дополнительно представлю короткий обзор текущей интеграции между Spark и Kubernetes. Стоит отметить, что вопросы, связанные с хранилищем, здесь обсуждаться не будут.

https://habr.com/ru/post/671334/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671334

Метки: Блог компании oneFactor hadoop kubernetes hadoop 3 spark hdfs yarn volcano

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затрат

Среда, 08 Июня 2022 г. 11:46 (ссылка)

Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark.

https://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266

Метки: Блог компании OTUS Data Engineering дата инженер spark потоковая обработка данных Apache Spark

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Строим тепловые карты в Apache Zeppelin

Понедельник, 30 Мая 2022 г. 09:29 (ссылка)

https://habr.com/ru/post/668468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668468

Метки: Data Mining Big Data Data Engineering spark zeppelin bokeh python scala heatmap visualization

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Machine Learning много не бывает: отчёт с ML-митапа

Четверг, 21 Апреля 2022 г. 12:06 (ссылка)

Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена.

Под катом найдете запись докладов:

• Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop,

• Го обсудим: продакшен ML на Golang,

• Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса,

• Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру.

После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний.

Запись под катом

https://habr.com/ru/post/661601/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661601

Комментарии (0)Комментировать В цитатник или сообщество

« Предыдущие 30 Следующие 30 »

<spark - Самое интересное в блогах

Страницы: 1 [2] 3 4 .... 10