Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 575 сообщений
Cообщения с меткой

spark - Самое интересное в блогах

«  Предыдущие 30 Следующие 30  »
rss_habr

Ищем боттлнеки за 30 минут с помощью Jaeger трейсов

Четверг, 28 Июля 2022 г. 15:31 (ссылка)

Всем привет! Меня зовут Артем, я бэкенд-разработчик в команде клиентского бэкенда. Одна из важных частей моей работы — это снижение латенси нашего бэкенда. История, о которой я расскажу в статье, как раз и началась с одной из таких задач. Звучала она следующим образом:



В одном из эндпоинтов чекаута 99 перцентиль латенси пробивает SLO. Нужно это исправить.

Соответственно, возникает вопрос: как максимально быстро и точно найти причину тормозов очень низкочастотного запроса на 99 перцентиле и что делать, чтобы ее устранить? Ответом на него стала библиотека для полуавтоматического поиска узких мест в распределененных системах. Ссылка на гитхаб будет в конце статьи.

Читать дальше →

https://habr.com/ru/post/679300/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679300

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Варианты использования Java ML библиотек совместно с Spring, Docker, Spark, Rapids, CUDA

Вторник, 27 Июля 2022 г. 01:37 (ссылка)

В данной статье рассматривается способ использования GPU nVidia с технологией CUDA в Docker-контейнерах для распределенной тренировки моделей машинного обучения на нескольких машинах. Цель статьи - показать вариант использования Big Data Tool Apache Spark в Docker-контейнерах, совместно с акселератором GPU вычислений Rapids на устройствах nVidia CUDA, с применением библиотек DJL, Spark ML, XGBoost, в приложении Spring Boot на Java 8 (требование Rapids), на нескольких машинах под управлением ОС Windows 10 Pro для решения задачи тренировки моделей машинного обучения в распределенной системе.

Читать далее

https://habr.com/ru/post/679248/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679248

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Понедельник, 04 Июля 2022 г. 16:03 (ссылка)

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

При помощи PySpark Structured Streaming можно быстро разрабатывать масштабируемые сервисы обработки данных в реальном времени. Такой подход позволяет в короткие сроки сделать выгодное предложение клиенту, вовремя заметить аномалию в системе или же отображать актуальные данные.

Читать далее

https://habr.com/ru/post/674944/?utm_source=habrahabr&utm_medium=rss&utm_campaign=674944

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Создание Data Lake и Warehouse на GCP

Воскресенье, 19 Июня 2022 г. 19:56 (ссылка)

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.

Читать далее

https://habr.com/ru/post/672280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672280

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

«Kubernetes как часть data platform»

Вторник, 14 Июня 2022 г. 17:03 (ссылка)

Привет, Хабр! Меня зовут Денис, в компании oneFactor я занимаю позицию архитектора, и одна из моих обязанностей — это развитие технического стека компании. В этой статье я расскажу про нашу data platform’у (далее просто DP или платформа) и про мотивацию внедрения в неё Kubernetes. Также подсвечу трудности, с которыми мы столкнулись в рамках пилота. И расскажу про набор активностей, которые не вошли в пилот, но будут выполнены во время миграции. Дополнительно представлю короткий обзор текущей интеграции между Spark и Kubernetes. Стоит отметить, что вопросы, связанные с хранилищем, здесь обсуждаться не будут.

Читать дальше

https://habr.com/ru/post/671334/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671334

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затрат

Среда, 08 Июня 2022 г. 11:46 (ссылка)

Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark.

Читать далее

https://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Строим тепловые карты в Apache Zeppelin

Понедельник, 30 Мая 2022 г. 09:29 (ссылка)

https://habr.com/ru/post/668468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668468

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Machine Learning много не бывает: отчёт с ML-митапа

Четверг, 21 Апреля 2022 г. 12:06 (ссылка)

Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена.

Под катом найдете запись докладов:

Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop,

Го обсудим: продакшен ML на Golang,

Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса,

Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру.

После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний.

Запись под катом

https://habr.com/ru/post/661601/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661601

Комментарии (0)КомментироватьВ цитатник или сообщество

«  Предыдущие 30 Следующие 30  »

<spark - Самое интересное в блогах

Страницы: 1 [2] 3 4 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda