Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 523 сообщений
Cообщения с меткой

bigdata - Самое интересное в блогах

Следующие 30  »
rss_habr

Управление на основе данных. Что общего между электронным дневником и базой налоговой?

Четверг, 02 Февраля 2023 г. 17:00 (ссылка)

Сегодня о подходе к управлению, основанному на данных, не говорит только ленивый. Кто уже имеет с этим дело в своей работе, предлагаем сразу переходить к разделу с описанием опыта Татарстана по управлению данными. А для тех, кто этим направлением раньше не интересовался, Центр цифровой трансформации Татарстана дает пару вводных.

Читать далее

https://habr.com/ru/post/714492/?utm_source=habrahabr&utm_medium=rss&utm_campaign=714492

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Виброакустический мониторинг дорожной обстановки

Четверг, 26 Января 2023 г. 12:02 (ссылка)

В России впервые в мире внедрили систему акустического мониторинга по волоконно-оптическим линиям на действующей автомобильной дороге протяженностью около 240 километров. Система позволяет в режиме реального времени отслеживать большое количество событий на дороге с точностью до 1 метра по акустическим следам от участников дорожного движения.

Проект был реализован компанией "СМАРТС", за программную часть отвечала ИТ-компания Haulmont. Собственно далее рассказ пойдет от лица разработчиков о сложностях и нюансах этого уникального проекта.

Читать далее

https://habr.com/ru/post/712788/?utm_source=habrahabr&utm_medium=rss&utm_campaign=712788

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Цвет сезона – слива. Что мы сделали с GreenPlum в 2022-м и что планируем в 2023-м

Среда, 18 Января 2023 г. 12:07 (ссылка)

Привет, Хабр! Меня зовут Марк Лебедев, работаю архитектором в GlowByte. В июне 2022 года на митапе DataPeople мы с командой рассказывали о наших планах в части GreenPlum (запись выступления). Если коротко, тогда мы сфокусировались на развитии open-source и собирались выложить в публичный доступ наши наработки относительно мониторинга кластера и мониторинга запросов, плейбуки по инсталляции и наши подходы для нагрузочного тестирования. Собственно про них и хотелось бы поговорить подробно. В этой статье мы подведём итоги, что нам удалось сделать за прошедшие 6 месяцев, и расскажем о планах на будущий год. В конце статьи укажем все ссылки на репозитории.

Читать далее

https://habr.com/ru/post/711206/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711206

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Четверг, 12 Января 2023 г. 22:27 (ссылка)

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

Читать далее

https://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

SQL за 2 месяца. Подробный план обучения

Среда, 04 Января 2023 г. 23:29 (ссылка)

То, что данные называют нефтью 21 века известно уже давно: на них учатся нейросети, их мгновенная обработка и передача сильно упростили нашу жизнь, и одной из самых распространенных структур хранения данных является реляционная. Именно с ней знакомы большинство разработчиков и, скорее всего, знания как с ней работать вам тоже понадобятся.

Основным инструментом для взаимодействия с реляционными БД является структурированный язык запросов или же SQL.

Читать далее

https://habr.com/ru/post/709116/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709116

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Pyspark. Анализ больших данных, когда Pandas не достаточно

Четверг, 29 Декабря 2022 г. 15:27 (ссылка)

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Читать далее

https://habr.com/ru/post/708468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708468

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как вы себе представляете современную птицеферму?

Пятница, 23 Декабря 2022 г. 12:32 (ссылка)

Если первое, что приходит вам на ум – это страшного вида покосившийся сарай, то это очень далеко от истины. А как насчет светлого, кондиционируемого помещения, оборудованного диско-светом, игровой площадкой, роботом-пылесосом, подключенного к датчикам на основе IoT и находящегося под круглосуточным мониторингом с помощью облачных технологий? Это уже гораздо ближе к правде. Давайте разбираться.

Читать далее

https://habr.com/ru/post/707304/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707304

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Реидентификация 2.0: как сделать камеры умнее

Вторник, 13 Декабря 2022 г. 10:00 (ссылка)

Реидентификация 2.0: как сделать камеры умнее

Специалисты компании «Криптонит» разработали эффективный подход к обработке видеоданных с помощью искусственных нейронных сетей.

Читать далее

https://habr.com/ru/post/704914/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704914

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Обновить данные в ClickHouse без UPDATE: кейс IBS

Вторник, 06 Декабря 2022 г. 11:41 (ссылка)

Привет, Хабр! Меня зовут Антон, я – старший разработчик в отделе разработки баз данных в IBS. В этой статье я расскажу о том, как нашей командой была решена задача по сохранению в ClickHouse большого количества данных, генерируемых веб-приложением, с последующим получением сохранённых данных в агрегированном виде.

Решение задачи, описанной выше, было бы простым и вряд ли заслуживающим отдельной статьи на Хабре. Но наш случай представлял собой ряд нюансов: здесь есть технические дубли записей и бизнес-дубли (обновления), есть агрегированные данные и необходимость обновления агрегированных данных. А это уже пример не совсем типичного использования ClickHouse, которым мы и хотим поделиться.

Интересно? Переходите под кат.

https://habr.com/ru/post/703124/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703124

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

33 питона: зоопарк позиций, которые требуют знания python

Вторник, 29 Ноября 2022 г. 12:53 (ссылка)

В прошлом году передо мной встала задача собрать команду для разработки платформы обработки данных. Причём не только команды разработки самой платформы, но ещё и команды дата-инженеров, которые будут пользоваться этой самой платформой: писать конфигурации дата-пайплайнов и наполнять дата-лейк данными. И ещё были нужны аналитики данных, кто бы разбирался в предметных областях и понимал о чём те или иные таблицы. А так как данных много (пару тысяч таблиц) понадобились дата-сайентисты, кто бы не просто мог ответить на вопрос о качестве данных, но и предложить как это качество данных проверять на масштабе нескольких тысяч таблиц, нескольких сотен дата-пайплайнов и нескольких сотен гигайбайт данных каждый день.

Начну с темы найма. Найма питонистов всех мастей.

Завораживающие предисловие, не правда ли?

Прошло почти два года со старта проекта, и я готов подвести некоторые итоги и поделиться опытом.

Читать далее про разных питонистов

https://habr.com/ru/post/701588/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701588

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Начало работы с языковой моделью Galactica

Воскресенье, 21 Ноября 2022 г. 01:58 (ссылка)

Galactica это большая языковая модель с открытым исходным кодом от Meta AI. Модель справляется с множеством научных задач, используя единую модель, выполняет логические рассуждения, создает конспекты лекций, прогнозирует цитаты и имеет ещё массу других талантов.

В этой статье ты научишься загружать модель Galactica и напишешь свой первый запрос к ней.

Github-репозиторий

Читать далее

https://habr.com/ru/post/700482/?utm_source=habrahabr&utm_medium=rss&utm_campaign=700482

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Машинное обучение в помощь диагностам и инженерам по надёжности

Вторник, 15 Ноября 2022 г. 15:40 (ссылка)

Данных много, а я один: трудовая рутина специалистов по диагностике и инженеров по надежности тесно связана с архивами SCADA, журналами дефектов и ремонтов, многостраничной документацией на оборудование. Однако работа с большими данными может быть эффективной и простой, если в арсенале есть современные инструменты. Сегодня мы расскажем о возможностях выявления отклонений в работе оборудования с помощью решения F5 PMM от российского разработчика Factory5, который может прийти на помощь диагностам даже с минимальным количеством имеющихся данных телеметрии.

Читать далее

https://habr.com/ru/post/699496/?utm_source=habrahabr&utm_medium=rss&utm_campaign=699496

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Интеллектуально-гастрономическая аналитика или как испечь тыквенный пирог с аналитической системой

Пятница, 11 Ноября 2022 г. 15:14 (ссылка)

https://habr.com/ru/post/698840/?utm_source=habrahabr&utm_medium=rss&utm_campaign=698840

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Мониторинг в Apache NiFi. Часть вторая

Вторник, 01 Ноября 2022 г. 18:38 (ссылка)

Задачи отчетности (Reporting Tasks)

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).

Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.

Читать далее

https://habr.com/ru/post/695926/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695926

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Автоматический подбор параметров для Spark-приложений

Четверг, 27 Октября 2022 г. 11:12 (ссылка)

Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.

Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.

В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.

Зачем нам вообще понадобился автоматический тюнинг?

Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.

Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из

Читать далее

https://habr.com/ru/post/695562/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695562

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как понять, что пришло время внедрять платформу для анализа данных?

Среда, 26 Октября 2022 г. 15:32 (ссылка)

Эффективные управленческие решения основаны на качественной аналитике данных. Но информации становится больше, а ее анализ — труднее. Всё чаще на помощь компаниям приходит прогнозная или предиктивная аналитика, позволяющая справиться с экспоненциальным ростом информации благодаря использованию методов машинного обучения.

В этой статье мы рассмотрим предпосылки и признаки необходимости внедрения платформенных решений, а также укажем на аспекты, о которых надо помнить перед или при внедрении системы.

Читать далее

https://habr.com/ru/post/695622/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695622

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Линейный прогноз в Tableau. Терапевтический очерк

Воскресенье, 16 Октября 2022 г. 10:08 (ссылка)

Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...

Читать далее

https://habr.com/ru/post/692692/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692692

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<bigdata - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda