обработка данных - Самое интересное в блогах

rss_habr

[Перевод] Пять факторов, которые влияют на выбор базы данных

Вторник, 31 Января 2023 г. 16:00 (ссылка)

При выборе баз данных для текущего проекта (или при замене тех, которые не отвечают вашим текущим потребностям) количество возможных вариантов очень велико. Это и хорошо, и плохо, ведь нужны какие-то критерии фильтрации.

Сегодня есть гораздо больше баз данных, чем когда-либо. В декабре 2012 года, когда DB-Engines.com впервые начал ранжировать базы данных, у него получился список из 73 систем (существенный рост по сравнению с самым первым списком из 18 систем). Спустя десять лет, на декабрь 2022 года в списке было уже почти четыреста систем. За последнее десятилетие произошёл настоящий кембрийский взрыв технологий баз данных. Нужно ориентироваться в обширном пространстве вариантов: SQL, NoSQL, множество «многомодельных» баз данных, которые могут быть сочетанием SQL и NoSQL, или множественные модели данных NoSQL (сочетающие две или более опций: документы, ключи-значения, широкие столбцы, графы и так далее).

Кроме того, пользователи не должны путать популярность с применимостью для них. Хотя сетевой эффект имеет свои преимущества («Все пользуются X, поэтому не ошибусь, если выберу её»), он также может привести к групповому мышлению, торможению инноваций и конкуренции.

Мы с моим коллегой Артуром Песа недавно рассмотрели пять факторов, которые пользователи должны учитывать в первую очередь при выборе и сравнении баз данных.
Читать дальше →

https://habr.com/ru/post/713892/?utm_source=habrahabr&utm_medium=rss&utm_campaign=713892

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Предсказание VO2max с помощью машинного обучения

Среда, 07 Декабря 2022 г. 11:05 (ссылка)

Спросите любого медика, и он скажет вам, что диагностика — самый важный этап лечения. И тут не поспоришь, ведь когда мы знаем, что лечить, то после можем решить как это сделать. Но лучше диагностики заболевания может быть только его предотвращение. Для этого необходим мониторинг состояния организма, состоящий из оценки множества параметров. Отслеживание некоторых из них, например VO₂max, происходит в лабораторных условиях и требует определенного оборудования, стоимость которого порой довольно высока. И вот ученые из Кембриджского университета (Великобритания) разработали новый метод мониторинга VO₂max (максимальное потребление кислорода) с помощью носимой электроники, точность которых в разы выше, чем у самых последних моделей умных часов и фитнес трекеров. Что лежит в основе нового метода мониторинга VO₂max, как он был реализован и какие данные показал? Ответы на эти вопросы мы найдем в докладе ученых. Читать дальше →

https://habr.com/ru/post/703752/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703752

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Совместный доступ к Spark-датасетам из разных приложений — Redis нам в помощь

Пятница, 02 Декабря 2022 г. 14:25 (ссылка)

Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.

Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.

https://habr.com/ru/post/703136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703136

Метки: Блог компании OTUS Хранение данных spark spark- датасеты redis коннекторы обработка данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как мы используем Greenplum в платформе данных Тинькофф

Пятница, 21 Октября 2022 г. 11:34 (ссылка)

Меня зовут Дмитрий Немчин, я руковожу отделом, который отвечает за движки хранения и обработки данных в платформе данных Тинькофф. Несколько лет назад мы поняли, что продукты, на которых работало хранилище, перестали нас устраивать. Объемы росли, понадобилось масштабируемое решение. В этом тексте я расскажу, как мы пришли к Greenplum в качестве ядра хранилища данных и как используем его.

https://habr.com/ru/post/694652/?utm_source=habrahabr&utm_medium=rss&utm_campaign=694652

Метки: Блог компании TINKOFF Администрирование баз данных обработка данных базы данных data warehouse greenplum cdc

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Вторник, 18 Октября 2022 г. 11:41 (ссылка)

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.
Читать дальше →

https://habr.com/ru/post/694006/?utm_source=habrahabr&utm_medium=rss&utm_campaign=694006

Метки: Блог компании Selectel Big Data Data Mining IT-инфраструктура Машинное обучение обработка данных платформа it- инфраструктура itsumma apache bi greenplum

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Готовимся к миграции чувствительных данных

Понедельник, 26 Сентября 2022 г. 10:55 (ссылка)

Привет! Меня зовут Адель, я аналитик ИТ-компании SimbirSoft, кроме того, я интересуюсь Data Science. Тема миграции данных из одной системы в другую не нова. Она связана с анализом большого объема информации и связей между различными участками данных, где стоимость ошибки может быть высокой и нужна особая ответственность. Вокруг этой информации построены основные бизнес-процессы, а значит от них напрямую зависит прибыль компании-клиента.

Каждый перенос данных – это большой пласт работ в проекте, и делая это уже много раз при запуске новых систем, мы постоянно ищем способы ускорения этих работ и уменьшения количества ошибок при переносе. В этой статье хочу рассказать, как можно решить проблему миграции чувствительных необработанных данных, которые на протяжении долгого времени заполнялись и хранились в Excel.

Материал будет полезен разработчикам и аналитикам при работе над проектами по миграции данных, поскольку содержит реальные проблемы и проверенные подходы к их решению. В статье рассмотрим, как правильно подготовить данные к переносу, когда нужно уйти от несистематичного и разрозненного хранения важной информации в таблицах Excel и локальных хранилищах. Поэтому материал может быть интересен и бизнесу.

https://habr.com/ru/post/690098/?utm_source=habrahabr&utm_medium=rss&utm_campaign=690098

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как фермеру узнать состояние своих полей по NDVI?

Четверг, 11 Августа 2022 г. 09:10 (ссылка)

В данной статье я не буду вдаваться в подробности теории, предполагаю, что вы знаете для чего нужен этот индекс. Моя задача - показать, как вам можно его получить.

https://habr.com/ru/post/681976/?utm_source=habrahabr&utm_medium=rss&utm_campaign=681976

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Проектирование ETL-пайплайна в Apache Airflow

Среда, 27 Июля 2022 г. 18:35 (ссылка)

Привет, Хабр! На связи Рустем, IBM Senior DevOps Engineer и сегодня я хотел бы продолжить наше знакомство с инструментом в DataOps инженирии — Apache Airflow. Сегодня мы спроектируем ETL-пайплайн.

https://habr.com/ru/post/679402/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679402

Метки: Блог компании OTUS Хранение данных dataops ETL-пайплайн mapreduce обработка данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как упростить пакетную обработку данных со Spring Batch

Вторник, 14 Июня 2022 г. 09:31 (ссылка)

Как упростить пакетную обработку данных со Spring Batch на примерах.

https://habr.com/ru/post/671196/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671196

Метки: Блог компании Usetech java spring boot spring framework обработка данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как мы разрабатывали OCR для приборов учёта коммунальных услуг

Четверг, 09 Июня 2022 г. 14:05 (ссылка)

Привет, Habr!

Вы или ваши близкие точно сталкиваетесь с тем, что раз в месяц нужно выйти на лестничную площадку, включить фонарик в телефоне и переписать показания счётчика электроэнергии, а ещё снять показания счётчиков воды, и, возможно, даже природного газа. Нашим коллегам из департамента недвижимости и эксплуатации приходится проделывать такое упражнение ежемесячно на 18 тысячах объектов! Поэтому у нас в команде Центра искусственного интеллекта (ЦИИ) Блока «Сервисы» появилась идея облегчить жизнь сервис-менеджера с помощью технологии Computer Vision (далее CV), как Optical Character Recognition (сокращённо — OCR).

В принципе, задача выглядела простой и очевидной даже на уровне начинающего специалиста, который только осваивает технологии CV. Но в реальной жизни всё оказалось намного интереснее и вариативнее. Во-первых, даже при наличии некоторого количества публикаций с описанием похожих решений не оказалось готового датасета, на котором эти решения можно было бы сравнить. Во-вторых, обладая достаточным количеством ресурсов, сбор и разметка данных всё равно потребовали значительной изобретательности.

Кроме того, на своей лестничной площадке мы видим всегда одни и те же счётчики, а разнообразие их видов в «дикой природе» оказалось гораздо шире! Поэтому мы решили, что будет интересно узнать о нашем пути практического решения задачи распознавания счётчиков (более строгое название, как подсказали наши коллеги, — приборов учёта. Поэтому далее будут встречаться оба этих термина, но речь будет идти об одном и том же).

https://habr.com/ru/post/670568/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670568

Метки: Блог компании Сбер обработка изображений искусственный интеллект обработка данных ai computer vision ocr

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Создание бессерверных API с помощью Node.js и AWS Lambda

Среда, 01 Июня 2022 г. 18:14 (ссылка)

AWS Lambda существует уже несколько лет, и она остается самым популярным способом экспериментировать с технологией serverless. Если вы не знакомы с serverless, то это модель разработки, в которой управление, предоставление и масштабирование серверов абстрагируется от разработки приложений. Серверы существуют в бессерверном (serverless) мире, но они полностью управляются облачным провайдером, что позволяет разработчикам сосредоточиться на упаковке своего кода для деплоя.

AWS Lambda — это разновидность функции как услуги (FaaS), которая позволяет выполнять код по требованию в ответ на предварительно сконфигурированные события или запросы. Эта статья познакомит вас с AWS Lambda и поможет создать и развернуть функции Lambda с помощью Node.js и AWS SAM.

Давайте приступим!

https://habr.com/ru/post/669118/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669118

Метки: Блог компании OTUS Node.js AWS Lambda бессерверные API Многопоточность обработка данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Big Data и логистика: чем большие данные полезны участникам отрасли

Четверг, 28 Апреля 2022 г. 15:38 (ссылка)

Привет, Хабр! Мы – сервис для оптимизации внутригородской логистики Relog. Наш продукт целиком построен вокруг аналитики. И сегодня мы расскажем пользователям Habr, какие возможности для логистических компаний открывает Big Data.

Для начала несколько слов об анатомии TMS Relog. Это комплекс ПО, который отвечает за полную систематизацию данных логистической компании с высокой частотой обновления. В этом участвуют два ключевых механизма: валидация данных и автоматизация процессов по доставке последней мили.

Информация о статусе заказов мгновенно поступает из ERP-систем клиента в аналитическую систему Relog BI. Мы построили свой продукт на базе решения Microsoft Power BI (которое, к слову, продолжает работать на территории России без сбоев). Также мы интегрировали решения, связанные с сенсус-аналитикой и геоаналитикой. Пространственный анализ позволил расширить возможности системы.

https://habr.com/ru/post/663470/?utm_source=habrahabr&utm_medium=rss&utm_campaign=663470