|
|
![]() Netflix. Архитектура системы персонализации и рекомендацийПонедельник, 20 Июня 2022 г. 11:00 (ссылка)
Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами. В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений. Читать далееhttps://habr.com/ru/post/672324/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672324 ![]() Интересный метод построения карт на основе движения роботаПонедельник, 20 Июня 2022 г. 05:56 (ссылка)
В современном мире, где робот пылесос является обыденностью, а статьи про новые автопилотируемые автомобили публикуются регулярно, давно не секрет, что для своих задач эти чудо машины строят карту движения, чтобы знать куда ехать. Читать далееhttps://habr.com/ru/post/672298/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672298
![]() Создание Data Lake и Warehouse на GCPВоскресенье, 19 Июня 2022 г. 19:56 (ссылка)
Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse. Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse. В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL. Читать далееhttps://habr.com/ru/post/672280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672280
![]() Начинающий программист vs Избирком СПбЧетверг, 16 Июня 2022 г. 19:09 (ссылка)
Это история о том, как я писал код на Python 3, который собирает и систематизирует данные по избирательным комиссиям в моём родном городе Санкт-Петербурге. Ну, и про то, что я там накопал в извлечённых данных. Я новичок в программировании, первый раз столкнулся с такой задачей и понятия не имел, как это делается, но стоило только начать... Читать далееhttps://habr.com/ru/post/671832/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671832
![]() Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестовВторник, 14 Июня 2022 г. 13:24 (ссылка)
Привет! На связи Евгений Бокарев и Надежда Грачёва, в этой статье мы расскажем про внедрение switchback A/B-тестов в логистике Delivery Club. Обсудим, как оценивать результат эксперимента, если эффективность доставки одного заказа влияет на другие. И на примере покажем, как мы снизили долю невыполненных заказов, с какими сложностями столкнулись и как их решали. Читать далееhttps://habr.com/ru/post/670762/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670762
![]() Автогенерация ETL-кодаЧетверг, 09 Июня 2022 г. 23:28 (ссылка)
С развитием информационных технологий у их пользователей все сильнее и сильнее появляется желание автоматизации рутинных операций, в том числе и автоматической генерации кода. Где это уже возможно? Я расскажу об автоматической генерации ETL-кода, которая реализована в Сбере на примере одной из использующихся платформ. Поток трансформаций данных в нашем решении называется графом. Этот граф является ориентированным ациклическим графом (DAG, directed acyclic graph). Автоматическую генерацию графов оказалось возможно реализовать благодаря наличию специального инструмента spec-to-graph, который как раз для этого и предназначен. Он позволяет формировать трансформации графа согласно написанному коду, служащему шаблоном. В этом шаблоне указывается, какие трансформации с какими параметрами следует использовать и в каком порядке нужно их соединить. Мы используем подход по генерации графов из базовых субграфов (стандартизированных маленьких графов). Т.е. мы разбиваем ETL-процесс на элементарные операции, каждую из которых реализует некоторый базовый субграф. А из субграфов формируется итоговый граф, осуществляющий загрузку данных. Данные мы грузим из Hive в Hive, дополнительно используя промежуточные индексные структуры в HBase. Читать далееhttps://habr.com/ru/post/668828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668828
![]() Как гуманитарии используют знания айтишников: Data-журналистикаЧетверг, 09 Июня 2022 г. 19:53 (ссылка)
Как мы выяснили в прошлой статье, разделение на гуманитариев и технарей — это больше стереотип, чем научный подход. Сегодня поговорим о профессии, в которой соединяются оба направления. Дата-журналисты создают истории на основе больших данных. Разберёмся, какими навыками они обладают и сколько зарабатывают. Читать далееhttps://habr.com/ru/post/670660/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670660
![]() Как быстро создать обучающий датасет для задач обнаружения объектов YOLO с помощью Label StudioЧетверг, 09 Июня 2022 г. 12:44 (ссылка)
Обнаружение объектов — одна из подзадач компьютерного зрения для идентификации определенных объектов. Например, люди, здания, растений, дорожных знаков или транспортные средства на изображениях и видео. Для создания таких моделей существует множество различных типов алгоритмов, таких, как Scale-invariant feature transform (SIFT), Detectron, RefineDet или You Only Look Once (YOLO). Их часто используют в самых разных отраслях, начиная с автономного вождения и охранных систем, заканчивая автоматизацией на производстве и распознаванием лиц. Как и с любой моделью машинного обучения, всё начинается с создания обучающего набора данных. Сделать это можно разными способами: можно заказать разметку данных, а можно всё сделать самому. Конечно, второй вариант займет намного больше времени и сил, но с помощью правильно подобранного ПО можно неплохо упростить задачу. Сейчас я подробно расскажут, как быстро создать обучающий датасет для задач детекции объектов YOLO с помощью Label Studio. Посмотрим, что у тебя там...https://habr.com/ru/post/670532/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670532
![]() [Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затратСреда, 08 Июня 2022 г. 11:46 (ссылка)
Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark. Читать далееhttps://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266
![]() Apache NiFi: как решить ошибки, которые не гуглятсяВторник, 07 Июня 2022 г. 10:11 (ссылка)
Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье. https://habr.com/ru/post/669812/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669812
![]() Неоплатонизм и информатикаВоскресенье, 05 Июня 2022 г. 20:20 (ссылка)
В современной информатике, точнее – в области машинного обучения и нейронных сетей – нашла оригинальное применение концепция платоновских идеальных сущностей. Платонические корни распознавания образов и, соответственно, роль платонизма в работе нейронок, а также в Data Science, заслуживают подробного осмысления, что я и попытаюсь обрисовать в этом посте. Пост навеян мыслями Виктора Сиротина @visirok о том, что программирование и проектирование программных продуктов являются материализацией идей. Отдельно благодарю Виктора за наше насыщенное общение, вышедшее за пределы Хабра, за его внимание к моему блогу, а также за возможность ознакомиться с его мемуарами. Впрочем, показатели трех последних постов Виктора в его блоге говорят сами за себя – надеюсь, он будет радовать Хабр и новыми превосходными работами, и все читатели, которым понравится данный пост, также не забудут подписаться на Виктора. А теперь приступим. Читать далееhttps://habr.com/ru/post/669668/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669668
![]() Как мы участвовали в чемпионате по DS длиной 3,5 месяцаПятница, 03 Июня 2022 г. 17:55 (ссылка)
В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи. Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории. Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали. Читать далееhttps://habr.com/ru/post/669522/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669522
![]() Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWHПятница, 03 Июня 2022 г. 16:32 (ссылка)
Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей. Читать далееhttps://habr.com/ru/post/669510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669510
|
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |