бенчмарк - Самое интересное в блогах

rss_habr

MedBench: NLP-задачи в медицине, модели и методы их решения

Четверг, 19 Января 2023 г. 22:55 (ссылка)

Привет, Хабр! Меня зовут Даниил Погуляка. Я студент четвертого курса МГТУ им. Н.Э. Баумана, факультета "Информатика, искусственный интеллект и системы управления". Уже некоторое время я занимаюсь изучением методов машинного обучения, в частности, касающихся автоматической обработки текстов (Natural Language Processing, NLP). В конце прошлого года мне удалось попасть на стажировку в Sber AI Lab. Оказавшись в команде проекта MedBench, у меня появилась возможность поработать над практическими NLP задачами. В этой статье я бы хотел рассказать вам о проекте, которым занимался на протяжении своей стажировки. Проект связан с использованием нейронных сетей в сфере медицины, но подробнее о нём после небольшого введения.

https://habr.com/ru/post/711700/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711700

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Лучший формат данных, для хранения pandas.DataFrame

Понедельник, 16 Января 2023 г. 12:01 (ссылка)

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.

На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?

Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.

В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.

Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».

https://habr.com/ru/post/710798/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710798

Метки: Блог компании Страховой Дом ВСК Python Хранение данных Data Engineering Pandas feather parquet hdf pickle csv msgpack dataframe бенчмарк

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Удобный бенчмаркинг с Jetpack Benchmark Library. Макро- и микробенчмарки

Среда, 05 Октября 2022 г. 14:41 (ссылка)

Что за зверь такой этот бенчмаркинг Android-приложений? Разберемся с тем, для чего он нужен, погрузимся в детали работы Jetpack Benchmark Library и получим знания для написания первого бенчмарк-теста.

Помогать в этом деле буду я, Диана Федотова, Android-разработчица из Технократии.

Узнать про бенчмаркинг

https://habr.com/ru/post/691620/?utm_source=habrahabr&utm_medium=rss&utm_campaign=691620

Метки: Разработка мобильных приложений Разработка под Android бенчмаркинг jetpack benchmark library android bechmarking бенчмарки бенчмарк

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Знакомимся с дата-ориентированным проектированием на примере Rust

Пятница, 19 Августа 2022 г. 10:53 (ссылка)

James McMurray

В этом посте мы исследуем основные концепции «Data-Oriented Design» (далее «дата-ориентированное проектирование» на языке Rust.

Весь исходный код для этого поста выложен на Github.
Читать дальше →

https://habr.com/ru/post/683386/?utm_source=habrahabr&utm_medium=rss&utm_campaign=683386

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Сравнение реализаций БПФ для .NET

Пятница, 08 Июля 2022 г. 16:00 (ссылка)

В этой небольшой статье мы сравним следующие реализации быстрого преобразования Фурье (БПФ) для платформы .NET:

	Accord	Exocortex	Math.NET	NWaves	NAudio	Lomont	DSPLib	FFTW
Версия:	3.8.0	1.2	5.0	0.9.6	2.1	1.1	(2017)	3.3.9
Лицензия:	LGPL	BSD	MIT	MIT	MIT	-	MIT	GPL
Сборки:	3	1	1	1	1	-	-	1+1
Размер:	3.6 MB	-	1.6 MB	0.3 MB	0.2 MB	-	-	2.3 MB
NuGet:	да	нет	да	да	да	нет	нет	нет

Читать дальше →

https://habr.com/ru/post/675438/?utm_source=habrahabr&utm_medium=rss&utm_campaign=675438

Метки: Блог компании RUVDS.com .net C# Математика ruvds_ перевод fft бпф бенчмарк

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Рейтинг русскоязычных энкодеров предложений

Воскресенье, 05 Июня 2022 г. 22:18 (ссылка)

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

https://habr.com/ru/post/669674/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669674

Метки: Python Семантика Машинное обучение Natural Language Processing sentence encoder энкодер предложений bert бенчмарк бенчмаркинг

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

NVIDIA А5500: реальная мощь или фейслифтинг?

Среда, 26 Мая 2022 г. 02:24 (ссылка)

Проверили новую GPU NVIDIA RTX A5500 на архитектуре Ampere с RT-ядрами второго поколения и тензорными — третьего. Хороша ли новинка? Для чего использовать — энкодинг, майнинг, нейросети? Рассказываем о результатах теста.

Узнать подробности

https://habr.com/ru/post/667886/?utm_source=habrahabr&utm_medium=rss&utm_campaign=667886