Сколько школ во всем мире? Чтение сотен гигабайт OpenStreetMap данных в JVM из Apache Arrow

Среда, 07 Сентября 2022 г. 14:31 + в цитатник

JVM основная платформа для Big Data решений, таких как Hadoop, Spark, Presto, NiFi но на производительность значительно влияют копирование/сериализация данных "на каждый чих" с последующей сборкой мусора и отсутствие SIMD оптимизаций при работе с данными.

А можно ли в программе на JVM прочитать сотни гигабайт Parquet файлов без Spark/Hadoop? В этом нам поможет библиотека Apache Arrow - проект, которым объединяются десятки решений для работы с Большими Данными. Но для этого даже не обязателен кластер с тысячами ядер и петабайты хранилища! Обработку данных начнем с "золотого стандарта" для open source: PostgreSQL 14 + PostGIS 3.2.0, а продолжим на OpenJDK 11 + Apache Arrow 9.0.0.

В качестве примера измерим с неизвестной точностью "среднюю температуру по больнице" - мы посчитаем число школьных зданий по всему миру в проекте OpenStreetMap. И когда говорят что образование избыточно и в школе дают много лишних знаний, то сразу же хочется задать вопрос. Предположите куда устремятся люди освободившиеся от "оков образования" и что они смогут делать во взрослой жизни? Быть только потребителями контента?

https://habr.com/ru/post/686860/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686860

<a href="https://www.liveinternet.ru/users/rss_habr/post494813319/">РЎРєРѕР»СЊРєРѕ С€РєРѕР» РІРѕ РІСЃРµРј РјРёСЂРµ? Р§С‚РµРЅРёРµ СЃРѕС‚РµРЅ РіРёРіР°Р±Р°Р№С‚ OpenStreetMap РґР°РЅРЅС‹С… РІ JVM РёР· Apache Arrow</a><br/>JVM РѕСЃРЅРѕРІРЅР°СЏ РїР»Р°С‚С„РѕСЂРјР° РґР»СЏ Big Data СЂРµС€РµРЅРёР№, С‚Р°РєРёС… РєР°Рє Hadoop, Spark, Presto, NiFi РЅРѕ РЅР° РїСЂРѕРёР·РІРѕРґРёС‚РµР»СЊРЅРѕСЃС‚СЊ Р·РЅР°С‡РёС‚РµР»СЊРЅРѕ РІР»РёСЏСЋС‚ РєРѕРїРёСЂРѕРІР°РЅРёРµ/СЃРµСЂРёР°Р»РёР·Р°С†РёСЏ РґР°РЅРЅС‹С… "РЅР° РєР°Р¶РґС‹Р№ С‡РёС…" СЃ РїРѕСЃР»РµРґСѓСЋС‰РµР№ СЃР±РѕСЂРєРѕР№ РјСѓСЃРѕСЂР° Рё РѕС‚СЃСѓС‚СЃС‚РІРёРµ SIMD РѕРїС‚РёРјРёР·Р°С†РёР№ РїСЂРё СЂР°Р±РѕС‚Рµ СЃ РґР°РЅРЅС‹РјРё.Рђ РјРѕР¶РЅРѕ Р»Рё РІ РїСЂРѕРіСЂР°РјРјРµ РЅР° JVM РїСЂРѕС‡РёС‚Р°С‚СЊ СЃРѕС‚РЅРё РіРёРіР°Р±Р°Р№С‚ Parquet С„Р°Р№Р»РѕРІ Р±РµР· Spark/Hadoop? Р’ СЌС‚РѕРј РЅР°Рј РїРѕРјРѕР¶РµС‚ Р±РёР±Р»РёРѕС‚РµРєР° Apache Arrow - РїСЂРѕРµРєС‚, РєРѕС‚РѕСЂС‹Рј РѕР±СЉРµРґРёРЅСЏСЋС‚СЃСЏ РґРµСЃСЏС‚РєРё СЂРµС€РµРЅРёР№ РґР»СЏ СЂР°Р±РѕС‚С‹ СЃ Р‘РѕР»СЊС€РёРјРё Р”Р°РЅРЅС‹РјРё. РќРѕ РґР»СЏ СЌС‚РѕРіРѕ РґР°Р¶Рµ РЅРµ РѕР±СЏР·Р°С‚РµР»РµРЅ РєР»Р°СЃС‚РµСЂ СЃ С‚С‹СЃСЏС‡Р°РјРё СЏРґРµСЂ Рё РїРµС‚Р°Р±Р°Р№С‚С‹ С…СЂР°РЅРёР»РёС‰Р°! РћР±СЂР°Р±РѕС‚РєСѓ РґР°РЅРЅС‹С… РЅР°С‡РЅРµРј СЃ "Р·РѕР»РѕС‚РѕРіРѕ СЃС‚Р°РЅРґР°СЂС‚Р°" РґР»СЏ open s... <a href="https://www.liveinternet.ru/users/rss_habr/post494813319/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Статистика

Сколько школ во всем мире? Чтение сотен гигабайт OpenStreetMap данных в JVM из Apache Arrow