No-code и low-code для дата аналитиков: пространственный анализ без написания кода

Анализ пространственных данных может быть чрезвычайно сложной задачей.

Даже если вы хорошо разбираетесь в геоаналитике и data science, путь от поиска и загрузки данных до получения интерактивной карты или отчёта с результатами анализа может оказаться непредсказуемым.

Особенно это касается тех проектов, где приходится иметь дело с большими объёмами данных в несовместимых форматах из многих разрозненных источников. А таких проектов много, если не сказать большинство (плотность населения, данные для вычисления автомобильного и пешеходного потоков с GPS-устройств, данные с сенсоров и датчиков интернета вещей, геоданные социальных сетей, телеметрия и другие часто используемые пространственные данные — это всегда большие наборы данных).

В нашей статье разберём трудности, с которыми приходится сталкиваться в проектах пространственного анализа. Обсудим мировые тренды и то, как они позволяют решать эти проблемы.

И, конечно, рассмотрим и хорошие новости: как современные технологии и no-code платформы делают пространственный анализ доступным, и убедимся в этом на примере.

Как выглядит процесс пространственного анализа

Существует несколько методологий анализа данных, большинство из которых имеют похожие черты. Они представляют собой понятный стандартизированный способ превращения «сырых» данных в готовые решения и прогнозы. Самые известные — это KDD (Knowledge Discovery in Databases), SEMMA (Sample, Explore, Modify, Model, Assess) и CRISP-DM (Cross-Industry Standard Process for Data Mining).

В целом процесс анализа пространственных данных можно разделить на несколько этапов (на примере SEMMA).

Сбор и подготовка данных (Sample). На этом этапе собираются пространственные данные из различных источников. Данные очищаются и приводятся к единому формату для дальнейшего анализа.
Исследование (Explore). Поиск тенденций и аномалий в пространственных данных. Может включать в себя анализ распределения данных по географическим регионам, поиск пространственных корреляций и другие формы исследовательского анализа. Обычно предполагает создание карт и других визуальных представлений данных.
Модификация данных (Modify). Преобразование и подготовка пространственных данных для анализа. Это может включать создание новых переменных, например, расчёт расстояний или создание пространственных индексов, а также выбор и трансформацию переменных для уточнения модели. Применение различных аналитических методов, таких как анализ расстояний, буферный анализ, построение маршрутов и т. д.
Моделирование данных (Model). На этом этапе применяются различные аналитические модели для прогнозирования или понимания пространственных явлений. Может включать в себя использование геостатистических методов, пространственного моделирования, машинного обучения и других инструментов для поиска пространственных закономерностей, моделирования сценариев и оценки влияния различных факторов, например, в планировании землепользования или определении оптимального местоположения для магазинов.
Оценка (Assess). Здесь анализируются полученные результаты, а также оценивается, насколько хорошо модель предсказывает или объясняет интересующие явления. Включает в себя оценку точности, проверку на тестовых данных и интерпретацию результатов в контексте задачи.

На каждом из этих этапов выполняются разные операции обработки пространственных данных. Например, на этапе подготовки данных — геокодирование для превращения адресов в географические координаты, а на этапе анализа — геостатистические методы для изучения связей между данными и SQL-joins для соединения данных из разных наборов данных. Последующие этапы включают в себя такие задачи, как интерпретация полученных результатов, их внедрение в бизнес-процессы и обратная связь для доработки аналитических моделей.

Применяемые методы на каждом этапе могут быть разными — в каждом проекте свои уникальные задачи и подходящие инструменты.

Сложности пространственного анализа

Перечисленные этапы часто трудно реализовать на практике. Основные сложности связаны с необходимостью анализа больших объемов пространственных данных. Эти данные разбросаны по различным источникам и представлены в разнообразных форматах. Для того чтобы их собрать, обработать и подготовить, нужны дорогостоящие вычислительные мощности, а также специалисты, обладающие компетенциями в data science.

Рассмотрим подробнее. Мы выделяем две частые проблемы во время пространственного анализа.

Неудовлетворительная скорость обработки и визуализации пространственных данных в традиционной инфраструктуре

Во многих ГИСах, которые активно работают с большим объёмом данных и проводят сложные вычисления, обработка занимает много времени, иногда даже неприемлемо много. Это проявляется в медленной загрузке данных и создании карт, замедленной «перерисовке» карты при масштабировании и перемещении, а также в длительном времени, необходимом для выполнения различных вычислений.

Необходимость привлечения квалифицированной команды data science для настройки бизнес-процессов

Рост объёма и сложности данных увеличивают нагрузку на команды пространственного анализа и роли всех типов.

От инженеров по обработке данных, задачей которых является создание согласованных и масштабируемых конвейеров, аналитиков, гарантирующих точность и актуальность данных, до специалистов по обработке и разработчиков, сталкивающихся с необходимостью работы с большими объемами данных.

Проекты пространственного анализа требуют специальных навыков и знаний в области геоинформационных технологий, ГИС-инструментов и data science, а также spatial SQL.

Такие знания есть далеко не у всех. Поэтому в следующем разделе рассмотрим тенденции в сфере анализа данных, нацеленные на расширение доступности аналитических инструментов для широкого круга пользователей и снижение зависимости от квалифицированных специалистов.

Мировые тенденции в области аналитики данных

При этом отказ от пространственного анализа, который является чрезвычайно удобным инструментом, из-за существующих сложностей был бы нежелателен.

Тем более, учитывая быстрое развитие технологий и повышенное внимание со стороны Gartner, мировых консалтинговых и технологических компаний, а также сообществ разработчиков открытого и проприетарного программного обеспечения, успешное решение всех проблем становится закономерным.

Переход в облачную инфраструктуру

Системы, которые интенсивно используют большие объёмы данных, нуждаются в большей вычислительной мощности. Для увеличения этой мощности можно использовать параллельные вычисления, что подразумевает одновременную обработку данных с помощью нескольких процессоров или компьютеров. Существует несколько способов это сделать, включая использование многоядерных процессоров, компьютерных кластеров, графических процессоров (GPU — Graphics Process Unit) и облачных вычислений.

Облачные высокопроизводительные вычислительные решения становятся все более доступными, поэтому компании постепенно переводят локальные системы в облако.

Облачная платформа не только решает проблему производительности, но и позволяет оптимизировать расходы на инфраструктуру, благодаря модели «Платишь только за то, что используешь» или Pay-As-You-Go.

Применение пространственных индексов

Идея пространственного индексирования заключается в разбиении поверхности Земли на ячейки, чаще всего квадраты или шестиугольники. Каждая ячейка затем «наполняется» данными о объектах в её периметре. К примеру, это может быть численность населения, количество жилых зданий, точки интереса, заказы интернет-магазина за определённый период, автобусные остановки и многое другое.

Системы индексирования поддерживают иерархию ячеек, т. е. каждая «родительская» ячейка может быть поделена на вложенные «дочерние» ячейки, а также отношения между соседними ячейками.

Широко применять пространственные индексы начали Uber (система пространственных индексов H3) и Google (S2). Со временем технологии пространственной индексации интегрируются в основные распространённые хранилища данных.

Применение пространственных индексов заметно ускоряет процессы анализа больших наборов данных, вычисления расстояний, площади и т. д., поиска соседних областей, позволяет выполнять динамическую агрегацию данных в ячейках, а также ускоряет объединение пространственных данных из разных источников и обеспечивают их согласованность.

Использование этих технологий не только ускоряет пространственный анализ данных, но и обеспечивает интеграцию данных, особенно при работе со сторонними данными. Если внешний поставщик данных предоставляет пространственные данные, уже отформатированные в одной из этих систем пространственной индексации, это заметно упрощает процесс их объединения с существующими данными пользователя.

Аналитика самообслуживания (Self-service Analytics)

Аналитика самообслуживания — это форма бизнес-аналитики, при которой специалистам предоставляется возможность выполнять запросы и генерировать отчёты самостоятельно при минимальной ИТ-поддержке.

Встроенная аналитика

Цифровое рабочее место обогащается возможностью встроенной аналитики, когда анализ данных осуществляется непосредственно в рамках обычного бизнес-процесса пользователя, избавляя от необходимости переключаться на другое приложение. Этот подход часто используется в специфических процессах, например, при оптимизации маркетинговой кампании, конверсии потенциальных клиентов, планировании спроса на товарно-материальные запасы и в других случаях.

Это даёт возможность пользователям, особенно тем, у кого нет специализированных навыков работы с данными, получать информацию о своих бизнес-операциях. Такой подход не только упрощает процесс анализа данных, но и даёт возможность принимать решения на основе данных в режиме реального времени.

Как эти тенденции влияют на распределение ролей в компаниях

Такие тенденции размывают границы между аналитиками данных и отраслевыми экспертами. Раньше аналитика данных, data science и бизнес-анализ считались отдельными дисциплинами с уникальными методами и инструментами, выполняемыми различными подразделениями. Однако в последнее время появляются решения, способствующие их интеграции.

Слияние этих областей оказывает влияние не только на технологии, но и на людей, а также на процессы внутри организаций.

К примеру, специалист по развитию розничной сети теперь может анализировать данные о покупках, выручке, трафике и плотности населения для создания моделей машинного обучения.

Эти модели предсказывают выручку и помогают оптимизировать запасы товаров в новых магазинах, включая этапы сбора данных из разных источников, их очистку и последующий анализ работы сети магазинов с применением алгоритмов машинного обучения для прогнозирования продаж.

Весь процесс может быть выполнен экспертом самостоятельно, без привлечения команды data science и разработчиков.

Далее посмотрим, какие решения для этого есть.

Автоматизация процесса пространственного анализа и no-code workflow платформы

Рассмотренные выше тенденции отражают растущую потребность в инструментах, которые делают пространственную аналитику доступной для пользователей с любым уровнем подготовки, и интегрированной в текущие бизнес-процессы компании.

Мы разработали такой инструмент — это Epsilon Workflow.

Представьте себе конструктор для построения процессов из пространственных операций и моделей машинного обучения.

Выбор наборов данных и задач, которые необходимо выполнить с их помощью, осуществляется путём выбора соответствующих кубиков и их последующего соединения в единые процессы.

На каждом шаге видите промежуточный результат на карте или в таблице, и можете уточнить или скорректировать этот шаг, если нужно.

Каждый доступный кубик соответствует определённой операции над пространственными данными, spatial SQL-запросу или модели машинного обучения.

Состав этих функций широкий, всё не перечислишь: от импорта и геокодирования данных до расчёта времени в пути, построения буферов и изохрон. Вы можете работать с матрицами расстояний, искать ближайших соседей, определять вхождение точек в полигоны, проводить геостатистический анализ и настраивать фильтры. Доступны пространственные соединения, агрегирование данных, возможности комбинирования внешние наборы данных со своими, операции по созданию линий, полигонов и точек, методы пространственной кластеризации и использование пространственных индексов, создание полигонов Делоне, измерение площади и многие другие функции и сервисы. Также есть возможность выбрать и встроить в процесс предопределённые модели предиктивной аналитики.

Всё делается без написания кода или SQL-запросов.

Операции выполняются в вашем облачном хранилище данных. Если оно пока отсутствует, доступ предоставляется в специально выделенном хранилище в облаке Epsilon On Point. Поэтому все запросы обрабатываются быстро.

Как только результаты workflow будут готовы, вы можете визуализировать их на карте, затем сохранить её и при необходимости опубликовать, установив правила разграничения прав доступа. Вы также можете отправить данные на электронную почту в удобное время и в подходящем формате, сохранить их в файле GeoParquet для использования в Geopandas или создать новые таблицы в вашем хранилище данных. Все эти действия выполняются в рабочем окружении Epsilon On Point.

После создания workflow его можно сохранить для использования в операционных процессах: предоставить доступ коллегам, настроить регулярный или однократный автоматический запуск на определённое время, а также повторно применять в различных бизнес-процессах и при разработке приложений.

К тому же так как мы используем SQL-запросы, весь workflow превращается в SQL-код. Это значит, что вы можете не только посмотреть на этот код, но и, если захотите, менять его сами.

Разработка no-code и low-code инструментов для настройки и внедрения процесса цифровых изменений

Мне очень нравится Epsilon Workflow, потому что он делает пространственный анализ доступным для всех. Этот инструмент могут использовать как профессионалы в области анализа данных, так и те, кто в программировании и SQL совсем не разбирается.

Дополнительное преимущество Epsilon Workflow заключается в использовании современных технологий: это облачные хранилища, сервисы для обработки данных, Spatial SQL и машинное обучение. Эти технологии позволяют работать с большими объёмами пространственных данных из разных источников и нашего Каталога данных.

Посмотрите видео, где я представляю наш инструмент no-code геоанализа, который позволяет автоматизировать сложные пространственные процессы без использования SQL и программирования.

Нам интересно, как вы будете использовать Epsilon Workflow. Выберите удобное время, чтобы мы провели для вас демонстрацию, и давайте попробуем вместе.