Пространственный анализ: как смотреть на данные и видеть больше

Введение

Пространственный анализ находится на пересечении Data Science и геоинформационных технологий, поэтому статья будет интересна как ГИС-специалистам так и специалистам Data Science.

Геоинформационные системы (ГИС) раньше были инструментом для узкого круга специалистов, а сегодня стали важной частью многих отраслей и профессий.

Драйвером этих изменений стала революция в области геоданных. Появление больших геоданных, включая высокоточные снимки Земной поверхности, данные с мобильных устройств, оснащенных GPS-приёмниками, и из социальных сетей создало потребность в новых мощных инструментах для их обработки и интерпретации.

Статья содержит несколько тем: начнём с представления понятий анализа данных в пространственном контексте, затем перейдем к методам пространственного анализа и возможностям ГИСов в части их реализации.

Геоаналитикам и экспертам в ГИС, возможно, будет интересно, как применить методы Data Science к анализу пространственных данных, а специалисты по данным найдут способы адаптации своих инструментов к пространственному анализу.

Надеемся, что объединение знаний и методов поможет специалистам из разных областей эффективно применять комбинацию инструментов ГИС и Data Science при решении задач пространственного анализа.

Основы пространственного анализа

Что делает анализ пространственным?

Определений для пространственного анализа довольно много. Мне больше других нравится определение Гудчайлда, так как оно перекликается с Data Science:

«Пространственный анализ (данных) – это совокупность методов для поиска закономерностей, выявления аномалий или проверки гипотез и теорий на основе пространственных данных», (Goodchild, M. F., 2008).

Началом пространственного анализа можно считать картографию и геодезию, и чуть позже — геоинформационные технологии.

Со временем пространственный анализ стал интегрироваться с математикой, статистикой, информатикой и технологиями анализа больших данных, что заметно расширило его возможности и области применения. Пространственный анализ развивается, интегрируясь с Data Science.

Четыре вопроса пространственного анализа

1. Где происходят исследуемые события: закономерности, кластеры, горячие точки. Выявление ключевых областей, паттернов, кластеров, «горячих точек». Например, определение мест распространения инфекционных заболеваний.

2. Почему события происходят именно там? Выявление факторов, определяющих местоположение событий. Например, почему некоторые районы имеют более высокий уровень преступности? Анализируя районы с высоким уровнем преступности, специалисты обнаружили, что они связаны с низким уровнем образования, высокой безработицей и плохим жильем. Эти факторы в совокупности создают условия для роста преступности.

3. Как окружение влияет на происходящее? Исследование взаимозависимостей между событиями и их локацией и окружением. Например, как географическое положение влияет на экономический уровень региона.

4. Где расположить объекты? Определение оптимального местоположения объектов и событий. Например, при выборе оптимального места для открытия нового магазина компания может использовать ГИС для анализа демографических данных, распределения конкурентов, доступности транспорта и других ключевых факторов. Такой анализ может показать, что определенный район лучше других подходит для нового магазина из-за высокой плотности потенциальных покупателей, низкой конкуренции и транспортной и пешеходной доступности.

Что делает данные пространственными: зависимость и неоднородность

Пространственные случайные процессы обладают двумя уникальных характеристиками, которые выделяют их среди других типов данных и определяют особенности их анализа:

Пространственная зависимость (spatial autocorrelation)

Понятие пространственной зависимости связано с существованием функциональной взаимосвязи между тем, что происходит в одной точке пространства, и тем, что происходит в другом месте. Определяет, как схожесть значений наблюдений в наборе данных коррелирует с пространственной близостью этих наблюдений.

Эта важная характеристика пространственных данных признана Первым законом географии Тоблера: «Все связано со всем остальным, но близкие объекты связаны больше, чем удаленные».

Пространственная автокорреляция может быть положительной или отрицательной. Положительная автокорреляция означает, что схожие значения обычно находятся рядом. В отрицательной пространственной автокорреляции похожие значения обычно распределены на больших расстояниях друг от друга, что может быть связано с пространственной конкуренцией, как, например, распределение магазинов разных брендов.

Это отличается от предположения о независимости наблюдений, применяемое в традиционных статистических моделях.

Поэтому для анализа пространственных данных используются специализированные статистические методы, которые учитывают пространственную зависимость.

Как определить, есть ли пространственная зависимость?

Часто для определения того, есть ли в данных пространственная зависимость, используется глобальный одномерный индекс Морана (Global Moran I), который измеряет общую пространственную автокорреляцию набора данных.

Он показывает, являются ли значения, хранящиеся в пространственных объектах, кластеризованными, случайными или рассредоточенными.

Метод оценивает, насколько один объект похож на другие, окружающие его. Если похожие объекты «притягиваются» (или «отталкиваются») друг от друга, это означает, что наблюдения не являются независимыми.

Нулевая гипотеза состоит в том, что набор объектов случаен и пространственная зависимость отсутствует (распределение абсолютно случайное). В этом случае Индекс Морана = 0. Пространственной зависимости нет, можно использовать стандартные «непространственные» методы моделирования.
Если оказывается, что набор кластерный, это значит, что более близкие объекты имеют тенденцию иметь более схожие значения (похожие объекты «притягиваются» друг к другу) и наблюдения не являются независимыми. Индекс Морана = 1.
Если выявляется дисперсия, это значит, что близко расположенные объекты имеют тенденцию иметь более различные значения. Наблюдения тоже не являются независимыми (подобные объекты «отталкиваются» друг от друга, зависимость обратная). Индекс Морана = -1.

Как определить, с чем сравнивать?

Для того, чтобы понять, какие объекты окружают исследуемый объект (и являются соседями), используются матрицы пространственных весов, которые определяют относительную значимость анализируемых объектов в контексте их местоположения и взаимоотношений.

Матрица весов — это инструмент, позволяющий определить пространственные отношения между различными объектами. Она представляет собой квадратную матрицу, размер которой соответствует числу изучаемых объектов. Элементы матрицы выражают степень связи или взаимного влияния между парами объектов.

Одна из наиболее популярных матриц весов — матрица, выявляющая объекты, имеющие общие границы (матрица соседства или граничная матрица). В ней каждая строки соответствуют объектам в пространстве и показывают, как соседние объекты влияют на него: элементы принимают значение «1», если объекты являются соседями (имеют общую границу или центры находятся на определенном расстоянии друг от друга), и «0» — в противном случае. Главная диагональ состоит из нулей (для исключения влияния объекта на самого себя).

Также часто используются матрицы расстояний, обратных расстояний и другие.

Пространственная неоднородность (spatial heterogeneity)

Характеристики исследуемых объектов могут меняться в зависимости от местоположения, что требует использования специализированных методов анализа.

Пример: В геологическом исследовании уровень засоленности почвы может сильно варьироваться в зависимости от географического расположения или цены на квартиры в одном и том же административном округе могут сильно различаться.

Для моделирования пространственной неоднородности между переменными применяется географически взвешенная регрессия (Geographically weighted regression — GWR).

Помните пример с ценами на квартиры? GWR анализирует, какие именно факторы (например, близость к парку или транспортным узлам) и в какой степени влияют на цену в разных локациях. В одном районе большое значение может иметь близость к метро, в другом – вид на парк или озеро и др.

GWR создает отдельные уравнения для каждой точки (или области) на карте, чтобы показать, как эти факторы меняют свое влияние в разных местоположениях.

Представьте, что на карте вы видите тепловую карту, где цвета обозначают уровень цен на жилье — от красного (самый высокий уровень) до синего (самый низкий). При применении GWR мы могли бы добавить к этой карте стрелочки разных размеров и направлений, показывающие, какой фактор и как влияет на изменение цен — увеличивает их или уменьшает.

Другие особенности пространственного анализа

Земля (почти) шарообразная, поэтому нужны картографические проекции

Пространственные данные часто представлены в различных географических проекциях, что может исказить их свойства. Выбор подходящей проекции очень важен для корректного анализа и интерпретации данных.

Ключевым моментом в этом является понимание формы Земли. Земля неровная и не совсем шарообразная (а точнее — геоид), а изучаем мы eё в основном на картах или плоских поверхностях мониторов (школьные глобусы в расчёт не берём).

Поэтому для анализа пространственных данных сначала нужно преобразовать 3D модель Земли в 2D модель карты. Для этого используется сеть из 180 линий широты и 360 линий долготы и математические методы (а точнее, простые формулы) перевода географических координат в координаты на плоскости.

Географические координаты — угловые величины (широта и долгота), которые определяют положение точек на поверхности Земли. Широта и долгота чаще всего измеряются в градусах или радианах. Эти координаты обеспечивают базовую систему для позиционирования и интерпретации глобальных географических данных.

Плоские прямоугольные (спроецированные) координаты — линейные величины (X и Y), которые определяют относительное положение точек на плоскости. Единицы измерения: Линейные (метры, километры, футы и т.д.). Эти координаты используются для обеспечения понятного представления пространственных данных на карте.

Картографическая проекция — система для перевода (или проецирования) географических координат на плоскость.

Эти проекции могут быть сделаны либо в глобальном масштабе, охватывающем всю планету, либо в локальном масштабе, специфичном для конкретной страны или области.

В основе любой системы координат проекции лежит географическая система координат (ГСК). Для того, чтобы присвоить каждой точке на поверхности Земли координаты, нужны правила (каким образом точку на геоиде спроецировать на сферу). Практически все геосервисы и GPS используют систему координат WGS 84 (World Geodetic System, 84 — год утверждения стандарта).

ГСК и системы координат проекции связаны между собой формулами проекционного преобразования. Зная проекцию метрических координат, их можно пересчитать обратно в географические координаты.

Сейчас используется единая классификация систем координат в ГИС — реестр EPSG (EPSG.io) Это неофициальный источник, но более понятный, чем официальный.

Проекции бывают разные (различаются по тому, на цилиндр, конус или касающуюся плоскость проецируется поверхность Земли), но объединяет их одно — каждая из них что-то сохраняет, но для этого что-то другое искажает.

Для описания проекций один из авторов научно-популярного канала на youtube разрезал надувной глобус и постарался придать прямоугольную форму оставшейся от шарика плёнке. Плёнку приходилось при этом растягивать, и очертания континентов и стран при этом сильно искажались.

До тех пор, пока мы пользуемся картами, мы вынуждены мириться с искажениями проекций. Выбор проекции обусловлен тем, какие искажения приемлемы для конкретного исследования или проекта.

Искажение длин означает, что реальные расстояния между объектами в пространстве не сохраняются на проекции карты. Например, в проекции Меркатора, которая сохраняет углы, длины линий ближе к полюсам существенно увеличиваются по сравнению с их реальными размерами на поверхности Земли.
Искажение площадей происходят, когда области, представленные на карте, не соответствуют их реальным значениям.

Например, проекция Меркатора — одна из самых известных и широко используемых проекций, искажает площадь, сохраняя при этом правильные углы и форму объектов. Это особенно заметно ближе к полюсам, где объекты «раздуваются» и кажутся намного больше, чем они есть на самом деле. Например, Гренландия на карте выглядит почти такой же по размеру, как Африка, хотя в реальности Африка в 14 раз больше Гренландии. Такая карта может поддерживать неправильные представления о доминировании определенных регионов или стран, подчеркивая их преувеличенные размеры, что является распространённым поводом для шуток о заносчивости стран Северной Америки и Европы.

Искажение углов возникает, когда углы между объектами искажаются в процессе проекции. Важно отметить, что некоторые проекции, например, уже упоминавшаяся проекция Меркатора, сохраняют углы и формы, но делают это за счет искажения длин и площадей.

Тип картографических проекций	Сохраняемая пространственная характеристика данных	Пример
Равноугольная (Conformal)	Форма	Меркатора
Равновеликая (Equal Area)	Площадь	Альберса Молльвейде
Равнопромежуточная (Equistant)	Расстояние	Равнопромежуточная коническая
Азимутальная (Azimuthal)	Направление	Ламберта
Компромиссная	Ничего не сохраняет, но обеспечивает визуально удовлетворительное представление всего мира	Робинсона

Проблемы зонирования и масштаба

Это значит, что результаты анализа пространственных данных могут зависеть от выбора границ областей (зонирования) и масштаба исследования. Пример: При изучении уровня преступности результаты могут зависеть от того, какие границы районов выбраны для анализа и какой масштаб исследования используется.

Атрибутивная информация

Каждый пространственный объект обладает атрибутивной информацией, описывающей его свойства и характеристики. Эта информация может быть как количественной, так и качественной и требует соответствующих методов анализа. Пример: В экологическом исследовании данные о растительности могут включать атрибуты, такие как вид, высота, и возраст растений.

Временной aспект

Пространственные данные могут также иметь временной компонент, что добавляет дополнительный уровень сложности к их анализу и интерпретации. Пример: Исследование климатических изменений требует анализа пространственных данных о температуре, осадках и других факторах на протяжении длительного временного периода.

Из чего состоит пространственный анализ

Картографирование и геовизуализация. Позволяет визуализировать и интерпретировать пространственные данные, демонстрируя интересные закономерности.
Исследовательский анализ пространственных данных (ESDA — Exploratory Spatial Data Analysis). Анализ пространственных данных с целью обнаружения закономерностей или аномалий.
Пространственное моделирование. На этом этапе создаются модели для объяснения выявленных паттернов. Это включает в себя оптимизацию, прогнозирование и моделирование на основе анализа.

GIS First vs Data Science First (или нужно ли геоаналитикам знать Data Science, а аналитикам данных разбираться в ГИС?)

До недавнего времени аналитики данных и ГИС-аналитики работали в параллельных направлениях, почти не пересекаясь в проектах.

Аналитики данных с давно с легкостью работают геоданными, используя популярные инструменты визуализации, такие как хороплеты или плиточные карты.

Геовизуализация популярна в СМИ и многих других направлениях для представления информации. Интеграция интерактивных карт и базовых возможностей визуализации геоданных в BI-решениях стала почти стандартом.

Но при этом атрибуты местоположения используются таким же образом, как и все другие атрибуты, не учитывая пространственную специфику данных.

Для анализа применяют неспециализированные методы и инструменты из привычного инструментария BI и Data Science.

ГИС-аналитики в свою очередь имеют глубокие знания в области геоинформационных технологий. Они могут детально изучить рельеф, работать с различными картографическими проекциями и применять методы пространственной статистики. Однако, когда дело доходит до реализации пространственных методов в проектах Data Science, могут столкнуться с трудностями при вычислениях и масштабировании, так как не имеют опыта работы с методами и технологиями анализа данных.

Сегодня взаимодействие между этими двумя сферами стало очень востребованным. Пространственный анализ требует сочетания навыков и инструментов обеих специальностей.

Четыре причины задуматься о Data Science в пространственном анализе

Растущая сложность геопространственных систем.
Необходимость разработки новых подходов к обработке и использованию больших объемов пространственной информации, получаемой в том числе благодаря революции в области дистанционного зондирования Земли (ДЗЗ).
Возрастающая доступность методов искусственного интеллекта, которые успешно применяются в различных областях пространственного анализа.
Развитие высокопроизводительных вычислений сделал возможным переход к вычислительной парадигме и парадигме, основанной на данных (fourth paradigm) для решения задач пространственного анализа.

Что такое пространственная наука о данных (Spatial Data Science) и почему это важно

Spatial Data Science предоставляет методы и инструменты для изучения и интерпретации пространственных данных.

Это делает Spatial Data Science важной частью пространственного анализа.

Основное отличие между Spatial Data Science и Data Science заключается в том, что пространственная наука о данных уделяет особое внимание пространственным аспектам и использует специализированные методы и инструменты.

Spatial Data Science, по определению Люка Анселина (основоположника Spatial Data Science ) можно рассматривать как подмножество общей науки о данных, которое фокусируется на особых характеристиках пространственных данных, то есть на важности фактора «где».

Различие между стандартной наукой о данных, применяемой к пространственным данным, и пространственной наукой о данных:

Data Science рассматривает местоположение просто как дополнительную переменную, и не адаптирует методы и инструменты для анализа.
Spatial Data Science рассматривает местоположение, расстояние и пространственное взаимодействие как основные характеристики данных и использует специализированные методы и программное обеспечение для их хранения, извлечения, исследования, анализа, визуализации и моделирования.

Например, применяя методы Data Science для анализа цен на недвижимость, мы можем получить общую картину по городу. Эти методы могут показать, что в городе есть объекты недвижимости с высокими ценами, но они не выявят, в каком конкретно районе эти цены сосредоточены и почему именно там.

В отличие от этого, Spatial Data Science учитывает географическое расположение каждого объекта недвижимости и анализирует пространственные зависимости и неоднородность. Это позволяет выявить, например, что высокие цены на недвижимость сосредоточены именно в одном конкретном районе (например, в историческом центре или рядом с озером) и что именно и как сильно повлияло на значение цены в этой локации.

Что даёт применение Spatial Data Science:

Новые методы. Одна из ключевых возможностей в области пространственной науки о данных сегодня – это разработка нового поколения пространственных методов, которые основаны на ранее использовавшихся методах, и находят новые способы моделирования особых характеристик геопривязанных больших данных (Anselin, 2019; Rey 2019).
Имитационное моделирование. Применяя методы Spatial Data Science, можно создавать цифровые модели, которые имитируют реальные пространственные процессы. Эти модели, представленные в разделе имитационного моделирования, используются для прогнозирования поведения систем в реальных условиях.
Машинное обучение, интеллектуальный анализ данных визуальное исследование данных. С учетом пространственной структуры данных, пространственные модели могут давать более точные и менее смещенные оценки по сравнению с непространственными моделями.
Многообразие инструментов. В рамках пространственной науки о данных применяются различные программные инструменты и технологии. Это включает в себя не только специализированные ГИС-платформы, но и обширный спектр инструментов для анализа данных, визуализации и моделирования.

Spatial Data Science предоставляет методы и инструменты для изучения и интерпретации пространственных данных. Это её важной частью пространственного анализа.

Типы пространственных данных и как их анализировать

Точки, линии и полигоны являются основными сущностями для представления пространственных явлений. Эта форма пространственной привязки является также характерная особенность ГИС-систем. Можно выделить три типа пространственных данных

1. Точки. Местоположения точек, в которых произошли исследуемые события, или области. В контексте плотности населения как единица учета, так и человек олицетворяют объекты.

2. Поверхности. Представляют собой непрерывные поверхности, которые позволяют проводить измерения в любой точке пространства и времени.

Визуализация плотности населения в виде поля предполагала бы изображение бесшовной поверхности с перечислением общей численности населения в различных районах, а не набор отдельных точек, каждая из которых соответствовала бы человеку.

Поверхности открывают потенциал для измерений в любом месте, что требует создания моделей, учитывающих возможные реализации в пространстве, где не были проведены измерения.

3. Сети. Обозначают связи либо между объектами, либо внутри поверхностей. Сети требуют учета топологии, учитывающей структурные связи между узлами. Это означает, что не все узлы связаны, и такие соединения требуют оценки. Пример станций метро показывает, что географическая близость не всегда приравнивается к функциональной близости и подчёркивает важность понимания фактической связности.

Точки (Point data) и анализ точечных паттернов (Point pattern analysis)

Точечные данные представляют собой отдельные географические объекты или события, которые происходят в определённых географических точках.

Используются для анализа распределения объектов в пространстве и определения плотности распределения.

Анализ точечных паттернов

Ключевой вопрос, на который можно ответить при изучении точечных данных, заключается в том, является ли распределение конкретных объектов в пространстве (например, магазинов) или событий (например, угонов автомобилей) случайным, рассеянным или кластерным?

Почему этот вопрос ключевой? Допустим, что у нас есть информация о местах преступлений, тогда очень важно, случайны ли эти места или в их расположении есть какая-то закономерность. Если точки распределены не случайно, то, возможно, они группируются в кластеры, и поэтому в одних местах больше шансов встретить новые точки, чем в других. Придя к выводу, что некоторые точки объединены в кластеры, разумно задаться вопросом, почему это так. Отсюда вытекает необходимость дальнейшего исследования с целью понять причины и отреагировать на события.

На этот вопрос можно ответить с применением методов анализа точечных паттернов. Эти методы определяют, расположение точек случайно или в нём есть какая-то закономерность?

Если распределение точек не случайное, то есть два варианта:

Точки образуют кластер. Если точки сгруппированы ближе, чем можно было бы ожидать при случайном распределении, то говорят, что они образуют кластер. Это может указывать на наличие некоторого фактора, влияющего на расположение точек. Например, случаи заболевания сосредоточены в определенных географических местоположениях, что может указывать на наличие источника инфекции или особенности окружающей среды, способствующей распространению болезни.
Точки рассеяны. Если точки расположены дальше друг от друга, чем при случайном распределении, распределение считается рассеянным. Это может означать, что между точками существует конкуренция. Например, в местах, где растения конкурируют за свет и питательные вещества, деревья могут расти дальше друг от друга, чтобы увеличить доступ к ресурсам.

Глобальный паттерн. Обнаружение кластеризации или рассеянности точек может указывать на наличие глобального паттерна в данных. Например, изучение распределения звезд в галактике может показать глобальные паттерны, такие как спиральные рукава галактик. Или распределение землетрясений по земному шару показывает глобальные паттерны, связанные с тектоническими плитами.

Локальный паттерн. После определения структуры в данных, следующим шагом является определение местоположения интересующих кластеров. Локальные кластеры или «горячие точки» могут представлять собой области повышенной активности или концентрации объектов. Определение этих областей важно для понимания процессов, формирующих точечные паттерны. Например, в урбанистике, локальные кластеры могут представлять собой районы с высокой плотностью населения или коммерческой активностью. Определение этих кластеров помогает оптимизировать городскую инфраструктуру и услуги.

Анализ точечных паттернов изучает распределение точек в пространстве, помогая выявить кластеры и аномалии. Терминология анализа структуры точек имеет некоторые особенности по сравнению со стандартной статистической терминологией.

В зависимости от исследуемой области и доступных данных анализ точечных паттернов может применять различные методы и подходы.

Методы ESDA для анализа точечных паттернов:

K-функция Рипли. Этот метод служит для оценки пространственной однородности точек внутри некоторой территории. В основном используется для анализа того, распределены ли события (точки) случайным образом, или есть участки с повышенной концентрацией (кластеризация) или участки с пониженной концентрацией (регулярность).
Метод Монте-Карло. Моделирование методом Монте-Карло использует случайные выборки для получения численных результатов и позволяет анализировать и интерпретировать модели сложных физических явлений и процессов, основанных на вероятностных рассуждениях. Часто используется для проверки гипотез о случайности точечных паттернов путем сравнения наблюдаемого распределения с ожидаемыми.
Метод ближайших соседей (Nearest Neighbour Analysis). Метод анализа ближайшего соседа направлен на оценку степени случайности пространственного распределения объектов, обычно путем сравнения реальных расстояний между соседними объектами с ожидаемыми расстояниями при случайном распределении.
Метод наименьших квадратов (Quadrat Analysis). Делит исследуемую область на равные квадраты (или другую форму) и анализирует количество точек в каждом квадрате для выявления статистически значимых паттернов.
Индекс Морана. Измеряет степень пространственной автокорреляции между наблюдениями во всем пространственном наборе данных. Используется для выявления общих паттернов распределения — например, для проверки гипотезы о случайности распределения атрибутивных значений по всему пространственному массиву.
Индекс Geary’s. Также анализирует пространственную автокорреляцию, но чаще используется для выявления локальных паттернов. Может быть использован для выявления степени схожести значений между близлежащими локациями.
Статистики Getis—Ord Gi*. Идентификация географических областей, где наблюдается статистически значимая локальная пространственная кластеризация определенных значений. Определение «горячих точек» и «холодных точек» на карте — областей, где наблюдается высокий или низкий уровень какого-либо параметра.
Диаграмма рассеяния Морана (Moran’s scatter plot). Визуализация локальной пространственной ассоциации, предоставляет графическое представление взаимосвязи между переменной и пространственным лагом этой переменной. Определение типа пространственной зависимости (положительная/отрицательная корреляция) и выявление выбросов.

Методы пространственного моделирования для анализа точечных паттернов:

Модели Пуассона (однородные и неоднородные, многомерные). Анализ пространственных точечных паттернов и моделирование интенсивности событий в пространстве.
Пространственные регрессионные модели. Оценка взаимосвязей между пространственно распределенными переменными, учитывая пространственную зависимость и структуру данных. Применяется для анализа взаимосвязи пространственно-распределенных явлений, в экономике — для исследования влияния пространственных факторов на экономические показатели.

Распространённые примеры использования точечных паттернов в разных областях:

Ландшафтная экология и лесное хозяйство (изучение распределения различных биологических видов, анализ структуры и динамики лесов, выявление зон повышенного риска при пожарах и др.)
Астрономия (изучение распределения звёзд, галактик и других космических объектов, анализ структуры и формирования звёздных скоплений)
Криминология (определение местоположения преступлений и ДТП для выявления криминогенных и опасных зон, анализ паттернов различных типов преступлений)
Здравоохранение (исследование местоположения людей с разными заболеваниями для выявления эпидемиологических закономерностей, анализ распространения инфекционных болезней и факторов риска)
Экономическая география (анализ местоположения промышленных объектов и изучение агломераций производственных предприятий, исследование пространственных паттернов экономической активности и торговли.
Антропология (анализ мест поселений для изучения миграционных трендов и культурных особенностей, исследование распределения археологических находок и древних поселений)
Археология (анализ мест находок при раскопках с использованием точечных моделей для изучения истории и культуры древних цивилизаций, выявление паттернов расположения археологических объектов для реконструкции исторического ландшафта).

Поверхности (Surfaces) и пространственная интерполяция (Spatial interpolation)

Данные поверхности моделируют непрерывные явления, такие как температура, качество воздуха или атмосферное давление, и представляются в виде полигонов.

Часто у нас есть данные измерений только в определенных точках исследуемой области. Например, датчики качества воздуха размещены всего в нескольких точках в районе, а мы хотим определить качество воздуха во всём районе.

Что делать, если требуется получить результаты измерений не только в тех точках, где установлены датчики, но еще и там, где датчики не установлены?

Это и есть ключевой вопрос — как определить значения в тех точках, в которых не были сделаны измерения? Или он может быть сформулирован еще более общими словами: как использовать дискретные данные (измерения в отдельных точках), чтобы сделать их непрерывными (измерениями на заданной поверхности)?

Для ответа на него применяется пространственная интерполяция — техника оценивания значений в точках, для которых нет измерений.

Пространственная интерполяция – это метод, который используется для оценки значений переменной в локациях, где нет измерений, на основе значений этой же переменной в тех локациях, где измерения выполнены.

Пространственная интерполяция нужна, когда необходимо изучать явления, характеризующиеся непрерывностью в пространстве, например, температура, атмосферное давление, качество воздуха, высота над уровнем моря, уровень осадков, концентрация химических веществ, уровень шума и подобные.

Разные методы пространственной интерполяции используются в большинстве современных ГИС.

Методы ESDA для анализа непрерывных поверхностей:

Вариограмма (Variogram) и ковариация (Covariogram). Измерение пространственной автокорреляции данных с целью определения, как зависимость данных меняется на различных расстояниях. Эти инструменты в основном используются в геостатистике. Вариограммы и ковариограммы часто применяются в задачах интерполяции, например, в методе кригинга, для определения структуры пространственной зависимости и прогнозирования значений в неизвестных местоположениях.
Оценка плотности методом ядер (Kernel Density Estimation, KDE). Оценка плотности распределения точечных данных на площади. Используется для создания поверхностей плотности из географически «разбросанных» точек, что может помочь в выявлении «горячих точек» или областей с наибольшей концентрацией событий. Например, для определения областей с наивысшим уровнем преступности или зон наибольшей биологической активности.
Полигоны Тиссена (Thiessen Polygons). Создание полигонов, в которых каждая точка внутри полигона ближе к центральной точке этого полигона, чем к любой другой центральной точке соседних полигонов. Используется для автоматического разделения пространства на зоны на основе набора точек. Такие полигоны могут применяться в географии, гидрологии и метеорологии для оценки показателей в пространстве, например, для определения зоны охвата метеорологических станций.

Методы пространственного моделирования:

Trend Surface Models. Анализ и визуализация общих пространственных трендов в данных. Используются для выделения и объяснения глобальных пространственных паттернов в данных, а также могут служить в качестве первого шага в многоуровневом пространственном анализе (например, выделение локальных аномалий или выделение остаточных компонентов для дальнейшего анализа).
Пространственное прогнозирование и кригинг (Spatial Prediction and Kriging). Прогнозирование значений пространственного поля в тех локациях, где не были проведены измерения, на основе известных значений в соседних локациях. Кригинг часто используется в геостатистике и геологии для интерполяции минералогических данных, качества почв, уровней загрязнения и других континуум-подобных процессов, основываясь на статистической зависимости измеренных точек.
Пространственное линейное моделирование (Spatial General Linear Modelling). Моделирование зависимости между пространственными переменными, учитывая пространственную зависимость данных. Используется для создания моделей, описывающих связь между зависимой переменной и одной или несколькими независимыми переменными, с учетом пространственных эффектов (например, пространственной автокорреляции).

Сети (Network data) и сетевой анализ (Network analysis)

Сетевые данные моделируют системы, состоящие из узлов (например, перекрестков) и рёбер (дорог), и используются для анализа доступности и оптимизации маршрутов. Типовыми примерами сетевого анализа являются поиск кратчайшего пути и определение области охвата.

Применяются для изучения потоков, взаимодействий и связей между различными пространственными единицами, включая перемещения людей, транспорта и информации между различными точками или областями.

Подробно данные этого типа и особенности их анализа описаны в нашем блоге.

Методы ESDA для анализа данных сетей

Визуализация и статистический анализ данных взаимодействия (Exploratory Techniques). Например, визуализация транспортных потоков между городами с использованием карт.
Выявление иерархической структуры (Hierarchical Structure Identification). Определение уровней взаимосвязей и кластеров в данных потоков. Например, кластеризация городов на основе объемов пассажирских перевозок между ними.

Методы моделирования для анализа данных сетей

Пространственные модели взаимодействия (Spatial Interaction Models). Прогнозирование и оптимизация потоков и взаимодействий между пространственными единицами. Например, гравитационная модель для прогнозирования миграционных потоков между странами.
Модели распределения локаций (Location-allocation models). Выбор оптимальных локаций, учитывая пространственные взаимодействия. Например, определение оптимальных местоположений новых магазинов, учитывая транспортную доступность.
Модели выбора и поиска (Spatial choice and search models). Например, изучение предпочтений при выборе туристического маршрута, учитывая различные точки интереса.
Моделирование потоков через сеть (Modelling paths and flows
through a network). Анализ и оптимизация маршрутов и потоков в сетевой структуре. Например, использование алгоритма Дейкстры для поиска кратчайших путей в транспортной сети.

Пространственные отношения

Объекты в пространстве могут иметь общие границы, пересекать друг друга или находиться на определенном расстоянии друг от друга.

Пространственные отношения определяют, как объекты в пространстве взаимодействуют друг с другом.

Эти отношения могут быть основаны на расстоянии (например, объект A ближе к объекту B, чем к объекту C), направлении (A находится на севере от B), или на пространственной ассоциации (например, объекты A и B находятся в одном и том же полигоне).

Работа с такими отношениями позволяет определять зоны влияния объектов, выявлять потенциальные конфликты, оптимизировать маршруты и т.д.

Пространственные соединение, объединение, пересечение объектов, измерение расстояний между ними — базовые аспекты анализа пространственных данных.

Пространственные пересечение определяет геометрическое пересечение между двумя или более входными объектами.

Пространственное соединение — инструмент, который позволяет соединить данные из двух или более наборов пространственных данных на основе их географического расположения.

Пространственное объединение вычисляет геометрическое объединение входных объектов. В выходной класс объектов будут записаны все объекты и их атрибуты

Расстояние между объектами. Аналитики также часто сталкиваются с необходимостью измерения расстояний между объектами или определить пространственные объекты, наиболее близкие друг к другу, вычислить расстояния между ними или вокруг них.

Близость объектов: Этот вопрос относится к расположению объектов относительно друг друга.

Расстояние между объектами: часто нужно просто знать, на каком расстоянии находятся два местоположения. Например, при планировании логистических маршрутов.
Определение ближайших объектов: в рамках городского планирования часто нужно определять, какой объект является ближайшим к исследуемому, а какой находится на наибольшем расстоянии.
Межслоевой анализ: Каково расстояние между каждым объектом в одном слое геоданных и объектами в другом слое? Этот вопрос часто возникает при анализе взаимодействия различных объектов, например, зданий и транспортных сетей.
Сетевой анализ: Где проходит самый короткий путь по сети дорог от одного места до другого? Это основной вопрос при планировании транспортных и пеших маршрутов.

ГИС как инструмент пространственного анализа

Геоинформационные системы (ГИС) — это информационные системы, разработанные специально для получения, хранения, обработки, анализа, моделирования и визуализации пространственных данных, полученных из различных источников. ГИС позволяет эффективно управлять этими данными и адаптировать их для конкретных задач пользователя, предоставляя возможность более глубокого понимания географических контекстов и закономерностей.

ГИСы часто включают в себя инструменты для геопроцессинга, анализа пространственных данных и визуализации, но довольно ограничены в части сложного пространственного анализа.

Со временем возможности ГИС расширяются за счёт развития Spatial Data Science. Современные ГИС, по сути, являются системами управления базами пространственных данных с возможностью визуализации, а также постепенно интегрируется с современными методами искусственного интеллекта, управления знаниями и пространственной информацией.

ГИС позволяет не просто проверять гипотезы или строить модели на основе уже известных предположений, но и позволяет исследовать данные и выдвигать новые гипотезы на основе наблюдаемых паттернов.

Сбор данных из различных источников, таких как спутниковые снимки, GPS и других, их преобразование в формат, который можно анализировать и наглядно представлять.
Подготовка, очистка, преобразование и объединение данных для обеспечения их целостности и согласованности. Эти процедуры закладывают основу для визуализации, анализа и моделирования и могут быть очень сложными с учётом особенностей спутниковых снимков и других изображений поверхности Земли, которые часто бывают источниками данных в геопространственных проектах.
Управление данными. Хранение, извлечение данных, управление базами и хранилищами пространственных данных.
Доступ к данным. ГИС предоставляют инструменты для выполнения запросов и извлечения данных. Это позволяет быстро и легко сегментировать и анализировать различные части пространственных наборов данных.
Интерактивная визуализация данных на картах. Одно из главных преимуществ ГИС — это возможность наглядно представлять пространственные данные с помощью средств и методов картографирования. Визуализация помогает выявлять паттерны и отношения, которые могли бы быть упущены в табличных или текстовых данных.
Анализ данных из многих разнородных источников и моделирование — основа ГИС. С помощью ГИС можно комбинировать, «накладывать» друг на друга различные слои данных, чтобы увидеть, как они взаимодействуют или коррелируют друг с другом. Это особенно полезно при изучении сложных пространственных взаимосвязей.
Алгоритмы. Специализированные алгоритмы играют ключевую роль в ГИС, обеспечивая быстрый и точный поиск информации о конкретной точке или области. Даже при щелчке мышью по карте одновременно работают несколько алгоритмов, чтобы сузить интересующую область и подготовить корректный ответ. Важность алгоритмов проявляется на всех этапах анализа данных: начиная от обработки данных из разных источников (эти данные нужно привести к единой системе координат, организовывать слои для удобства анализа разнородной информации и выполнить другие операции геопроцессинга), а затем провести анализ данных и моделирование.

Встроенные инструменты пространственного анализа и моделирования в ГИС

Географические информационные системы (ГИС) предоставляют инструменты для работы с пространственными данными, включая управление проекциями, преобразование точек и полигонов, и пространственное агрегирование. Благодаря системной функциональности ГИС упрощается анализ пространственных данных, расширяются визуальные возможности и повышается точность ГИС-операций.

ГИС идеально подходит для преобразования сложных геоданных.

В ГИС часто встроены и готовы для использования инструменты для анализа и моделирования пространственных данных. Наиболее распространённые из них приведены ниже (у каждой ГИС — свои сильные и слабые стороны и свой набор инструментов, поэтому здесь перечислены распространённые).

Анализ буферных зон. Создание зон вокруг объектов для анализа их воздействия или взаимодействия с окружающими объектами. Например, определение зон влияния промышленных объектов на природные экосистемы.
Геостатистический анализ. Применение статистических методов для анализа и прогнозирования пространственных явлений. Например, анализ данных для прогнозирования распределения минералов.
Пространственная интерполяция. Прогнозирования значений атрибутов в неизученных областях на основе известных значений в окружающих точках. Например, интерполяция климатических данных с датчиков температуры для создания непрерывных поверхностей температур.
Пространственные корреляция и регрессия. Анализ статистических взаимосвязей и зависимостей между пространственно распределёнными переменными. Например, изучение взаимосвязи уровня дохода населения и близости к центральной бизнес-зоне.
Сетевой анализ. Анализ связей и путей в сетевых структурах, таких как дорожные сети или коммуникационные системы. Например, Оптимизация маршрутов общественного транспорта для минимизации времени пути.
Модели пространственного взаимодействия. Анализ и моделирование взаимодействий, потоков и связей между различными пространственными единицами. Например, моделирование потоков туристического движения между городами и достопримечательностями.
Viewshed Analysis. Анализ видимости или обзора от определенной точки или линии на поверхности местности. Это важно, например, при планировании размещения антенн связи или определении зон видимости достопримечательностей.
Watershed Analysis. Определение области, с которой поверхностный сток воды будет направляться к конкретной точке.

В ГИСах также обычно есть более или менее полный набор инструментов для геопроцессинга. Для реализации инструментов использованы базовые геометрические алгоритмы и техники наложения многоугольников.

Обрезка (Clip). Используется для «обрезки» объектов слоя по границам другого слоя. Например, извлечение рек из общегеографического слоя для конкретного региона или страны.
Слияние (Merge). Объединение двух и более слоёв в один. Например, слияние разных слоёв геологической карты в один общий слой.
Пересечение (Intersect). Идентификация общих или пересекающихся областей между двумя слоями. Например, определение областей, которые одновременно являются плодородными и находятся в зоне риска наводнений.
Объединение полигонов (Dissolve). Объединение смежных или пересекающихся полигонов, имеющих одинаковые значения атрибутов. Например, слияние территорий с одинаковыми типами землепользования в один полигон.
Пространственное соединение (Spatial join). Присвоение атрибутов одного слоя объектам другого слоя на основе их пространственного расположения. Например, присвоение почтовых индексов адресам на основе их географического расположения.
Объединение слоёв (Union). Объединение двух слоёв так, чтобы были включены атрибуты и геометрия обоих слоёв. Например, создание слоя, который объединяет информацию о землепользовании и демографии.
Геокодирование (Geocoding). Преобразование адресной информации в координаты для визуализации на карте. Например, преобразование списка адресов магазинов в точки на карте.
Наложение (Overlay). Наложение слоёв для анализа отношений между различными наборами данных. Например, изучение взаимосвязи между ландшафтом и населёнными пунктами.
Проверка Топологии (Topology Checker). Проверка топологических отношений и ошибок на карте. Например, устранение пересечений и разрывов между границами административных единиц.

Две модели данных в ГИС

Выбор модели данных определяет набор аналитических методов, которые могут быть применены к данным.

Векторная модель: Представляет собой систему, где географическое пространство включает в себя координатные точки, линии и полигоны. Этот метод особенно актуален в социальных науках, когда требуется анализировать дискретные объекты, такие как поселения или городские объекты. Например, при планировании транспортной инфраструктуры, векторная модель может помочь определить оптимальные маршруты и точки стыковки. Подробнее о применении векторных моделей в городском планировании.

Растровая модель: Здесь географическое пространство изображено в форме сетки или растра. Сетка пикселей представляет географические участки, каждый пиксель содержит специфическое свойство области, что делает этот метод подходящим для анализа непрерывных данных, таких как температура или влажность, данных дистанционного зондирования Земли, цифровых моделей рельефа и других. Например, при мониторинге изменений климата, растровые модели могут отражать изменения покрытия Земли или уровня моря. Подробнее о мониторинге климатических изменений с помощью ГИС.

Новые направления развития пространственного анализа в Data Science

Машинное обучение и искусственный интеллект. Играют заметную роль в анализе пространственных данных, позволяя разрабатывать и применять к большим массивам данных модели и алгоритмы Spatial Data Science.
5G и Интернет вещей (IoT). Широкое распространение сетей 5G и устройств IoT обеспечили множество новых источников данных для пространственного анализа, включая данные в реальном времени от подключенных устройств и датчиков.
Облачные вычисления. Позволяет обрабатывать и хранить большие объемы пространственных данных, что повысило доступность пространственного анализа.
Виртуальная и дополненная реальность (VR и AR). предлагает новые способы визуализации и взаимодействия с пространственными данными.

Заключение

Появление большого количества источников геоданных и развитие технологий для их обработки и анализа стали причиной того, что геоинформационные технологии и Data Science стали взаимодополняемыми направлениями.

Интеграция геоинформационных технологий и методов Data Science обеспечивает новые возможности для многих отраслей и направлений.

Что еще почитать (и посмотреть)

Про то, что анализ и моделирование данных — это наше всё: The Fourth Paradigm: Data-intensive Scientific Discovery (Hey et al. 2009)
При пространственную автокорреляцию: Руководство пользователя Epsilon Metrics. Использование конструктора. Обнаружение выпадающих значений и кластеров
Определения Spatial Data science: Luc Anselin, 2019, «Spatial Data Science» in The International Encyclopedia of Geography: People, the Earth, Environment, and Technology
Interactive Techniques and Exploratory Spatial Data Analysis (wvu.edu) and generalization performance. In: B. Murgante, et al., eds. Computational science and its applications — ICCSA, Part IV, lecture notes in computer science. Heidelberg: Springer, Vol. 7974, 1–16. [Crossref], [Google Scholar]
Grekousis, G. (2020). Spatial Analysis Methods and Practice: Describe – Explore – Explain through GIS. Cambridge: Cambridge University Press. doi:10.1017/9781108614528
Просто о сложном от Люка Анселина Luc Anselin Lectures — YouTube
Павлов Ю.В., Королёва Е.Н. Пространственные взаимодействия: оценка на
основе локального и глобального индексов Морана // Пространственная экономика. 2014. № 3. С. 95–109.
Описание векторных и растровых данных GIS-Lab: Краткое введение в ГИС. Часть 5: Растровые данные
Cписок российских ГИС: https://gisgeo.org/katalog/kompanii/