
Пространственный анализ находится на пересечении Data Science и геоинформационных технологий, поэтому статья будет интересна как ГИС-специалистам так и специалистам Data Science.
Геоинформационные системы (ГИС) раньше были инструментом для узкого круга специалистов, а сегодня стали важной частью многих отраслей и профессий.
Драйвером этих изменений стала революция в области геоданных. Появление больших геоданных, включая высокоточные снимки Земной поверхности, данные с мобильных устройств, оснащенных GPS-приёмниками, и из социальных сетей создало потребность в новых мощных инструментах для их обработки и интерпретации.
Статья содержит несколько тем: начнём с представления понятий анализа данных в пространственном контексте, затем перейдем к методам пространственного анализа и возможностям ГИСов в части их реализации.
Геоаналитикам и экспертам в ГИС, возможно, будет интересно, как применить методы Data Science к анализу пространственных данных, а специалисты по данным найдут способы адаптации своих инструментов к пространственному анализу.
Надеемся, что объединение знаний и методов поможет специалистам из разных областей эффективно применять комбинацию инструментов ГИС и Data Science при решении задач пространственного анализа.
Определений для пространственного анализа довольно много. Мне больше других нравится определение Гудчайлда, так как оно перекликается с Data Science:
«Пространственный анализ (данных) – это совокупность методов для поиска закономерностей, выявления аномалий или проверки гипотез и теорий на основе пространственных данных», (Goodchild, M. F., 2008).
Началом пространственного анализа можно считать картографию и геодезию, и чуть позже — геоинформационные технологии.

Со временем пространственный анализ стал интегрироваться с математикой, статистикой, информатикой и технологиями анализа больших данных, что заметно расширило его возможности и области применения. Пространственный анализ развивается, интегрируясь с Data Science.
1. Где происходят исследуемые события: закономерности, кластеры, горячие точки. Выявление ключевых областей, паттернов, кластеров, «горячих точек». Например, определение мест распространения инфекционных заболеваний.
2. Почему события происходят именно там? Выявление факторов, определяющих местоположение событий. Например, почему некоторые районы имеют более высокий уровень преступности? Анализируя районы с высоким уровнем преступности, специалисты обнаружили, что они связаны с низким уровнем образования, высокой безработицей и плохим жильем. Эти факторы в совокупности создают условия для роста преступности.
3. Как окружение влияет на происходящее? Исследование взаимозависимостей между событиями и их локацией и окружением. Например, как географическое положение влияет на экономический уровень региона.
4. Где расположить объекты? Определение оптимального местоположения объектов и событий. Например, при выборе оптимального места для открытия нового магазина компания может использовать ГИС для анализа демографических данных, распределения конкурентов, доступности транспорта и других ключевых факторов. Такой анализ может показать, что определенный район лучше других подходит для нового магазина из-за высокой плотности потенциальных покупателей, низкой конкуренции и транспортной и пешеходной доступности.
Пространственные случайные процессы обладают двумя уникальных характеристиками, которые выделяют их среди других типов данных и определяют особенности их анализа:
Понятие пространственной зависимости связано с существованием функциональной взаимосвязи между тем, что происходит в одной точке пространства, и тем, что происходит в другом месте. Определяет, как схожесть значений наблюдений в наборе данных коррелирует с пространственной близостью этих наблюдений.
Эта важная характеристика пространственных данных признана Первым законом географии Тоблера: «Все связано со всем остальным, но близкие объекты связаны больше, чем удаленные».
Пространственная автокорреляция может быть положительной или отрицательной. Положительная автокорреляция означает, что схожие значения обычно находятся рядом. В отрицательной пространственной автокорреляции похожие значения обычно распределены на больших расстояниях друг от друга, что может быть связано с пространственной конкуренцией, как, например, распределение магазинов разных брендов.
Это отличается от предположения о независимости наблюдений, применяемое в традиционных статистических моделях.
Поэтому для анализа пространственных данных используются специализированные статистические методы, которые учитывают пространственную зависимость.
Часто для определения того, есть ли в данных пространственная зависимость, используется глобальный одномерный индекс Морана (Global Moran I), который измеряет общую пространственную автокорреляцию набора данных.
Он показывает, являются ли значения, хранящиеся в пространственных объектах, кластеризованными, случайными или рассредоточенными.
Метод оценивает, насколько один объект похож на другие, окружающие его. Если похожие объекты «притягиваются» (или «отталкиваются») друг от друга, это означает, что наблюдения не являются независимыми.


Для того, чтобы понять, какие объекты окружают исследуемый объект (и являются соседями), используются матрицы пространственных весов, которые определяют относительную значимость анализируемых объектов в контексте их местоположения и взаимоотношений.
Матрица весов — это инструмент, позволяющий определить пространственные отношения между различными объектами. Она представляет собой квадратную матрицу, размер которой соответствует числу изучаемых объектов. Элементы матрицы выражают степень связи или взаимного влияния между парами объектов.
Одна из наиболее популярных матриц весов — матрица, выявляющая объекты, имеющие общие границы (матрица соседства или граничная матрица). В ней каждая строки соответствуют объектам в пространстве и показывают, как соседние объекты влияют на него: элементы принимают значение «1», если объекты являются соседями (имеют общую границу или центры находятся на определенном расстоянии друг от друга), и «0» — в противном случае. Главная диагональ состоит из нулей (для исключения влияния объекта на самого себя).
Также часто используются матрицы расстояний, обратных расстояний и другие.
Характеристики исследуемых объектов могут меняться в зависимости от местоположения, что требует использования специализированных методов анализа.
Пример: В геологическом исследовании уровень засоленности почвы может сильно варьироваться в зависимости от географического расположения или цены на квартиры в одном и том же административном округе могут сильно различаться.
Для моделирования пространственной неоднородности между переменными применяется географически взвешенная регрессия (Geographically weighted regression — GWR).
Помните пример с ценами на квартиры? GWR анализирует, какие именно факторы (например, близость к парку или транспортным узлам) и в какой степени влияют на цену в разных локациях. В одном районе большое значение может иметь близость к метро, в другом – вид на парк или озеро и др.
GWR создает отдельные уравнения для каждой точки (или области) на карте, чтобы показать, как эти факторы меняют свое влияние в разных местоположениях.
Представьте, что на карте вы видите тепловую карту, где цвета обозначают уровень цен на жилье — от красного (самый высокий уровень) до синего (самый низкий). При применении GWR мы могли бы добавить к этой карте стрелочки разных размеров и направлений, показывающие, какой фактор и как влияет на изменение цен — увеличивает их или уменьшает.
Земля (почти) шарообразная, поэтому нужны картографические проекции
Пространственные данные часто представлены в различных географических проекциях, что может исказить их свойства. Выбор подходящей проекции очень важен для корректного анализа и интерпретации данных.
Ключевым моментом в этом является понимание формы Земли. Земля неровная и не совсем шарообразная (а точнее — геоид), а изучаем мы eё в основном на картах или плоских поверхностях мониторов (школьные глобусы в расчёт не берём).
Поэтому для анализа пространственных данных сначала нужно преобразовать 3D модель Земли в 2D модель карты. Для этого используется сеть из 180 линий широты и 360 линий долготы и математические методы (а точнее, простые формулы) перевода географических координат в координаты на плоскости.
Географические координаты — угловые величины (широта и долгота), которые определяют положение точек на поверхности Земли. Широта и долгота чаще всего измеряются в градусах или радианах. Эти координаты обеспечивают базовую систему для позиционирования и интерпретации глобальных географических данных.
Плоские прямоугольные (спроецированные) координаты — линейные величины (X и Y), которые определяют относительное положение точек на плоскости. Единицы измерения: Линейные (метры, километры, футы и т.д.). Эти координаты используются для обеспечения понятного представления пространственных данных на карте.
Картографическая проекция — система для перевода (или проецирования) географических координат на плоскость.
Эти проекции могут быть сделаны либо в глобальном масштабе, охватывающем всю планету, либо в локальном масштабе, специфичном для конкретной страны или области.
В основе любой системы координат проекции лежит географическая система координат (ГСК). Для того, чтобы присвоить каждой точке на поверхности Земли координаты, нужны правила (каким образом точку на геоиде спроецировать на сферу). Практически все геосервисы и GPS используют систему координат WGS 84 (World Geodetic System, 84 — год утверждения стандарта).
ГСК и системы координат проекции связаны между собой формулами проекционного преобразования. Зная проекцию метрических координат, их можно пересчитать обратно в географические координаты.
Сейчас используется единая классификация систем координат в ГИС — реестр EPSG (EPSG.io) Это неофициальный источник, но более понятный, чем официальный.
Проекции бывают разные (различаются по тому, на цилиндр, конус или касающуюся плоскость проецируется поверхность Земли), но объединяет их одно — каждая из них что-то сохраняет, но для этого что-то другое искажает.

Для описания проекций один из авторов научно-популярного канала на youtube разрезал надувной глобус и постарался придать прямоугольную форму оставшейся от шарика плёнке. Плёнку приходилось при этом растягивать, и очертания континентов и стран при этом сильно искажались.
До тех пор, пока мы пользуемся картами, мы вынуждены мириться с искажениями проекций. Выбор проекции обусловлен тем, какие искажения приемлемы для конкретного исследования или проекта.
Например, проекция Меркатора — одна из самых известных и широко используемых проекций, искажает площадь, сохраняя при этом правильные углы и форму объектов. Это особенно заметно ближе к полюсам, где объекты «раздуваются» и кажутся намного больше, чем они есть на самом деле. Например, Гренландия на карте выглядит почти такой же по размеру, как Африка, хотя в реальности Африка в 14 раз больше Гренландии. Такая карта может поддерживать неправильные представления о доминировании определенных регионов или стран, подчеркивая их преувеличенные размеры, что является распространённым поводом для шуток о заносчивости стран Северной Америки и Европы.
| Тип картографических проекций | Сохраняемая пространственная характеристика данных | Пример |
|---|---|---|
| Равноугольная (Conformal) | Форма | Меркатора |
| Равновеликая (Equal Area) | Площадь | Альберса Молльвейде |
| Равнопромежуточная (Equistant) | Расстояние | Равнопромежуточная коническая |
| Азимутальная (Azimuthal) | Направление | Ламберта |
| Компромиссная | Ничего не сохраняет, но обеспечивает визуально удовлетворительное представление всего мира | Робинсона |
Проблемы зонирования и масштаба
Это значит, что результаты анализа пространственных данных могут зависеть от выбора границ областей (зонирования) и масштаба исследования. Пример: При изучении уровня преступности результаты могут зависеть от того, какие границы районов выбраны для анализа и какой масштаб исследования используется.
Атрибутивная информация
Каждый пространственный объект обладает атрибутивной информацией, описывающей его свойства и характеристики. Эта информация может быть как количественной, так и качественной и требует соответствующих методов анализа. Пример: В экологическом исследовании данные о растительности могут включать атрибуты, такие как вид, высота, и возраст растений.
Временной aспект
Пространственные данные могут также иметь временной компонент, что добавляет дополнительный уровень сложности к их анализу и интерпретации. Пример: Исследование климатических изменений требует анализа пространственных данных о температуре, осадках и других факторах на протяжении длительного временного периода.
До недавнего времени аналитики данных и ГИС-аналитики работали в параллельных направлениях, почти не пересекаясь в проектах.
Аналитики данных с давно с легкостью работают геоданными, используя популярные инструменты визуализации, такие как хороплеты или плиточные карты.
Геовизуализация популярна в СМИ и многих других направлениях для представления информации. Интеграция интерактивных карт и базовых возможностей визуализации геоданных в BI-решениях стала почти стандартом.
Но при этом атрибуты местоположения используются таким же образом, как и все другие атрибуты, не учитывая пространственную специфику данных.
Для анализа применяют неспециализированные методы и инструменты из привычного инструментария BI и Data Science.
ГИС-аналитики в свою очередь имеют глубокие знания в области геоинформационных технологий. Они могут детально изучить рельеф, работать с различными картографическими проекциями и применять методы пространственной статистики. Однако, когда дело доходит до реализации пространственных методов в проектах Data Science, могут столкнуться с трудностями при вычислениях и масштабировании, так как не имеют опыта работы с методами и технологиями анализа данных.
Сегодня взаимодействие между этими двумя сферами стало очень востребованным. Пространственный анализ требует сочетания навыков и инструментов обеих специальностей.

Spatial Data Science предоставляет методы и инструменты для изучения и интерпретации пространственных данных.
Это делает Spatial Data Science важной частью пространственного анализа.
Основное отличие между Spatial Data Science и Data Science заключается в том, что пространственная наука о данных уделяет особое внимание пространственным аспектам и использует специализированные методы и инструменты.
Spatial Data Science, по определению Люка Анселина (основоположника Spatial Data Science ) можно рассматривать как подмножество общей науки о данных, которое фокусируется на особых характеристиках пространственных данных, то есть на важности фактора «где».
Различие между стандартной наукой о данных, применяемой к пространственным данным, и пространственной наукой о данных:
Например, применяя методы Data Science для анализа цен на недвижимость, мы можем получить общую картину по городу. Эти методы могут показать, что в городе есть объекты недвижимости с высокими ценами, но они не выявят, в каком конкретно районе эти цены сосредоточены и почему именно там.
В отличие от этого, Spatial Data Science учитывает географическое расположение каждого объекта недвижимости и анализирует пространственные зависимости и неоднородность. Это позволяет выявить, например, что высокие цены на недвижимость сосредоточены именно в одном конкретном районе (например, в историческом центре или рядом с озером) и что именно и как сильно повлияло на значение цены в этой локации.
Spatial Data Science предоставляет методы и инструменты для изучения и интерпретации пространственных данных. Это её важной частью пространственного анализа.
Точки, линии и полигоны являются основными сущностями для представления пространственных явлений. Эта форма пространственной привязки является также характерная особенность ГИС-систем. Можно выделить три типа пространственных данных
1. Точки. Местоположения точек, в которых произошли исследуемые события, или области. В контексте плотности населения как единица учета, так и человек олицетворяют объекты.
2. Поверхности. Представляют собой непрерывные поверхности, которые позволяют проводить измерения в любой точке пространства и времени.
Визуализация плотности населения в виде поля предполагала бы изображение бесшовной поверхности с перечислением общей численности населения в различных районах, а не набор отдельных точек, каждая из которых соответствовала бы человеку.
Поверхности открывают потенциал для измерений в любом месте, что требует создания моделей, учитывающих возможные реализации в пространстве, где не были проведены измерения.
3. Сети. Обозначают связи либо между объектами, либо внутри поверхностей. Сети требуют учета топологии, учитывающей структурные связи между узлами. Это означает, что не все узлы связаны, и такие соединения требуют оценки. Пример станций метро показывает, что географическая близость не всегда приравнивается к функциональной близости и подчёркивает важность понимания фактической связности.
Точечные данные представляют собой отдельные географические объекты или события, которые происходят в определённых географических точках.
Используются для анализа распределения объектов в пространстве и определения плотности распределения.
Ключевой вопрос, на который можно ответить при изучении точечных данных, заключается в том, является ли распределение конкретных объектов в пространстве (например, магазинов) или событий (например, угонов автомобилей) случайным, рассеянным или кластерным?
Почему этот вопрос ключевой? Допустим, что у нас есть информация о местах преступлений, тогда очень важно, случайны ли эти места или в их расположении есть какая-то закономерность. Если точки распределены не случайно, то, возможно, они группируются в кластеры, и поэтому в одних местах больше шансов встретить новые точки, чем в других. Придя к выводу, что некоторые точки объединены в кластеры, разумно задаться вопросом, почему это так. Отсюда вытекает необходимость дальнейшего исследования с целью понять причины и отреагировать на события.
На этот вопрос можно ответить с применением методов анализа точечных паттернов. Эти методы определяют, расположение точек случайно или в нём есть какая-то закономерность?
Если распределение точек не случайное, то есть два варианта:
Глобальный паттерн. Обнаружение кластеризации или рассеянности точек может указывать на наличие глобального паттерна в данных. Например, изучение распределения звезд в галактике может показать глобальные паттерны, такие как спиральные рукава галактик. Или распределение землетрясений по земному шару показывает глобальные паттерны, связанные с тектоническими плитами.
Локальный паттерн. После определения структуры в данных, следующим шагом является определение местоположения интересующих кластеров. Локальные кластеры или «горячие точки» могут представлять собой области повышенной активности или концентрации объектов. Определение этих областей важно для понимания процессов, формирующих точечные паттерны. Например, в урбанистике, локальные кластеры могут представлять собой районы с высокой плотностью населения или коммерческой активностью. Определение этих кластеров помогает оптимизировать городскую инфраструктуру и услуги.
Анализ точечных паттернов изучает распределение точек в пространстве, помогая выявить кластеры и аномалии. Терминология анализа структуры точек имеет некоторые особенности по сравнению со стандартной статистической терминологией.
В зависимости от исследуемой области и доступных данных анализ точечных паттернов может применять различные методы и подходы.
Методы ESDA для анализа точечных паттернов:
Методы пространственного моделирования для анализа точечных паттернов:
Распространённые примеры использования точечных паттернов в разных областях:
Данные поверхности моделируют непрерывные явления, такие как температура, качество воздуха или атмосферное давление, и представляются в виде полигонов.
Часто у нас есть данные измерений только в определенных точках исследуемой области. Например, датчики качества воздуха размещены всего в нескольких точках в районе, а мы хотим определить качество воздуха во всём районе.
Что делать, если требуется получить результаты измерений не только в тех точках, где установлены датчики, но еще и там, где датчики не установлены?
Это и есть ключевой вопрос — как определить значения в тех точках, в которых не были сделаны измерения? Или он может быть сформулирован еще более общими словами: как использовать дискретные данные (измерения в отдельных точках), чтобы сделать их непрерывными (измерениями на заданной поверхности)?
Для ответа на него применяется пространственная интерполяция — техника оценивания значений в точках, для которых нет измерений.
Пространственная интерполяция – это метод, который используется для оценки значений переменной в локациях, где нет измерений, на основе значений этой же переменной в тех локациях, где измерения выполнены.
Пространственная интерполяция нужна, когда необходимо изучать явления, характеризующиеся непрерывностью в пространстве, например, температура, атмосферное давление, качество воздуха, высота над уровнем моря, уровень осадков, концентрация химических веществ, уровень шума и подобные.

Разные методы пространственной интерполяции используются в большинстве современных ГИС.
Сетевые данные моделируют системы, состоящие из узлов (например, перекрестков) и рёбер (дорог), и используются для анализа доступности и оптимизации маршрутов. Типовыми примерами сетевого анализа являются поиск кратчайшего пути и определение области охвата.
Применяются для изучения потоков, взаимодействий и связей между различными пространственными единицами, включая перемещения людей, транспорта и информации между различными точками или областями.
Подробно данные этого типа и особенности их анализа описаны в нашем блоге.
Объекты в пространстве могут иметь общие границы, пересекать друг друга или находиться на определенном расстоянии друг от друга.
Пространственные отношения определяют, как объекты в пространстве взаимодействуют друг с другом.
Эти отношения могут быть основаны на расстоянии (например, объект A ближе к объекту B, чем к объекту C), направлении (A находится на севере от B), или на пространственной ассоциации (например, объекты A и B находятся в одном и том же полигоне).
Работа с такими отношениями позволяет определять зоны влияния объектов, выявлять потенциальные конфликты, оптимизировать маршруты и т.д.
Пространственные соединение, объединение, пересечение объектов, измерение расстояний между ними — базовые аспекты анализа пространственных данных.
Пространственные пересечение определяет геометрическое пересечение между двумя или более входными объектами.

Пространственное соединение — инструмент, который позволяет соединить данные из двух или более наборов пространственных данных на основе их географического расположения.
Пространственное объединение вычисляет геометрическое объединение входных объектов. В выходной класс объектов будут записаны все объекты и их атрибуты

Расстояние между объектами. Аналитики также часто сталкиваются с необходимостью измерения расстояний между объектами или определить пространственные объекты, наиболее близкие друг к другу, вычислить расстояния между ними или вокруг них.
Близость объектов: Этот вопрос относится к расположению объектов относительно друг друга.
Геоинформационные системы (ГИС) — это информационные системы, разработанные специально для получения, хранения, обработки, анализа, моделирования и визуализации пространственных данных, полученных из различных источников. ГИС позволяет эффективно управлять этими данными и адаптировать их для конкретных задач пользователя, предоставляя возможность более глубокого понимания географических контекстов и закономерностей.
ГИСы часто включают в себя инструменты для геопроцессинга, анализа пространственных данных и визуализации, но довольно ограничены в части сложного пространственного анализа.
Со временем возможности ГИС расширяются за счёт развития Spatial Data Science. Современные ГИС, по сути, являются системами управления базами пространственных данных с возможностью визуализации, а также постепенно интегрируется с современными методами искусственного интеллекта, управления знаниями и пространственной информацией.
ГИС позволяет не просто проверять гипотезы или строить модели на основе уже известных предположений, но и позволяет исследовать данные и выдвигать новые гипотезы на основе наблюдаемых паттернов.
Географические информационные системы (ГИС) предоставляют инструменты для работы с пространственными данными, включая управление проекциями, преобразование точек и полигонов, и пространственное агрегирование. Благодаря системной функциональности ГИС упрощается анализ пространственных данных, расширяются визуальные возможности и повышается точность ГИС-операций.
ГИС идеально подходит для преобразования сложных геоданных.
В ГИС часто встроены и готовы для использования инструменты для анализа и моделирования пространственных данных. Наиболее распространённые из них приведены ниже (у каждой ГИС — свои сильные и слабые стороны и свой набор инструментов, поэтому здесь перечислены распространённые).
В ГИСах также обычно есть более или менее полный набор инструментов для геопроцессинга. Для реализации инструментов использованы базовые геометрические алгоритмы и техники наложения многоугольников.
Выбор модели данных определяет набор аналитических методов, которые могут быть применены к данным.
Векторная модель: Представляет собой систему, где географическое пространство включает в себя координатные точки, линии и полигоны. Этот метод особенно актуален в социальных науках, когда требуется анализировать дискретные объекты, такие как поселения или городские объекты. Например, при планировании транспортной инфраструктуры, векторная модель может помочь определить оптимальные маршруты и точки стыковки. Подробнее о применении векторных моделей в городском планировании.
Растровая модель: Здесь географическое пространство изображено в форме сетки или растра. Сетка пикселей представляет географические участки, каждый пиксель содержит специфическое свойство области, что делает этот метод подходящим для анализа непрерывных данных, таких как температура или влажность, данных дистанционного зондирования Земли, цифровых моделей рельефа и других. Например, при мониторинге изменений климата, растровые модели могут отражать изменения покрытия Земли или уровня моря. Подробнее о мониторинге климатических изменений с помощью ГИС.

Появление большого количества источников геоданных и развитие технологий для их обработки и анализа стали причиной того, что геоинформационные технологии и Data Science стали взаимодополняемыми направлениями.
Интеграция геоинформационных технологий и методов Data Science обеспечивает новые возможности для многих отраслей и направлений.
Получайте свежие статьи об AI, данных и аналитике прямо на почту