Как мы сходили на конференцию Data&AI 2024 от «Открытые Системы»

28 марта мы были партнёрами конференции Data&AI 2024 от издательства «Открытые системы». Было представлено около 25 докладов. Примерно половина из них посвящена опыту традиционных участников таких мероприятий: банков, крупных ритейлеров и телекома. В этот раз к ним добавились представители сферы недвижимости, включая девелопера и риелторскую компанию, а также Норникель.

Оставшаяся часть была посвящена выступлениям компаний-разработчиков решений в области управления данными, BI и ИИ.

Участниками экспертной панели, с которой началась конференция, были представители Национального центра развития искусственного интеллекта, Минпромторга, Ассоциации больших данных, ВШЭ и других уважаемых организаций, которые так или иначе вовлечены в развитие национального проекта «Экономика данных».

Бонусом стал мастер-класс гуру тайм-менеджмента всея Руси Глеба Архангельского. Глеб рассказывал, как ИИ может писать протоколы встреч и так далее. Я не успела послушать, но идея пригласить на эту тему именно Глеба — отличная.

Первое и основное моё впечатление от конференции — как много у нас отечественных компаний-разработчиков! Количество стендов, качество предлагаемых продуктов и выступлений спикеров действительно впечатляют. Ну и вопросы импортозамещения, которым было много внимания уделено, звучали особенно убедительно в таком роскошном составе.

Технологический суверенитет, национальный проект «Экономика данных» и импортозамещение

В контексте обсуждения национального проекта «Экономика данных» во время экспертной сессии обсуждали привычные вопросы.

Развитие профессиональных компетенций в ИИ, обучении в области Data Science и ИИ. Государство поддерживает — появляются новые программы в среднем и высшем образовании, олимпиады по ИИ и многие другие инициативы. Здесь я, как мама подростка — активного участника таких мероприятий, подтверждаю и очень благодарна и за олимпиады и программы. Они действительно школьников сильно вдохновляют (и предполагаю, что студентов тоже).
Поддержка ИИ-бизнесов. Мы, как ИИ-компания, лично ощущаем эту действительно существенную поддержку.
Масштабирование вычислительных мощностей. Развитие инфраструктуры для больших объёмов данных, включая облачные технологии и вычислительные центры.
Организация единых хранилищ данных. Создание интегрированных систем управления данными.
Стимулирование обмена данными. Разработка механизмов и стандартов для безопасного обмена данными между государственными структурами и частными компаниями, что позволит улучшить качество и доступность услуг.
Поддержка развития ИИ. Обеспечить возможность разработки алгоритмов и моделей ИИ, способных решать широкий спектр задач в разных отраслях.

В своём выступлении спикер из Минпромторга несколько важных для нас моментов подчеркнул, все тесно связаны с тем, что мы делаем.

Многие предприятия обладают большими объёмами неструктурированных данных, данные часто изолированы в разнородных источниках. Их подготовка и интеграция становится очень важной для использования в моделях ИИ. Также нужны инструменты для сравнения и выбора подходящих ИИ-моделей.
Стимулом для внедрения отечественных ИИ-решений являются налоговые льготы и другие формы поддержки от государства.
И настроить взаимодействие между предприятиями-заказчиками и разработчиками ИИ-решений — тоже важная задача, которую Минпромторг в том числе решает. На это, конечно, большая надежда у нас.

Отечественный рынок растёт. И не только благодаря импортозамещению

Коллеги из Центра стратегических разработок поделились интересной воодушевляющей статистикой и прогнозом. В частности, рассказали о стремительном росте рынка отечественных СУБД. К двадцать седьмому году рынок отечественных вендоров составит почти 170 млрд руб. и займут они 98% рынка.

Отечественные решения оказались конкурентоспособными и будут продолжать заходить на рынки дружественных стран.

Интересная мысль ещё прозвучала, — о том, что Россия с 2022 года выступает своего рода полигоном, на котором были отработаны многие критические ситуации с отключением западных систем.

И то, что мы с этим успешно справились и довольно быстро перешли на отечественное ПО, говорит о его качестве.

Поэтому экспортируя наши ИТ-решения, мы экспортируем ещё и технологический суверенитет. Маркетинговым слоганом этой части сессии я бы сделала фразу одного из экспертов «Купи себе немного суверенитета».

Демократизации доступа к данным и аналитическим инструментам и то, как это меняет работу сотрудников во всех отраслях

Много говорили о том, как модели ИИ могут повысить эффективность бизнес-процессов и снизить затраты. Рассматривали кейсы внедрения self-service аналитики, решений для служб поддержки, обучения новичков и других. Действительно, возможность задавать вопросы на естественном языке и быстро получать точные ответы, создаёт океан вариантов использования.

После многих докладов вопросы слушателей перерастали в настоящие дискуссии, где спикерам приходилось дополнительно аргументировать свои выводы о том, что работа дата-аналитиков стала не такой эффективной по сравнению с ИИ. Или объяснять, зачем теперь нужны консультанты (особенно junior).

Не у всех получалось убедительно, но всегда — эмоционально. И во всех случаях побеждала дружба — сходились на том, что хоть ИИ и демократизирует доступ к аналитическим возможностям, спрос на квалифицированных дата-аналитиков только возрастёт из-за увеличения объёма используемых данных и количества задач аналитики данных в разных отраслях.

Технологическая инфраструктура: облака, разделение вычислений и хранения и lakehouse

В нескольких выступлениях (в основном компаний-поставщиков) упоминались технологические тренды в аналитике данных.

Конечно, говорили о преимуществах облачных технологий, как удобно использовать инфраструктуру только тогда и только в том объёме, которые нужны.

Также много говорили о доминирующей тенденции разделения вычислительных мощностей и хранения.

Выступление Владимира Озерова из CedrusData

Самым содержательным и точным выступлением на эту тему стало выступление от CedrusData. У Владимира Озерова есть талант — превращать buzzwords или сложносочинённые отчёты Gartner в понятные идеи.

Владимир говорил о следующих трендах:

Преимущества облачных технологий. Позволяют платить только за используемые ресурсы, снижать затраты на инфраструктуру, разделять вычислительные мощности и ресурсы на хранение данных, дают возможность пользоваться S3-совместимыми облачными хранилищами.
Разделение вычислений и хранения (Storage / Computing Disaggregation). Это разделение позволяет независимо масштабировать вычислительные мощности и ресурсы хранилища, оптимизируя производительность и снижая затраты. Примеры реализации такого подхода — Snowflake и Google BigQuery вместе с Apache Spark и CedrusData/Trino.
Lakehouse объединил в себе лучшее от data lakes и поддержку транзакций от data warehouse.
Data Fabric и Data Mesh ускоряют процесс получения ценности из данных (оказалось, что давно надо говорить «time-to-insight», что ж, запомнила).
Small data — подход к локальной обработке данных. Есть встраиваемые аналитические СУБД DuckDB и скоро выйдет решение на ClickHouse, предназначенные для работы с аналитическими запросами на локальных устройствах, а также библиотека Polars.

Мне второй раз выпадает удача выступать после Владимира на одном и том же мероприятии.

И оба раза выступления оказались удачными, поскольку мощный технологический вклад Владимира делает и мою презентацию более понятной.

В своих выступлениях Владимир даёт чёткий обзор тенденций, что сильно упрощает мне задачу подробно рассказать о преимуществах нашей cloud-native архитектуры и технологического стека.

Кроме того, хорошо получается описать и особенности работы с геопространственными данными. К примеру, если Владимир говорит о Parquet, я затем в своём выступлении подхожу к теме GeoParquet. Когда упоминает PostgreSQL, я говорю о PostGIS, он про SQL — я про Spatial SQL, если про DuckDB — то я про DuckDB Spatial Extension, ну вы поняли:).

Большие геоданные: что в них особенного

Я рассказала обо всём, что есть нового в анализе геоданных, об особенностях геопространственных проектов, что общего и какие различия между Data Science и Spatial (пространственной) Data Science, с какими наборами данных мы работаем, и почему пространственный анализ у нас выполняется в облаке.

Показала, кто и как чаще всего использует предиктивную геоаналитику и какие конкретные задачи решаются на нашей платформе в разных отраслях. Самыми узнаваемыми оказались, как всегда, Site Selection для ритейла и оптимизация маршрутов для last mile delivery и логистики, но я показала и другие.

Рассказала о наших моделях машинного обучения, откуда берём данные, как готовим датасеты и работаем с Каталогом наборов данных.

На примерах показала, как легко использовать наш конструктор интерактивных карт и зачем нам было разрабатывать no-code конструктор для процессов пространственного анализа.

На нашу секцию пришёл представитель Burger King Александр Кулиев, и моя удача была в том, что удалось некоторые наши решения описать в контексте предыдущего выступления Александра о data-driven подходе.

Также для меня лично большим подарком от организаторов стал выбор модератора нашей секции «Аналитика и управления на основе данных». На Алёну Артемьеву из Работа.ру я подписана везде, где только можно. Алёна — высокий профессионал и настоящий лидер мнений во всём, что связано с дата-аналитикой и data science.

Невозможно перечислить, сколько раз её посты и рекомендации мне помогали в самых разных профессиональных вопросах.

Только ради возможности познакомиться лично с Алёной стОило прийти на Data&AI 2024. Ну а фото Алёны на фоне нашего баннера определённо войдет в историю «Эпсилон Метрикс» и в мой личный альбом.

Большие лингвистические модели (LLM – Large Language Models)

Все доклады в той или иной степени упоминали большую роль генеративного ИИ в трансформации как целых отраслей, так и отдельных бизнес-операций. Для LLM — так и вообще была выделена целая отдельная секция.

LLM — это модель глубокого обучения, которая состоит из нейронной сети с миллиардами параметров, обученной на явно больших объёмах немаркированных данных с использованием самостоятельного обучения. Данные здесь представляют собой текст на разных языках.

Причина большого объёма данных заключается в том, что LLM принимает огромное количество текстовых данных с целью поиска связей и шаблонов между словами для получения контекста, значения, вероятных ответов и действий с этим текстом.

Многие доклады были посвящены специализированным адаптированным к предметной области LLM. Как я поняла, в будущем нас ждут множество тонко настроенных моделей, ориентированных на конкретные отрасли или даже на конкретные компании. Они будут предлагать более точные результаты, чем универсальные модели.

Во всех выступлениях на эту тему рассказывали о прикладных кейсах LLМ (от базовых — обобщение, перефразирование и генерация текста, перевода на разные языки, до вариантов автоматизация рутинных задач, — разработки документации, поддержки пользователей, обучения, составления аналитических отчётов и протоколов встреч, написания кода и других). Много рассказывали и забавных случаев.

Самые частые вопросы к спикерам — про галлюцинации и предвзятость моделей. На третьем месте по частоте были вопросы, связанные со сравнением моделей с открытым и закрытым исходным кодом. Слушатели (как я понимаю, представители разработчиков) говорили, что модели с открытым исходным кодом могут привести к более быстрому развитию LLM и повышению безопасности благодаря вкладу сообщества.

А проприетарные модели, наоборот, могут создавать проблемы с точки зрения безопасности, доверия к результатам и риска монополизации сферы ИИ.

Представителю Сбера тоже настойчиво предлагали выложить в открытый доступ код GigaChat, но нет:), не получилось убедить:). Я понимаю так, что время исследований закончилось и началось время коммерциализации, поэтому никто не торопится ничего выкладывать.

Интеллектуальные застройщики (или покупайте квартиры у Самолёта)

Очень интересный и яркий доклад сделал Андрей Комиссаров из ГК «Самолёт». Я слышала на других конференциях о том, что «Самолёт» активно строит инфраструктуру вокруг своих ЖК. И в целом продвинутый застройщик.

Но тут оказалось, что они серьёзно инвестируют в школы и детские сады, и даже сами делают мощные образовательные проекты для жильцов (точнее, их детей) как в своих, так и в муниципальных школах по соседству.

Большая часть этих проектов – применение LLM для обучения, формирования цифрового профиля ученика, профессиональной ориентации, оценки компетенций учителей и много ещё чего интересного.

Я, конечно, уже привыкла к тому, что в банках, телекоме и в крупном сетевом ритейле есть мощные компетенции data science и ИИ, но вот в застройщике – вижу впервые.

Про галлюцинации Андрей сам рассказал на примере вымышленных жён Миклухо-Маклая:).

Как, впрочем, и про все остальные особенности LLM — на понятных примерах и со ссылками на «Слово о полку Игореве» и, кажется, на «Горе от ума»:)!

В целом, чувство юмора, ясность мысли, афористичность и точность формулировок Андрея смело позволяют оценить это выступление, как самое яркое на конференции. Ну а ГК «Самолет» — как везучего работодателя:)!

Перед тем, как начать учиться, пусть ИИ сначала сам себе разметит данные для обучения

Несколько лет назад коллеги из Яндекса на одном из митапов Толоки (когда она еще были нашей и располагались по соседству на Льва Толстого) говорили об иронии судьбы в части обучения искусственного интеллекта.

Речь шла о том, что для работы искусственного интеллекта сначала должны поработать многие люди, чтобы разметить данные для обучения.

Коллеги из X5 Tech рассказали, что сегодня это уже не так (во всяком случае, для текстов).

И разметку могут выполнять LLM. Пусть и с необходимостью последующей валидации человеком, но всё же получается намного быстрее и дешевле.

В целом, сколько я ни бываю на конференциях, всегда удивляюсь, какие крутые спикеры у X5 Tech.

Любое их выступление (а они делают мнооого выступлений на самые разные темы в бигдате) – это всегда интересные и содержательные доклады, точные примеры, кейсы и классные спикеры (в этот раз выступал Артём Ерохин).

Кибербезопасность и защита больших данных и моделей ИИ

Говорили о роли искусственного интеллекта в кибербезопасности, потенциального неправомерного использования технологий ИИ. Например, ИИ-модели могут создаваться для взлома систем.

Киберпреступник может создать продвинутого чат-бота для получения информации от широкого круга людей на разных платформах и языках.

Также известные примеры — это входные данные, которые вводятся в модель для преднамеренного создания сбоев в работе и неточности при предоставлении ответов.

С другой стороны, компании также могут использовать ИИ для поиска уязвимостей и их устранения.

Яркий и содержательный доклад сделал Рустэм Хайретдинов из «Гарда»

Обычно выступления по безопасности сосредоточены на защите инфраструктуры, предотвращении утечки данных (DLP), аудите и защите данных (DCAP), или DevSecOps. Часто кажется, что новых тем не осталось. Однако на этой конференции Data&AI 2024 всё было иначе.

Рустэм Нилович выделил вопросы защиты больших данных и ИИ, сделав свой доклад одним из ярких событий конференции. Его подход к современной безопасности, где он с уважением назвал себя и коллег по цеху «штатными параноиками», подчеркнул важность внимания к их словам:).

Простыми словами на примере котиков и авокадо Рустэм Нилович объяснил, как современные продвинутые злоумышленники используют Data Science. Подчеркнул множество угроз на каждом этапе DS-проектов – от сбора, разметки и обработки данных до анализа, обучения и эксплуатации ML-моделей.

Итак, о чём нельзя забывать в части безопасности данных и ML-моделей

В области безопасности данных и машинного обучения важно учитывать следующие аспекты:

Отравление данных. Злоумышленники могут целенаправленно искажать обучающие наборы данных, добавляя вредоносную информацию для неправильной классификации и вызова ошибок в алгоритмах. Это может привести к нежелательным действиям системы.
Специально подготовленные входные данные, которые заставляют ИИ допускать ошибки.
Кража моделей ИИ для анализа и копирования.
Манипуляции с входными данными для обхода систем защиты.
Фаззинг с целью выявить принципы реакции модели, чтобы затем «обмануть» её.

Рустэм Нилович привёл убедительные примеры этих угроз, подчеркнул их серьёзность (особенно учитывая, как много мы полагаемся на ИИ во всех областях жизни от медицины до беспилотных автомобилей).

Также обсуждались вопросы безопасной разработки, которая хоть и может замедлить и удорожить процессы, но оказывается важной для предотвращения угроз. Внутренние атаки и риск, связанный с доступом сотрудников к данным и моделям, также были отмечены как важные факторы риска.

Было подчёркнуто, что простые меры безопасности могут защитить от случайных атак, но для защиты от целенаправленных угроз необходим комплексный подход.

Настоящая безопасность – не реактивная, а проактивная, с постоянным вопросом к себе и командам: «А безопасно ли то, что мы делаем?».

Благодарность организаторам за приглашение такого яркого спикера.

Взгляд в будущее от Сбера

Сбер со своей консалтинговой компанией Strtegic Partners подготовили отчёт о новых технологиях работы с данными в перспективе до 2035 года.

Здесь нет скучных кривых Gartner, а есть хранение данных на базе ДНК (позволит хранить 200 петабайт на носителе размером меньше пробирки и на протяжении тысяч лет), универсальный молекулярный язык, фотонные компьютеры с лабораторией в Бауманке и другие, не менее захватывающие предположения.

Ну и на сдачу: человекоцентричность (продукты Сбера, направленные на повышение качества и продолжительность жизни клиентов и не только), радар технологических трендов Сбера (мне показался похожим на Радар DHL, но я не приглядывалась), кибербезопасность и новые угрозы, например, взлом цифрового двойника человека, создание поддельных документов или «отравление данных» для моделей, об этом я выше рассказала.

Качество данных для машинного обучения или «Плохие данные = плохой ИИ»

Чтобы технологии ИИ приносили пользу, они должны основываться на надёжных и хорошо управляемых данных.

От качества процессов управления данными зависит успех искусственного интеллекта. Об этом говорили все, как Заказчики, так и поставщики решений управления данными.

Вместо заключения

Программа получилась насыщенной и полезной. Восхищает точный подбор участников: государственные органы, бизнес-сообщество и разработчики — все были вовлечены, что не каждому организатору удаётся.

И выступления, и работа на информационных стендах разработчиков была здОрово организована.

Мы не установили в этот раз свой стенд, что, как показало время, было не лучшим решением. Переговоры «в кулуарах» на этих стендах шли предметно и оживлённо, а у стендов Polymatica и CedrusData я даже заметила настоящие живые очереди потенциальных клиентов.

Одну секцию разделили на три раздела, которые проходили одновременно, и, поэтому мне не все доклады удалось послушать. Тем не менее, познакомились почти со всеми участниками.

Оказалось, что подобные события — не только способ поиска новых контактов, но и отличная возможность многое узнать благодаря профессиональным выступлениям.

Как мы сходили на конференцию Data&AI 2024 от «Открытые системы»