Группа исследователей из Института фундаментальных наук (IBS), Университета Ёнсе и Института Макса Планка разработала новую технологию искусственного интеллекта (ИИ), которая приближает машинное зрение к тому, как человеческий мозг обрабатывает изображения. Этот метод, получивший название Lp-Convolution, повышает точность и эффективность систем распознавания изображений, снижая при этом вычислительную нагрузку на существующие модели ИИ.
Человеческий мозг удивительно эффективно распознаёт ключевые детали в сложных сценах — способность, которую традиционные системы искусственного интеллекта с трудом воспроизводят. Свёрточные нейронные сети (CNN) — наиболее широко используемая модель искусственного интеллекта для распознавания изображений — обрабатывают изображения с помощью небольших квадратных фильтров. Несмотря на эффективность, такой жёсткий подход ограничивает их способность выявлять более широкие закономерности в фрагментированных данных.
В последнее время Vision Transformers (ViT) продемонстрировали превосходную производительность при анализе целых изображений за один раз, но они требуют больших вычислительных мощностей и больших наборов данных, что делает их непригодными для многих реальных приложений.
Вдохновившись тем, как зрительная кора головного мозга избирательно обрабатывает информацию с помощью циклических, редких связей, исследовательская группа попыталась найти золотую середину: может ли подобный подход сделать свёрточные нейронные сети одновременно эффективными и мощными?
Чтобы ответить на этот вопрос, команда разработала Lp-Convolution — новый метод, который использует многомерное обобщённое нормальное распределение (MPND) для динамического изменения формы фильтров CNN. В отличие от традиционных CNN, которые используют фиксированные квадратные фильтры, Lp-Convolution позволяет моделям ИИ адаптировать форму фильтров — растягивая их по горизонтали или вертикали в зависимости от задачи, подобно тому, как человеческий мозг выборочно фокусируется на важных деталях.
Этот прорыв решает давнюю проблему в исследованиях в области ИИ, известную как проблема больших ядер. Простое увеличение размеров фильтров в свёрточных нейронных сетях (например, использование ядер 7×7 или больше) обычно не повышает производительность, несмотря на добавление большего количества параметров. Lp-свёртка преодолевает это ограничение, вводя гибкие, биологически обоснованные схемы соединений.
В тестах на стандартных наборах данных для классификации изображений (CIFAR-100, TinyImageNet) Lp-свёртка значительно повысила точность как классических моделей, таких как AlexNet, так и современных архитектур, таких как RepLKNet. Метод также оказался очень устойчивым к повреждённым данным, что является серьёзной проблемой в реальных приложениях ИИ.

Изображение: https://www.semiconductor-digest.com/ Более того, исследователи обнаружили, что когда Lp-маски, используемые в их методе, напоминали гауссово распределение, внутренняя обработка данных ИИ в точности соответствовала биологической нейронной активности, что было подтверждено сравнением с данными о мозге мышей.
«Мы, люди, быстро определяем, что важно в многолюдной сцене, — сказал доктор Джастин Ли, директор Центра когнитивных и социальных исследований при Институте фундаментальных наук. — Наша Lp-свёртка имитирует эту способность, позволяя ИИ гибко фокусироваться на наиболее важных частях изображения — как это делает мозг».
В отличие от предыдущих разработок, которые либо полагались на небольшие жёсткие фильтры, либо требовали ресурсоёмких преобразователей, Lp-свёртка предлагает практичную и эффективную альтернативу. Это нововведение может произвести революцию в таких областях, как:
– Автономное вождение, при котором искусственный интеллект должен быстро обнаруживать препятствия в режиме реального времени
– Медицинская визуализация, улучшающая диагностику на основе искусственного интеллекта за счет выделения тонких деталей
– Робототехника, обеспечивающая более интеллектуальное и адаптируемое машинное зрение в изменяющихся условиях
«Эта работа — важный вклад как в искусственный интеллект, так и в нейробиологию, — сказал директор К. Джастин Ли. — Более тесно связав искусственный интеллект с мозгом, мы раскрыли новый потенциал свёрточных нейронных сетей, сделав их более умными, адаптируемыми и биологически реалистичными».