a
b
c
d
FindNews.ru - новости, последние события, хроники.
Мэр Москвы рассказал о строительстве Рублево-Архангельской линии метро
Сегодня, 20:31
Москва развивает телемедицину для детей с особыми потребностями - Собянин
Сегодня, 20:31
Эти пять способов помогут улучшить память без всяких таблеток и тренажеров
Сегодня, 20:30
«Страна Девелопмент» и KTS внедрили систему коммуникаций в ЛК брокера для ускорения работы тысяч агентов
Сегодня, 20:02
«Сбер» перевёл оценку рисков корпоративного кредитования на российское ПО
Сегодня, 20:02
Windows 11 вчетверо снижает скорость быстрых накопителей SSD по сравнению с Windows 10
Сегодня, 20:02
«М.Видео» фиксирует рост продаж холодильников в I квартале 2026 года на 18%
Сегодня, 20:02
Новый метод аутентификации в Multifactor
Сегодня, 20:02
Эксперт Positive Technologies помог устранить 4 уязвимости в бесплатной корпоративной платформе Foswiki
Сегодня, 20:02
UserGate открыла сертифицированный образовательный центр в Москве
Сегодня, 20:02

Новый алгоритм позволит роботам видеть мир в объеме и без слепых зон

Международный научный коллектив с участием ученых МФТИ представил новую технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов, не используя для обучения дорогостоящие лидары и ручную разметку. Она точна даже там, где «слепнут» современные алгоритмы: перед гладкими стенами, в густой листве или тумане. Технология может применяться в том числе для безопасности беспилотных автомобилей и автономных роботов. Исследование опубликовано в IEEE Transactions on Circuits and Systems for Video Technology. Об этом CNews сообщили представители МФТИ.

Как мы понимаем, насколько удален от нас предмет? Каждую секунду наш мозг сопоставляет два немного разных изображения – от левого и правого глаза – и на основе разницы между ними строит трехмерную карту мира.

Стереосистемы роботов и беспилотных автомобилей устроены подобной зрению человека. Только вместо глаз они используют камеры, а вместо мозга — алгоритмы. Но этот механизм срабатывает не везде. Например, при встрече с идеально белой стеной или зоной с повторяющимися узорами, алгоритму не хватает визуальных зацепок, чтобы верно сопоставить изображения. Могла бы помочь ручная разметка с правильным расстоянием до каждого объекта, но работать она будет только в ограниченном сценарии.

Новый фреймворк для обучения нейросетей, разработанный международной командой ученых, помогает преодолеть этот барьер. Они вводят в процесс обучения «наставника» — модель Depth Anything V2. Она умеет оценивать относительную глубину только с помощью «одного глаза» — одного изображения. Depth Anything V2 не измеряет метры, но распознает тени, перспективу и перекрытия объектов и почти безошибочно определяет, что ближе, а что дальше. Алгоритм отбирает только те предсказания стереосистемы, которые согласуются с ее подсказками, и учит нейросеть повышать точность.

«Модель Depth Anything V2 постоянно передает различные подсказки стереосистеме. Например, “я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой или на этой стене, где нет контраста, глубина должна меняться плавно” и т.д.», — сказал Александр Дворкович, руководитель проекта Научно-технического центра телекоммуникаций МФТИ.

Система работает в три этапа. Сначала алгоритм оценки диспаратности (смещения) (DDCV) проверяет каждый пиксель, соответствуют ли его данные подсказкам «наставника», и помечает их зеленым (верно) и красным (ошибка) цветом. Затем функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых соседей. Подобно маякам, они задают границы и сдвигают красный пиксель на нужное место.

Наконец, алгоритм «Двойная функция потерь сглаживания диспаратности DDS» помогает построить контуры. Она убирает цифровой шум там, где «наставник» говорит, что цвет должен быть равномерным, и наоборот.

«Работу системы уже протестировали на стандартных датасетах. Результат — абсолютное превосходство Un-ViTAStereo среди всех аналогов на бенчмарке. Например, на тесте беспилотников KITTI 2015 долю грубых ошибок удалось снизить до 5%. Это значит, что при движении будет на 23% меньше опасных ошибок в определении расстояний до объектов (бордюра или пешехода)», – сказал Александр Дворкович.

Экспериментальные результаты работы систем и данной работы на стереодатасетах KITTI, MiddEval, ETH3D. Изображения в первом ряду каждого метода представляют оценочные карты глубины, а изображения во втором ряду демонстрируют визуализации ошибки.

Текущая версия Un-ViTAStereo — только начало. На ее основе ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под специфику разных сред — от городских улиц до заводских цехов. Также ученые хотят использовать редкие, но точные измерения лидаров в качестве «супер-маяков» для обучения, что еще больше повысит точность.

Поделиться Подписаться на новости Короткая ссылка

Наука и высокие технологии - другие новости