2 minute read

Ежов Ф.В., Можайский Г.В., Мищенко А.Д., Мартынюк Р.А., Кононыхин И.А

Сравнение архитектур нейронных сетей в задаче сегментации фигуры человека

Ежов Федор Валерьевич, студент; Можайский Глеб Вадимович, студент; Мищенко Анастасия Дмитриевна, студент; Мартынюк Роман Анатольевич, студент; Кононыхин Иван Александрович, студент Санкт-Петербургский государственный университет

Advertisement

Статья посвящена сравнению архитектур нейронных сетей на примере задачи сегментации фигуры человека. Семантическая сегментация—важная область всфере Computer Vision. Задачи сегментации решаются втаких проектах как: автономный транспорт, умный магазин идругих. Смысл задачи состоит внахождении множества пикселей, принадлежащих кинтересующему объекту, на изображении. Лучше всего сэтой задачей справляются сверточные нейронные сети. Встатье подробно рассматриваются 3 предобученные сверточные нейронные сети, способные решать задачу семантической сегментации, атакже сравнивает качество работы нейронных сетей между собой. Для каждой нейронной сети считается метрика «Pixel Accuracy» на тестовом датасете, состоящим из 100 изображений.

Ключевые слова: сверточные нейронные сети, Computer Vision (CV), сегментация.

Введение

Семантическая сегментация—очень важная и интересная задача в области CV. В рамках данной задачи алгоритму требуется найти так называемую «маску» объекта на изображении, то есть нужно выделить только те пиксели, которые принадлежат интересующему нас объекту, для дальнейшего оперирования ими. Данную задачу решают в таких проектах, как автоматического управления транспортом, обводки контуром фигуры человека на камерах слежения, замены фона за человеком на фотографии или видео идругих. Встатье представлено сравнение работы разных нейронных сетей врамках решения задачи сегментации фигуры человека.

Нейронные сети

В сравнение использовались следующие нейронные сети: FCN-8s[1], DeepLabV3[2], DeepLabV3 Plus[3]. Все нейронные сети были предобученны на датесете PascalVOC[4], вкачестве функции потерь используется попиксельная кросс-энтропия.

FCN-8s[1] —полностью сверточная сеть, разработанная в 2015 году. Несмотря на свой возраст, все еще показывает хорошие результаты взадаче семантической сегментации. Преимуществом этой сети является использование информации, полученной на более ранних этапах свертки, это помогает лучше аккумулировать глобальную информацию.

DeepLabV3 [2] —сеть, использующая слой Atrous Convolution, появилась в2016году. Еще одним ее преимуществом является Atrous Spatial Pyramid Pooling(ASPP). ASPP помогает увеличить точность распознавания объектов одного класса при их разных размерах на изображении

DeepLabV3 Plus[3]—усовершенствованный вариант DeepLabV3[2].

Данная сеть использует архитектуру encoder-decoder[5, 6], что повышает точность масок на границах объектов. Вкачестве encoder выступает сеть DeepLabV3[2].

Датасет

Метрика

Для оценки качества работы модели взадаче сегментации вобычно используют метрики Pixel Accuracy или mean IoU.

Pixel Accuracy—интуитивно понятная метрика. Состоит втом, чтобы просто сообщить процент пикселей визображении, которые были правильно классифицированы. Считается она похожим образом, как иaccuracy вклассическом ML.

Mean Intersection over Union (mIoU)—измеряет общее количество пикселей между целевой ипрогнозной масками, деленное на общее количество пикселей, присутствующих вобеих масках. IoU высчитывается для каждого класса отдельно, далее полученные результаты усредняются, так иполучается метрика mean IoU.

Далее для сравнения нейронных сетей будет использоваться только метрика Pixel Accuracy, так как в тестовом датасете всего одна категория—«человек».

Результаты

Таблица 1

Neural Networks FCN DeepLabV3 DeepLabV3 Plus Pixel Accuracy 93.8 94.0 97.6

Рис. 1. Пример 1

Рис. 2. Пример 2

This article is from: