den_sokolov Apr 30 2021 at 09:21

Йога глазами дата-сайентиста: как мы строили computer vision в мобильном приложении

10 min

13K

Development for iOS*Development of mobile applications*Development for Android*Machine learning*Artificial Intelligence

+38

Comments 27

zalexz Apr 30 2021 at 10:24

Спасибо за подробности! Какие планы по дальнейшему улучшению/развитию?

den_sokolov Apr 30 2021 at 11:46

Рад, что было интересно! С точки зрения моделей хотим задействовать подходы, более полно использующие то, что мы всё-таки работаем с видео. Текущие системы опираются на изображения, а видео используют уже для пост-обработки или трекинга. При этом сама модель ничего о видео не знает.

С точки зрения “интеграций” — улучшение работы моделек для Android и Web — бесконечный потенциал для роста :)

С точки зрения бизнеса мы начинаем гораздо больше смотреть и развивать аналитику того, как пользователи взаимодействуют с приложением внутри занятий. А т.к у нас серьёзный акцент на privacy, это не всегда просто.

Ну и активно расширяем команду. Если интересно поработать с нами, пишите :)

teplandr Apr 30 2021 at 13:14

Классная статья! Особенно понравился 1Euro Filter, залип в демке минут на 10)

teplandr Apr 30 2021 at 13:19

Не могли бы Вы несколько слов сказать о используемом стеке (фрейморк для обучения, как производится деплой модели на Android/iOS устройства)?

den_sokolov Apr 30 2021 at 13:53

Спасибо за вопрос.
Для обучения мы используем pytorch. Для деплоя модельки конвертируются в нужные форматы для каждой из платформ — на iOS это CoreML, на Android tflite, в вебе — tfjs.

На следующем уровне (который и отвечает за все пре- и пост- процессинги) на iOS самописный мини-фреймворк на Swift, на Android — MediaPipe + Kotlin. Части пайплайна переиспользуются с помощью Kotlin Multiplatform (Kotlin Native + Kotlin JS).

Конвертация часто бывает связана с определёнными приключениями, поэтому после неё мы проверяем, что результаты, которые выдаёт моделька до и после конвертации, совпадают, а также тестируем полные пайплайны.

Различия платформ — отдельная очень интересная тема, думаю о ней ещё расскажем.

YuriDeigin Apr 30 2021 at 16:20

Круто!

den_sokolov Apr 30 2021 at 17:11

Спасибо!

IvanhoeLab Apr 30 2021 at 17:01

Идея отличная. Но…
Занимаюсь йогой 5 лет.
Тоже думал что поза «Собака мордой вниз» это просто встать горкой. Хрен там.
Немногие умеют делать ее правильно.
Как вы можете отследить положение лопаток, прокручивание мышц бедра внутрь или локтя наружу? Да и положение таза сбоку не отследить.
Ваше приложение может помочь встать «примерно как надо», но с точной отстройкой оно не поможет.

den_sokolov Apr 30 2021 at 17:39

Спасибо за комментарий. Да, нюансов в йоге много, поэтому приложение не заменяет личную работу с инструктором. Новичкам оно помогает преодолеть первоначальный барьер, сделать йогу более доступной и менее травматичной. Более опытных пользователей поддерживает на занятиях с инструкторами онлайн, когда идти в студию неудобно. Инструктору подсвечивает учеников, которые стоят в асане неправильно.

IvanhoeLab May 4 2021 at 12:30

Самое полезное на занятиях йоги это устные подсказки тренера. На групповой йоге просто нереально подойти к каждому и отстроить позу.
Так вот, наш тренер 99% времени не закрывает рот, и проговаривает все телодвижения вслух, которые ОЧЕНЬ помогают выстроить позу. Типа — встать на тыльную сторону стопы, ТБС развернуть наружу, седалищные к спине, подтянуть диафрагму, вытянуть затылок к горизонту. Это очень помогает.
Если в вашей программе к каждой позе добавить такие рекомендации, то может получится что-то очень интересное.

oleg_shishkin May 2 2021 at 21:23

Да что йога — скоро и цигун начнут учить по по смарту
Типа — научим макушечному усилию за 5 занятий
А реально — что делать с 30 летним искривлением позвоночника?
Или как почувствовать ци? Как меня учил хирург с 20 летним стажем — книги — это общие руководства и воспринимать их как истину — большая глупость

IvanhoeLab May 4 2021 at 12:48

Я общался с цигунистами, кундалинщиками и прочими ци-практиками.
Увы, все как один уверяют, что при кривой спине прохождение ци (праны и пр.) затруднительно. Если искривлена спина, то и энергетические каналы тоже.
А в случае большой раскачки ци можно вообще нанести себе вред.
Тогда уж лучше не энергиями заниматься, а накапливать благие заслуги для будущей жизни.

Bellich Apr 30 2021 at 17:23

Правильно ли я понял что:

1) У вас есть свой датасет
2) Вы берете из него подмножество для тестирования
3) Сравниваете модель которая не видела вашего датасета с моделью которая обучалась на нем на вашем же подмножестве?
4) + на конвертации наверное тоже вы себе очков добираете

Или все-таки вы прогнали модельку используемую mediapipe через ваш датасет?

den_sokolov Apr 30 2021 at 17:31

Да, вы верно подметили, что с этой точки зрения сравнение не совсем честное. Мы старались поставить модели в максимально равные условия (например, не считали за ошибки случаи, когда система совсем не нашла человека на картинке), но здесь решающую роль играют данные. Мы аккуратно следим за тем, чтобы данные между обучающей и тестовой выборкой не пересекались, однако сам факт того, что они из одной доменной области даёт нам преимущество.

Дообучить модель из MediaPipe (BlazePose) на наших данных, к сожалению, невозможно, т.к авторы не предоставили код обучения.

khmelkoff Apr 30 2021 at 17:24

Отличная идея использовать всего две точки на шее и подбородке, чтобы показать поворот головы! Красиво. Удачи Вам!

den_sokolov Apr 30 2021 at 18:18

Спасибо!

Abyasov Apr 30 2021 at 17:44

Отличная статья! Факультативно интересуюсь pose estimation задачей. Но не смог найти чего-то вроде инструкций о том, как размечали тот же COCO. Хочу понять по какому принципу при разметке выбиралось конкретное место для точек. Как-то связаны они с анатомией человека или «на глазок в центр плеча»? Вы когда размечали как объясняли своим разметчикам куда ставить точки?

den_sokolov Apr 30 2021 at 18:50

Спасибо! Классный вопрос.

Проблема неоднозначности разметки очень интересная, как со стороны того, что это не очень хорошо и для обучения модели, и для подсчёта метрик качества. Используемая в COCO метрика OKS справляется тем, что для разных точек использует разные допустимые погрешности — они самые маленькие для глаз, носа, и самые большие для плеч, коленей и т.д — это скорее иллюстрация того, что да, проблема есть :)

С точки зрения обучения мне вспомнилась работа LAB — в ней авторы предложили переразмечать неоднозначно размеченные точки с помощью знаний об «устройстве» лица.

К сожалению, найти документы для разметчиков открытых баз мне не удалось. У нас процесс разработки правил разметки шёл итеративно, и, честно говоря, подхода «поставить на глазок в центр плеча» было достаточно при большом количестве данных. Способ «на глазок» можно улучшить с помощью инструментов — например, производить разметку не установкой точки, а рисовать окружность, которая своими краями касается границ конечности. Подобный подход используется в разметке MPII-TRB. В целом для того, чтобы разметка была более консистентной, мы ведём документ, в котором указаны общие правила и особые спорные случаи. Если хотите более подробно изучить то, какие схемы разметки существуют, рекомендую посмотреть на список датасетов в mmpose.

patkinm May 1 2021 at 07:47

Спасибо, отличная статья! Очень согласен с тем, что нужно тщательно чистить датасет, и это на практике важнее чем сама модель.

den_sokolov May 1 2021 at 07:47

Спасибо!

belonesox May 1 2021 at 09:57

Ну не только нейросетями скелет можно распознать, не упомянут, например, http://ipisoft.com

sleep3r May 1 2021 at 19:04

ipisoft использует технологию Kinect, которая на текущий момент внутри так же задействует нейронные сети.

Matshishkapeu May 1 2021 at 16:59

А как модель реагирует на разную одежду? Помимо обтягивающих лосин (а ля лулулемон) и открытых рук, шеи и т.д. в йоговской среде относительно распространены всякие мешковатые вещи типа этнических дроп-кротч штанов и прочего такого. Или вы выдаёте рекомендации что носить для корректной работы?

den_sokolov May 2 2021 at 10:01

Классный вопрос!

Модель реагирует так, как реагировал бы человек, который размечает такую картинку :) Если говорить именно о нашем случае — то особых проблем в работе с такой одеждой мы не замечали, т.к в данных такая одежда встречается.

В целом насчёт одежды очень хорошо выполняется правильно — что легко человеку, легко и машине. Например, часто встречающаяся проблема с чёрными леггинсами: из-за того, что человеку при разметке бывает тяжело определить, какая нога правая, а какая левая, эта неуверенность переносится и на модель (последняя гифка в статье как раз об этом)

UFO just landed and posted this here

den_sokolov May 3 2021 at 08:58

Спасибо за вопрос!

Эта тема мне очень интересна, но буду краток. Когда мы выбирали между хорошо изученным и работающим 2D и более «исследовательским» 3D, то решили за 3D не браться по таким соображениям:

Для «точного» 3D необходимо дополнительное оборудование, а нашей целью были минимальные ограничения по оборудованию. Для живого примера использования depth-камеры можно посмотреть на www.onyx.fit (которых не так давно купили)
Без дополнительного оборудования получить 3D estimation — крайне нетривиальная задача, которую сложно назвать решённой. Здесь думаю самым успешным можно назвать www.arielai.com — авторов DensePose, которых купил Snap. Такие решения связаны с на порядки более сложной разметкой данных, либо непростыми попытками оценить положение тела человека с помощью «лифтинга» из 2D в 3D. Думаю такие решения неплохо сработают для «обычного» фитнеса или развлекательных приложений, но для йоги, которая практически целиком состоит из особых случаев, вряд ли будет выдавать что-то более полезное, чем 2D.

В недавнем обновлении MediaPipe добавили 3ю координату для поз, здесь можно посмотреть, как это работает (глубина подсвечивается цветом)

UFO just landed and posted this here

Show the best of all time