Мультимодальный метод анализа аудио- и визуальных данных повышает производительность моделей машинного обучения

22.07.2023

Исследователи из Массачусетского технологического института, лаборатории искусственного интеллекта MIT-IBM Watson, IBM Research и других организаций разработали новую методику анализа немаркированных аудио- и визуальных данных, которая может повысить производительность моделей машинного обучения, используемых в таких приложениях, как распознавание речи и обнаружение объектов. В этой работе впервые сочетаются две архитектуры саморегулируемого обучения, контрастивное обучение и моделирование замаскированных данных, в попытке масштабировать задачи машинного обучения, такие как классификация событий в одно- и мультимодальных данных, без необходимости аннотирования, тем самым воспроизводя то, как люди понимают и воспринимают наш мир.

«Большая часть человеческих знаний усваивается саморегулируемым способом, потому что мы не всегда получаем сигналы контроля, и мы хотим, чтобы модель машинного обучения обладала такой же способностью», — говорит Юань Гун, постдок Массачусетского технологического института в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL)..

«Итак, другой способ выразить это заключается в том, что самоконтролируемое обучение часто формирует основу исходной модели, поскольку оно может обучаться на огромных объемах немаркированных данных. А затем вы можете использовать классическое обучение под наблюдением или обучение с подкреплением, чтобы точно настроить модель на что-то конкретное, если захотите», — говорит Джим Гласс, старший научный сотрудник Массачусетского технологического института и сотрудник лаборатории искусственного интеллекта MIT-IBM Watson.

Метод, называемый контрастивным аудиовизуальным маскированным автоэнкодером (CAV-MAE), представляет собой тип нейронной сети, которая может научиться извлекать и отображать значимые скрытые представления в многомерном пространстве из акустических и визуальных данных путем обучения на больших наборах данных YouTube аудио- и видеозаписей продолжительностью 10 секунд. Исследователи говорят, что этот метод более эффективен, чем предыдущие подходы, поскольку он явно моделирует взаимосвязи между аудио- и визуальными данными таким образом, которого не делают другие методы.

К Гонгу и Глассу в исследовании присоединились аспиранты Эндрю Рудитченко и Александр Х. Лю из Массачусетского технологического института, Дэвид Харват, доктор философии 18-го года из Техасского университета в Остине, и сотрудники лаборатории искусственного интеллекта MIT-IBM Watson Леонид Карлинский и Хильда Кюне. Кюне также связан с Франкфуртским университетом имени Гете. Этот метод был недавно представлен на Международной конференции по обучению репрезентациям.


Совместный и скоординированный подход

По словам Гонга, CAV-MAE работает по принципу «обучения путем прогнозирования» и «обучения путем сравнения». Моделирование замаскированных данных, или метод прогнозирования, использует видео вместе с его согласованной звуковой формой, преобразует аудио в спектрограмму и маскирует 75% того и другого. Немаскированные данные маркируются, затем передаются в отдельные аудио- и визуальные кодеры перед вводом в объединенный кодер/декодер, где модели предлагается восстановить недостающие данные. Разница (потери при восстановлении) между результирующим восстановленным прогнозом и исходной аудиовизуальной комбинацией затем используется для обучения модели для повышения производительности.

Примером этого может служить просмотр части видеозаписи игры на фортепиано и части спектрограммы фортепианной музыки, а затем просьба к модели попытаться определить замаскированные входные данные. К сожалению, этот метод может не улавливать связь между парой видео и аудио, в то время как контрастивное обучение использует это, но может отбрасывать некоторую информацию, уникальную для модальности, например фон в видео.

Контрастивное обучение направлено на сопоставление представлений, которые очень похожи друг на друга. Например, модель попытается разместить различные видео- и аудиоданные разных попугаев близко друг к другу и дальше от пар видео- и аудиозаписей игры на гитарах. Аналогично маскированному автоэнкодированию, аудиовизуальные пары передаются в отдельные кодеры модальности; однако аудиовизуальные компоненты хранятся отдельно в совместном кодере до того, как модель выполнит объединение и контрастную потерю. Таким образом, контрастивное обучение пытается определить те части каждого аудио или видео, которые наиболее релевантны друг другу.

Например, если на видео показано, как кто-то говорит, а соответствующий аудиоклип содержит речь, автоэнкодер научится связывать движения рта говорящего с произносимыми словами. Затем он отрегулирует параметры модели таким образом, чтобы эти входные данные были представлены близко друг к другу. В конечном счете, метод CAV-MAE сочетает в себе оба метода с несколькими прямыми потоками данных с маскировкой в качестве первого шага, кодировщиками, зависящими от модальности, и нормализацией уровня, так что преимущества представления одинаковы.

«Мы [затем] хотели сравнить предложенный CAV-MAE с моделью, обученной только с помощью замаскированного автоэнкодера, и моделью, обученной только с помощью контрастивного обучения, потому что мы хотим показать, что, комбинируя замаскированный автоэнкодер и контрастивное обучение, мы можем получить некоторое улучшение производительности», — говорит Гонг, — «и результаты подтверждают нашу гипотезу о том, что наблюдается очевидное улучшение».

Исследователи протестировали CAV-MAE — а также свой метод без потери контрастности или замаскированного автоэнкодера — в сравнении с другими современными методами в задачах аудиовизуального поиска и классификации аудиовизуальных событий, используя стандартные наборы данных AudioSet (20K и 2M) и VGGSound — помеченные реалистичные короткие клипы, который может включать в себя несколько звуков. Аудиовизуальный поиск означает, что модель видит либо аудио, либо визуальный компонент пары запросов и выполняет поиск отсутствующего; классификация событий включает идентификацию действий или звуков в данных, таких как пение человека или вождение автомобиля.

В целом, они обнаружили, что контрастивное обучение и моделирование замаскированных данных являются взаимодополняющими методами. CAV-MAE смогла превзойти предыдущие методы (с предварительным обучением под полным самоконтролем) примерно на 2% по производительности классификации событий в моделях с сопоставимыми вычислениями и, что более впечатляюще, не отставала от моделей с вычислительными ресурсами отраслевого уровня или превосходила их по производительности. Модель команды заняла такое же место, как и модели, обученные только с контрастными потерями. И, что удивительно, по словам команды, включение мультимодальных данных в предварительное обучение CAV-MAE значительно улучшает тонкую настройку одномодального представления с помощью контролируемого обучения (с некоторыми помеченными данными) и производительность в задачах классификации событий только для аудио.

Это демонстрирует, что, как и у людей, мультимодальная информация обеспечивает дополнительный импульс «мягкой метки» даже для задач, связанных только с аудио или визуальными эффектами; например, это помогает модели понять, ищет ли она электрическую или акустическую гитару — более насыщенный сигнал наблюдения.

«Я думаю, людям нравится элегантность этой модели для объединения информации в различных аудио- и визуальных потоках. У него есть контрастность и потери при реконструкции, и по сравнению с моделями, которые были оценены с использованием аналогичных данных, он явно очень хорошо справляется с целым рядом этих задач», — говорит Гласс.

Основываясь на этом, «одна особенность заключается в том, что наша модель может выполнять как классификацию, так и поиск, что встречается нечасто», — добавляет Гонг. «До этой работы эти методы использовались по отдельности, но после этой работы я вижу, что большинство аудиовизуальных обучающих фреймворков используют сокращающиеся потери и замаскированный автоэнкодер вместе, неявно или явно».


Привнесение аудиовизуального обучения с самоконтролем в наш мир

Исследователи рассматривают свой вклад в создание контрастного аудиовизуального маскированного автоэнкодера (CAV-MAE) как важную веху и шаг вперед для приложений, которые все чаще переходят от одномодальности к мультимодальности и которые требуют или используют аудиовизуальное слияние. Они предполагают, что однажды это можно будет использовать для распознавания действий в таких сферах, как спорт, образование, развлечения, автомобили и общественная безопасность. В один прекрасный день это также могло бы распространиться на другие формы.

В настоящее время тот факт, что «это относится только к аудиовизуальным данным, может быть ограничением, но мы ориентируемся на мультимодальное обучение, которое является тенденцией машинного обучения», — говорит Гонг. «Как люди, мы обладаем несколькими модальностями — у нас есть обоняние, осязание — многое другое, что просто аудиовизуально. Итак, когда мы пытаемся создать искусственный интеллект, мы пытаемся каким-то образом имитировать людей, не обязательно с биологической точки зрения, и этот метод [потенциально может быть] обобщен на другие неизученные модальности».

Поскольку модели машинного обучения продолжают играть все более важную роль в нашей жизни, методы, подобные этому, будут становиться все более ценными.