Робот агент и человек

Новый инструмент от Гугла и OpenAI позволяет лучше видеть глазами искусственный интеллект

Исследователи озадачили это на протяжении десятилетий, но в последние годы вопрос стал более актуальным. Системы машинного зрения используются во все более и более областях жизни, от здравоохранения до самоходных автомобилей, но ”видеть” глазами машины — понимание того, почему она классифицировала этого человека как пешехода, но этот как указатель — все еще является проблемой. Наша неспособность сделать это может иметь серьезные, даже фатальные последствия. Некоторые сказали бы, что это уже есть, как и в случае с смертями, связанными с автомобилями с самостоятельным вождением.

Новые исследования от компании Google и некоммерческой лаборатории OpenAI надеется далее поддеть открыть черный ящик АИ видения путем отображения визуальных данных, которые эти системы используют для понимания мира. Метод, получивший название “активация Атласов”, позволяет исследователям анализировать работу отдельных алгоритмов, раскрывая не только абстрактные формы, цвета и узоры, которые распознают они, но и то, как они сочетают эти элементы для идентификации конкретных объектов, животных и сцен.

Шан Картер, ведущий исследователь компании Google в этой работе, сказал грани, что если предыдущие исследования были похожи на выявление отдельных букв в алфавите визуальном алгоритмов, активация Атласов предлагает что-то ближе к целому словарю: показывая, как буквы объединяются, чтобы сделать фактические слова. ” Например, в такой категории изображений, как “акула”, будет много активаций, которые способствуют этому, например, “зубы” и “вода”, – говорит Картер.

Эта работа не всегда является огромным прорывом, а скорее шагом вперед в более широкой области исследований, известной как “инструмент визуализации.” Рампрасаат Сельвараджу, аспирант Georgia Tech, который не был вовлечен в работу, сказал, что исследование было “чрезвычайно увлекательным” и объединило ряд существующих идей для создания нового, “невероятно полезного” инструмента.

Сельвараджу сказал The Verge, что в будущем такая работа будет иметь много применений, помогая нам создавать более эффективные и продвинутые алгоритмы, а также улучшать их безопасность и устранять предвзятость, позволяя исследователям заглядывать внутрь. “Из-за присущей ей сложной природы [нейронных сетей] им не хватает интерпретируемости”, – говорит Сельвараджу. Но в будущем, по его словам, когда такие сети будут регулярно использоваться для управления автомобилями и управления роботами, это станет необходимостью.

Крис Олах из OpenAI, который также работал над проектом, сказал: “Это немного похоже на создание микроскопа. По крайней мере, к этому мы стремимся.”

Вы можете изучить интерактивную версию атласа активации, изображенную ниже.

Атласы активации позволяют исследователям отображать алгоритмы визуальных данных, используемые для понимания мира.
Кредит: Google/OpenAI
Чтобы понять, как работают атласы активации и другие инструменты визуализации объектов, сначала нужно немного узнать о том, как системы искусственного интеллекта вообще распознают объекты.

Основной способ сделать это – использовать нейронную сеть: вычислительную структуру, которая во многом схожа с человеческим мозгом (хотя и отстает в изощренности на световые годы). Внутри каждой нейронной сети находятся слои искусственных нейронов, соединенных как паутина. Как и клетки вашего мозга, они срабатывают в ответ на стимулы, процесс, известный как активация. Важно отметить, что они не просто включаются или выключаются, но регистрируются в спектре, придавая каждой активации определенное значение или “вес”.”

Однако, чтобы превратить нейронную сеть во что-то полезное, вы должны накормить ее большим количеством обучающих данных. В случае алгоритма видения это будет означать сотни тысяч, возможно, даже миллионы изображений, каждое из которых помечено определенной категорией. И в случае с нейронной сетью, протестированной исследователями Google и OpenAI для этой работы, эти категории были широкими: от шерсти до Виндзорских галстуков и от ремней безопасности до космических обогревателей.

Нейронные сети используют слои связанных искусственных нейронов для обработки данных. Разные нейроны реагируют на разные части изображения.
Кредит: OpenAI/Google
По мере того, как он питает эти данные, различные нейроны в нейронной сети загораются в ответ на каждое изображение. Этот шаблон связан с меткой изображения, и именно эта ассоциация позволяет сети “узнать”, как все выглядит. После обучения вы можете показать сети картинку, которую никогда раньше не видели, и нейроны активируются, сопоставляя входные данные с определенной категорией. Поздравляю! Вы только что обучили алгоритм машинного обучения.

Если все это звучит тревожно просто, это потому, что во многих отношениях это так. Как много обучающих программ машины, алгоритмы видения, в глубине души, просто по шаблону машин. Это дает им определенные сильные стороны (например, тот факт, что они просты в обучении, пока у вас есть необходимые данные и вычислительные мощности), но и определенные недостатки( например, тот факт, что они легко путаются входами, которые они не видели раньше).

С тех пор как исследователи обнаружили потенциал нейронных сетей для задач зрения в начале 2010-х годов, они возились со своей механикой, пытаясь выяснить, как именно они делают то, что они делают.

Одним из ранних экспериментов была программа DeepDream, выпущенная в 2015 году, которая превратила любую картинку в галлюциногенную версию самой себя. Визуальные эффекты DeepDream, безусловно, были интересными (в некотором смысле они стали определяющей эстетикой для AI), но программа также была ранним набегом на видение алгоритма. “В некотором смысле все начинается с DeepDream”, – говорит Ола.

DeepDream изображения, как это разработаны, чтобы быть как можно более интересным для алгоритмов машинного обучения.
Что DeepDream делает настройку изображения должны быть как можно более интересные алгоритмы. Может показаться, что программное обеспечение извлекает “скрытые” узоры в изображении, но это больше похоже на то, что кто-то строчит в книжке-раскраске: заполняя каждый дюйм глазами, стеблями, завитками и мордами, все, чтобы максимально возбудить алгоритм.

Более поздние исследования использовали тот же самый базовый подход и усовершенствовали его: сначала нацеливание отдельных нейронов в сети, чтобы увидеть, что их возбуждает, затем кластеры нейронов, затем комбинации нейронов в разных слоях сети. Если ранние эксперименты были посвящены, но случайными, как Исаак Ньютон, тыкающий себя в глаз тупой иглой, чтобы понять зрение, недавняя работа похожа на Ньютона, расщепляющего луч света с призмой: гораздо более сфокусированный. Отображая, какие визуальные элементы активируются в каждой части нейронной сети, снова и снова, в конце концов, вы получаете атлас: визуальный индекс его мозга.

Увеличение и уменьшение масштаба активационного Атласа.
Кредит: Google / OpenAI
Машина вид
Но что на самом деле показывают активационные атласы о внутренней работе алгоритмов? Ну, вы можете начать с навигации по примеру Google и OpenAI здесь, построенному, чтобы развязать внутренности известной нейронной сети, известной как GoogLeNet или InceptionV1.

Прокрутка вокруг, вы можете увидеть, как различные части сети реагируют на различные концепции и как эти концепции сгруппированы вместе (так что собаки все в одном месте, а птицы в другом). Вы также можете увидеть, как различные слои сети представляют различные виды информации. Нижние уровни более абстрактны, реагируя на основные геометрические формы, в то время как более высокие уровни решают их в узнаваемые концепции.

Где это становится действительно интересным, когда вы копаетесь в отдельных классификациях. Один пример Google и OpenAI дать-это разница между категория “шноркель” и “аквалангист.”

На изображении ниже вы можете увидеть различные активации, которые используются нейронной сетью для идентификации этих меток. Слева находятся активации, сильно связанные с “снорклингом”, а справа-с “аквалангистом”.” В середине распределяются между двумя классами, а на окраинах более дифференцированы.

Активации, связанные с ” snorkel” (слева) и “scuba diver” (справа).
Кредит Изображения: Google / OpenAI
На первый взгляд, вы можете разглядеть некоторые очевидные цвета и узоры. В верхней части, у вас есть то, что выглядит как пятна и полосы ярко окрашенных рыб, в то время как в нижней части есть формы, которые выглядят как маски для лица. Но справа выделена необычная активация — та, которая прочно ассоциируется с локомотивами. Когда исследователи обнаружили это, они были озадачены. Почему этот кусочек визуальной информации о локомотивах был важен для распознавания аквалангистов?

“Поэтому мы протестировали его”, – говорит Картер. “Мы такие: “Хорошо, если мы поместим фотографию паровоза, он перевернет классификацию от снорклера или аквалангиста?’ И вот это.”

Три изображения, показывающие, как одно и то же изображение может быть переклассифицировано. Слева он идентифицируется как снорклер; в середине, с добавлением Локомотива, он становится аквалангистом; и когда Локомотив достаточно большой, он берет на себя всю классификацию.
Кредит: OpenAI/Google
В конце концов, команда выяснила причину: это потому, что гладкие металлические кривые Локомотива визуально похожи на воздушные резервуары водолаза. Итак, для нейронной сети это одно очевидное различие между дайверами и снорклерами. И чтобы сэкономить время, различая эти две категории, он просто заимствовал идентифицирующие визуальные данные, необходимые ему из других мест.

Этот пример невероятно показывает, как работают нейронные сети. Для скептиков это показывает ограничения этих систем. Алгоритмы видения могут быть эффективными, говорят они, но информация, которую они узнают, на самом деле имеет мало общего с тем, как люди понимают мир. Это делает их восприимчивыми к определенным трюкам. Например, если вы добавляете в изображение только несколько тщательно выбранных пикселей, этого может быть достаточно, чтобы алгоритм неправильно классифицировал его.

Добавить комментарий