Active learning что это

Активное обучение

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Активное обучение (англ. active learning) — область машинного обучения, где алгоритм взаимодействует с некоторым источником информации, или оракулом, способным размечать запрошенные данные.

Зачастую обращение к оракулу затратно по времени или другим ресурсам, и требуется решить задачу, минимизируя количество обращений к оракулу.

Вызов оракула обычно сопровождается привлечением человека или даже группы людей. В этой роли может выступать эксперт, размечающий текстовые документы, изображения или видеозаписи. Помимо временных затрат могут возникнуть и значительные финансовые, например, исследование химического соединения или реакции.

В связи с этим одной из центральных задач активного обучения становится отбор объектов (англ. sampling) — выбор тех объектов, которые следует отправить оракулу для получения достоверной информации об их классификации. От грамотности отбора зависит время работы алгоритма, качество классификации и затраты на внешние ресурсы.

Ниже будет рассматриваться задача классификации для активного обучения, но следует отметить, что задача регрессии формализуется аналогично.

Содержание

Постановка задачи классификации для активного обучения [ править ]

Дано множество неразмеченных данных:

$O : X \rightarrow Y$ — функция, которая по объекту возвращает его метку.

На каждой итерации алгоритм фиксирует три множества:

Основные стратегии [ править ]

Методы отбора объектов [ править ]

Выбор по степени неуверенности [ править ]

Выбор по степени неуверенности (англ. uncertainty sampling) — метод отбора объектов из выборки, где самыми информативными объектами считаются те, на которых текущий алгоритм меньше всего уверен в верности классификации. Для этого необходимо задать меру неуверенности в классификации на каждом объекте.

Заметим, что в случае бинарной классификации эти методы эквивалентны.

Взвешивание по плотности [ править ]

Одной из проблем описанного выше метода может являться то, что алгоритм часто будет отдавать оракулу шумы — те объекты, которые не соответствуют основному распределению в выборке. Так как шумы являются нетипичными в контексте выборки объектами, модель может быть неуверена в их классификации, в то время как для решения основной задачи их классификация не очень полезна. Вокруг шумов плотность распределения мала, и вследствие этого применяется эвристика взвешивание по плотности где предпочтение отдается тем объектам, в которых плотность больше.

Таким образом, наиболее информативными объектами будут считаться:

Отбор по несогласию в комитете [ править ]

Отбор по несогласию в комитете (англ. query by comittee) — метод, в котором алгоритм оперирует не одной моделью, а сразу несколькими, которые формируют комитет. Каждая из моделей обучена на размеченном множестве и принимает участие в общем голосовании на неразмеченных объектах. Идея состоит в том, что те объекты, на которых модели более всего расходятся в своих решениях, являются самыми информативными.

Алгоритм выбирает те объекты, на которых достигается максимум энтропии:

Сокращение размерности пространства решений [ править ]

Сокращение размерности пространства решений (англ. version space reduction) подразумевает выбор объектов, которые максимально сокращают пространство возможных решений.

Максимизация ожидаемого влияния на модель [ править ]

Ожидаемое сокращение ошибки [ править ]

Идея данного метода (англ. expected error reduction) состоит в том, чтобы выбрать такой объект, после добавления которого в обучающее множество, максимизируется уверенность в классификации неразмеченной выборки. Уверенность в классификации выражается следующей функцией:

Активное обучение с исследовательскими действиями [ править ]

Источник

active learning

Смотреть что такое «active learning» в других словарях:

Active learning — is an umbrella term that refers to several models of instruction that focus the responsibility of learning on learners. Bonwell and Eison (1991) popularized this approach to instruction. This buzz word of the 1980s became their 1990s report to… … Wikipedia

Learning — Learn and Learned redirect here. For other uses, see Learn (disambiguation) and Learned (disambiguation). Neuropsychology Topics … Wikipedia

Learning theory (education) — In psychology and education, a common definition of learning is a process that brings together cognitive, emotional, and enviromental influences and experiences for acquiring, enhancing, or making changes in one s knowledge, skills, values, and… … Wikipedia

Active Worlds — Developer(s) Active Worlds, Inc. Publisher(s) … Wikipedia

Active citizenship — generally refers to a philosophy espoused by some organizations and educational institutions. It often states that members of companies or nation states have certain roles and responsibilities to society and the environment, although those… … Wikipedia

Learning Through Art — is an educational program of the Solomon R. Guggenheim Museum. LTA pairs practicing artists with participating public elementary school classrooms throughout the five burrows of New York City. These resident artists spend one day a week for a… … Wikipedia

Active recall — is a principle of efficient learning, which claims the need to actively stimulate memory during the learning process. It contrasts with passive review, in which the learning material is processed passively (e.g. by reading, watching, etc.).For… … Wikipedia

ACTIVE — sobriety, friendship and peace (formerly EGTYF, European Good Templar Youth Federation ) is a non governmental umbrella organisation gathering European youth temperance organisations. ACTIVE is member of the Youth Forum Jeunesse and cooperates… … Wikipedia

Active intelligence — is a term used to describe software systems and business processes containing functionality or components that evaluate information and drive actions of linked systems or processes in real time. Active intelligence builds upon the business… … Wikipedia

Источник

Что такое активное обучение?

Для получения достаточного количества обучающих данных для робомобилей не требуется задействовать толпы людей, размечающих видео вручную

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Прочитав книгу по какой-то определённой теме, вы не станете в ней экспертом. Как не станете вы им, прочитав множество примерно одинаковых книг. Для того, чтобы стать настоящим профессионалом в какой-либо области знаний, требуется собрать большой объём информации из разных источников.

То же будет верным для робомобилей и других технологий, в основе которых лежит ИИ.

Глубокие нейросети, отвечающие за работу робомобиля, требуют всестороннего обучения. Им нужно изучить как ситуации, с которыми они могут столкнуться в повседневных условиях, так и те необычные случаи, с которыми им никогда не придётся встретиться, если повезёт. Ключ к успеху – убедиться, что они обучаются на подходящих данных.

Но что такое подходящие данные? Это новые или неопределённые ситуации, а не постоянное повторение одного и того же.

Активное обучение – это метод выбора обучающих данных для машинного обучения, автоматически находящий эти разнообразные данные. Причём он собирает наборы данных за небольшую долю того времени, которое потребовалось бы на выполнение этой задачи людям.

Он работает при помощи обученной модели, которая перебирает собранные данные и отмечает те кадры, с распознаванием которых у неё возникли сложности. Затем эти кадры размечают люди. Потом они добавляются к обучающим данным. Это увеличивает точность работы модели в таких ситуациях, как распознавание объектов в сложных условиях.

Как искать иголку в стоге данных

Объём данных, необходимый для обучения робомобиля, чудовищен. Эксперты из корпорации RAND считают, что машине нужно проехать 17 млрд км, чтобы превосходить человека по точности на 20%. Для этого парк из 100 машин в реальном мире должен был бы ездить непрерывно в течение 500 лет.

Кроме того, для этой задачи подойдут не всякие данные, полученные при езде по дорогам. В эффективных обучающих данных должны содержаться разнообразные и сложные условия, чтобы гарантировать безопасную езду.

Если бы поиском и разметкой этих данных занимались люди, то на обработку данных, полученных парком из 100 машин, ездивших по 8 часов в день, потребовалась бы работа более миллиона разметчиков, которым нужно было размечать данные со всех камер всех автомобилей – явно невыполнимая задача. Не считая стоимости человеческого труда, выделять ресурсы для хранения данных и вычислений нейросетей было бы непрактично.

Комбинация из разметки и одобрения данных бросает серьёзный вызов разработке робомобилей. Применив к этому процессу ИИ, можно сэкономить время и деньги на обучении, при этом увеличив точность нейросетей.

Почему именно активное обучение

Существует три распространённых метода выбора данных для обучения нейросетей робомобилей. Случайная выборка выбирает кадры из базы через равные промежутки времени, что описывает наиболее распространённые сценарии, однако с большой вероятностью упускает редкие случаи.

Выборка на основе метаданных использует базовые метки (к примеру, «дождь», «ночь») для выборки данных, облегчая поиск распространённых сложных ситуаций, однако также упуская уникальные кадры, которые невозможно легко классифицировать – такие, как прицеп с трактором или человек на джамперах, переходящий дорогу.

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это
Сравнение обычной сцены на шоссе (слева вверху) с необычными сценариями: ночной велосипедист на заднем колесе, пикап с прицепом с прицепом, пешеход на джамперах.

Наконец, ручная выборка использует тэги метаданных вместе с просмотром кадров людьми – такое выполнение задачи отнимает много времени, подвержено ошибкам и плохо масштабируется.

Активное обучение делает возможным автоматизировать процесс выбора кадров, при этом выбирая ценные опорные точки в данных. Она начинается с обучения специальной нейросети на уже размеченных данных. После этого сеть обрабатывает неразмеченные данные, выбирая кадры, которые она не может распознать – таким образом, она ищет данные, которые будут представлять трудность для алгоритма робомобиля. Затем эти данные изучаются и размечаются людьми, и добавляются в базу обучающих данных.

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это
Петля активного обучения: обучить модель на размеченных данных, сделать выборку из неразмеченных данных, разметить выбранные данные при помощи человеческого труда, добавить новые размеченные данные в базу; повторить.

Активное обучение уже показало свои возможности в увеличении точности работы нейросетей робомобилей по сравнению с ручным добавлением данных. В нашем исследовании мы обнаружили, что увеличение точности при использовании активного обучения превосходит увеличение точности при ручной выборке данных до 3-х раз при распознавании пешеходов, и до 4,4-х раз для велосипедистов.

При этом передовые методы обучения нейросетей, например, активное обучение, обучение с переносом и совместное обучение наиболее эффективно работают на надёжной и масштабируемой инфраструктуре, позволяющей параллельно обрабатывать массивные объёмы данных, сокращая цикл разработки. Доступ к подобным мощностям обеспечивает проект NVIDIA GPU Cloud, где есть как упомянутые обучающие инструменты, так и большая библиотека глубоких нейросетей для робомобилей.

Источник

Active Learning: Онлайн-тренажёры для обучения сотрудников Роман Мандрик семь лет владел рекламным агентством, а потом продал его и начал развивать рынок услуг профессионального обучения. Среди его клиентов — Dirol, Cбербанк, Coca-Cola и «Мегафон».

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Зато теперь клиентами компании являются крупные бренды, в планах Мандрика — международная экспансия и выход за пределы корпоративного сектора.

Интерактивные игры для обучения cотрудников

инвестиции и выручка за год:

Основатель Active Learning

Как всё начиналось

До создания Active Learning (компания также известна как Action Learning и сейчас проводит ребрендинг. — Прим. H&F) у меня было маркетинговое агентство КСАН. Мы делали игры, вирусные ролики, мобильные приложения — всё, чем можно заниматься в интернете, кроме медийной рекламы. В 2009 году я его продал, потому что устал от индустрии. Она очень изматывает: бесконечные тендеры, постоянно приходится ждать завтра. Спустя семь лет мне это надоело.

Деньги

При разработке своих предложений мы смотрели на то, что делается в рекламе, в игровой индустрии и педагогике.

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что этоActive learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что этоActive learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что этоActive learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Рекламный бэкграунд и наработанные связи в КСАНе помогли в том, что мы сразу могли выходить на крупных игроков. Через два года работы мы вышли на окупаемость, сейчас планируем рост в два-три раза.

Клиенты и проекты

Сейчас у нас около 25 клиентов, в их числе — «Северсталь», МТС, «Газпром», Coca-Cola. Выходим на всех по-разному: на конференциях, звонками, через знакомых. Обычно взаимодействие происходит через отдел HR, иногда работаем с топ-менеджерами, если проекты большие. Сейчас уже проще объяснять, что мы экономим деньги компаниям, — после внедрения нашей системы им не нужно тратиться на командировки, отправлять сотрудников на обучение и так далее. Часто о нас узнают от существующих клиентов.

После обучения мы проводим исследование: измеряем, насколько оно понравилось, что запомнил сотрудник, как изменилось его поведение и как выросли продажи. У нас были показатели по росту продаж на 13%, 6% и 3%. Время обучения зависит от задачи и от того, кого мы учим. Иногда это один час, а иногда человек не прекращает обучение, пока не узнает особенности всех продуктов, — так обычно бывает в ритейле. Здесь, как и в играх, есть механизмы, которые вырабатывают привыкание — приходя на работу, человек может каждый день на 15 минут включать тренажёр.

Сейчас мы готовим тренажёр по общению родителей и детей.
Это такой коммуникационный навык, который должен снизить уровень стресса в семье

Стоимость проектов тоже отличается. Есть продукты за 1,5 млн рублей, а есть за 15 млн рублей. Плюс есть готовые коробочные предложения: курсы по подготовке презентации, по продажам, финансам, целеполаганию. По нашим подсчётам, в России сейчас 2 000 крупных компаний, которым это точно нужно, поскольку у них более 500 сотрудников. Так что есть над чем работать.

Проблемы

Мы думали, что продукт может быть более востребованным на рынке США, там эта область более понятна. Поехали на большую выставку, проплатили выступление, поставили свой стенд, пообщались со многими интересными компаниями, которым мы понравились. Однако, когда начался серьёзный диалог, появились сложности: нас там особо никто не ждал. У американцев вставал вопрос: как иностранцы будут их учить без понимания психологии и ментальности? Для этого нужно создавать команду местных методологов, продажников, открывать большой офис, а это большой инвестиционный проект. В планах у нас есть такой, но пока в России есть огромное пространство для работы.

Сначала здесь тоже было сложно убеждать клиентов в полезности продукта — никто не видел в нём потребности. Нам нужно было продавать не отдельное решение, а тему целиком, постоянно заниматься просвещением.

Другая трудность — это производство, трудно организовать его эффективно. В прошлом году мы столкнулись с проблемой роста: штат и оборот вырос быстрее, чем мы хотели. В итоге пострадали маржинальность и процент эффективности. Последовали большие сокращения — из сорока человек осталось девятнадцать. Оказалось, что при таком количестве сотрудников можно делать ту же работу эффективнее.

Планы

Сейчас у нас есть хорошая экспертиза по тому, как создавать e-learning продукты, её собираемся максимально тиражировать. Есть планы выходить в Европу и США, но мы двигаемся поступательно. В России к нам обращаются из школ — директора думают, как увлекать детей новыми знаниями.

Другое интересное направление — проект в области B2C. Мы видим потребность людей в увлекательном обучении. Но насколько они готовы массово платить за это? Я пока не увидел ни одного такого проекта, который бы стал популярным (мы не говорим о языковых приложениях — это отдельный рынок). Мы больше ориентируемся на социальные навыки, которые могут пригодиться в бизнесе. Сейчас, например, готовим тренажёр общения родителей и детей. Он должен снизить уровень стресса в семье, но не совсем понятно, как его продавать.

Источник

Active learning для разметки своими руками

В глобальной сети можно встретить огромное число разнообразных наборов данных для обучения ваших моделей. Однако часто бывает так, что задача очень специфична и требует подготовки своего собственного уникального датасета. О том, как можно быстро и качественно разметить свои данные для задач CV вы узнаете из этой статьи.

Алгоритмы машинного обучения всё глубже проникают во многие сферы жизни и то, что еще вчера казалось фантастикой, сегодня уже воспринимается как обыденность: автомобили без водителей, чат-боты продающие товары и оказывающие консультации, автоматизированные производственные линии, работающие фактически без вмешательства человека – всё это лишь малая часть областей, где уже сейчас активно применяется искусственный интеллект. Вычислительные мощности растут, вместе с ними усложняются алгоритмы, совершенствуются подходы, благодаря чему все больше задач можно доверить бездушной машине.

Однако, прежде чем поручать задачу ИИ, зачастую требуется уделить особое внимание очень важному этапу – обучению модели. Чем внимательнее мы отнесемся к данному этапу, чем больше и разнообразнее данные мы предоставим, и чем они будут «чище», тем более точным и устойчивым будет наш алгоритм. К сожалению, сбор и разметка датасета это, пожалуй, самый долгий и дорогой этап подготовки будущей модели. И даже затратив много времени и средств на сбор данных, вы всё равно рискуете получить разметку не надлежащего качества. В этой статье мы рассмотрим, как можно ускорить процесс разметки и снизить стоимость затрат при подготовке датасета для компьютерного зрения.

Не так давно перед нами стояла задача создать модель, которая была бы способна выделять на изображении купюры и проверять находятся ли эти купюры в боксах, предназначенных для соответствующих номиналов.

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

В качестве модели для поиска объектов на изображении с камеры была выбрана популярная и достаточно быстра модель – Yolov5. Из коробки она способна сегментировать 80 классов. К сожалению российские купюры, и тем более их различные номиналы, не входят число предобученных классов, а значит для обучения нам предстояла долгая и кропотливая работа по разметке. Поскольку времени на проект было не так много, а для разметки требовалось обработать более 10 тыс. изображений мы серьезно задумались, как же можно ускорить процесс аннотации данных.

На сегодняшний день существует достаточное число универсальных инструментов для разметки, но многие из них платные. Кроме того, некоторые инструменты сложно установить или запустить на рабочем месте с жесткой политикой безопасности, такой, как например в банковских структурах или ряде государственных организаций.

После изучения популярных инструментов в конечном счете в своём выборе мы остановились на утилите «VGG Image Annotator». Это простой в освоении инструмент, который работает на стеке HTML+JS, что позволяет запустить его практически на любом рабочем месте. Не смотря на свою простоту и лояльность к ресурсам, данный инструмент представляет полноценный функционал по сегментированию объектов.

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Во вкладке «Region Shape» настраивается форма разметки (например, прямоугольник или полигон), во вкладке «Project» перечисляются файлы, а вкладка «Attributes» служит для описания возможных классов и значений для метки по умолчанию. Сохранение разметки производится через сохранение всего проекта, или через экспорт аннотаций. Мы использовали в качестве выходного формата «JSON», но также есть возможность сохранить в «CSV» и «COCO»

Итак, у нас есть инструмент для разметки и есть необученная модель. Что дальше? Идея проста – мы возьмем некоторый посильный объем изображений, вручную разметим их, обучим на этих данных модель, а затем «попросим» нашу модель сгенерировать разметку для другой части неразмеченных изображений.

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Естественно, модель не всегда будет качественно размечать данные, особенно сначала, когда обучающая выборка мала. Поэтому данные нужно обязательно валидировать вручную. В данном случае валидация выполняет 2 задачи: с одной стороны, мы обогащаем датасет качественной разметкой, а с другой стороны получаем примерное представление на сколько хорошо обучилась модель и пригодна ли она для финальной маркировки данных. Как только мы считаем качество приемлемым мы можем запустить модель на оставшихся изображениях, провести валидацию и сохранить конечный датасет. Основная экономия времени и ресурсов получается за счет того, что мы не размечаем все данные, а фактически только проверяем и исправляем автоматическую разметку. Кроме того, обычно последний этап не требует от специалиста высокой квалификации.

Приведу пример. Допустим вам необходимо разметить 5000 фотографий. Разделим их условно на 4 пачки: 100, 200, 300 и оставшиеся 4400 изображений. Первую пачку необходимо разметить вручную, вторая и третья пачка нужны для повышения качества модели. Последняя, четвертая пачка, размечается автоматически, нам остаётся лишь проверить разметку и подправить в тех случаях, если она не корректна. Схематически данный процесс можно представить в виде схемы:

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

На первый взгляд данный процесс может показаться слегка запутанным, но эта сложность развеится, если создать пайплайн на языке Python. Давайте этим и займемся.

Как мы понимаем, первым шагом является ручная разметка первой пачки. Для этого мы воспользовались утилитой VIA. Для начала нам нужно сохранить весь проект разметки в формате «JSON». Для этого переходим в Project->Save (обязательно оставляем все галочки) и жмем «ОК».

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Добавляем в имя файла постфикс «_val», чтобы понимать, что данный датасет был провалидирован. Например, в нашем случае получился файл «01pack_val.json». Отлично, разметка есть. Давайте теперь на основе нее подготовим датасет для Yolov5:

После выполнения данного скрипта мы получим правильно разложенные картинки и аннотации к ним, а также описание набора данных в понятном для Yolov5 виде. Сам процесс обучения весьма прост и подробно описан в репозитории к модели: https://github.com/ultralytics/yolov5

После обучения в нашем распоряжении оказывается модель, которая уже имеет некоторое представление о классах, которые необходимо детектировать. Давайте предскажем ею разметку для второго блока данных, а после преобразуем выход модели в проект, который сможем импортировать обратно в VIA. В последствии, мы сможем проволидировать автоматическую разметку и оценить насколько хороша наша модель. Но всё по порядку – сгенерируем разметку:

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Откроем проект в VIA. Для этого запустим утилиту, далее Project – Load и укажем соответствующий файл, в нашем случае это 2pack.json. Настройки загружены, однако утилита сообщит, что файлы не найдены. Чтобы этой ошибки не было идем Project – Setting и в графе Default Path указываем полный путь к папке с пачкой данных:

Active learning что это. Смотреть фото Active learning что это. Смотреть картинку Active learning что это. Картинка про Active learning что это. Фото Active learning что это

Очень важная особенность – путь необходимо завершить слешем, иначе VIA так и не увидит файлы. Должно получиться что-то вроде «source_dir\path\to\images\02pack\». Нажимаем «Save». Теперь наша утилита видит файлы и разметку, которую сгенерировала модель, а мы получаем возможность заняться проверкой размеченных данных. По завершению валидации сохраняем «02pack_val.json».

Теперь мы можем вернуться в начало статьи и повторить запуск подготовки датасета для модели. На этот раз в обучающую выборку добавятся данные из второй пачки. Соответсвенно на этих данных мы обучим новую модель и разметим ею третью пачку.

Эту процедуру мы продолжаем до тех пор, пока качество автоматической разметки не выйдет на уровень, необходимый нам. Другими словами, мы итерационно обучаем модель размечать за нас данные, и когда модель окажется готова – отдаём ей оставшийся массив данных. Финальная разметка, полученая подобным способом, почти не нуждается в правках и ее проверка не требует высокой квалификации специалиста или больших временных затрат.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *