Бот гледа 70 000 часа Minecraft, за да се научи да играе

Нещо за четене
12:04 - 31 Януари 2023 (обновена)
3725
Бот гледа 70 000 часа Minecraft, за да се научи да играе

Популярната компания за изследвания и разработка на изкуствен интелект OpenAI изобрети най-добрия до момента Minecraft бот, който изгледа над 70 000 часа видео, на което хора играят нашумялата компютърна игра, за да се научи да играе. Ботът демонстрира вид нова техника за обучение, която може да се използва за създаването на машини, които да изпълняват голям набор от задачи като гледат видеа в YouTube и подобни сайтове. 

Minecraft AI се научава да изпълнява конкретни поредици от кликвания на клавиатурата и мишката, за да извършва различни действия в играта. Например ботът може да сече дърва и да създава различни инструменти, като наподобява действията на играчите от изгледаните видеа, като в някои случаи тези последователности от кликвания може да наброяват десетки хиляди. Постигнатият резултат е пробив за технология, известна като обучение чрез имитация. При тази техника AI се обучава да изпълнява задачи, като имитира видяното от хората и как те извършват определени действия. Обучението чрез имитация може да се използва за трениране на изкуствен интелект в областта на роботизираните ръце или автономните автомобили.

Така нареченото обучение чрез имитация представлява алтернатива на обучението с подсилване (reinforcement learning). При втория случай, роботите базират действията си и се усъвършенстват чрез стария изпитан метод проба-грешка. Тази техника стои зад някои от най-големите постижения в сферата през последното десетилетие. Тя е използвана за обучение на модели, които побеждават хора и професионалисти в игри с ясна цел, в които различни действия могат да доведат до успех, като например покер и шах.

Роботът може да извърши различни действия, за да сформира най-силната ръка в покера или да надделее в партията шах, но те невинаги ще доведат до същия резултат, защото играта се определя и от действията на опонента. Minecraft обаче е игра без крайна цел, в която играчите имат свободата да правят различни неща: да се разхождат, да копаят, да строят, или пък да създават разнообразни инструменти или обекти. Този отворен край на играта я прави добра среда за обучение на нови AI модели чрез имитация. 

Налице е огромно количество видеа в онлайн пространството, показващи хора, които изпълняват различни задачи. Възползвайки се от тези нови за областта ресурси, учените целят да постигнат за обучението чрез имитация подобни резултати не тези, които прочутият им чатбот GPT-3 направи за големите езикови модели. Проблемът с използваните до момента подходи към този вид обучение е, че всяко едно видео трябва да бъде описвано стъпка по стъпка, тоест до какъв резултат води всяко едно действие и движение. Създаването на ръчни анотации обаче отнема много време, поради което подобни бази данни могат да имат много по-малък обем. Затова екипът на OpenAI се насочва към задачата да намери начин, по който огромното количество видеоклипове в онлайн пространството да се превърнат в нов набор от данни.

Екипът дава начало на проекта с подхода за Video Pre-Training (VPT). По този начин една невронна мрежа маркира автоматично видеоклиповете, за да улесни процеса, преди другата да извърши същинския процес на възприемане на информацията. Изследователите първо наели хора, които да играят на самата игра и записали всяко едно тяхно действие в играта в комбинация с видеото от екрана. Резултатът бил 2000 часа подробно описана Minecraft игра, която те използвали за обучението на изкуствен интелект, който да извършва действията и да съпоставя резултатите с видяното на екрана. Следващата стъпка била да се използва този модел за етикетиране спрямо хилядите часове немаркирано видео, след което ботът да се обучи на този огромен набор от данни.

Вследствие на този процес, ботът на OpenAI успява да изпълни задачи, които не би могъл само чрез обучение с подсилване и които включват стотици последователни стъпки. Въпреки това екипът открива, че най-успешни са резултатите от едновременното използване на двата вида обучение за подсилване и за имитация. Така един бот, който е подготвен чрез Video Pre-Training и подсилващо обучение, може да изпълнява задачи с десетки хиляди последователни комбинации и стъпки.

Според AI изследователите този начин на обучение може да се използва за подготовка на изкуствен интелект по отношение и на други видове задачи. Той може да намери приложение при ботове, които да сърфират из мрежата, да пазаруват онлайн или пък да резервират полети. Макар и в по-далечно бъдеще, на теория този подход може да се използва и за обучение на ИИ, които да изпълняват реални задачи извън виртуалното пространство, като се базират на събраната информация от видео материали на хора, извършващи същите тези действия.