Šią savaitę MIT pristatė naują robotų mokymo modelį. Vietoj standartinio tikslinių duomenų rinkinio, naudojamo robotams naujoms užduotims išmokyti, šis metodas yra platus, imituojantis didžiulius informacijos kiekius, naudojamus mokant didelius kalbos modelius (LLM).
Tyrėjai pažymi, kad imitacinis mokymasis, kai agentas mokosi sekdamas užduotį atliekantį asmenį, gali nepavykti, kai atsiranda nedideli iššūkiai. Tai gali būti tokie dalykai kaip apšvietimas, kitokia aplinka ar naujos kliūtys. Tokiais atvejais robotai tiesiog neturi pakankamai duomenų, kad galėtų prisitaikyti.
Komanda ieškojo modelių, tokių kaip GPT-4, siekdama savotiško brutalios jėgos duomenų metodo sprendžiant problemas.
„Kalbos srityje visi duomenys yra tik sakiniai“, – sako Lirui Wang, pagrindinė naujojo straipsnio autorė. „Robotikoje, atsižvelgiant į visą duomenų nevienalytiškumą, jei norite iš anksto treniruotis panašiai, mums reikia kitokios architektūros.
Komanda pristatė naują architektūrą, pavadintą Heterogeneous Pretreed Transformers (HPT), kuri sujungia informaciją iš skirtingų jutiklių ir skirtingų aplinkų. Tada transformatorius buvo naudojamas duomenims sujungti į mokymo modelius. Kuo didesnis transformatorius, tuo geresnė galia.
Tada vartotojai įveda roboto dizainą, konfigūraciją ir norimą atlikti darbą.
„Mūsų svajonė yra turėti universalias roboto smegenis, kurias galėtumėte atsisiųsti ir naudoti savo robotui be jokio mokymo“, – apie tyrimą sakė CMU docentas Davidas Heldas. „Nors esame tik pradinėje stadijoje, toliau stengsimės ir tikimės, kad mastelio keitimas sukels proveržį robotų politikoje, kaip tai buvo padaryta naudojant didelius kalbos modelius.
Tyrimą iš dalies įkūrė Toyota tyrimų institutas. Praėjusiais metais „TechCrunch Disrupt“ TRI debiutavo robotų mokymo metodu per naktį. Visai neseniai ji užmezgė partnerystę, kuri sujungs robotų mokymosi tyrimus su Boston Dynamics aparatine įranga.