Такая вещь как бенчмарки известна практически каждому человеку, который увлекается современными технологиями. И кто бы мог подумать, но бенчмарки способны оказать крайне сильную помощь в сфере совершенствования искусственного интеллекта. Они позволяют предоставлять полезную абстракцию всех максимальных возможностей того или иного искусственного интеллекта, а также позволяют исследователям отчётливо понять, насколько же хорошо система выполняет определенные задачи. И тем не менее, бенчмарки, как и всё остальное, не идеальны.
Из-за крайне быстрой скорости совершенствования искусственного интеллекта различные тесты начинают с точно такой же скоростью устаревать. Прежние бенчмарки становятся слишком «слабыми» для более продвинутого ИИ. Тем не менее, данному положению дел уже в скором времени может прийти конец, ведь на днях в официальном блоге корпорации Facebook было отмечено следующее: «Невзирая на то, что исследовательскому сообществу потребовалось около 18 лет для того, чтобы всё-таки достичь производительности искусственного интеллекта на практически человеческом уровне по MNIST и около шести лет, чтобы превзойти людей в ImageNet, всё-же ему потребовалось всего-навсего около года, чтобы превзойти людей по тесту GLUE на понимание языка».
В связи с этим возникает один недостаток, вытекающий из вышеназванного плюса — дальше развивать искусственный интеллект будет трудней, если не использовать какие-то новые, ещё более сложные тесты, бенчмарки и так далее. И чтобы помочь исследовательскому сообществу в сфере искусственного интеллекта, лаборатория исследования ИИ Facebook, сокращённо FAIR, успешно применила совершенно новый подход к сравнительному анализу и «деятельности бенчмарков». Если быть конкретней, то они решили включить в цикл обучения и проверки самих людей, при помощи которых и осуществляется прямая и динамическая помощь в обучении ИИ.
Называется же данная система Dynabench, и её основная идея проста — в том случае, если модель искусственного интеллекта предназначена для обучения общению с людьми, то для этого будет использоваться самый лучший и непредсказуемый вариант — реальное прямое общение с системой. Система в целом будет полагаться на именно на людей, которые будут задавать системе серию проверяющих и лингвистически сложных вопросов. Ну а в итоге чем сложней человеку будет обмануть алгоритмы, тем лучше он выполняет свою работу — всё просто. Так что остаётся надеяться, что такая система действительно получит широкое распространение, ведь польза от неё может быть очень высокой.