Ссылки доступа

Слишком литературный робот


Владимир Веселов
Владимир Веселов
Во время специального мероприятия, организованного в Лондоне университетом Ридинга, впервые в истории человечества компьютерная программа прошла тест Тьюринга. Созданный группой программистов под руководством петербуржца Владимира Веселова чатбот (компьютерная программа, способная общаться с человеком, принимать текстовые сообщения и отвечать на них) смог убедить 30 процентов судей, что является человеком. Имя этого чатбота - Евгений Густман. По легенде, это мальчик 13 лет, живущий в Одессе, сын врача-гинеколога, любящий конфеты и гамбургеры.

В 1950 году английский математик Алан Тьюринг в своей знаменитой статье “Вычислительные машины и разум”, которая положила начало исследованиям в области искусственного интеллекта, предложил достаточно тривиальный способ определить, способна ли машина демонстрировать разумное поведение, похожее на человеческое. Тьюринг считал, что мы сами слишком плохо понимаем, что такое “сознание” или “мышление”, чтобы непосредственно выяснить, обладает ли этими качествами машина. Человеческий разум лучше всего проявляется в беседе - и Тьюринг предложил оценивать именно эту способность у компьютера: может ли машина вести диалог так, что собеседник принимает ее за человека? У теста Тьюринга есть множество версий, отличающихся регламентом, но все они основаны на общей идее: судьи общаются текстовыми сообщениями одновременно с живыми собесениками и компьютерными программами. После каждого раунда судья решает, кто из двух собеседников - человек. Если хотя бы в 30 процентах случаев программа была ошибочно принята за человека, считается, что она прошла тест Тьюринга.

Разумеется, тест Тьюринга далеко не идеален. Сложно сказать, насколько способность имитировать общение коррелирует с наличием интеллекта. Создатели ботов, претендующих на прохождение тест Тьюринга, быстро поняли, что обмануть жюри можно, например, заставив программу время от времени делать опечатки или использовать в беседе междометия и слова паразиты. В то же время, известен случай, когда один из живых испытуемых был принят членом жюри за машину только потому, что хорошо разбирался в творчестве Уильяма Шекспира и на вопрос о творчестве поэта ответил слишком длинной и точной, по мнению судьи, цитатой. Наконец, компьютерные программы, которые действительно превосходят человека в некоторых видах интеллектуальной деятельности, например, шахматные компьютеры, тест Тьюринга, конечно, провалили бы.

Словом, тест Тьюринга заслуживает критики, но за почти 65 лет, истекшие с момента выхода классической статьи британского математика, мы не только не смогли предложить другой способ определить, есть ли у машины разум (хотя кое-какие исследования в этом направлении ведутся), но и не сильно продвинулись в том, чтобы понять, что такое собственно “разум”.

С 1991 года проводится ежегодный конкурс компьютерных программ на приз Лёбнера: боты сорвенуются в прохождении теста Тьюринга. Перевалить через заветный 30-процентный рубеж пока никому не удалось, хотя несколько участников подбирались очень близко к этой отметке. Программа "Евгений Густман", созданная Владимиром Веселовым и его командой несколько раз принимала участие в призе Лёбнера и однажды была близка к победе. Но нынешний, наделавший так много шума в мировой прессе результат, был достигнут не на конкурсе Лёбнера, а на отдельном мероприятии, в процессе которого тест Тьюринга был проведен, как утверждают организаторы, наиболее классическим и объективным способом.

Научный обозреватель Радио Свобода дозвонился Владимиру Веселову в США и узнал, что Евгений Густман не столько искусственный интеллект, сколько убедительный литературный персонаж, а свершившемуся не стоит предавать слишком большое значение.

- Итак, вас можно поздравить - формально получается, что вашей команде удалось создать искусственный интеллект?

- Я хочу подчеркнуть, что наш результат вовсе не доказывает, что интеллект робота сравним с человеческим. Пройденный тест просто говорит о том, что робот может имитировать человеческое общение в течении пяти минут. Тест был довольно объективным: было 30 судей, в каждом раунде у судьи было два окна: в одном - человек, в другом - робот. Там даже была специальная задержка потому, что когда человек печатает на клавиатуре, он это делает не мгновенно. Было всего где-то 5-8 фраз за раунд. Когда мы делали робота, то в первую очередь взяли все доступные логи всех конкурсов и посмотрели, как большиснтво судей начинают диалог.

- И как они это делают?

- Ничего особенного, в основном - "Здравствуй", "Как дела?", "Кто ты?", "Откуда ты?". Бывают, конечно, судьи-эксперты, которые сразу начинают задавать каверзные вопросы, например "Пол играет в футбол. Чем занимается Пол?" или "Какого цвета красная машина?" Самое интересное, что мы на этот вопрос про цвета поставили просто случайный выбор из восьми вариантов - и Густман на вопрос "Какого цвета зеленая машина?" может ответить "Ты что, слепой? Красная конечно!". Нам один из судей как раз и задал этот вопрос про красную машину. И так получилось, что генератор случайных чисел нашего робота выбрал как раз красный - жюри было в восторге.

- Вы ведь начали писать программу уже довольно давно?

- Да, в 2001 году, то есть, 13 лет назад. Получается, сейчас у Густмана физический возраст совпал с его легендой.

- И вы изначально стремились пройти тест Тьюринга?

- Мы создавали на самом деле более обширную технологию, язык высокого уровня, который позволяет обрабатывать тексты, расчитывать стоимость сложных продуктов, страховок, например. И это такая среда, в которой может работать не специалист. Нужно было придумать способ красиво продемонстрировать наши наработки, и оказалось, что на нашем языке удобно создавать чатботов. Мы решили поучаствовать в призе Лёбнера, который хорош тем, что заявиться на него может кто угодно. Стали участвовать, развивать нашего Густмана, а теперь вот прошли тест Тьюринга. Но я повторюсь, никакого эпохального шага в развитии искусственного интеллекта не случилось. Можно сказать, выиграл не робот, а литературное произведение, литературный и психологический труд. Я удивился, как много вышло критических и даже откровенно злобных статей за последнее время. Писали, например, что тест был проведен неправильно. Действительно, в отличие от приза Лёбнера в этом конкурсе судьями были не только специалисты, они не знали, как задать каверзный вопрос. Но сам Алан Тьюринг в знаменитой статье писал, что судья, собеседник, должен быть именно среднего уровня, average interrogator. Так что мне этот тон комментаторов не очень понятен. С другой стороны, многие написали, что Евгений Густман - думающий компьютер. Даже суперкомпьютером его кто-то назвал. Это тоже чушь. Густман работает на машине с 600 мб памяти, его вообще можно хоть на мобильный телефон установить. Наш робот не думает, но хорошо имитирует.

- То есть, тест Тьюринга определяет не наличие интеллекта, а то, насколько машина способна к имитации?

- В общем, да. Я думаю, что создать настоящий искусственный интеллект возможно. Если что-то можно четко определить, то это можно и автоматизировать - мы постепенно учимся автоматизировать все большее количество действий, которые, как считалось, доступны только человеку - например, распознавание текстов, распознавание голоса. Сейчас это может делать и компьютер. Вот Google запускает производство автомобилей, которые будут управляться компьютером, без водителя. Довольно сложный алгоритм. Его можно назвать искусственным интеллектом.

- Вы считаете, что Густман - шажок к созданию искусственного интеллекта? Или это скорее игрушка?

- Скорее игрушка. Хорошо, если она привлечет больше внимания к теме искуственного интеллекта, хорошо бы, узнав о Густмане, школьники и студены забросили бы компьютерные игры, и постарались сделать более совершенного робота, создать настоящий искусственный интеллект.

- И все же, Густман, как я понимаю, умеет делать какие-то сложные вещи, например, анализировать вопросы, вычленять в них важные слова?

- На самом деле особого семантического анализа тем нет, там делается так называемый разбор паттернов. Этот язык паттернов, дерево шаблонов фраз, довольно продвинут. С его помощью можно относительно быстро создавать базу знаний по нужной тематике. Впрочем, и здесь есть ограничения: все это расчитано на английский язык и другие аналитические языки. Русский язык, например, синтаксический. В аналитическим языке значение слова в предложении определяется его позицией, а в синтаксических языках - в славянских, в финском, - значение определяется модификацией. В русском языке слова в предложении могут идти практически в любом порядке, это может как-то коряво звучать, но все равно будет понятен смысл фразы. Если у нас из фразы после удаления лишнего - артиклей и так далее - остается три слова, в английском языке для обработки такой фразы достаточно одного шаблона, а в русском нужно было бы уже шесть.

- В качестве персонафикации вашего робота вы специально выбрали мальчика 13 лет Потому что, ребенку этого возраста не обязательно знать слишком много, но он при этом достаточно хорошо артикулирует?

- Может быть, отчасти мы имели это в виду, хотя любой человек может на вопрос ответить: “я тупой, не знаю”. По условиям соревнования никто не требует, чтобы там был профессор. Один из моих соавторов, Евгений Демченко, сам вырос на Украине и предложил вот такую персонафикацию. Она сразу же определяет набор тем для разговора - кто мама, кто папа, чем увлекаешься. Нам такая персона показалась достаточно оригинальной. Выбрав персонаж мы должны были его разработать, сделать живым, реалистичным. Я поэтому и говорю, что Гусман, в первую очередь, литературный герой.

- Но ведь не все подобные программы устроены таким образом?

- Вообще есть два основных подхода. Первый использует статистические алгоримтмы самообучения. Создатели заставляют робота полностью запоминать диалоги, во всяком случае те, которые они считают полезными для его развития. Потом уже, основываясь на статистике, строится цепочка по тому, какие фразы и слова употреблялись и как нужно на них отвечать. В итоге получается огромная база фраз, но общение таких ботов совершенно не похоже на человеческое. Кажется, что у собеседника раздвоение личности, точнее, чувствуется, что его личность постоянно меняется. У нас другой подход. В чем-то он проще - мы пишем предопределенные ответы, мы заранее строим сценарии диалогов, есть функция, позволяющая использовать в ответе фразу пользователя. Но шлифовка этого, доработка, отслеживание возможных тем, которые постоянно меняются, - тяжелая, рутинная и скучная работа. В таком “литературном” стиле работает, например, Робби Гарнер, создатель робота FRED, который в 2012 году набрал 26 процентов. Гарнер выигрывал приз Лобнера в 1998 и 1999 годах (с другим роботом - Albert One), для нашей команды он был ориентиром. Интересно, что Albert One был специаистом в узкой области, по фильмам цикла Star Trek. Вообще, по-моему, этот подход сложнее. Программистам и математикам, конечно, хочется просто написать красивую формулу, алгоритм, чтобы все само работало. Программисты очень ленивые люди - я по себе знаю.

- А вы своего литературного героя как-то готовили к последнему конкурсу? Ведь было вполне вероятно, что его спросят про события на Украине, в Одессе. А он у вас до сих пор уверен, что президент Украины - Кучма.

- Нет, никак специально не готовили. Можно было бы, конечно, обновить базу знаний, но у меня работа, двое детей, времени на все это просто нет. Изменение базы знаний - работа непростая, можно все испортить, одни паттерны будут перекрывать другие, часть мозга улучшится, а другая часть - вовсе откажет. Чтобы поддерживать у робота актуальные знания нужен отдельный человек на полный рабочий день. Что касается политики, мне вообще не нравятся политические обсуждения вокруг нашего робота. Англичане вот написали, что это - американо-украинский проект. Я хотя и работаю в США, начал писать Густмана еще в Санкт-Петербурге. В его создании учавствовали в основном ребята из России, хотя в команде были люди и из Украины, и из Америки, и даже француз, который нарисовал Густману аватар.

- Чем отличается тест, который вы прошли, от приза Лёбнера?

- В конкурсе Лёбнера сейчас поменялись правила, теперь там есть отборочный раунд: задается 15 вопросов, одинаковые для всех роботов. В финал выбираются четыре участника, которые лучше всего ответят на эти вопросы. То есть на этом этапе оценивается не столько способность беседовать, сколько проходит конкурс отвечающих машин. В итоге, в финале оказываются роботы, которые на человека не так уж похожи. Другое отличие в том, что в финале приза Лёбнера всего четыре робота и четыре судьи. Количество экспериментов гораздо меньше, и участники известны судьям заранее - так что с ними можно заранее поиграть. После четырех раундов каждый судья ранжирует роботов по местам от первого до четвертого. Конечно, судьи понимают, где робот, а где человек, я бы сказал, что приз Лобнера - что-то вроде конкурса красоты, боты не доказывают способность к человеческому диалогу, а соревнуются между собой. Пожалуй, приз Лобнера в большей степени ориентирован на измерение именно интелектуальности, способности отвечать на каверзные вопросы. У нас сейчас были немного другие соревнования. Что важнее для науки - сложно сказать.

- То есть, ваш робот не самый умный, но самый человечный?

- Да, получается так. Собственно, Тьюринг и описывал свой тест, как оценку способности компьютера имитировать человечность.

- Вы будете участвовать в конкурсе Лёбнера в этом году?

- Не будем. На это нет времени. Там еще такой особый протокол теперь, что под него нужно серьезно программу дописывать. Плюс, нужно обновлять базу знаний под определенные задачи. Скучно. Я лучше займусь созданием видеокурса по роботам. Может быть, по нему обучатся люди, которые сделают бота лучше нашего.

Радио Свобода
XS
SM
MD
LG