Телефонный разговор с роботом, хотим мы того или нет, стал частью повседневности. Как правильно реагировать на механический голос, кто виноват, если диалог не получается, и может ли искусственный интеллект быть идеальным собеседником? На вопросы IQ отвечает социолог НИУ ВШЭ Алиса Максимова. Результаты её исследования о взаимодействии человека и машины представлены в новой книге «Приключения технологий: барьеры цифровизации в России».
Алиса Максимова,
младший научный сотрудник
Института гуманитарных историко-теоретических
исследований имени А.В. Полетаева НИУ ВШЭ,
доцент Высшей школы урбанистики
имени А.А. Высоковского НИУ ВШЭ
— Алиса, расскажите, что за книга и о чём в ней пишете вы?
— Это итог коллективного проекта по гранту Российского научного фонда в рамках президентской программы поддержки фундаментальных и поисковых исследований. Наше длилось три года, работала команда социальных учёных из Москвы и Санкт-Петербурга.
Монография посвящена социологическому анализу барьеров в создании, внедрении и потреблении цифровых технологий. Что и почему в этих процессах идёт не так, изучали на разных эмпирических кейсах — от специфики деятельности тестировщиков (иногда их ещё называют инженерами по обеспечению качества) до проблем с разработкой беспилотных автомобилей или использованием приложений онлайн-знакомств.
Моим был кейс о голосовой технологии — автоматизированного робота-оператора, который отвечал на звонки в телефонном справочном центре: давал информацию о госуслугах, жилищно-коммунальной сфере, оформлении документов и прочем.
Повезло наладить сотрудничество с одной организацией, пожелавшей остаться неизвестной. Она предоставила нам более 200 записей звонков. На этом массиве данных мы проанализировали, как люди контактируют с виртуальным оператором, заранее зная, что он не человек, но при этом не выбирая такое общение специально, взамен традиционного.
— Что собой представляет этот робот?
— Он относится к голосовым технологиям или пользовательским интерфейсам, условно — к разговорным агентам или чат-ботам, которые не просто управляются человеком, а ведут с ним диалог: распознают речь, «понимают» уникальные реплики и соответствующим образом на них реагируют.
История голосовых помощников началась в 1961 году с компьютера IBM Shoebox («Обувная коробка»), который был способен распознавать 16 произнесённых слов, а также цифры от 0 до 9. В 2011-м вышел iPhone 4s, первый смартфон со встроенным голосовым помощником. Развитие голосовых технологий для массового пользователя существенно ускорилось. Самые популярные в мире — голосовые помощники вроде Siri, Cortana и Alexa. В России — Алиса от «Яндекса», официально запущенная в 2017 году, и появившиеся недавно Джой, Сбер и Афина от «Сбера».
Три года назад, когда мы приступили к исследованию, такие вещи были достаточно редкими. Сейчас это часть повседневности. Тех же автоматизированных операторов, отвечающих на звонки, уже перестали воспринимать как нечто из ряда вон, неприятное или странное.
И в этой ситуации интересно посмотреть, как, с одной стороны, технологии настраиваются на пользователей, а с другой, пользователи начинают понимать: ага, робот, значит, нужно замедлиться, набраться терпения, говорить отчетливо, сформулировать лаконичный запрос.
— Человек вообще сразу осознает, что говорит с компьютером? Как начинает перестраиваться, поняв, с кем имеет дело?
— Записи для исследования были полностью анонимизированы и отвязаны от конкретных звонящих. Поэтому нельзя проверить, о чем они думают в момент разговора — о глупых роботах или о неумелых операторах-людях.
Любопытно, но, вероятно, дело просто в привычке: когда человек общается с машиной, это похоже именно на «роботизированный» разговор — с отрывочными, довольно громкими фразами. А потом он может сказать: «девушка, ну что же вы не понимаете». То есть технологию всё равно соотносят с каким-то человеческим агентом, и многие используют те же категории, что в привычной беседе.
— Как робота готовят к встрече с людьми — что в него нужно заложить, чтобы он поддерживал диалог?
— Самое главное — способность различать человеческую речь. В робота важно встроить технологии распознавания речи и правила соотнесения сказанного с имеющимися в базе ключевыми словами. Люди могут один и тот же объект называть по-разному, часто неформально: платёжный документ — платёжкой и тому подобное. Это необходимо предусмотреть.
Есть настройка под то, насколько умело мы общаемся с технологиями, насколько разборчиво можем говорить. Иногда адаптируют чувствительность распознавания роботом речи под определенные категории пользователей, например, пожилых людей.
Если разработчик уверен, что абонент будет говорить понятно и отчётливо, чувствительность, наоборот, есть смысл снизить. Так повысятся её эффективность и точность, машина сделает меньше ошибок, поскольку не станет принимать шум за содержательное высказывание.
С другой стороны, у робота есть некие шаблоны, стандартные фразы, сценарий диалога. Всё это тоже можно тестировать, смотреть насколько та или иная формулировка приводит к более успешному взаимодействию.
— С «вашим» виртуальным оператором так экспериментировали?
— Там была дилемма: как правильно попросить человека назвать свой запрос, какие для этого заложить в робота фразы. Сначала пробовали вариант «чётко сформулируйте свой вопрос». Позвонивший отвечал не сразу. Разработчики решили, что пользователь теряется, не понимает, что значит «чётко». Слово убрали. Появилась не официальная инструкция, а повседневная формулировка «какой у вас вопрос?» — вариант, предполагающий, что абонент обращается с уже готовым вопросом, который машина в целом распознает.
В попытке найти оптимум во фразу встраивали пример: «сформулируйте свой запрос, например…». Но это тоже приводило в замешательство, человек говорил: подождите, я тогда не по адресу, у меня другая тема.
То есть даже такую простую и понятную на первый взгляд инструкцию довольно сложно спроектировать, но процессы доведения технологии до нужной формы очень интересно изучать.
— Теперь с другой стороны: как на разговор настраиваются люди? Наши действия и слова спонтанны или чем-то предопределены?
— У учёных по этому поводу разные мнения. Некоторые говорят, что есть предзаданные установки по отношению к технологии — доверие к ней, представление о ней. Мы слышим робота и сразу думаем: машина то-то умеет и надо действовать соответствующе. Или другой фактор: уровень цифровой грамотности пользователей. В зависимости от него они ведут себя по-разному. Люди с техническим образованием, понимающие, как всё может быть устроено, не станут долго и витиевато объяснять, а сразу попробуют «отправить» компьютер к заложенным в него ключевым словам.
Другой взгляд — интеракционистсткий. Здесь на первое место ставятся не характеристики пользователей, а процесс взаимодействия. То есть вне зависимости от того, что человек думал и как относится к машине, есть важные черты самой ситуации, на которые он ориентируется.
Я тоже придерживаюсь этого подхода, опираясь на этнометодологию — направление социологии, изучающее повседневный социальный порядок, и на конверсационный анализ, то есть анализ непосредственно разговора как упорядоченного действия, все элементы которого (реплики) зависят от развития этого действия.
С таких позиций хорошо видно, как именно человек «слышит» робота и формирует своё действие. Задаёт вопрос; по каким-то признакам определяет, понят ли он; обращает внимание на длительность паузы; делает вывод об «адекватности» виртуального оператора и дальше, исходя из этого, выстраивает собственное поведение.
Например, используя реплики, типичные для обыкновенного разговора и столкнувшись с неудачей, переходит на более простые фразы:
Абонент: Меня зовут Иван Иванович, я проживаю в Подмосковье. Дело в том, что я обратился в больницу, где лежал с травмой глаза, и всё время ходил к врачу без всяких проблем, она меня контролировала. А это пошёл, а мне говорят, что теперь я должен платить шестьсот пятьдесят рублей, чтобы пройти к врачу. Раньше этого не было. У меня всё.
Робот: Простите, я никак не могу понять. Пожалуйста, ещё раз четко сформулируйте свой вопрос и говорите после звукового сигнала.
Абонент: В БОЛЬНИЦЕ ГОРОДА… города Серпухова… Городск… районная больница города Серпухова, чтобы обратиться К ВРАЧУ БЕРУТ ПЛАТУ. ЭТО ПРАВИЛЬНО?
— Насколько методы, которые вы используете, распространены в исследованиях контактов с интеллектуальными системами? Как ещё это изучают?
— Методов достаточно. Это могут быть, скажем, постановочные эксперименты, смоделированные ситуации, где участники какое-то время взаимодействуют с роботами — в играх, музейных экскурсиях, разговорах с чат-ботами.
Но в реальности человек, вероятно, будет действовать не совсем так. Да и реальность быстро меняется. С технологиями мы уже не просто иногда встречаемся. Они буквально приходят в наш дом в виде умных колонок или ассистентов в смартфонах, то есть присутствуют постоянно, всегда доступны.
Такая ситуация требует других научных методов. Поэтому в последние несколько лет всё чаще анализируются натуралистические данные, собранные в естественных ситуациях взаимодействия. Хотя основные исследовательские проблемы остаются теми же, что в ранних работах.
С 1980-х годов, когда социолог Люси Сачмен изучала «столкновение» человека с копировальным аппаратом, мало что изменилось. Техника совершенствуется, а вопросы взаимодействия с ней прежние: обратная связь, прозрачность действий, понимание и ресурсы для его выстраивания.
— Возвращаясь к практике. Как все-таки разговаривать с «умной» машиной, чтобы она вас поняла? Что важно — интонация, темп, есть ли специальные приёмы?
— Главное — быть терпеливым, ждать и не отчаиваться раньше времени. Если робот вдруг замолчал, не факт, что завис — возможно, думает, подбирает ответ. Нужно быть готовым повторять или изменять свой запрос.
— А что такое адаптированный способ говорить? Вы пишите, он вырабатывается в ходе общения с роботами. Речь об адаптации именно к ним?
— Когда случается сбой или человек замечает проблемы в понимании, он начинает приспосабливаться к машине: регулировать свою громкость, менять интонацию, делать паузы, повторять по нескольку раз фразы.
Однако эти способы не уникальны. Такова обычная реакция на непростых в коммуникации собеседников. Например, тех, у кого слабый слух или плохое владение нашим родным языком. И тогда что с роботом, что с иностранцами или слабослышащими, или даже с обычными людьми, но в некомфортных условиях — шумном помещении, плохой телефонной связи, мы говорим так, чтобы сказанное воспринималось легче.
— Разработчики это учитывают?
— Вероятно, но мне трудно привести свидетельства этого. Роботу проще, если мы изъясняемся не скороговоркой и не на сленге, но он, скорее всего, не станет просить нас облегчить ему жизнь, потому что по замыслу создателей должен выглядеть как можно умнее и сообразительнее.
— Отличаются ли реакции на голосового помощника в зависимости от того, он это или она? Важен ли гендер пользователей при создании технологий?
— При создании — не знаю. Думаю, что в связи с современными дискуссиями адекватной будет позиция, когда мужчин и женщин не различают и делают так, чтобы роботы общались с ними одинаково.
Что касается голосов, то да, реакции на них разные. В исследовании Екатерины Хониневой на примере Siri показано, как и когда пользователи ориентируются на гендер «женской» помощницы, как это связано с определенными действиями вроде оскорбления или заигрывания, выбором тем разговора, способами объяснения ошибок машины.
Использование гендерных категорий в связи с «умными» технологиями сопряжено с приписыванием последним определенных свойств. Так, считается, что для голосового компьютера в авиации женский голос был выбран потому, что он спокойный, уверенный, доброжелательный и при этом не напрягает пилотов-мужчин, так как ассоциируется не с начальником, а именно с помощником.
Сейчас большинство таких технологий по умолчанию озвучиваются женскими голосами. Этот образ помощницы часто критикуется. Звучат мнения, что слугоподобная модель сцепляется с вполне реальными представлениями о женщинах и воспроизводит их соответствующую роль в социальном мире.
— Учат ли цифровых агентов реагировать на нецензурную лексику?
— По-моему, они её не особенно распознают. В ответ на некоторые реплики, робот перенаправляет звонок на оператора. Говорят, так происходит и когда абонент выражает недовольство, более того, ненормативная лексика, если её применить сразу — верный способ побеседовать с человеком. Но, думаю, это просто обывательский миф.
— Какие сбои в разговорах случаются чаще всего? Кто в них виноват — мы или компьютеры?
— Я бы не искала главного виноватого. Сбои — совместное «достижение». Часто к ним приводят асимметрия и разница в природе человека и машины. Люди, к примеру, обычно не думают о собственных действиях как о вводе команды для компьютера, а компьютер в свою очередь — игнорирует их высказывания как шум, не содержащий адекватного ввода.
Или абсолютно техническая особенность робота, связанная с тем, что после окончания слов человека он несколько секунд молчит. Это тоже может обернуться проблемой, поскольку человек привык к более быстрой реакции. Он начинает волноваться, добавлять что-то к запросу. Работ параллельно обрабатывает информацию и приступает к ответу. Происходит наложение реплик. Нередко возникает комичная последовательность из паузы, одновременного говорения и снова паузы, потому что робот, как и человек, настроен останавливаться, когда слышит собеседника.
— Чем обычно это заканчивается?
— Кто-нибудь сдаётся. Шучу, конечно. На самом деле постепенно всё восстанавливается. Человек может продолжить говорить или сделать паузу и подождать, поскольку предполагает, что ответ всё-таки будет.
— Что, на ваш взгляд, пока не предусмотрели разработчики? Есть ли какие-то рекомендации с точки зрения социолога?
— Я бы рекомендовала налаживать механизмы обратной связи. Роботов мы склонны считать не просто объектами для управления, а партнёрами по коммуникации, поэтому важно сделать их более предсказуемыми и понятными.
Нужно озвучивать или показывать пользователю с помощью индикаторов, что происходит с технологией в данный момент: слушает ли она, приступила ли к поиску, как скоро выдаст результат. Пока такие процессы в большинстве случаев предельно непрозрачны.
Рано или поздно человек научится успешно контактировать с роботами, особенно если его заставить сталкиваться с ними в важных жизненных ситуациях. Но можно дополнительно, усилиями разработчиков, расставить маячки, которые в этом обучении помогут.
Мне вообще нравится идея не скрывать ограничения технологии, не представлять робота всемогущим, сообразительным, быстрым, умным, а обозначать границы того, что он умеет. Иначе получается, разработчики стремятся показать совершенный продукт, и мы, слыша речь, приближенную к человеческой, оцениваем, как он действительно крут. Но тогда и говорим соответственно — будто с администратором или служащим, готовым распознать запрос по нашей фрагментарной, сбивчивой фразе. А это не так, и падение с пьедестала пользовательских ожиданий оказывается болезненнее, чем если бы мы были подготовлены к встрече с роботом. Пусть он с механическим голосом и плоскими интонациями, зато ясно, что с ним надо вести беседу как с машиной.
— Можно ли сконструировать идеального технологического собеседника? Да и что значит идеальный?
— Пример, который я изучала, показывает, что мы имели дело с определенным типом разговора человека и машины. Для такой задачи его представить можно — он должен хорошо понимать вопрос, оперативно реагировать, выдавать точную информацию.
Но если речь о спонтанном, свободном общении, то идеальная «машина» для разговора — человек, и это ещё надолго. Нужно иметь богатую фантазию или быть большим технооптимистом, чтобы поверить в искусственного собеседника, так же быстро и чутко реагирующего, приносящего столько же удовольствия, сочувствия, понимания.
Социальные роботы — компаньоны, друзья, помощники — создаются, но пока это довольно бледные отпечатки того, что умеем мы. И главное не очень понятно, зачем стремиться делать из машин людей.
В максимальном приближении к человеку есть элемент подлога. В 2018 году предметом публичного обсуждения стала новая технология Google Duplex, участвующая в телефонном разговоре неотличимым от человеческого образом. Что она делает? Заминается, оговаривается, меняет интонации, обрывается на полуслове, поправляется. И это явно попытка выдать себя за того, кем ты не являешься.
— Научные проекты по изучению взаимодействия человека и робота сегодня имеют прикладной выход? Есть ли заказы от бизнеса и государства?
— Разработки тестируют с реальными пользователями, иногда — с пользователями разных категорий, чтобы продукт стал более инклюзивным и доступным. Однако это скорее точечные вещи. Они направлены на совершенствование конкретной технологии конкретной компании, что, к сожалению, часто мешает делать научные результаты публичным достоянием.
Заинтересованность в сотрудничестве с учёными есть, но она ограничена тем, что в науке, в бизнесе и в государственных услугах различные временные рамки и критерии эффективности. Наука часто медленная, а бизнес быстрый и требует очень понятных и определенных результатов.
— Ваше исследование началось три года назад. Интерес к теме возник тогда же?
— Нет, изначальное любопытство было задолго до того, как мне и моим коллегам попали в руки данные по этому телефонному роботу.
— И куда любопытство заведёт дальше?
— Не знаю… Надеюсь, в какое-нибудь прекрасное место. Сфера социального взаимодействия богата на открытия, на неприметные с первого взгляда сюжеты. Здесь много разных данных, не обязательно связанных с технологической средой. Тема того, как мы соотносим свои действия друг с другом и с происходящим вокруг, неиссякаема. Нужно просто наблюдать, ставить задачи, видеть поле, где можно и академически и практически приложить свои знания и опыт.
IQ
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!