Голосовые роботы и как мы с ними разговариваем

Голосовые технологии стали частью нашей повседневной жизни – если не в виде персонализированных сервисов, то по крайней мере в телефонных разговорах. Голосовые сервисы различаются по сложности их производства, дизайна, устройства, применения, использования. В действительности каждый из таких сервисов требует постоянной последовательной работы технологии, разработчиков и пользователей.

В продолжение постов о беспилотных автомобилях и цифровом дейтинге разберёмся с кейсом голосовой технологии из нашей книги «Приключения технологий: барьеры цифровизации в России». Научная сотрудница и доцент НИУ «Высшая школа экономики» Алиса Максимова анализировала автоматизированного оператора на службе телефонного справочного центра. В своём кейсе Алиса показывает, что во время телефонного разговора и технология, и пользователи выстраивают коммуникацию, ориентируясь на реплики друг друга, и добиваются определённых действий собеседника, преодолевая разные барьеры в ходе взаимодействия. При этом разработчики также подстраивают технологию, чтобы выстроить эффективную коммуникацию. 


Как используется конверс-анализ 


Как понять, где сбоит коммуникация? Посмотреть на то, что происходит в самих деталях разговора. Для этого Алиса использует метод конверсационного анализа, который уделяет особое внимание микросюжетам того, как складывается коммуникация. Какие именно действия совершают пользователи (в данном случае абоненты), на что реагируют или не реагируют алгоритмы, какие порядки в последовательном разговоре они совместно производят, как «настраиваются реплики» – на эти вопросы помогает ответить конверсационный анализ. Этот метод предполагает особую систему транскрибирования разговора, которая фиксирует мельчайшие интеракционные детали. Приведу фрагмент врезки из текста Алисы:

А – абонент

О – оператор

Р – робот

ХХХ – конфиденциальная информация

[ – момент одновременного начала накладывающихся реплик или фрагментов

] – момент одновременного окончания накладывающихся реплик или фрагментов

= – отсутствие паузы там, где она может ожидаться

= = – отсутствие паузы между репликами разных говорящих

(0.0) – пауза в целых и десятых долях секунды

(.) – небольшая пауза (± одна десятая секунды) внутри реплик или между ними

слово – интонационное выделение посредством смены высоты и/или диапазона голоса

::: – растягивание звука (длина ряда соответствует длительности растягивания)

↑↓ – заметное повышение или понижение высоты голоса в последующем фрагменте

. , ? – обычная интонация

СЛОВО – фрагмент, произнесённый громче окружающих его фрагментов

*слово* – фрагмент, произнесённый тише окружающих его фрагментов

х – вдох

ф – выдох

- – обрыв реплики или слова

>< – фрагмент, произнесённый быстрее окружающих его фрагментов

<> – фрагмент, произнесённый медленнее окружающих его фрагментов

((слово)) – комментарии транскрибера

#beep# – технический сигнал

200 телефонных разговоров с роботом справочной службы – данные, которые анализировали Алиса и её коллеги, чтобы понять, как устроено это взаимодействие, какие сложности возникают со стороны абонентов и технологии. Дополнительно в качестве материалов использовались сценарии звонков, темы и классификаторы, внутренняя статистика и общение с командой разработчиков.


Как устроено общение с роботом


В социальных исследованиях взаимодействия человека с голосовыми технологиями можно обозначить два подхода к изучению успешности такой коммуникации. В основе первого лежит идея о том, что у разговора есть постоянные свойства, которые должны воспроизводиться для успешного исхода коммуникации. Иными словами, у разговора есть принципы и характеристики, учитывание которых помогает правильно выстраивать взаимодействие с роботом. 

Внутри этого подхода обнаруживаются две ключевые (и конкурирующие) идеи. Одна заключается в том, что человек переносит принципы и свойства разговора с другим человеком на формат общения с роботом и тем самым оперирует привычными и понятными для себя способами преодоления неопределённостей. Другая состоит в выделении отдельного «машинного» режима взаимодействия с роботом, когда пользователь подстраивает своё поведение под определённую модель взаимодействия с технологией. Этот режим, который называют computer talk, скорее напоминает обрывочные запросы с использованием ключевых слов, чем формулирование полноценных фраз.

Второй подход основывается на идее о том, что взаимодействие с голосовыми технологиями ситуативно и не происходит по заранее известному сценарию. Вместо ориентации на готовые шаблоны участники делают ставку на последовательное развитие коммуникации. Пользователи поступательно подстраиваются под реакции и действия голосового робота, чтобы принимать решения о последующих шагах. Такая перспектива помогает уйти от проблемы построения «стандартных» моделей и фокусируется на последовательности шагов в коммуникации, где и пользователь, и технология постоянно совершают действия для успешного разговора.


Как «настраивают» разговор пользователи


Компьютер может рассматриваться по-разному: как инструмент или как партнёр по коммуникации. Тогда абонент во взаимодействии с телефонным роботом может выбирать понятный для себя сценарий: давать команды и говорить ключевыми словами или же выстраивать разговор с использованием вежливых слов. Пользователь ориентируется на успешность хода коммуникации, получая или не получая ожидаемые ответы и оценивая, что работает в качестве реплики, а что нет. Вот пример из материалов Алисы:

А Меня зовут Иван Иванович, я проживаю в Подмосковье. Дело в том, что я обратился в больницу, где лежал с травмой глаза, и все время ходил к врачу без всяких проблем, она меня контролировала. А это пошел, а мне говорят, что теперь я должен платить шестьсот пятьдесят рублей чтобы пройти к врачу. Раньше этого не было. У меня всё.

Р Простите, я никак не могу понять. Пожалуйста, ещё раз чётко сформулируйте свой вопрос и говорите после звукового сигнала.

#beep#

А В БОЛЬНИЦЕ ГОРОДА… города Серпухова… Городск… районная больница города Серпухова, чтобы обратиться К ВРАЧУ БЕРУТ ПЛАТУ. ЭТО ПРАВИЛЬНО?

Пользователи применяют следующие техники в коммуникации с голосовыми роботами: они «настраивают» и согласуют свои реплики с собеседником. И поскольку пользователи заранее не знают, на что способны алгоритмы на другом конце провода, это подстраивание происходит постоянно. Непрозрачность технологии, недостаток знаний о функциях робота, отсутствие релевантного опыта, ошибочное приписывание свойств голосовому агенту – всё это составляет сложности в выборе пользовательской стратегии поведения. Но что происходит, когда пользователи оказываются в ситуации «функционального» разговора с роботом, когда абоненты обращаются в справочную службу с конкретными запросами? Казалось бы, прозрачность этой ситуации должна заранее определять режим взаимодействия, но это не так.

Алиса анализирует последовательные этапы выстраивания диалога. Сначала абонент должен сформулировать запрос, потом следует пересмотр собственного запроса, его корректировка или адаптация. Паузы, громкость, ключевые слова, выбор более категориальных слов – это типичные способы адаптирования реплики. 

А: х:: (.) ГОТОВНОСТЬ документов ↓на отказ города от

 преимущественной покупки (0.4) комнаты

(4.3)

Р: уточните, готовность какого документа вас интересует

(0.7)

#beep#

(.)

А: х:::: (.) х::: (0.2) <о преимущественном (.) праве выкупа

 городом> (.) х::: (.) ↓жилой площади

Как приспосабливается робот (и разработчики)


В алгоритмы робота встроены две базовые предпосылки для успешной коммуникации. Во-первых, абоненты звонят адресно в справочную службу и предположительно могут сформулировать свой запрос. Во-вторых, есть база знаний, которая может содержать или не содержать ответы на запросы пользователей. Роботу и разработчикам требуются кооперативные усилия абонентов, чтобы состоялась успешная коммуникация. Помимо прямых функций предоставления запрашиваемой информации, робот способен на реплики по выстраиванию коммуникации (просьба повторить, уточнение информации, «склеивающие» фразы вроде «я вас слушаю»). Даже в случае, когда абонент просит соединить с оператором, робот готов на продолжение коммуникации с элементами обучения («но я тоже смогу ответить на ваш вопрос, давайте попробуем ещё раз, чётко сформулируйте свой вопрос и говорите после звукового сигнала»). 

Подстраивание роботизированного собеседника к диалогу происходит не только ситуативно. Во многом он развивается силами разработчиков, которые добавляют новые функции, фразы, инструменты в спектр возможностей робота. Задача разработчиков состоит в оценке успешности коммуникации и выявлении систематических сбоев с последующим их устранением. Они выдвигают три предположения о причинах барьеров в коммуникации:

  1. нежелание абонентов общаться с роботом;
  2. неверное позиционирование робота как автоответчика (представление абонентов о том, что оператор перезвонит им после оставленного роботу запроса);
  3. неверная последовательность реплик и пауз в конструировании фразы робота (где абонент не точно считывает момент для своей реплики).

Эти предположения разработчики стремятся проверить при помощи данных и результатов экспериментирования с функциями и сценарием робота. Таким образом, разработчики – как и социальные учёные – занимаются своеобразной исследовательской работой и анализом коммуникации. В конечном итоге они должны искать баланс между жёсткими рамками для коммуникации и комфортным разговором абонента с роботом. 


Иллюстрация: Елена Рюмина

Комментарии 0
Авторизуйтесь , чтобы оставить комментарий

Стань частью сообщества Атомариум!

Зарегистрируйся чтобы получить 350 приветственных
баллов и открыть полный доступ к курсам,
тренажерам и конкурсам.