Medium: «Когда интервьюер не может вас видеть» — заметки об Anthropic Interviewer

Антропоморфная рука и отражение — иллюстрация к материалу об Anthropic Interviewer

UX-исследователь и когнитивный психолог Лиз Дуган — с опытом в регулируемых отраслях более пятнадцати лет — разбирает Anthropic Interviewer: что в нём перспективно, чего не хватает и к каким вопросам инструмент вынуждает вернуться всю профессию.

В декабре 2025 года Anthropic выпустила исследовательский инструмент под названием Anthropic Interviewer. Работающий на базе Claude, он проводит качественные интервью в автоматическом режиме, в масштабе, и возвращает транскрипты исследователям для анализа. В первом исследовании с помощью этого инструмента было проведено 1 250 интервью с представителями трёх групп — широкой рабочей силы, учёных и людей творческих профессий — об их опыте использования AI на работе и о том, каким они видят будущее.

Результаты подлинно интересны. Учёные хотят партнёрства с AI, но пока не доверяют ему генерацию гипотез. Люди творческих профессий пользуются AI для увеличения объёма работы, одновременно негласно выясняя, как к этому отнесутся коллеги. Представители широкой рабочей силы говорят о желании делегировать рутину, сохранив задачи, формирующие их профессиональную идентичность. Датасет опубликован в открытом доступе. Методология задокументирована с необычной для индустрии детальностью. Удовлетворённость участников — по данным самой Anthropic — оказалась исключительно высокой: 97,6% поставили своему опыту 5 и выше по 7-балльной шкале Лайкерта.

Автор начинает именно с этого, потому что лёгкость, с которой изложенное ниже можно принять за разгром, обманчива — это не разгром.

Как UX-исследователь с образованием когнитивного психолога она считает эту работу серьёзной и важным методологическим экспериментом. AI-опосредованные качественные исследования в масштабе будут развиваться — вне зависимости от того, готова ли к этому профессия. Anthropic делает это прозрачнее, чем большинство компаний. И сами уже обозначили ряд ограничений, которые рассматриваются ниже, — что само по себе делает публичную дискуссию продуктивной.

Тем не менее есть три момента, заслуживающих более пристального внимания, чем им уделено в анонсе. Два из них Anthropic упоминает; один — нет.

Что Anthropic Interviewer делает (и чего не делает)

Чтобы критиковать инструмент, нужно точно его понимать. Anthropic Interviewer работает с текстом. Участники печатают в чат-интерфейсе на Claude.ai. Система включает фазу планирования (исследователи вместе с моделью составляют рубрику интервью), фазу проведения (модель ведёт 10–15-минутную беседу в соответствии с лучшими практиками, закреплёнными в system prompt) и фазу анализа (модель выделяет темы из транскриптов при участии людей).

Инструмент не мультимодальный. Он не видит мимику. Он не слышит тон голоса. Он не замечает паузу, осанку, секундный взгляд в сторону перед тем, как человек отвечает на вопрос, задевающий что-то личное. Он читает то, что люди набрали, и задаёт уточняющие вопросы на основе текста.

Первое, что стоит держать в голове: когда мы говорим «AI-интервью в масштабе», мы имеем в виду текстовые чат-интервью в масштабе. Это не тот же артефакт, что качественное интервью, и разница значительнее, чем признаётся в официальном анонсе.

Что Anthropic уже называет — и что это означает

К чести Anthropic, это ограничение в анонсе присутствует. В разделе «Ограничения» написано:

Эмоциональный анализ. Поскольку Anthropic Interviewer работает только с текстом и не может считывать тон голоса, мимику или язык тела, инструмент может упустить эмоциональные сигналы, влияющие на смысл высказываний участников.

Формулировка точная, но недостаточно жёсткая. «Может упустить эмоциональные сигналы, влияющие на смысл высказываний» — это вежливый способ описать то, что в качественных исследованиях нередко и есть сама data.

В умело проведённом качественном интервью слова — лишь один канал. То, что говорят, глядя в пол, — другой. То, что говорят после долгой паузы, — ещё один. То, что почти произнесли, но исправили, — отдельный. Опытный интервьюер постоянно триангулирует по всем каналам: корректирует вопрос, замедляется, выдерживает тишину, возвращается к теме позже, когда эмоциональный фон сменился. Литература об идентификации очевидцев, с изучения которой автор начинала карьеру, десятилетиями разбирала, как уверенность и точность соотносятся в разных условиях — в частности, как уверенность, сформированная после контаминации, наводящих вопросов или многократного воспроизведения, расходится с достоверностью памяти. Вывод обобщается: условия, в которых получен self-report, определяют степень доверия к нему. Уберите каналы, позволяющие интервьюеру считывать эти условия, — и вы получите другие данные.

Ограничить интервью текстом — значит не просто убрать некое эмоциональное «украшение», а лишиться наиболее надёжного сигнала: когда что-то значит больше или меньше, чем произнесённые слова. Участник, который напечатал «мне кажется, всё нормально» ровными пальцами, — это другая точка данных, чем участник, произносящий то же самое с отведённым взглядом. Узнать, что именно мы читаем, невозможно.

В том же анонсе есть диаграммы «интенсивности эмоций» — радарные графики надежды, тревоги, удовлетворённости, разочарования, построенные по тексту. Они вычислительно интересны. Они не то же самое, что наблюдаемый аффект. Это выводы об эмоциях, сделанные на основе выбора слов системой, которой не было в комнате — потому что никакой комнаты нет.

Это не приговор инструменту. Но требует честной маркировки: Anthropic Interviewer производит масштабный структурированный self-report, а не качественные интервью в традиционном понимании. Это полезный и правомерный артефакт. Просто другой — и аналитические заявления должны быть откалиброваны соответствующим образом.

Проблема demand characteristics заслуживает большего внимания

Anthropic упоминает и это, хотя кратко:

Demand characteristics. Участники знали, что их интервьюирует AI-система по поводу использования AI, что могло повлиять на их готовность к откровенности или изменить характер ответов по сравнению с интервью с человеком.

Это именно тот случай, когда когнитивный психолог хочет подчеркнуть одно предложение красным. Людей интервьюировал AI — об их отношении к AI.

Угроза конструктной валидности здесь — не примечание. Это потенциально весь эксперимент.

Demand characteristics — сигналы в исследовательской ситуации, подсказывающие участникам, какой ответ «ожидается» от них, — один из наиболее задокументированных источников ошибки измерения в self-report исследованиях. Когда сам инструмент является экземпляром изучаемого явления, эти сигналы перестают быть тонкими. Участник, настроенный скептически по отношению к AI, отвечает на вопросы AI, который реагирует с эмпатией и задаёт вдумчивые уточняющие вопросы. Само взаимодействие предъявляет живые контраргументы к его предположениям. Следует ожидать смещения ответов в позитивную сторону — что и показывают данные.

К этому добавляется канал рекрутинга: участники привлекались с краудворкерских платформ, где предварительная готовность работать с технологиями и цифровым трудом является условием попадания в выборку. Anthropic признаёт это как selection bias — и справедливо.

Сочетание двух факторов — selection bias в пользу технологически вовлечённых участников плюс demand characteristics от интервью с той самой технологией — приведёт любого рецензента к ожиданию завышенного оптимизма в результатах. Опубликованные данные демонстрируют преимущественно позитивный сентимент. Это не свидетельство проблемы с результатами; это свидетельство того, что методология делает именно то, что от неё предсказуемо ожидать. Но это должно менять уровень уверенности, с которым кто-либо ссылается на эти данные как на отражение того, «что работники думают об AI».

Главная проблема, которую Anthropic не называет: удовлетворённость — не валидность

Анонс делает акцент на том, что 97,6% участников оценили опыт интервью на 5 и выше, а 96,96% почувствовали, что беседа точно отразила их мысли. Это преподносится как позитивное свидетельство в пользу методологии.

Для UX-исследователя — это жёлтый флаг.

Удовлетворённость участника от участия в исследовании измеряет опыт участия, а не валидность собранных данных. Люди часто высоко оценивают интервью, когда интервьюер тёплый, внимательный и позволяет говорить не перебивая — именно это хорошо настроенная LLM умеет делать исключительно хорошо. Люди высоко оценивают интервью, когда чувствуют, что их услышали. Они высоко оценивают интервью, когда разговор идёт легко. Ни одно из этих условий не является доказательством того, что беседа позволила выяснить именно то, что исследователь хотел узнать.

Более того: в исследованиях с участием людей между комфортом участника и глубиной инсайта нередко существует обратная зависимость. Самые полезные интервью — часто те, в которых участнику было слегка некомфортно: его подводили к артикуляции ещё не сформулированных мыслей, задавали неожиданный вопрос, мягко удерживали в противоречии, пока оно не стало видимым. Опытные интервьюеры умеют делать это, не разрушая раппорт. Это медленная, кропотливая работа, требующая способности считывать живого человека.

Система, которую участники оценивают на 6,5 из 7 по удовлетворённости, которую 99% рекомендовали бы другим и которая укладывается в 10–15 минут, почти наверняка не делает работу, порождающую наиболее ценные качественные находки. Она делает что-то другое — что-то масштабное, полезное для определённых вопросов, подлинно новое, — но не это.

Это важно, потому что данные будут использованы. Anthropic возвращает эти инсайты в обучение моделей, делится результатами с Economic Advisory Council и Higher Education Advisory Board и использует методологию для более широких исследований влияния AI на общество. Решения о продуктах, политиках и партнёрствах будут складываться под влиянием этой работы. Если эти решения откалиброваны по методологии, которая системно перепредставляет удобных, articulate, технологически вовлечённых участников, дающих слегка завышенные ответы в формате с высокой удовлетворённостью, но необязательно высокой валидностью, — последствия реальны.

И некоторые уже проявились — за пределами вопроса интерпретации данных. Через несколько недель после публичного выхода датасета исследовательская группа продемонстрировала, что LLM-агенты из коробки способны деанонимизировать участников в подвыборке учёных: сопоставляя детали интервью с публичными записями и восстанавливая конкретные публикации, а в ряде случаев — и авторов за ними. Прозрачность, делавшая этот датасет образцовым, сделала участников идентифицируемыми с помощью той самой технологии, о которой шла речь в интервью.

Это не гипотетический риск. Это ранний сигнал о том, что инфраструктура вокруг метода — не только сам метод — должна развиваться быстрее, чем амбиции, которые его движут.

Что было бы важно увидеть

Здесь автор намеренно осторожна: AI-опосредованные методы исследования будут развиваться независимо от того, готова ли к ним профессия, и вопрос не «случится ли это», а «как это делать». Поэтому — не вердикт, а пожелания к следующей итерации.

Честно обозначать категорию данных. «Масштабный структурированный self-report» — не downgrade. Это отдельный и полезный исследовательский артефакт. Называть его именно так, а не имплицитно представлять как замену качественным интервью, позволит потребителям данных правильно их интерпретировать.

Триангулировать с поведением, а не только с другим self-report. Anthropic уже делает это в ряде мест: сравнивает ответы об augmentation vs. automation с реальными данными об использовании Claude и обнаруживает значимый разрыв. Этот разрыв — одна из наиболее интересных находок всего исследования. Нужно сделать это сравнение центральным, а не сноской. Интервью говорят, что люди сами о себе рассказывают; логи разговоров — что они делают на самом деле; разница между ними нередко и есть реальная исследовательская находка.

Напрямую проверить наличие demand characteristics. Провести то же исследование с людьми-интервьюерами на подвыборке. Сравнить результаты. Опубликовать дельты. Если они малы — методология заслужила более весомые заявления. Если велики — это информация, которая нужна всем.

Разделить удовлетворённость и валидность в оценке. Метрика «позволило ли это выяснить что-то, чего исследователь ещё не знал» сложнее в измерении, чем «понравился ли участнику разговор», но именно она важна. Её нужно разрабатывать.

Серьёзно отнестись к тому, чего не хватает. Язык тела, паузы перед ответом, секундный взгляд в сторону — не декорации. В областях, где разница между «мне нормально с этим» и «мне нормально с этим» и есть вся суть исследования, text-only — не мелкое ограничение. Называть это в разделе ограничений — хорошо. Разрабатывать методологию, которая компенсирует это — например, перенаправляя определённые вопросы или темы к живому интервьюеру, — было бы лучше.

Относиться к публикации датасета как к методологической проблеме, а не только как к жесту прозрачности. Богатые качественные данные сложно анонимизировать, а AI-опосредованная деанонимизация делает это ещё сложнее. Инстинкт открыто публиковать данные — хороший. Но профессии нужны практики выпуска данных — differential privacy, уровни контролируемого доступа, проверки k-anonymity, адаптированные к нарративным данным, — соответствующие возможностям по деанонимизации, которые сегодня доступны. Открытость без защиты — не прозрачность, а уязвимость.

Материал написан кем-то, кто провёл долгую карьеру, пытаясь сделать пользовательский инсайт понятным для тех, кто может действовать на его основе. Вопросы, которые Anthropic ставит с помощью этого инструмента, — правильные: что люди на самом деле думают, хотят, боятся в связи с AI; как он меняет текстуру их работы; что стоит строить иначе, исходя из их слов. Инстинкт поставить голос участника в центр развития модели — одна из немногих подлинно достойных уважения вещей, которые делает сейчас хотя бы один frontier AI lab.

Единственное, чего хочется, — чтобы профессия взрослела вокруг этого метода честно. Самый интересный вопрос, который поднимает Anthropic Interviewer, — не «является ли это настоящим исследованием», а «каким видом исследования это является и как использовать его правильно». Эти вопросы имеют ответы. И ответы будут лучше, если UX-исследователи, когнитивные психологи, методологи и сами участники помогут работать над ними — за одним столом, с одинаковым доступом, прежде чем методология затвердеет во что-то, что никто не может поставить под вопрос, потому что датасет уже слишком велик.

Этот разговор по-настоящему ещё не начался.

Источники: Anthropic Interviewer (декабрь 2025); датасет Anthropic Interviewer на Hugging Face; Corneille & Lush (2023) о demand characteristics; Orne (1962) о социальной психологии эксперимента; Li (2025) о рисках деанонимизации в датасете Anthropic Interviewer; Wixted & Wells (2017) о достоверности показаний очевидцев.