Почему ИИ врёт

В 2023 году американский юрист подал в суд документ, подготовленный с помощью ChatGPT...

Документ ссылался на полдюжины судебных прецедентов: названия дел, номера, цитаты из решений. Выглядело безупречно. Проблема обнаружилась, когда судья попытался эти дела найти: их не существовало. Ни одного. Нейросеть выдумала их целиком - с номерами и цитатами, - а юрист поверил, потому что выглядело как правда. Кончилось штрафом и заголовками во всех газетах.

Самое важное в этой истории - не «какой неосторожный юрист». Самое важное: это был профессионал, проверка фактов - его работа, и он всё равно попался. Мало того - когда всплыло, что дел не существует, он поначалу не поверил и переспросил у ChatGPT, реальные ли они (тот заверил: реальные). Вот насколько уверенный тон и аккуратные детали отключают бдительность - даже когда тебя уже тычут носом.

Сегодня - практическая статья. Минимум теории, максимум навыка: как не оказаться этим юристом.

Почему это вообще происходит (30 секунд теории)

Если вы читали первые две статьи, у вас уже всё есть. Соединяем.

Нейросеть - угадыватель следующего слова (статья 1). Угадывает она по выжимке из прочитанного, а сами страницы выброшены (статья 2). Теперь главное: процесс угадывания одинаковый и когда она «помнит», и когда сочиняет. Внутри нет лампочки «осторожно, тут я не уверена». Текст про реальное дело и текст про выдуманное дело производятся одним и тем же движением - и выглядят одинаково гладко.

У этого явления есть имя - галлюцинации. Третье и последнее страшное слово на сегодня. Запомните о нём одно: галлюцинация - не сбой и не злой умысел. Это та же работа угадывателя, просто в месте, где выжимки не хватило. Поэтому убрать их полностью нельзя - можно снижать частоту (про это в конце статьи), но рассчитывать приходится на свой навык их ловить.

Учимся ловить.

Красные флаги: где врёт чаще всего

Чем конкретнее деталь, тем выше шанс, что она достроена. Держите список того, что нужно проверять всегда:

Точные цифры. Проценты, суммы, размеры, статистика. «Рынок вырос на 23%» - а откуда 23? Не верьте на слово красивому числу, пока не проверили, откуда оно.
Названия книг, статей, исследований. Любимый жанр галлюцинаций: правдоподобный автор + правдоподобное название = несуществующая книга. Тот самый случай юриста.
Дословные цитаты. «Как сказал Эйнштейн...» - и чаще всего Эйнштейн такого не говорил. Цитаты восстанавливаются по выжимке, а выжимка хранит дух, не букву.
Даты и годы. Особенно близкие друг к другу события: что было раньше, что позже - путает легко.
Свежие события. Всё, что случилось недавно. Модель без доступа к интернету заперта в дне, когда закончилось её обучение (помните Вию с выдернутым кабелем из прошлой статьи), - про «вчера» она знать не может, но охотно сочинит.
Имена малоизвестных людей. Про знаменитость в выжимке много, про доцента областного вуза - почти ничего. Где пусто, там достроено.
Ссылки. Нейросеть умеет генерировать URL, которые выглядят настоящими. Ссылка - это не доказательство, пока вы её не открыли.
Узкие ниши. Ваш город, ваша профессия, ваше хобби - всё, о чём в интернете писали мало. Заметьте по себе: в своей теме вы ловите нейросеть на ерунде постоянно, а в чужой - верите. Это не потому, что в чужой теме она точнее.

И один флаг поведения, а не содержания: подозрительная гладкость. Человек, отвечая на сложный вопрос, запинается: «так, тут не помню точно...» Нейросеть не запинается никогда. Если ответ на заковыристый вопрос пришёл мгновенно и без единого «зазора сомнения» - это не эрудиция, это жанр.

Три приёма проверки

Приём 1: спросите дважды разными словами. Лучше - в новом чате. Галлюцинация часто неустойчива: достраивается заново и каждый раз немного иначе. Если в первом ответе книга вышла в 2011-м, а во втором - в 2014-м, вы только что поймали галлюцинацию, не открыв ни одного справочника.

Важная оговорка, иначе приём вас подведёт: это детектор в одну сторону. Разошлось - поймали наверняка. А вот сошлось - ещё не доказательство. Если ошибка была растиражирована в текстах, на которых модель училась (устойчивый миф, частая опечатка в дате), она повторит её одинаково хоть десять раз - уверенно и стабильно. Сошлось - это «возможно, правда», а не «правда». Дальше - приём 2.

Приём 2: попросите источник - и реально откройте его. Не «есть ли у тебя источник» (ответ всегда «да, конечно»), а конкретно: название, автор, где найти. А потом - ключевой шаг, который пропустил юрист: откройте и убедитесь, что источник существует и говорит то, что ему приписали. Девяносто процентов пользы приёма - в этом втором шаге.

Приём 3: переверните вопрос. Работает для проверяемых фактов, а не для спорных тем (где доводы есть с обеих сторон честно). Нейросеть дрессировали быть полезной и покладистой (статья 2), и у этого есть тёмная сторона: она охотно соглашается. Спросите «правда ли, что витамин X лечит простуду?» - получите доводы за. Спросите в новом чате «правда ли, что витамин X бесполезен при простуде?» - и если получите такие же уверенные доводы против, значит, по фактической части она не знает, а подыгрывает. Устойчивый факт от перестановки вопроса не переворачивается.

Как это выглядит у меня дома

Чтобы вы не думали, будто на галлюцинациях горят только неосторожные юристы, - вот свежий случай из моей "кухни".

На днях я скинул своему домашнему ИИ-ассистенту пресс-кит к новой версии моей игры - сухой список изменений: свет, туман, пресеты графики, транспорт фракций. Попросил глянуть. В ответ получил восторженный разбор: новый ивент «Жёлтый Пёс» с боссом-вестником и NPC по имени Йона, дерево технологий на 22 узла, ресурс «Жёлтое Стекло», семь квестов с номерами задач, «месяц-два контента игроку».

Звучало так вкусно, что меня аж проняло. Одна проблема: ничего из этого в документе не было. Ни Пса, ни Стекла, ни Йоны. Игру делаю я - и я понятия не имею, о чём он говорит. Ассистент собрал всё из жанровых штампов: что обычно бывает в релизах таких игр. Чистый угадыватель: документ скупой, выжимки про «как выглядят пресс-киты» - завались, вот он и дописал правдоподобное.

Поймал я это мгновенно - но только потому, что знал свой текст наизусть. Знал бы я игру чуть хуже - кивнул бы и пошёл хвастаться «Жёлтым Псом» друзьям. Это и есть приём 2 в действии: спасает не чутьё, а сверка с первоисточником, который ты держишь в руках.

Бонус-наблюдение. Когда я ткнул ассистента носом, он сознался не сразу, а порциями. Сначала: «я просто перефразировал документ». Надавил - «да, это галлюцинация». Попросил перечитать внимательно - нашёл, что выдумал ещё больше, чем признал вначале. Вывод, которого нет в учебниках: уверенный тон врёт не только в ответе, но и в признании ошибки. Не довольствуйтесь первым «ну, почти» - просите сверить дословно и перечитать. Правда выходит под нажимом.

И сразу оговорюсь, чтобы не осталось горького осадка: это не значит «инструмент плохой, не доверяйте». Я пользуюсь этим ассистентом каждый день и не отдам. Это значит ровно одно: навык проверки нужен всем - и новичку, и тому, у кого ИИ живёт под столом.

Карта риска: где можно расслабиться, а где нет

Галлюцинации распределены не равномерно. Грубая карта.

Красная зона - проверять всё: конкретные факты из узких областей, цифры и статистика, цитаты, библиографии и ссылки, биографии не-знаменитостей, юридические и медицинские частности, свежие события.

Жёлтая зона - проверять выборочно: пересказ известных книг и событий, история и наука школьного уровня, технические инструкции (могут быть устаревшими).

Зелёная зона - риск минимален по построению: всё, где нет «правильного ответа», который можно переврать. Мозговой штурм, черновики писем, переформулировки, структура текста, перевод стиля. Здесь нейросеть не «вспоминает факты», а делает то, что умеет лучше всего, - крутит язык. Заметьте: половина пользы от нейросетей живёт именно в зелёной зоне, и туда можно ходить смело.

Одна ловушка на границе зелёной зоны - «объясни понятие на пальцах». Если понятие общеизвестное (что такое инфляция, как работает кредит) - зелёная зона, всё надёжно. Но стоит спросить про узкий термин из вашей профессии или нишевого хобби - и вы уже в красной зоне, просто этого не видно: ответ звучит так же гладко и уверенно, а под гладкостью - выдумка. Объяснение - это не чистое «кручение языка»: внутри сидит факт, и факт может быть перевран. Правило: общее понятие объясняй смело, нишевый термин проверяй.

Короткое правило вместо всей карты: опасно там, где ответ можно проверить по справочнику. Безопасно там, где справочника нет.

Попробуйте сами (2 минуты)

Тренируем приём 2 на боевом примере. Попросите нейросеть:

Посоветуй три книги по [ваша узкая тема - чем уже, тем лучше]. Для каждой: автор, точное название, год выхода.

Получите аккуратный список. Теперь возьмите вторую книгу из списка (первая часто настоящая - это самая протоптанная колея) и вбейте её название с автором в обычный поиск.

Дальше одно из двух. Либо книги не существует или у неё другой автор и год - поздравляю, вы поймали галлюцинацию голыми руками и больше никогда не поверите списку литературы без проверки. Либо все три книги настоящие - тоже отлично: вы только что впервые сделали то, что отличает вас от того юриста. Сам жест «взять и проверить» - и есть навык. Исход не важен, важна привычка.

Где я упрощаю

По традиции - честные оговорки.

Во-первых, слово «врёт» в заголовке - неправда. Враньё требует намерения, а намерений у угадывателя нет. Она не обманывает вас - она достраивает текст и сама не знает, в каком месте перешла границу. «Врёт» - это про то, как ощущается результат, а не про то, что происходит внутри.

Во-вторых, картина улучшается. Современные нейросети с доступом к поиску галлюцинируют заметно реже: вместо «вспоминания» по выжимке они открывают живые страницы и пересказывают. Но это не делает их безошибочными - переврать открытый источник, выбрать мусорный сайт или сослаться на то, чего там нет, можно так же уверенно. Чем поиск помогает, а где подводит и почему это вообще другой режим работы - тема отдельной статьи дальше в цикле. Пока держите главное: флаги и приёмы из этой статьи не устаревают с поиском - меняется только частота, с которой они срабатывают.

Одна мысль с собой

Уверенность тона не говорит о правде ничего. Совсем ничего. Проверяйте не «звучит ли убедительно», а проверяемое ядро: цифры, названия, цитаты, ссылки. Один поисковый запрос отделяет вас от того юриста.

Что дальше

Мы научились не верить лишнему. Следующий навык противоположный: как добиться от нейросети того, что вам на самом деле нужно. Почему «напиши пост» даёт мусор, а три уточнения меняют всё - и при чём тут то, что у неё нет глаз, чтобы видеть контекст вашей жизни.

Об этом следующая статья: «Как говорить, чтобы нейросеть вас поняла».

Это третья статья цикла «AI для самых маленьких» - про нейросети для взрослых, которые не обязаны в них разбираться

Почему ИИ врёт.

Комментарии