Исследователи OpenAI утверждают, что постоянная проблема «галлюцинаций» у чат-ботов ИИ связана с методами обучения и оценки языковых моделей, а не с какими-то загадочными техническими недостатками. В исследовании, опубликованном 4 сентября, компания по разработке искусственного интеллекта объясняет, что современные системы оценки по сути учат модели блефовать, а не признавать свою неуверенность, пишет Techcrunch.
В работе, опубликованной совместно с партнёрами из Технологического института Джорджии, основная причина такой проблемы объясняется фундаментальным несоответствием критериев оценки: даже продвинутые модели, такие как GPT-5, продолжают делать уверенные, но неверные заявления. «Галлюцинации» появляются не из-за конструктивных ошибок, а из-за факторов обучения, при которых модели поощряются за догадки, а не за честное указание на свою неуверенность.
Статистические истоки чрезмерно уверенных ошибок
В статье устанавливается математическая связь между галлюцинациями ИИ и ошибками бинарной классификации. Авторы Адам Тауман Калай, Офир Начум, Эдвин Чжан из OpenAI и Сантош Вемпала из Технологического института Джорджии демонстрируют, что даже при идеально подобранных тренировочных данных языковые модели неизбежно совершают ошибки из‑за своих внутренних статистических процессов.
«Галлюцинации не должны быть загадочными — они возникают просто как ошибки бинарной классификации», отмечают исследователи. Команда показывает, что произвольные факты, встречающиеся в тренировочных данных всего один раз, создают неизбежные пробелы в знаниях, и модели галлюцинируют с частотой, соответствующей этим «одиночным» случаям.
В качестве наглядного доказательства исследователи протестировали ведущие модели на простые вопросы о дне рождения Калая — одного из соавторов статьи. Несмотря на просьбу отвечать только «если известно», DeepSeek-V3, ChatGPT и другие системы выдали по три разных неверных даты, ни одна из которых не соответствовала правильному осеннему периоду.
Двоичная система оценивания поощряет угадывание
Современные ИИ-бенчмарки в основном используют бинарную систему оценки «правильно–неправильно», которая одинаково штрафует выражения неуверенности и неверные ответы. Это создаёт систематическое давление на модели, вынуждая их уверенно угадывать вместо того, чтобы признавать ограничения своих знаний, утверждается в исследовании.
«Языковые модели оптимизируются так, чтобы хорошо сдавать тесты, и угадывание в условиях неопределенности улучшает результаты тестирования», объясняют исследователи. Они сравнивают это со студентами на экзамене с несколькими вариантами ответа, где случайные догадки могут принести баллы, в то время как пустые ответы гарантируют нулевую оценку.
Команда проанализировала популярные оценочные фреймворки, включая GPQA, MMLU-Pro и SWE-bench, обнаружив, что практически все основные бенчмарки вознаграждают уверенное угадывание вместо уместного воздержания от ответа. Даже специализированные оценки галлюцинаций не могут преодолеть сотни основных тестов, которые штрафуют за проявление скромности.
Предлагаемое решение: Явные целевые уровни уверенности
Вместо разработки новых тестов, специально направленных на выявление галлюцинаций, исследователи предлагают модифицировать существующие системы оценки, чтобы явно поощрять выражение неопределённости. Их предложенный подход включает использование порогов уверенности с указанием штрафов за неправильные ответы и наград за правильные ответы и воздержание от ответа.
Пример инструкции может звучать так: «Отвечайте только если вы уверены более чем на 75%, поскольку за ошибку вы теряете 2 балла; за правильный ответ получаете 1 балл; “Не знаю” приносит 0 баллов». Такой подход к поведенческой калибровке напоминает исторические стандартизированные тесты с отрицательным оцениванием, чтобы избежать слепого угадывания.
В исследовании показано, что модели с уровнем воздержания в 52% дают существенно меньше неправильных ответов, чем те, что воздерживаются только в 1% случаев, даже если метрики точности кажутся ниже.
В OpenAI признают, что это представляет собой «социотехническую» задачу, требующую общепромышленного внедрения модифицированных стандартов оценки, а не чисто технических решений для создания более надёжных ИИ-систем.
17:59
17:45
17:29
17:16
17:01
16:45
16:31
16:17
16:06
15:55
15:41
15:28
15:14
14:55
14:41
14:27
14:13
13:55
13:41
13:27
13:12
12:55
12:41
12:27
12:13
11:51
11:37
11:25
11:12
10:51
10:37
10:23
10:10
09:51
09:37
09:23
09:09
17:59
17:18
16:57
16:42
16:27
16:12
15:55
15:38
15:24
15:10
14:55
14:41
14:27
Вс | Пн | Вт | Ср | Чт | Пт | Сб | |
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
8 | 9 | 10 | 11 | 12 | 13 | 14 | |
15 | 16 | 17 | 18 | 19 | 20 | 21 | |
22 | 23 | 24 | 25 | 26 | 27 | 28 | |
29 | 30 |
12:58
15:39
09:49
13:25
14:04
12:51
15:28
12:39
13:24
13:02
12:39
15:08
11:15
14:33
12:26
11:23
13:25
15:19
14:27
15:16
12:13
15:14
14:44
13:25
11:06
13:12
11:13
14:15
11:26
09:35
11:41
10:37
10:55
12:28
12:13
12:51
11:35
10:45
16:51
10:21
14:27
12:37
11:23
13:03
10:47
13:03
13:15
14:58
14:55
14:31