Сделали независимые исследования по случаям вранья новых моделей ИИ и цифры просто обескураживающие.
Их, просто, опасно подпускать к бизнесу!
У меня было ощущение, и даже я видел некоторые цифры, что с рассуждениями удалось победить галлюцинации ИИ до уровня 8–15%, но оказалось всё иначе.
Chat GPT
o3 галлюцинировала от 33 до 55%*
o4-mini галлюцинировала от 41% до 79%*
GPT-4.5 галлюцинировала 37,1%**
*времени, в разных тестах PersonQA и SimpleQA
** тест SimpleQA
С научной статьёй можно ознакомится здесь (https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf).
Исследователи в основном говорят, что остановить галлюцинации у ботов ИИ невозможно, но многие работают над различными способами снижения частоты галлюцинаций.
Microsoft и Google выпустили продукты — Correction от Microsoft и Vertex от Google, — которые, по их словам, могут помечать информацию, которая может быть неверной в ответах ботов ИИ.