Когда Gemini 3 Flash не знает ответа, он просто выдумывает его.

Gemini 3 Flash — это модель быстрого и умного искусственного интеллекта. Но, согласно оценке, сделанной независимой тестовой группой, если вы спросите их о чем-то, что он на самом деле не знает, является непонятным, трудным или из его знаний, он почти всегда будет пытаться сделать это.
Но, согласно оценке, сделанной независимой тестовой группой, если вы спросите у них что-то, о чем он на самом деле не знает, трудно или из-за его знаний, он почти всегда попытается ответить ложью или изобретением чего-то.
В тестах “на степень галлюцинаций” (скорость распознавания) у Benchmark запись AA @Omniscience, Gemini 3 Flash достиг 91-процентного всплеска, что означает, что даже когда не было правильного ответа, он отвечал в любом случае, и часто это было полностью изобретено.
Это явление “является известной проблемой в шаблонах генерации текста: знать, когда остановиться и сказать “не знает” так же важно, как знать, как ответить. Согласно этому тесту, Близнецы делают это не очень хорошо. телеграфтрансляция Перископ.
Однако это не означает, что 91% его ответов неверны. Эта цифра просто показывает, как часто он изобретает что-то в ситуациях, когда реальный ответ будет “не знает”.
Несмотря на то, что Gemini 3 Flash может быть очень мощным и хорошо выполнять общие тесты, он очень уверен в себе, даже если он должен быть осторожным, что это может быть проблемой при серьезном использовании.Перископ












