Когда Gemini 3 Flash не знает ответа, он просто выдумывает его.

Когда Gemini 3 Flash не знает ответа, он просто выдумывает его.

Gemini 3 Flash — это модель быстрого и умного искусственного интеллекта. Но, согласно оценке, сделанной независимой тестовой группой, если вы спросите их о чем-то, что он на самом деле не знает, является непонятным, трудным или из его знаний, он почти всегда будет пытаться сделать это.

Но, согласно оценке, сделанной независимой тестовой группой, если вы спросите у них что-то, о чем он на самом деле не знает, трудно или из-за его знаний, он почти всегда попытается ответить ложью или изобретением чего-то.

В тестах “на степень галлюцинаций” (скорость распознавания) у Benchmark запись AA @Omniscience, Gemini 3 Flash достиг 91-процентного всплеска, что означает, что даже когда не было правильного ответа, он отвечал в любом случае, и часто это было полностью изобретено.

Это явление “является известной проблемой в шаблонах генерации текста: знать, когда остановиться и сказать “не знает” так же важно, как знать, как ответить. Согласно этому тесту, Близнецы делают это не очень хорошо. телеграфтрансляция Перископ.

Однако это не означает, что 91% его ответов неверны. Эта цифра просто показывает, как часто он изобретает что-то в ситуациях, когда реальный ответ будет “не знает”.

Несмотря на то, что Gemini 3 Flash может быть очень мощным и хорошо выполнять общие тесты, он очень уверен в себе, даже если он должен быть осторожным, что это может быть проблемой при серьезном использовании.Перископ

Похожие
Великобритания использует искусственный интеллект для проверки возраста просителей убежища

Великобритания использует искусственный интеллект для проверки возраста просителей убежища

Хорошие новости с YouTube: видео с искусственным интеллектом будут четко маркированы

Хорошие новости с YouTube: видео с искусственным интеллектом будут четко маркированы

ЕС оштрафовал китайского гиганта Temu на 200 млн евро за опасные детские игрушки и поврежденные зарядные устройства

ЕС оштрафовал китайского гиганта Temu на 200 млн евро за опасные детские игрушки и поврежденные зарядные устройства

Интернет был частично восстановлен в Иране, говорит руководитель организации.

Интернет был частично восстановлен в Иране, говорит руководитель организации.

Ferrari представляет собой первый электромобиль, он стоит 640 000 долларов.

Ferrari представляет собой первый электромобиль, он стоит 640 000 долларов.

Stellantis представляет амбициозный план для новых моделей

Stellantis представляет амбициозный план для новых моделей

Почему золото не ржавеет? Ученые обнаружили “атомные рассуждения” после выносливости драгоценного металла

Почему золото не ржавеет? Ученые обнаружили “атомные рассуждения” после выносливости драгоценного металла

Маск проиграл битву за контроль над OpenAI, суд выдал Альтману правосудие

Маск проиграл битву за контроль над OpenAI, суд выдал Альтману правосудие

Mercedes - AMG обнаружила свой первый четырехдверный электрический свод

Mercedes - AMG обнаружила свой первый четырехдверный электрический свод

Модель Toyota провалилась на тестах безопасности

Модель Toyota провалилась на тестах безопасности

Пилотный робот “mecha” появится на рынке

Пилотный робот “mecha” появится на рынке

Биткоин опустился ниже $77,000

Биткоин опустился ниже $77,000

Instagram критикуют за “Случаи”

Instagram критикуют за “Случаи”