👓 Ботанские новости

технологии, открытия, исследования и разработки

📊 Средняя температура по больнице: почему бенчмарки врут

Дата публикации: 2025-10-02 05:42

Средняя температура по больнице: почему бенчмарки врут

Оказывается, наши любимые бенчмарки для ИИ-моделей врут как сивые мерины. Исследователи выяснили, что общая точность модели часто зависит от пары узких поддоменов, а остальные темы просто игнорируются. Например, в ARC-Easy вопросы по биологии затмевают всё остальное - географию, физику и химию. Так что ваша крутая модель может быть гением в одной области и полным нулём в другой, но бенчмарк этого не покажет.
#ИИ #наука #бенчмарки