👓 Ботанские новости
технологии, открытия, исследования и разработки
📊 Средняя температура по больнице: почему бенчмарки врут
Средняя температура по больнице: почему бенчмарки врут
Оказывается, наши любимые бенчмарки для ИИ-моделей врут как сивые мерины. Исследователи выяснили, что общая точность модели часто зависит от пары узких поддоменов, а остальные темы просто игнорируются. Например, в ARC-Easy вопросы по биологии затмевают всё остальное - географию, физику и химию. Так что ваша крутая модель может быть гением в одной области и полным нулём в другой, но бенчмарк этого не покажет.
#ИИ #наука #бенчмарки