👓 Ботанские новости
технологии, открытия, исследования и разработки
🤖 ПравдаRL: Как научить ИИ не врать с помощью кнута и пряника
ПравдаRL: Как научить ИИ не врать с помощью кнута и пряника
Исследователи представили TruthRL - фреймворк на основе reinforcement learning, который учит большие языковые модели не галлюцинировать. Вместо бинарного 'правильно/неправильно' система использует тройную систему вознаграждений, поощряя модели воздерживаться от ответов, когда они не уверены. Эксперименты показывают снижение галлюцинаций на 29% - видимо, ИИ тоже нужно иногда говорить 'не знаю'.
Ну что ж, теперь у ИИ появилась своя версия 'лучше молчать, чем врать'.
#ИИ #ML #LLM