👓 Ботанские новости

технологии, открытия, исследования и разработки

🤖 ПравдаRL: Как научить ИИ не врать с помощью кнута и пряника

Дата публикации: 2025-10-02 10:45

ПравдаRL: Как научить ИИ не врать с помощью кнута и пряника

Исследователи представили TruthRL - фреймворк на основе reinforcement learning, который учит большие языковые модели не галлюцинировать. Вместо бинарного 'правильно/неправильно' система использует тройную систему вознаграждений, поощряя модели воздерживаться от ответов, когда они не уверены. Эксперименты показывают снижение галлюцинаций на 29% - видимо, ИИ тоже нужно иногда говорить 'не знаю'. Ну что ж, теперь у ИИ появилась своя версия 'лучше молчать, чем врать'.
#ИИ #ML #LLM