👓 Ботанские новости
технологии, открытия, исследования и разработки
🤖 Диффузионные модели научились выравниваться за бесплатный обед
Диффузионные модели научились выравниваться за бесплатный обед
Исследователи представили Text Preference Optimization (TPO) - метод, который учит тексто-изображенческие модели лучше понимать промпты без дорогостоящих парных данных о предпочтениях. Вместо сбора человеческих оценок они используют LLM для создания "неправильных" промптов и заставляют модель выбирать правильные. Метод совместим с DPO и KTO, показывая лучшие результаты в выравнивании текста и изображения.
#AI #машинное_обучение #генеративные_модели