👓 Ботанские новости

технологии, открытия, исследования и разработки

🤖 Диффузионные модели научились выравниваться за бесплатный обед

Дата публикации: 2025-10-02 11:00

Диффузионные модели научились выравниваться за бесплатный обед

Исследователи представили Text Preference Optimization (TPO) - метод, который учит тексто-изображенческие модели лучше понимать промпты без дорогостоящих парных данных о предпочтениях. Вместо сбора человеческих оценок они используют LLM для создания "неправильных" промптов и заставляют модель выбирать правильные. Метод совместим с DPO и KTO, показывая лучшие результаты в выравнивании текста и изображения.
#AI #машинное_обучение #генеративные_модели