Творці Stable Diffusion представили "полегшений" генератор картинок Stable Cascade

Результати, як у Stable Diffusion XL, а генеруються швидше.

Stability AI, розробники Stable Diffusion, представили нову нейромережу Stable Cascade. Вона використовує архітектуру Würstchen, щоб значно зменшити латентний простір. За рахунок цього нейромережа потребує в 16 разів менше ресурсів під час навчання.

Зображення до статті згенеровано штучним інтелектом
Творці Stable Diffusion представили "полегшений" генератор картинок Stable Cascade

З точки зору результатів Stable Cascade нагадує Stable Diffusion XL, а працювати повинна швидше. Але автори зазначають, що нейромережа поки що може некоректно генерувати людей та обличчя.

Серед додаткових функцій - створення варіацій зображенні та промптинг за картинкою. У першому випадку нейромережа експериментує із заданою картинкою: аналізує вихідне зображення і пропонує схожі варіанти. Нижче - приклад генерації варіацій без додаткового промпта, нейромережі просто згодували ліву картинку.

Промптинг із картинкою працює трохи інакше. На вихідне зображення додають шум до втрати деталізації, після чого використовують болванку як основу для генерації. Грубо кажучи, нейромережа створює щось тих самих обрисів, але з іншими деталями, відштовхуючись від текстового опису. У прикладі нижче до вихідного додали 80% шуму і промпт "Людина верхи на гризуні".

Зараз випробувати Stable Cascade можна на Hugging Face - це неофіційне онлайн-демо з урізаними можливостями: генерувати можна тільки за текстовим запитом. Код доступний на GitHub.

Зображення, згенеровані через Stable Cascade, призначені тільки для некомерційного використання.

2024-02-15 11:30:40