Что такое Stable Diffusion?
Stable Diffusion – это модель генеративного искусственного интеллекта (генеративного ИИ), с помощью которой можно преобразовать текст и детализирующие подсказки в уникальные фотореалистичные изображения. Первоначально она была запущена в 2022 году. Stable Diffusion можно использовать для создания не только изображений, но и видеороликов и анимаций. Модель основана на технологии диффузии и использует скрытое пространство, что значительно снижает требования к обработке. Кроме того, ее можно запускать на настольных компьютерах или ноутбуках, оснащенных графическими процессорами. С помощью трансферного обучения модель Stable Diffusion можно точно настроить под свои конкретные потребности, используя для этого всего пять изображений.
Модель Stable Diffusion доступна для всех по либеральной лицензии. Этим модель Stable Diffusion и отличается от ее предшественников.
Почему модель Stable Diffusion особенная?
Модель Stable Diffusion особенная, потому что она доступна и проста в использовании. Она может работать на графических контроллерах потребительского уровня. Впервые любой желающий может загрузить модель и создать свои изображения. Вы также можете контролировать ключевые гиперпараметры, такие как количество ступеней шумоподавления и степень применяемого шума.
Stable Diffusion удобна в использовании и не требует дополнительной информации для создания изображений. У Stable Diffusion есть активное сообщество, поэтому существует достаточно материалов и практических руководств. Программное обеспечение выпущено под лицензией Creative ML OpenRAIL-M, которая позволяет использовать, изменять и распространять измененное программное обеспечение. Если вы выпускаете производное программное обеспечение, нужно выпустить его под той же лицензией и приложить копию оригинальной лицензии Stable Diffusion.
Почему важно управлять инцидентами?
Управление инцидентами помогает ИТ-командам наиболее эффективно реагировать на любой инцидент. Оно создает систему, в которой ИТ-команды могут фиксировать все необходимые детали для дальнейшего изучения. Управление инцидентами можно рассматривать как руководство по восстановлению нормальной работы в кратчайшие сроки с минимальным ущербом для внутренних и внешних клиентов.
Без наличия соответствующих систем восстановление после инцидентов неизбежно приводит к повторным ошибкам, нецелевому использованию ресурсов и усилению негативного воздействия на организацию. Далее мы обсудим некоторые преимущества управления инцидентами.
Уменьшение количества инцидентов
Наличие сценария действий в случае возникновения инцидентов помогает командам устранять их в кратчайшие сроки. Вместе с тем управление инцидентами со временем снижает их количество. Если заранее выявлять риски в процессе управления инцидентами, снижается вероятность их возникновения в будущем. Сбор полной информации об инциденте способствует проактивному устранению последствий и помогает предотвратить возникновение подобных инцидентов в будущем.
Повышение производительности
При использовании эффективного и чувствительного мониторинга в управлении ИТ-инцидентами можно выявлять незначительные снижения качества и расследовать их. Вы также можете найти новые способы повышения производительности. Со временем ИТ-команда сможет оценить качество шаблонов идентификации инцидентов, что может обеспечить упреждающие исправления и непрерывное обслуживание.
Эффективное сотрудничество
Для восстановления работы после инцидента разным командам часто приходится сотрудничать. Вы можете значительно улучшить их совместную работу, если определите правила общения для всех сторон в рамках реагирования на инциденты. Вы также можете более эффективно управлять мнениями заинтересованных сторон.
Как работает Stable Diffusion?
Как модель диффузии, Stable Diffusion отличается от многих других моделей генерации изображений. В принципе, модели диффузии используют гауссовский шум для кодирования изображения. Затем они используют предсказатель шума и обратную диффузию для воссоздания изображения.
Помимо технических отличий, модель Stable Diffusion уникальна тем, что она не использует пиксельное пространство изображения. Вместо этого используется скрытое пространство более низкой размерности.
Причина этого в том, что цветное изображение с разрешением 512 x 512 пикселей имеет 786 432 возможных значения. Для сравнения: Stable Diffusion использует сжатое изображение, которое в 48 раз меньше (16 384 значения). Это значительно снижает требования к обработке. Вот почему вы можете использовать Stable Diffusion на настольном компьютере с графическим процессором NVIDIA с 8 ГБ оперативной памяти. Меньшее скрытое пространство работает, потому что естественные изображения не являются случайными. Stable Diffusion использует файлы вариационного автокодировщика (VAE) в дешифровщике для рисования мелких деталей, например глаз.
Модель Stable Diffusion версии 1 была обучена на трех наборах данных, собранных в LAION с помощью Common Crawl. Сюда входит набор данных изображений LAION-Aesthetics версии 2.6 с рейтингом эстетики 6 или выше.
Какую архитектуру использует Stable Diffusion?
Основными архитектурными компонентами Stable Diffusion являются вариационный автокодировщик, прямая и обратная диффузия, предсказатель шума и функция учитывания текста во время генерации.
Вариационный автокодировщик
Вариационный автокодировщик состоит из отдельных кодировщика и дешифратора. Кодировщик сжимает изображение с разрешением 512 x 512 пикселей до 64 x 64 пикселей в скрытом пространстве, которым легче управлять. Дешифратор восстанавливает модель из скрытого пространства в полноразмерное изображение с разрешением 512 x 512 пикселей.
Прямая диффузия
Прямая диффузия постепенно добавляет к изображению гауссовский шум до тех пор, пока не останутся только случайные помехи. По окончательному изображению с высоким уровнем шумов невозможно определить, каким оно было. Во время обучения все изображения проходят через этот процесс. Прямая диффузия в дальнейшем не используется, за исключением случаев преобразования изображения в изображение.
Обратная диффузия
Этот процесс, по сути, является параметризованным процессом, который итерационно отменяет прямую диффузию. Например, можно обучить модель, используя только два изображения – кошки и собаки. В таком случае с применением обратной диффузии вы получите изображение либо кошки, либо собаки, но ничего промежуточного. На практике в целях обучения модели используются миллиарды изображений и подсказок для создания уникальных образов.
Предсказатель шума (U-Net)
Предсказатель шума играет ключевую роль в шумоподавлении изображений. Для этого Stable Diffusion использует модель U-Net. Модели U-Net – это сверточные нейронные сети, изначально разработанные для сегментации биомедицинских изображений. В частности, Stable Diffusion использует модель остаточной нейронной сети (ResNet), разработанную для машинного зрения.
Предсказатель шума оценивает количество шума в скрытом пространстве и убирает его из изображения. Он повторяет этот процесс определенное количество раз, уменьшая уровень шума в соответствии с указанными пользователем шагами. Предсказатель шума чувствителен к условным подсказкам, которые помогают определить конечное изображение.
Учитывание текста во время генерации
Наиболее распространенной формой учитывания текста являются текстовые подсказки. Токенизатор CLIP анализирует каждое слово в текстовой подсказке и встраивает эти данные в вектор из 768 значений. В строке подсказки можно использовать до 75 токенов. Stable Diffusion подает эти подсказки из кодировщика текста в предсказатель шума U-Net с помощью текстового трансформатора. Настроив начальное число на генератор случайных чисел, вы можете создавать разные изображения в скрытом пространстве.
Что можно делать с помощью Stable Diffusion?
Stable Diffusion обеспечивает заметно улучшенную модель преобразования текста в изображение. Эта модель широко доступна и требует значительно меньшей вычислительной мощности, чем многие другие модели преобразования текста в изображение. Ее возможности включают преобразование текста в изображение и изображения в изображение, генерацию графических произведений, редактирование изображений и создание видео.
Преобразование текста в изображение
Это наиболее распространенный способ использования Stable Diffusion. Модель Stable Diffusion генерирует изображение с помощью текстовой подсказки. Вы можете создавать различные изображения, изменяя затравочное значение для генератора случайных чисел или меняя режим шумоподавления для различных эффектов.
Преобразование изображения в изображение
Можно создавать новые изображения, используя входное изображение и текстовую подсказку. Часто для этого используется эскиз и подходящая подсказка.
Создание графики, иллюстраций и логотипов
Используя набор подсказок, можно создавать иллюстрации, графику и логотипы в различных стилях. Естественно, невозможно заранее определить результат, хотя вы можете управлять созданием логотипа с помощью эскиза.
Редактирование и ретушь изображений
Вы можете использовать Stable Diffusion для редактирования и ретуши фотографий. С помощью AI Editor загрузите изображение и используйте ластик, чтобы замаскировать область, которую вы хотите отредактировать. Затем, сгенерировав подсказку, определяющую, чего вы хотите добиться, отредактируйте изображение или дорисуйте детали. Например, можно восстановить старые фотографии, удалить объекты со снимков, изменить особенности изображения и добавить новые элементы в него.
Создание видео
Используя такие функции, как Deforum от GitHub, вы можете создавать короткие видеоклипы и анимации с помощью Stable Diffusion. Другое применение – добавление различных стилей в видео. Можно также анимировать фотографии, создавая видимость движения, например течения воды.
Как Stable Diffusion от AWS может помочь?
Amazon Bedrock – самый простой способ создавать и масштабировать приложения с генеративным искусственным интеллектом на базовых моделях. Amazon Bedrock – это полностью управляемый сервис, который предоставляет ведущие базовые модели, включая Stable Diffusion, через API, благодаря чему вы можете выбрать модель, наиболее подходящую для вашего варианта использования, из различных FM. С помощью Bedrock вы можете ускорить разработку и развертывание масштабируемых, надежных и безопасных видов применения генеративного искусственного интеллекта без управления инфраструктурой.
Amazon SageMaker JumpStart – это центр МО, содержащий модели, алгоритмы и решения. Он предоставляет доступ к сотням базовых моделей, включая самые эффективные из общедоступных, в число которых входит Stable Diffusion. Продолжается добавление новых базовых моделей, включая Stable Diffusion XL 1.0 – последнюю версию модели генерации изображений.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.