AudioLDM 2: генерация звуков
AudioLDM 2 — это модель text-to-audio, которая генерирует реалистичные звуки по текстовому описанию: от саунд-эффектов и фоновых сцен до музыки и речи. Подход основан на латентной диффузии: вместо “рисования” аудио напрямую модель работает в компактном…
Runway Motion Brush: управление движением в видео
Runway Motion Brush — это инструмент Runway для управления движением в генеративном видео: пользователь задаёт области и направление анимации кистью. Для подготовки материала использована официальный материал Runway о Motion Brush, а сама статья…
StableLM 2: открытая LLM от Stability AI
Stability AI StableLM — семейство открытых языковых моделей, ориентированных на практическое применение: генерацию текста, помощь в кодинге, суммаризацию, ответы на вопросы и работу в чат-режиме. В актуальной линейке особое внимание привлекает Stable LM…
RedPajama: открытая модель от Together AI
Together AI RedPajama — это семейство открытых языковых моделей и датасетов, созданных в рамках инициативы RedPajama и поддерживаемых экосистемой Together AI. Проект ориентирован на воспроизводимое обучение LLM и практическое применение в продуктах:…
GPT-NeoX: мощная открытая модель
EleutherAI GPT-NeoX — это открытая экосистема для обучения и запуска больших автокомплит-моделей (autoregressive Transformer) на GPU-кластерах. Базовая точка входа для практики — официальный репозиторий GPT-NeoX, где собраны конфиги, утилиты подготовки…
ByteDance Seedream: генерация и редактирование
ByteDance Seedream — это семейство моделей для text-to-image (генерации изображений по тексту) и image editing (редактирования по инструкции и с референсами), ориентированное на профессиональные креативы: постеры, инфографику, визуальные концепты и…
BigScience BLOOM: многоязычная LLM
BigScience BLOOM — это крупная открытая многоязычная языковая модель, созданная коллаборацией BigScience для генерации текста и исследований. Для подготовки материала использована официальный анонс BLOOM от BigScience, а сама статья оформлена так, как…
Runway Gen-4.5: подробная инструкция
Runway Gen-4.5 — это продвинутая модель генерации видео на базе искусственного интеллекта, предназначенная для создания кинематографического контента, анимации и визуальных эффектов. Платформа позволяет генерировать ролики из текста, изображений и…
Synthesia: видео с AI-аватарами
Видео‑платформа для корпоративных роликов с аватарами. Коротко о модели закрытая Категория Video Вход текст Выход видео Доступ Synthesia Локально нет Веса нет Лучше всего: корп‑обучение и презентации Риски/ограничения: ограничения по стилям Официальные…
OpenAI GPT: мощные языковые модели нового поколения
Флагманские модели для рассуждений, кода, агентов и мультимодальных задач. В ChatGPT часть версий может меняться по датам, в API доступны стабильнее. Коротко о модели закрытая Категория LLM Вход текст, изображения (в зависимости от модели) Выход текст,…