

На 27 февруари 2026 г. Kunlun Tech официално пусна своя мултимодален модел на видео основа, SkyReels-V4. Моделът поддържа разделителна способност до 1080p, честота на кадрите 32 FPS и до 15 секунди продукция с кино качество, постигайки прецизна синхронизация между аудио и видео, като същевременно изчерпателно покрива работния процес за създаване на видео на едно място от концептуалната концепция до детайлното редактиране.
Според последните стандартизирани резултати от тестове, публикувани от независимата фирма за анализи Artificial Analysis, SkyReels-V4 постигна второ място в световен мащаб в списъка с активни модели за текст към видео T2V (включително аудио) и се класира на четвърто място в глобалния исторически общ списък на всички T2V модели. Неговата производителност надмина настоящите масови модели като Veo 3.1, Sora 2, Vidu Q3 и Wan 2.6.
SkyReels-V4 поддържа вход от множество модалности, включително текст, изображения и видео, превръщайки се в първия в света основен модел за видео, който едновременно поддържа мултимодален вход, съвместно аудио-видео генериране и унифицирани задачи за генериране и редактиране. Моделът се отличава с основното предимство на “пълна модална справка,” безпроблемно получаване на богати инструкции като текст, изображения, видеоклипове, маски и аудио препратки. Създателите вече не трябва да превключват между множество инструменти; те могат да завършат създаването от край до край от концептуалната концепция до професионален клас аудио-видео синхронизиран изход в рамките на една мрежа.
По отношение на техническата архитектура, SkyReels-V4 възприема симетрична MMDiT архитектура с двоен поток, постигайки дълбоко преплитане на ниво функции между аудио и видео чрез двупосочни механизми за кръстосано внимание. Обръщайки внимание на проблема с различните времеви разделителни способности между аудио и видео, екипът въведе RoPE ротационна технология за кодиране на честотата, като гарантира, че и двата модалности се грижат един за друг според същия времеви ритъм. Системата също така използва унифицирана рамка за конкатенация на канали, опростявайки различни сложни операции за редактиране в проблеми с рисуване под специфични конфигурации на маска, и въвежда обучаем механизъм за оскъдно внимание на видео (VSA), намалявайки разходите за изчисляване на вниманието приблизително три пъти, без да прави компромис с качеството.
Екипът на Kunlun Tech възприе парадигма на многоетапно прогресивно обучение, започвайки от основно 256px предварително обучение текст към изображение и постепенно разширявайки се до смесено обучение с много разделителни способности при 480px, 720px и 1080p. В последния контролиран етап на фина настройка те използваха 5 милиона мултимодални видео данни, комбинирани с 1 милион ръчно избрани висококачествени видеоклипове за окончателно усъвършенстване.
В цялата екосистема на Kunlun Tech AI са създадени четири основни фамилии модели: серията Skywork от големи модели, Mureka музикални и аудио модели, SkyReels видео модели и модели на Matrix Game world. Новоиздаденият SkyReels-V4 запълва ключова част от тази екосистема за пълномодално производство на аудио-визуално съдържание, с бъдеща поддръжка за над 60 секунди видео генериране, интерактивно редактиране в реално време и отворен API с пълна синергия на продуктовата линия.
Източник: Minds in AI
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта