PolyU и OPPO предлагат Vision-Only Super-Resolution Framework VOSR

Изследователи от Хонконгския политехнически университет (PolyU) и OPPO представиха нова генеративна рамка за супер разделителна способност на изображението, VOSR (Vision-Only Super-Resolution), със свързаната статия, приета от CVPR 2026.

Проучването оспорва преобладаващия подход за използване на широкомащабни дифузионни модели текст към изображение (T2I) за задачи със супер разделителна способност. Съществуващите методи обикновено разчитат на предварително обучение с масивни набори от данни за изображения и текст, преди да се адаптират към супер разделителна способност, което води до високи изчислителни разходи и разходи за данни. Вместо това VOSR възприема подход само за зрението, елиминирайки необходимостта от мултимодално предварително обучение.

Рамката е изградена върху архитектура с двоен клон, която съчетава структурна информация от входове с ниска разделителна способност с визуална семантика на високо ниво. Структурният клон запазва пространствената последователност, докато семантичният клон предоставя контекстуални насоки за намаляване на неяснотата при генерирането на детайли. Основата на модела е базирана на дифузионен трансформатор (DiT) с модифициран механизъм за насочване, предназначен да подобри точността на входното изображение.

За да се справят с ефективността на извода, изследователите допълнително въвеждат едноетапен метод на дестилация, компресирайки многоетапното генериране в едноетапен процес, като същевременно поддържат качеството на продукцията.

Експерименталните резултати показват, че VOSR последователно превъзхожда предишните методи за супер разделителна способност само за зрение в множество показатели, особено в показателите за качество на възприятието. В няколко случая ефективността му е сравнима с тази на базираните на T2I подходи. В набори от данни в реалния свят моделът демонстрира стабилно качество на реконструкцията с подобрена структурна прецизност и намалени артефакти.

По отношение на ефективността, многоетапната версия на VOSR постига по-бързи изводи от повечето методи, базирани на T2I, докато едностъпковият вариант дава резултати за приблизително 0,095 секунди. Моделът също така поддържа относително по-малък размер на параметъра при същата изходна резолюция.

Проучването освен това отбелязва, че измерено чрез общата скала на данните за обучението, VOSR изисква само около една десета от разходите за обучение на представителни базирани на T2I методи за супер разделителна способност.

Констатациите предполагат, че генеративните рамки само за зрение могат да осигурят по-ефективна алтернатива за супер разделителна способност на изображението, балансирайки качеството на възприемане, структурната точност и изчислителните разходи.

Източник: AIOrang

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin