チームの最近の成果:プリシェイプ空間における測地曲面強化に基づくゼロサンプルテキスト誘導画像スタイル転移
私たちのチームは国際学術誌『VISUAL COMPUTER』(インパクトファクター:2.9、中国科学院インパクトファクターランク3区)に論文「Geodesic feature augmentation for zero-shot text-guided diffusion style transfer」を発表しました。本論文は上海大学コンピュータ工学・科学学院を筆頭著機関としています。
画像スタイル転移は、ある画像の内容を別の芸術的スタイルと融合させることを目的としていますが、長年にわたり多くの課題に直面してきました。従来の手法は特定の「スタイル参照画像」に依存するケースが多く、ユーザーの創造性を大きく制限する上、適切な参照画像の探索には多大な時間と労力を要します。近年台頭したテキストガイド手法はより柔軟性を備える一方、核心的な課題に直面しています。それは、新たなスタイルを注入する際に、元の画像の核心的な内容や構造が破壊・歪曲されることをいかに回避するか、すなわち「内容とスタイルのバランス」の問題です。
この課題に対処するため、我々のチームはゼロサンプルテキストガイド型拡散画像スタイル転移手法「FAGStyle」を提案する。本手法は形状空間理論の概念を先進的な拡散生成モデルに革新的に応用したものである。スライディングウィンドウクロッピング技術と測地線曲面上の特徴強化技術をスタイル制御損失関数に統合することで、画像ブロック間の情報相互作用を強化する。さらに、内容の一貫性を確保するため、事前形成自己相関整合性損失関数を統合した。
多数の定性的・定量的実験結果から、多様な抽象的複合スタイルに対して、FAGStyle手法は従来のスタイル転移手法が抱える参照画像への依存性や内容保持の不足を克服し、スタイル強度、忠実度、内容忠実度のいずれにおいても現行主流手法を上回ることが示された。
論文リンク:Geodesic feature augmentation for zero-shot text-guided diffusion style transfer
コードリンク:https://github.com/han-yuexing/FAGStyle