ブレークによるシーンの再構築に革命を起こす
人間は、複雑なシーンを構成要素に分解し、さまざまなシナリオで想像する能力を自然に備えています。 ボウルの上に横たわる生き物を描いた陶芸作品のスナップショットを考えると、同じ生き物をさまざまな姿勢や場所で想像したり、新しい環境で同じボウルを想像したりすることは簡単かもしれません。 ただし、今日の生成モデルには、この種のタスクをサポートする必要があります。 最近の研究では、新たに追加された特殊なテキスト埋め込みを最適化するか、単一のアイデアの多くの画像を考慮してモデルの重みを微調整することによって、大規模なテキストから画像へのモデルをパーソナライズして、ユニークな状況でこの概念のインスタンスを合成できるようにすることが提案されています。
この研究では、エルサレムのヘブライ大学、Google Research、ライヒマン大学、テルアビブ大学の研究者が、テキストシーンの分解のための新しいシナリオを提示しています。さまざまなタイプのいくつかの概念が含まれる可能性のあるシーンの 1 つの画像が与えられた場合、彼らの目的は次のとおりです。アイデアごとに特定のテキスト トークンを分離します。 これにより、特定のコンセプトや多くのテーマの組み合わせを強調する、口頭での指示から革新的な画像を作成することができます。 カスタマイズ アクティビティから学びたい、または抽出したいアイデアは、時々しか明らかにならないため、潜在的に不明確になります。 これまでの作品では、一度に 1 つのトピックに焦点を当て、さまざまな写真を使用してさまざまな設定でその概念を示すことで、この曖昧さに対処してきました。 ただし、単一画像の状況に移行するときに問題を解決するには、別の方法が必要です。
彼らは、抽出したい概念に関するさらなる情報を追加するために、入力画像に一連のマスクを追加することを具体的に提案しています。 これらのマスクは、ユーザーが提供する自由形式のマスク、または自動セグメンテーション アプローチ (など) によって生成されたマスクの場合があります。 2 つの主要な技術である TI と DB をこの環境に適応させると、再構成と編集可能性のトレードオフが示されます。 TI は新しいコンテキストでアイデアを適切に再構築できませんが、DB はオーバーフィッティングのため、より多くのコンテキスト制御が必要です。 この研究では、著者らは、学習した概念の同一性の維持と過剰適合の防止との間でうまく妥協する独自のカスタマイズ パイプラインを提案しています。
図1は、4 つの主要な部分からなる私たちの方法論の概要を示しています。 (1) 作成されたアイデアのさまざまな組み合わせを処理できるようにモデルをトレーニングするために、トークンの新しいサブセットが毎回サンプリングされるユニオン サンプリング アプローチを使用します。 さらに、(2) 過学習を防ぐために、最近挿入されたトークンのみを高い学習率で最適化することから始まり、第 2 フェーズでは学習率を下げてモデルの重みを継続する 2 フェーズのトレーニング体制を採用しています。 。 目的のアイデアは、(3) 偽装された拡散損失を使用して再構成されます。 第 4 に、学習したアイデア間のもつれを解くことを促進するために、独自の交差注意喪失を採用します。
彼らのパイプラインには、図 1 に示す 2 つのステップが含まれています。入力画像を再構築するには、まず特殊なテキスト文字 (ハンドルと呼ばれる) のグループを識別し、モデルの重みをフリーズしてから、ハンドルを最適化します。 彼らは、第 2 フェーズでモデルの重みの微調整に切り替えながら、ハンドルの改良を続けます。 彼らの手法では、概念の抽出を解きほぐすこと、または各ハンドルが 1 つのターゲット概念のみに接続されていることを確認することが強く強調されています。 また、概念の組み合わせを示すグラフィックを開発するために、カスタマイズ手順をアイデアごとに独立して実行することはできないことも理解しています。 この発見に応えて、私たちはこのニーズを満たし、アイデアの組み合わせの作成を向上させるトレーニング アプローチであるユニオン サンプリングを提供します。
これは、標準の拡散損失を修正したものであるマスクされた拡散損失を利用して行われます。 ハンドルが複数のコンセプトにリンクされている場合でも、この損失によってモデルにペナルティが課されることはなく、各カスタム ハンドルが意図したアイデアを実現できることが保証されます。 彼らの主な発見は、シーンのレイアウトと相関することが知られているクロスアテンションマップにさらに損失を課すことで、そのようなもつれを罰する可能性があるということです。 追加の損失により、各ハンドルはターゲットコンセプトがカバーする領域のみに集中します。 彼らは、その手法をベンチマークと比較するために、タスクに対していくつかの自動測定を提供します。
彼らは、順番に以下の貢献を行った。(1) テキストシーンの分解という新しいタスクを導入した。 (2) 彼らは、この状況に対して、一連の解きほぐされたコンセプト ハンドルを学習することで、コンセプトの忠実性とシーンの編集可能性のバランスを取る新しい方法を提案しています。 (3) いくつかの自動評価指標を提案し、ユーザー調査とともにそれらを使用して、アプローチの有効性を実証します。 また、ユーザー調査も行っており、人間の評価者も彼らの方法論を気に入っていることがわかります。 最後の部分では、彼らは自分たちの技術のいくつかの応用例を提案しています。
チェックアウトしてください紙そしてプロジェクトページ。忘れずに参加してください23,000 以上の ML SubReddit、Discordチャンネル、 そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。 上記の記事に関してご質問がある場合、または何か見逃した場合は、お気軽にメールでお問い合わせください。[email protected]
🚀 AI Tools Club で 100 年代の AI ツールをチェックしてください
Aneesh Tickoo は、MarktechPost のコンサルティング インターンです。 彼は現在、ビライのインド工科大学 (IIT) でデータ サイエンスと人工知能の学士号を取得中です。 彼はほとんどの時間を、機械学習の力を活用することを目的としたプロジェクトに取り組んでいます。 彼の研究対象は画像処理であり、それを中心としたソリューションの構築に熱心に取り組んでいます。 彼は人々とつながり、興味深いプロジェクトに協力することが大好きです。
図 1 ペーパー プロジェクト ページ。 23,000 以上の ML SubReddit Discord チャンネルの電子メール ニュースレター [email protected] 🚀 AI Tools Club で 100 の AI ツールをチェックしてください