Dalle-mini とは何ですか?またその仕組みは何ですか?

Dalle-mini は、ユーザーの入力テキストから高品質の画像を生成できるディープラーニングモデルです。これは、OpenAI が 2021 年 1 月にリリースした DALL-E モデルに基づいています。DALL-E は「」の略です。 解きほぐされた言語と潜在表現 」は、テキストと画像を共通の潜在空間にエンコードし、デコードしていずれかのモダリティに戻すことができるトランスフォーマーベースのニューラルネットワークです。

この記事では以下の内容について解説します。

ダルミニとは何ですか？

彼女にミニをあげてくださいは、オープンソースの研究集団である EleutherAI によって作成された、DALL-E の小型で高速なバージョンです。 DALL-E の 120 億個のパラメータと比較して、Dalle-mini は 60 億個のパラメータのみを使用し、単一の GPU で実行できます。 Dalle-mini は、テキスト入力に異なるトークナイザーと語彙も使用するため、さまざまな言語やドメインとの互換性が高まります。

注記 : ユーザーは、次の手順に従って、Dalle-mini を使用して無料の画像を生成できます。リンク。

ダルミニの働きとは何ですか？

Dalle-mini の背後にある主なアイデアは、ニューラルネットワークであるトランスの力です。テキストや画像などの連続データ内の長距離の依存関係や複雑なパターンを学習できます。

トランスフォーマーは、エンコーダーとデコーダーという 2 つの主要な部分で構成されます。最初の部分は入力 (テキストの説明) を受け取り、それを隠しベクトルに変更します。その後、デコーダはそれを受け取り、入力に関連する出力 (画像) を生成します。

ダルミニとダルイーの違いは何ですか？

Dalle-mini と DALL-E は、テキストと画像の両方に共有エンコーダ/デコーダアーキテクチャを使用します。同じネットワークを使用して、両方のモダリティをエンコードおよびデコードできます。これにより、テキストと画像の間の意味論的な関係を捉える共通の潜在空間を学習できるようになります。その後、テキストから画像を作成したり、テキストから画像を作成したりするなど、クロスモーダル生成を実行できるようになります。

ダルミニはどのように機能しますか?

テキストの説明から画像を生成するために、Dalle-mini はまずバイトペアエンコード (BPE) アルゴリズムを使用してテキストをトークン化し、頻度と共起に基づいてテキストをサブワード単位に分割します。

Dalle-mini の内部動作の詳細を見てみましょう。

Dale-miniの内部動作

「」という言葉を考えてみましょう。 遊んでいる 「」は「」に分割される可能性がありますプラ ' そして ' 英 ”。次に、トークンは 8192 個のトークンの語彙を使用して数値 ID にマッピングされます。 ID がエンコーダーに供給され、サイズ 256 x 64 の潜在表現が生成されます。

次に、デコーダは潜在表現を取得し、サイズ 256 x 256 ピクセルの画像を生成します。デコーダは自己回帰プロセスを使用します。これは、前のピクセルと潜在表現に基づいて、各ピクセルを 1 つずつ生成することを意味します。

Dalle-miniを使用してテキストの説明から画像を生成するにはどうすればよいですか?

Dalle-mini を使用して画像からテキストの説明を生成するには、プロンプトウィンドウにテキストを入力します。たとえば、「」と入力します。 ランダムな花の絵 プロンプトで「」を入力し、「走る ' ボタン：

出力は、Dalle-mini が入力テキストに従って関連画像を生成したことを示しています。

結論

Dalle-mini は、クロスモーダル発電における変圧器の可能性を実証する注目すべきモデルです。自然言語の説明からリアルで多様な画像を作成したり、画像から一貫性のある関連性の高いテキストを作成したりできます。また、複数のオブジェクトや属性を 1 つの画像やテキストに組み合わせるなど、複雑な構成も処理できます。この記事では、Dalle-mini とその仕組みについて詳しく説明しました。

Dalle-mini とは何ですか?またその仕組みは何ですか?

ダルミニとは何ですか？

ダルミニの働きとは何ですか？

ダルミニとダルイーの違いは何ですか？

ダルミニはどのように機能しますか?

Dalle-miniを使用してテキストの説明から画像を生成するにはどうすればよいですか?

結論

カテゴリ

人気の投稿

SQL 自己結合

Ubuntu 24.04 に Nginx をインストールする方法

Node.jsでバッファの長さを取得するにはどうすればよいですか?

Linux でマウントを表示する方法

C++ で JSON ファイルを読み書きする方法

パンダはJSONを読む

href 式の機能

C# で配列をリストに変換する方法

PowerShell で Format-List (Microsoft.PowerShell.Utility) コマンドレットを使用する方法

Proxmox VE に USB サムドライブ、HDD、または SSD をマウントする方法

Linux で DNS サーバーにクエリを実行する方法

Systemd サービスを変更する方法

Get-WinEvent PowerShell コマンドレットの使用に関する完全ガイド

Ubuntu に KMPlayer をインストールする方法

誤って削除されたSystemApps、WindowsApps、またはローカルパッケージ。回復する方法は？ -Winhelponline

TypeScript で配列を渡すにはどうすればよいですか?

Amazon ECS サービスとそのクラスターとは何ですか?

既存のフォルダーに「git clone」するためのベストプラクティスは何ですか?

HTML ファイルに別の HTML ファイルを含める

ESP32 DevKitC デュアルアンテナ – DEV-19900 とは何ですか