LangChain でエージェントとベクターストアを組み合わせるには?

LangChain は言語モデルを設計するフレームワークです。これらのモデルは、大量のデータによって自然言語でトレーニングされます。これらのデータセットを管理するためのデータベースや Chroma などのベクターストアが多数あります。エージェントストアとベクターストアを組み合わせることで、モデルはさまざまなドメインからのデータを使用してパフォーマンスが向上します。 LangChain を使用すると、多くのベクターストアを使用して言語モデルやチャットボットをトレーニングできます。

概要

この投稿では次の内容が表示されます。

エージェントを使用して LangChain で構造化された出力を返す方法

フレームワークのインストール
OpenAI環境
ベクターストアの作成
パスの設定
データのロードと分割
レトリバーの作成

方法 1: エージェントとベクターストアを組み合わせる

ツールの構成
エージェントを初期化する
エージェントをテストする

方法 2: エージェントをルーターとして使用する

ツールの構成
エージェントの初期化とテスト

方法 3: マルチホップベクターストアでエージェントを使用する

ツールの構成
エージェントの初期化とテスト

結論

エージェントを使用して LangChain で構造化された出力を返すにはどうすればよいですか?

開発者はエージェントを使用して、モデルのトレーニングデータを含むデータベース間のルーティングを行います。エージェントは、すべてのステップを保存することで、完全なプロセスの青写真を保持します。エージェントには、プロセスを完了するためにこれらすべてのアクティビティを実行するツールがあります。ユーザーはエージェントを使用してさまざまなデータストアからデータを取得し、モデルを多様にすることもできます。

LangChain でエージェントとベクターストアを組み合わせるプロセスを学ぶには、以下の手順に従ってください。

ステップ 1: フレームワークのインストール

まず、エージェントとベクターストアを結合するための LangChain モジュールとその依存関係をインストールします。

pip インストールラングチェーン

このガイドでは、データをさまざまな場所またはテーブルに保存できる Chroma データベースを使用しています。

pip インストール chromadb

データをより深く理解するには、tiktoken トークナイザーを使用して大きなファイルを小さなチャンクに分割します。

pipインストールtiktoken

OpenAI は、LangChain フレームワークで大規模な言語モデルを構築するために使用できるモジュールです。

pip インストール openai

ステップ 2: OpenAI 環境

ここでの次のステップは、環境をセットアップする OpenAI 公式アカウントから抽出できる OpenAI の API キーを使用します。

輸入あなた
輸入ゲットパス

あなた。約 [ 「OPENAI_API_KEY」】 = ゲットパス。ゲットパス ( 「OpenAI API キー:」 )

次に、今後使用するために、データをローカルシステムから Google コラボレーションにアップロードします。

からグーグル。他輸入ファイル

アップロードされた = ファイル。アップロード ( )

ステップ 3: ベクターストアの作成

このステップでは、アップロードされたデータを保存するためのベクターストアであるタスクの最初のコンポーネントを構成します。ベクターストアを構成するには、LangChain のさまざまな依存関係からインポートできるライブラリが必要です。

からラングチェーン。埋め込み。オープンナイ輸入 OpenAI埋め込み

#Vector は、必要なデータベースまたはベクターを取得するための依存関係を保存します

からラングチェーン。ベクトルストア輸入彩度

#テキストスプリッターは、大きなテキストを小さなチャンクに変換するために使用されます。

からラングチェーン。テキストスプリッター輸入文字テキストスプリッター

からラングチェーン。 llms 輸入 OpenAI

からラングチェーン。 document_loaders 輸入 WebBaseLoader

からラングチェーン。鎖輸入検索QA

llm = OpenAI ( 温度 = 0 )

ステップ 4: パスの設定

ライブラリをインポートした後、データをベクトルストアに保存する前に、ベクトルストアにアクセスするためのパスを設定するだけです。

からパスライブラリ輸入パス

関連パーツ = [ 】
のために p でパス ( 「。」 ) 。絶対 ( ) 。部品 :
関連パーツ。追加する ( p )
もし関連パーツ [ - 3 : 】 == [ 「ラングチェーン」、「ドキュメント」、「モジュール」】 :
壊す
#各データベースのパスを設定するループ内の条件文
doc_path = str ( パス ( *関連パーツ ) / 「組合の状態.txt」 )

ステップ 5: データのロードと分割

ここで、データをロードして小さなチャンクに分割するだけで、読みやすさと理解しやすさが向上します。テキストを数値に変換してベクトル空間を作成し、それを Chorma データベースに保存することで、データの埋め込みを作成します。

からラングチェーン。 document_loaders 輸入テキストローダー

#データセットをそのパスからロードし、その小さなチャンクをデータベースに保存します

ローダ = テキストローダー ( doc_path )

書類 = ローダ。負荷 ( )

テキストスプリッター = 文字テキストスプリッター ( チャンクサイズ = 2000年、チャンク_オーバーラップ = 0 )

テキスト = テキストスプリッター。分割ドキュメント ( 書類 )

#テキストを数値に変換し、埋め込みをデータベースに保存します

埋め込み = OpenAI埋め込み ( )

ドキュメントサーチ = 彩度。 from_documents ( テキスト、埋め込み、コレクション名 = 「連合状態」 )

ステップ 6: レトリバーの作成

エージェントストアとベクターストアを組み合わせるには、LangChain フレームワークの RetrievalQA() メソッドを使用して取得者を作成する必要があります。この取得方法は、データベースを操作するツールとしてエージェントを使用してベクターストアからデータを取得する場合に推奨されます。

連合状態 = 検索QA。 from_chain_type (

llm = llm 、チェーンタイプ = 'もの' 、レトリーバー = ドキュメントサーチ。レトリバーとして ( )

)

別のデータセットをロードして、エージェントを複数のデータセットまたはベクターストアと統合します。

ローダ = WebBaseLoader ( 「https://beta.ruff.rs/docs/faq/」 )

埋め込みベクトルも使用してデータの小さなチャンクを作成した後、ruff データセットを chromadb に保存します。

ドキュメント = ローダ。負荷 ( )
ruff_texts = テキストスプリッター。分割ドキュメント ( ドキュメント )
ラフ_データベース = 彩度。 from_documents ( ruff_texts 、埋め込み、コレクション名 = 「ラフ」 )
ラフ = 検索QA。 from_chain_type (
llm = llm 、チェーンタイプ = 'もの' 、レトリーバー = ruff_db。レトリバーとして ( )
)

方法 1: エージェントとベクターストアを組み合わせる

エージェントとベクターストアの両方を組み合わせて情報を抽出する最初の方法については、以下で説明します。

ステップ 1: ツールを構成する

ベクターストアが設定されたので、プロセスの 2 番目のコンポーネント (エージェント) の構築に進みます。プロセスのエージェントを作成するには、エージェント、ツールなどの依存関係を使用してライブラリをインポートします。

からラングチェーン。エージェント輸入エージェントの初期化
からラングチェーン。エージェント輸入エージェントタイプ
#エージェントを構築するために LangChain からツールを取得する
からラングチェーン。ツール輸入ベースツール
からラングチェーン。 llms 輸入 OpenAI
#言語モデルを構築するためにチェーンから LLMMathChain を取得する
からラングチェーン。鎖輸入 LLMMathChain
からラングチェーン。公共事業輸入 SerpAPIラッパー
からラングチェーン。エージェント輸入道具

QA システムを使用するか、ツールの名前と説明を使用して以前に構成した取得を使用して、エージェントで使用するツールを構成します。

ツール = [
道具 (
名前 = 「一般教書QAシステム」、
機能 = 連合の状態。走る、
説明 = 「ロードされたデータセットに関連する質問に対する回答を、完全な形式の質問として入力して提供します」、
) 、
道具 (
名前 = 「ラフQAシステム」、
機能 = ラフ。走る、
説明 = 「ruff (Python リンター) に関する質問に対する回答を、完全に形成された質問として入力して提供します。」、
) 、
]

ステップ 2: エージェントを初期化する

ツールを構成したら、initializa_agent() メソッドの引数にエージェントを設定するだけです。ここで使用するエージェントは、 ZERO_SHOT_REACT_DESCRIPTION ツール、llm (言語モデル)、および詳細情報とともに:

エージェント = エージェントの初期化 (

ツール、 llm 、エージェント = エージェントタイプ。 ZERO_SHOT_REACT_DESCRIPTION 、冗長な = 真実

)

ステップ 3: エージェントをテストする

引数に質問を含む run() メソッドを使用してエージェントを実行するだけです。

エージェント。走る (

「ジョー・バイデン大統領は演説の中でカンジ・ブラウンについて何と言ったか」

)

次のスクリーンショットは、エージェントのメモリに保存されている観察結果を使用して両方のデータストアから抽出された回答を示しています。

方法 2: エージェントをルーターとして使用する

両方のコンポーネントを組み合わせるもう 1 つの方法は、エージェントをルーターとして使用することです。そのプロセスについては以下で説明します。

ステップ 1: ツールを構成する

エージェントをルーターとして使用するということは、ツールが出力を直接返すように構成されているため、RetrievalQA システムが出力を直接返すことを意味します。

ツール = [
#データからデータを取得するエージェントを構築するために必要なツールを構成する
道具 (
名前 = 「一般教書QAシステム」、
機能 = 連合の状態。走る、
説明 = 「ロードされたデータセットに関連する質問に対する回答を、完全な質問として入力して提供します」、
リターンダイレクト = 真実、
) 、
道具 (
名前 = 「ラフQAシステム」、
機能 = ラフ。走る、
説明 = 「ruff (Python リンター) に関する質問への回答を、完全な質問として入力して提供します。」、
リターンダイレクト = 真実、
) 、
]

ステップ 2: エージェントを初期化してテストする

ツールを設定した後は、initialize_agent() メソッドを使用してルーターとしてのみ使用できるエージェントを設定するだけです。

エージェント = エージェントの初期化 (

ツール、 llm 、エージェント = エージェントタイプ。 ZERO_SHOT_REACT_DESCRIPTION 、冗長な = 真実

)

次のコマンドを実行して、agent.run() メソッドに質問を入力してエージェントをテストします。

エージェント。走る (

「ジョー・バイデン大統領は演説の中でカンジ・ブラウンについて何と言ったか」

)

出力

出力スクリーンショットには、エージェントが RetrievalQA システムによって抽出されたデータセットから質問に対する回答を返しただけであることが表示されます。

方法 3: マルチホップベクターストアでエージェントを使用する

開発者がエージェントストアとベクターストアの両方を組み合わせることができる 3 番目の方法は、マルチホップベクターストアクエリ用です。次のセクションでは、完全なプロセスについて説明します。

ステップ 1: ツールを構成する

最初のステップは、いつものように、データストアからデータを抽出するエージェントを構築するために使用されるツールの構成です。

ツール = [
道具 (
名前 = 「一般教書QAシステム」、
機能 = 連合の状態。走る、
説明 = 「ロードされたデータセットに関連する質問に対する回答を、前の会話の代名詞を参照せずに、完全に形式化された質問として入力して提供します。」、
) 、
道具 (
名前 = 「ラフQAシステム」、
機能 = ラフ。走る、
説明 = 「ロードされたデータセットに関連する質問に対する回答を、前の会話の代名詞を参照せずに、完全に形式化された質問として入力して提供します。」、
) 、
】

ステップ 2: エージェントを初期化してテストする

その後、initialize_agent() メソッドを使用してエージェントの名前を指定してエージェント変数を構築します。

エージェント = エージェントの初期化 (

ツール、 llm 、エージェント = エージェントタイプ。 ZERO_SHOT_REACT_DESCRIPTION 、冗長な = 真実

)

次のコードブロックにはそのような質問が含まれているため、複数の側面または機能を含むマルチホップの質問を使用してエージェントを実行します。

エージェント。走る (

「ruff は Python ノートブックを実行するためにどのツールを使用していますか? 講演者の誰かが講演でそのツールについて言及しましたか?」

)

出力

次のスクリーンショットは、エージェントが質問の複雑さを理解するために質問に取り組む必要があることを示しています。プロセスの前半でアップロードした複数のデータストアから QA システムによって抽出された回答が返されました。

LangChain でエージェントとベクターストアを組み合わせる方法については以上です。

結論

エージェントを LangChain のベクターストアと組み合わせるには、環境をセットアップしてデータセットをロードするためのモジュールのインストールから始めます。最初にデータをより小さなチャンクに分割してデータをロードするようにベクターストアを構成し、次に OpenAI() メソッドを使用して言語モデルを構築します。エージェントをベクトルストアと統合して、さまざまな種類のクエリのデータを抽出するように構成します。この記事では、LangChain でエージェントとベクターストアを組み合わせるプロセスについて詳しく説明しました。

LangChain でエージェントとベクター ストアを組み合わせるには?

エージェントを使用して LangChain で構造化された出力を返すにはどうすればよいですか?

ステップ 1: フレームワークのインストール

ステップ 2: OpenAI 環境

ステップ 3: ベクター ストアの作成

ステップ 4: パスの設定

ステップ 5: データのロードと分割

ステップ 6: レトリバーの作成

方法 1: エージェントとベクター ストアを組み合わせる

ステップ 1: ツールを構成する

ステップ 2: エージェントを初期化する

ステップ 3: エージェントをテストする

方法 2: エージェントをルーターとして使用する

ステップ 1: ツールを構成する

ステップ 2: エージェントを初期化してテストする

方法 3: マルチホップ ベクター ストアでエージェントを使用する

ステップ 1: ツールを構成する

ステップ 2: エージェントを初期化してテストする

結論

カテゴリ

人気の投稿

LangChain でエージェントとベクターストアを組み合わせるには?

ステップ 3: ベクターストアの作成

方法 1: エージェントとベクターストアを組み合わせる

方法 3: マルチホップベクターストアでエージェントを使用する