ハグフェイスでデータセットを連結する方法

Hagufeisudedetasettowo Lian Jiesuru Fang Fa



Hugging Face の「データセット」ライブラリは、自然言語処理タスクでデータセットを操作および操作するための便利な方法を提供します。このライブラリが提供する便利な関数の 1 つは concatenate_datasets() です。これを使用すると、複数のデータセットを 1 つのデータセットに連結できます。以下は、 concatenate_datasets() 関数の概要とその使用方法です。

concatenate_datasets()

説明:

Hugging Face の「datasets」ライブラリは、concatenate_datasets() 関数を提供します。これは、複数のデータセットを連結し、指定された軸に沿って単一のデータセットに結合するために使用されます。この機能は、同じ構造を共有する複数のデータセットがあり、それらを統合データセットにマージしてさらなる処理と分析を行う場合に特に便利です。







構文:



から データセット 輸入 データセットの連結

連結されたデータセット = データセットの連結 ( データセット = 0 情報 = なし )

パラメーター:

データセット (データセットのリスト): 連結するデータセットのリスト。これらのデータセットには互換性のある機能が必要です。つまり、同じスキーマ、列名、データ型を持つ必要があります。



(int、オプション、デフォルト = 0): 連結を実行する軸。ほとんどの NLP データセットでは、データセットが垂直方向に連結されることを意味するデフォルト値 0 が使用されます。 axis=1 に設定すると、データセットがフィーチャとして異なる列を持っていると想定して、データセットが水平方向に連結されます。





情報 (datasets.DatasetInfo、オプション): 連結されたデータセットに関する情報。指定しない場合、情報はリストの最初のデータセットから推測されます。

戻り値:

連結されたデータセット (データセット): すべての入力データセットを連結した結果のデータセット。



例:

# ステップ 1: データセット ライブラリをインストールする

# pip を使用してインストールできます。

# !pip データセットをインストールする

# ステップ 2: 必要なライブラリをインポートする

から データセット 輸入 ロードデータセット データセットの連結

# ステップ 3: IMDb 映画レビュー データセットをロードする

# 2 つの IMDb データセットを使用します (1 つは肯定的なレビュー用)

#そしてもう1つは否定的なレビュー用です。

# 2500 件の肯定的なレビューをロード

データセット_pos = ロードデータセット ( 「imdb」 スプリット = 「電車[:2500]」 )

# 2500 件の否定的なレビューをロードする

データセット_ネグ = ロードデータセット ( 「imdb」 スプリット = 「電車[-2500:]」 )

# ステップ 4: データセットを連結する

# 両方のデータセットを axis=0 に沿って連結します。

同じスキーマ ( 同じ機能 )

連結されたデータセット = データセットの連結 ( [ データセット_pos データセット_ネグ ] )

# ステップ 5: 連結されたデータセットを分析する

# 簡単にするために、正と負の数を数えてみましょう

連結されたデータセット内の # 件のレビュー。

num_positive_reviews = ( 1 のために ラベル

連結されたデータセット [ 'ラベル' ] もし ラベル == 1 )

num_negative_reviews = ( 1 のために ラベル

連結されたデータセット [ 'ラベル' ] もし ラベル == 0 )

# ステップ 6: 結果を表示する

印刷する ( 「肯定的なレビューの数:」 num_positive_reviews )

印刷する ( 「否定的なレビューの数:」 num_negative_reviews )

# ステップ 7: 連結されたデータセットからレビューの例をいくつか印刷する

印刷する ( \n レビューの例: )

のために 範囲 ( 5 ) :

印刷する ( f 「{i + 1} を確認: {concatenated_dataset['text'][i]}」 )

出力:

以下は、2 つの IMDb 映画レビュー データセットを連結する、Hugging Face の「データセット」ライブラリ プログラムの説明です。ここでは、プログラムの目的、その使用法、およびコードに含まれる手順について説明します。

コードの各ステップについてさらに詳しく説明します。

# ステップ 1: 必要なライブラリをインポートする

から データセット 輸入 ロードデータセット データセットの連結

このステップでは、プログラムに必要なライブラリをインポートします。 IMDb 映画レビュー データセットをロードするには「load_dataset」関数が必要で、後でそれらを連結するには「concatenate_datasets」関数が必要です。

# ステップ 2: IMDb 映画レビュー データセットをロードする

# 2500 件の肯定的なレビューをロード

データセット_pos = ロードデータセット ( 「imdb」 スプリット = 「電車[:2500]」 )

# 2500 件の否定的なレビューをロードする

データセット_ネグ = ロードデータセット ( 「imdb」 スプリット = 「電車[-2500:]」 )

ここでは、「load_dataset」関数を使用して、IMDb データセットの 2 つのサブセットをフェッチします。 「dataset_pos」には 2500 件の肯定的なレビューが含まれ、「dataset_neg」には 2500 件の否定的なレビューが含まれます。 Split パラメーターを使用して、ロードするサンプルの範囲を指定します。これにより、データセット全体のサブセットを選択できるようになります。

# ステップ 3: データセットを連結する

連結されたデータセット = データセットの連結 ( [ データセット_pos データセット_ネグ ] )

このステップでは、IMDb データセットの 2 つのサブセットを「concatenated_dataset」と呼ばれる 1 つのデータセットに連結します。 「concatenate_datasets」関数を使用し、連結する 2 つのデータセットを含むリストを渡します。両方のデータセットに同じ特徴があるため、それらを axis=0 に沿って連結します。これは、行が互いに積み重ねられることを意味します。

# ステップ 4: 連結されたデータセットを分析する

num_positive_reviews = ( 1 のために ラベル

連結されたデータセット [ 'ラベル' ] もし ラベル == 1 )

num_negative_reviews = ( 1 のために ラベル

連結されたデータセット [ 'ラベル' ] もし ラベル == 0 )

ここでは、連結されたデータセットの簡単な分析を実行します。リスト内包表記と「sum」関数を使用して、肯定的なレビューと否定的なレビューの数を数えます。を繰り返します。 「concatenated_dataset」の「label」列を参照し、正のラベル (1) または負のラベル (0) が検出されるたびにカウントを増分します。

# ステップ 5: 結果を表示する

印刷する ( 「肯定的なレビューの数:」 num_positive_reviews )

印刷する ( 「否定的なレビューの数:」 num_negative_reviews )

このステップでは、分析の結果、つまり連結されたデータセット内の肯定的なレビューと否定的なレビューの数を出力します。

# ステップ 6: レビューの例をいくつか印刷する

印刷する ( \n レビューの例: )

のために 範囲 ( 5 ) :

印刷する ( f 「{i + 1} を確認: {concatenated_dataset['text'][i]}」 )

最後に、連結されたデータセットからのレビューの例をいくつか紹介します。データセット内の最初の 5 つの例をループし、「テキスト」列を使用してテキスト コンテンツを出力します。

このコードは、Hugging Face の「データセット」ライブラリを使用して、IMDb 映画レビュー データセットをロード、連結、分析する簡単な例を示しています。これは、NLP データセットの処理を合理化するライブラリの機能を強調し、より洗練された自然言語処理モデルとアプリケーションを構築する可能性を示しています。

結論

Hugging Face の「データセット」ライブラリを使用する Python プログラムは、2 つの IMDb 映画レビュー データセットの連結を正常に示しています。肯定的なレビューと否定的なレビューのサブセットをロードすることにより、プログラムは concatenate_datasets() 関数を使用してそれらを 1 つのデータセットに結合します。次に、結合されたデータセット内の肯定的なレビューと否定的なレビューの数を数えることにより、単純な分析を実行します。

「データセット」ライブラリは、NLP データセットの処理と操作のプロセスを簡素化し、研究者、開発者、NLP 実践者にとって強力なツールになります。ユーザーフレンドリーなインターフェイスと広範な機能を備えたライブラリにより、データの前処理、探索、変換が簡単に行えます。このドキュメントで紹介されているプログラムは、ライブラリを活用してデータの連結と分析タスクを合理化する方法を示す実践的な例として機能します。

実際のシナリオでは、このプログラムは感情分析、テキスト分類、言語モデリングなどのより複雑な自然言語処理タスクの基盤として機能します。 「データセット」ライブラリを使用すると、研究者や開発者は大規模なデータセットを効率的に管理し、実験を容易にし、最先端の NLP モデルの開発を加速できます。全体として、Hugging Face の「データセット」ライブラリは、自然言語の処理と理解の進歩を追求する上で不可欠な資産として機能します。