実験で CSV ファイルをトラッキングする

W&B の Python ライブラリを使用して CSV ファイルをログに記録し、W&B Dashboard で可視化します。W&B Dashboard は、機械学習モデルの結果を整理・可視化するための中心的な場所です。これは特に、W&B にログされていない過去の機械学習実験に関する情報を含む CSV ファイルがある場合や、データセットを含む CSV ファイルがある場合に有用です。

データセットのCSVファイルをインポートしてログに記録する

CSV ファイルの内容を再利用しやすくするために、W&B Artifacts を活用することをおすすめします。

まずは CSV ファイルをインポートします。次のコードスニペットでは、iris.csv というファイル名を自分の CSV ファイル名に置き換えてください。

import wandb
import pandas as pd

# CSVを新しいDataFrameに読み込む
new_iris_dataframe = pd.read_csv("iris.csv")

CSV ファイルを W&B Table に変換して、W&B ダッシュボードを活用します。

# DataFrameをW&B Tableに変換する
iris_table = wandb.Table(dataframe=new_iris_dataframe)

次に、W&B のアーティファクトを作成し、そのアーティファクトにテーブルを追加します。

# テーブルをアーティファクトに追加して行数の上限を
# 200000に増やし、再利用しやすくする
iris_table_artifact = wandb.Artifact("iris_artifact", type="dataset")
iris_table_artifact.add(iris_table, "iris_table")

# データを保存するためにアーティファクト内に生のCSVファイルを記録する
iris_table_artifact.add_file("iris.csv")

W&B Artifacts の詳細については、Artifacts の章を参照してください。

最後に、wandb.init を使って新しい W&B run を開始して、W&B にトラッキングおよびログを記録します。

# データをログするW&B runを開始する
with wandb.init(project="tables-walkthrough") as run:

    # runでテーブルをログして可視化する...
    run.log({"iris": iris_table})

    # アーティファクトとしてログして利用可能な行数の上限を増やす！
    run.log_artifact(iris_table_artifact)

wandb.init() API は、新しいバックグラウンドプロセスを起動してデータを run にログとして記録し、デフォルトで wandb.ai に同期します。W&B Workspace のダッシュボードでリアルタイムの可視化を確認できます。次の画像は、コードスニペットの出力例を示しています。

前述のコードスニペットをすべて含む完全なスクリプトを以下に示します。

import wandb
import pandas as pd

# CSVを新しいDataFrameに読み込む
new_iris_dataframe = pd.read_csv("iris.csv")

# DataFrameをW&B Tableに変換する
iris_table = wandb.Table(dataframe=new_iris_dataframe)

# テーブルをアーティファクトに追加して行数の上限を
# 200000に増やし、再利用しやすくする
iris_table_artifact = wandb.Artifact("iris_artifact", type="dataset")
iris_table_artifact.add(iris_table, "iris_table")

# データを保存するためにアーティファクト内に生のCSVファイルをログする
iris_table_artifact.add_file("iris.csv")

# データをログするためにW&B runを開始する
with wandb.init(project="tables-walkthrough") as run:

    # runで可視化するためにテーブルをログする...
    run.log({"iris": iris_table})

    # アーティファクトとしてログして利用可能な行数の上限を増やす！
    run.log_artifact(iris_table_artifact)

Experiments の CSV をインポートしてログに記録する

場合によっては、実験の詳細を CSV ファイルとして管理していることがあります。そうした CSV ファイルには、一般的に次のような情報が含まれます。

実験 run の名前
初期の Notes
実験を区別するための Tags
実験に必要な設定（さらに、Sweeps Hyperparameter Tuning を利用できるという利点があります）

Experiment	Model Name	Notes	Tags	Num Layers	Final Train Acc	Final Val Acc	Training Losses
Experiment 1	mnist-300-layers	学習データに対して過学習しすぎている	[latest]	300	0.99	0.90	[0.55, 0.45, 0.44, 0.42, 0.40, 0.39]
Experiment 2	mnist-250-layers	現時点でのベストモデル	[prod, best]	250	0.95	0.96	[0.55, 0.45, 0.44, 0.42, 0.40, 0.39]
Experiment 3	mnist-200-layers	ベースラインモデルよりも悪い。デバッグが必要	[debug]	200	0.76	0.70	[0.55, 0.45, 0.44, 0.42, 0.40, 0.39]
…	…	…	…	…	…	…
Experiment N	mnist-X-layers	NOTES	…	…	…	…	[…, …]

W&B は、実験の CSV ファイルを受け取り、W&B Experiments の run に変換できます。次のコードスニペットとコードスクリプトでは、実験の CSV ファイルをインポートしてログを記録する方法を示します。

まず、CSV ファイルを読み込み、Pandas の DataFrame に変換します。"experiments.csv" をあなたの CSV ファイル名に置き換えてください:

import wandb
import pandas as pd

FILENAME = "experiments.csv"
loaded_experiment_df = pd.read_csv(FILENAME)

PROJECT_NAME = "Converted Experiments"

EXPERIMENT_NAME_COL = "Experiment"
NOTES_COL = "Notes"
TAGS_COL = "Tags"
CONFIG_COLS = ["Num Layers"]
SUMMARY_COLS = ["Final Train Acc", "Final Val Acc"]
METRIC_COLS = ["Training Losses"]

# Pandas DataFrameを扱いやすい形式に整形する
for i, row in loaded_experiment_df.iterrows():
    run_name = row[EXPERIMENT_NAME_COL]
    notes = row[NOTES_COL]
    tags = row[TAGS_COL]

    config = {}
    for config_col in CONFIG_COLS:
        config[config_col] = row[config_col]

    metrics = {}
    for metric_col in METRIC_COLS:
        metrics[metric_col] = row[metric_col]

    summaries = {}
    for summary_col in SUMMARY_COLS:
        summaries[summary_col] = row[summary_col]

次に、新しい W&B Run を開始し、wandb.init() を使って W&B にトラッキングおよびログ記録を行います:
```
with wandb.init(
    project=PROJECT_NAME, name=run_name, tags=tags, notes=notes, config=config
) as run:
```

実験が進行するにつれて、メトリクスの値を毎回ログしておき、W&B 上で表示、クエリ、および分析できるようにしたい場合があります。これを行うには、run.log() コマンドを使用します:

run.log({key: val})

必要に応じて、define_metric API を使用して、run の結果を表す最終的なサマリーメトリクスをログできます。次の例では、run.summary.update() を使ってサマリーメトリクスを run に追加します。

run.summary.update(summaries)

サマリーメトリクスの詳細は、サマリーメトリクスのログを参照してください。以下は、上記のサンプルテーブルを W&B ダッシュボードに変換するための完全なサンプルスクリプトです。

FILENAME = "experiments.csv"
loaded_experiment_df = pd.read_csv(FILENAME)

PROJECT_NAME = "Converted Experiments"

EXPERIMENT_NAME_COL = "Experiment"
NOTES_COL = "Notes"
TAGS_COL = "Tags"
CONFIG_COLS = ["Num Layers"]
SUMMARY_COLS = ["Final Train Acc", "Final Val Acc"]
METRIC_COLS = ["Training Losses"]

for i, row in loaded_experiment_df.iterrows():
    run_name = row[EXPERIMENT_NAME_COL]
    notes = row[NOTES_COL]
    tags = row[TAGS_COL]

    config = {}
    for config_col in CONFIG_COLS:
        config[config_col] = row[config_col]

    metrics = {}
    for metric_col in METRIC_COLS:
        metrics[metric_col] = row[metric_col]

    summaries = {}
    for summary_col in SUMMARY_COLS:
        summaries[summary_col] = row[summary_col]

    with  wandb.init(
        project=PROJECT_NAME, name=run_name, tags=tags, notes=notes, config=config
    ) as run:

        for key, val in metrics.items():
            if isinstance(val, list):
                for _val in val:
                    run.log({key: _val})
            else:
                run.log({key: val})

        run.summary.update(summaries)

ガイド

インテグレーション

リファレンス

実験で CSV ファイルをトラッキングする

データセットのCSVファイルをインポートしてログに記録する

Experiments の CSV をインポートしてログに記録する

ガイド

インテグレーション

リファレンス

​データセットのCSVファイルをインポートしてログに記録する

​Experiments の CSV をインポートしてログに記録する

データセットのCSVファイルをインポートしてログに記録する

Experiments の CSV をインポートしてログに記録する