メインコンテンツへスキップ
W&B の Python ライブラリを使用して CSV ファイルをログに記録し、W&B Dashboard で可視化します。W&B Dashboard は、機械学習モデルの結果を整理・可視化するための中心的な場所です。これは特に、W&B にログされていない過去の機械学習実験に関する情報を含む CSV ファイルがある場合や、データセットを含む CSV ファイルがある場合に有用です。

データセットのCSVファイルをインポートしてログに記録する

CSV ファイルの内容を再利用しやすくするために、W&B Artifacts を活用することをおすすめします。
  1. まずは CSV ファイルをインポートします。次のコードスニペットでは、iris.csv というファイル名を自分の CSV ファイル名に置き換えてください。
import wandb
import pandas as pd

# CSVを新しいDataFrameに読み込む
new_iris_dataframe = pd.read_csv("iris.csv")
  1. CSV ファイルを W&B Table に変換して、W&B ダッシュボード を活用します。
# DataFrameをW&B Tableに変換する
iris_table = wandb.Table(dataframe=new_iris_dataframe)
  1. 次に、W&B のアーティファクトを作成し、そのアーティファクトにテーブルを追加します。
# テーブルをアーティファクトに追加して行数の上限を
# 200000に増やし、再利用しやすくする
iris_table_artifact = wandb.Artifact("iris_artifact", type="dataset")
iris_table_artifact.add(iris_table, "iris_table")

# データを保存するためにアーティファクト内に生のCSVファイルを記録する
iris_table_artifact.add_file("iris.csv")
W&B Artifacts の詳細については、Artifacts の章を参照してください。
  1. 最後に、wandb.init を使って新しい W&B run を開始して、W&B にトラッキングおよびログを記録します。
# データをログするW&B runを開始する
with wandb.init(project="tables-walkthrough") as run:

    # runでテーブルをログして可視化する...
    run.log({"iris": iris_table})

    # アーティファクトとしてログして利用可能な行数の上限を増やす!
    run.log_artifact(iris_table_artifact)
wandb.init() API は、新しいバックグラウンドプロセスを起動してデータを run にログとして記録し、デフォルトで wandb.ai に同期します。W&B Workspace のダッシュボードでリアルタイムの可視化を確認できます。次の画像は、コードスニペットの出力例を示しています。
CSV file imported into W&B Dashboard
前述のコードスニペットをすべて含む完全なスクリプトを以下に示します。
import wandb
import pandas as pd

# CSVを新しいDataFrameに読み込む
new_iris_dataframe = pd.read_csv("iris.csv")

# DataFrameをW&B Tableに変換する
iris_table = wandb.Table(dataframe=new_iris_dataframe)

# テーブルをアーティファクトに追加して行数の上限を
# 200000に増やし、再利用しやすくする
iris_table_artifact = wandb.Artifact("iris_artifact", type="dataset")
iris_table_artifact.add(iris_table, "iris_table")

# データを保存するためにアーティファクト内に生のCSVファイルをログする
iris_table_artifact.add_file("iris.csv")

# データをログするためにW&B runを開始する
with wandb.init(project="tables-walkthrough") as run:

    # runで可視化するためにテーブルをログする...
    run.log({"iris": iris_table})

    # アーティファクトとしてログして利用可能な行数の上限を増やす!
    run.log_artifact(iris_table_artifact)

Experiments の CSV をインポートしてログに記録する

場合によっては、実験の詳細を CSV ファイルとして管理していることがあります。そうした CSV ファイルには、一般的に次のような情報が含まれます。
  • 実験 run の名前
  • 初期の Notes
  • 実験を区別するための Tags
  • 実験に必要な設定(さらに、Sweeps Hyperparameter Tuning を利用できるという利点があります)
ExperimentModel NameNotesTagsNum LayersFinal Train AccFinal Val AccTraining Losses
Experiment 1mnist-300-layers学習データに対して過学習しすぎている[latest]3000.990.90[0.55, 0.45, 0.44, 0.42, 0.40, 0.39]
Experiment 2mnist-250-layers現時点でのベストモデル[prod, best]2500.950.96[0.55, 0.45, 0.44, 0.42, 0.40, 0.39]
Experiment 3mnist-200-layersベースラインモデルよりも悪い。デバッグが必要[debug]2000.760.70[0.55, 0.45, 0.44, 0.42, 0.40, 0.39]
Experiment Nmnist-X-layersNOTES[…, …]
W&B は、実験の CSV ファイルを受け取り、W&B Experiments の run に変換できます。次のコードスニペットとコードスクリプトでは、実験の CSV ファイルをインポートしてログを記録する方法を示します。
  1. まず、CSV ファイルを読み込み、Pandas の DataFrame に変換します。"experiments.csv" をあなたの CSV ファイル名に置き換えてください:
import wandb
import pandas as pd

FILENAME = "experiments.csv"
loaded_experiment_df = pd.read_csv(FILENAME)

PROJECT_NAME = "Converted Experiments"

EXPERIMENT_NAME_COL = "Experiment"
NOTES_COL = "Notes"
TAGS_COL = "Tags"
CONFIG_COLS = ["Num Layers"]
SUMMARY_COLS = ["Final Train Acc", "Final Val Acc"]
METRIC_COLS = ["Training Losses"]

# Pandas DataFrameを扱いやすい形式に整形する
for i, row in loaded_experiment_df.iterrows():
    run_name = row[EXPERIMENT_NAME_COL]
    notes = row[NOTES_COL]
    tags = row[TAGS_COL]

    config = {}
    for config_col in CONFIG_COLS:
        config[config_col] = row[config_col]

    metrics = {}
    for metric_col in METRIC_COLS:
        metrics[metric_col] = row[metric_col]

    summaries = {}
    for summary_col in SUMMARY_COLS:
        summaries[summary_col] = row[summary_col]
  1. 次に、新しい W&B Run を開始し、wandb.init() を使って W&B にトラッキングおよびログ記録を行います:
    with wandb.init(
        project=PROJECT_NAME, name=run_name, tags=tags, notes=notes, config=config
    ) as run:
    
実験が進行するにつれて、メトリクスの値を毎回ログしておき、W&B 上で表示、クエリ、および分析できるようにしたい場合があります。これを行うには、run.log() コマンドを使用します:
run.log({key: val})
必要に応じて、define_metric API を使用して、run の結果を表す最終的なサマリーメトリクスをログできます。次の例では、run.summary.update() を使ってサマリーメトリクスを run に追加します。
run.summary.update(summaries)
サマリーメトリクスの詳細は、サマリーメトリクスのログを参照してください。 以下は、上記のサンプルテーブルを W&B ダッシュボード に変換するための完全なサンプルスクリプトです。
FILENAME = "experiments.csv"
loaded_experiment_df = pd.read_csv(FILENAME)

PROJECT_NAME = "Converted Experiments"

EXPERIMENT_NAME_COL = "Experiment"
NOTES_COL = "Notes"
TAGS_COL = "Tags"
CONFIG_COLS = ["Num Layers"]
SUMMARY_COLS = ["Final Train Acc", "Final Val Acc"]
METRIC_COLS = ["Training Losses"]

for i, row in loaded_experiment_df.iterrows():
    run_name = row[EXPERIMENT_NAME_COL]
    notes = row[NOTES_COL]
    tags = row[TAGS_COL]

    config = {}
    for config_col in CONFIG_COLS:
        config[config_col] = row[config_col]

    metrics = {}
    for metric_col in METRIC_COLS:
        metrics[metric_col] = row[metric_col]

    summaries = {}
    for summary_col in SUMMARY_COLS:
        summaries[summary_col] = row[summary_col]

    with  wandb.init(
        project=PROJECT_NAME, name=run_name, tags=tags, notes=notes, config=config
    ) as run:

        for key, val in metrics.items():
            if isinstance(val, list):
                for _val in val:
                    run.log({key: _val})
            else:
                run.log({key: val})

        run.summary.update(summaries)