STEP 1 / 6

データ準備

過去の取引データ(証憑・仕訳の蓄積)

モデルが持つ知識の源は、この1本のリスト docs だけ。人名が1行1件で約3.2万件並んだファイル input.txt を読み込み、前後の空白を落とし、空行を捨ててリストにする。

会計で言えば、仕訳を起こす前に証憑(過去の取引データ)をかき集めて整える工程。モデルはこの3.2万件以外の知識を一切持たず、ここからパターンを学ぶ。

random.shuffle(docs) は順番をシャッフルする操作。特定の並び順そのものを学習してしまわないように、毎回データを混ぜる。

実際のコード(microgpt.py L14-21)

この段が、Karpathy のオリジナル200行のどこに当たるか。

# Let there be a Dataset `docs`: list[str] of documents (e.g. a list of names)
if not os.path.exists('input.txt'):
    import urllib.request
    names_url = 'https://raw.githubusercontent.com/karpathy/makemore/988aa59/names.txt'
    urllib.request.urlretrieve(names_url, 'input.txt')
docs = [line.strip() for line in open('input.txt') if line.strip()]
random.shuffle(docs)
print(f"num docs: {len(docs)}")

出典: karpathy / microgpt.py (本体は原文ベース、抜粋・コメントは日本語に補足)

この段は読み下し中心です(個別デモはありません)。次の段へ進むか、ハブで全体像に戻ってください。