from pyannote.pipeline import Optimizer
from pyannote.audio import Pipeline

pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")

# Step 1: segmentation.threshold を最適化（OracleClusteringで完璧なクラスタリングを仮定）
# Step 2: clustering.threshold を最適化

pipeline.freeze({
    "segmentation": {
        "threshold": 0.44,  # Step1で得た最適値
        "min_duration_off": 0.0,
    },
    "clustering": {
        "method": "centroid",
        "min_cluster_size": 15,
    },
})

optimizer = Optimizer(pipeline)
# 開発セット（実際に使う音声のサンプル）で20-50回イテレーション
best_params = optimizer.tune(dev_set, iterations=50)

方法B: 話者数の事前情報を活用

話者数がわかっている場合は閾値より確実：

diarization = pipeline(audio_file, num_speakers=3)
# または範囲指定
diarization = pipeline(audio_file, min_speakers=2, max_speakers=5)

方法C: HDBSCAN によるクラスタリング

Vakyanshプロジェクトの手法：

コサイン類似度 94-96% で類似クラスタを反復マージ
固定閾値ではなく密度ベースでクラスタ数を自動決定
ノイズ（どの話者にも属さないセグメント）を自動除外

from hdbscan import HDBSCAN
from sklearn.metrics.pairwise import cosine_distances

# 埋め込みベクトルから距離行列を計算
distance_matrix = cosine_distances(embeddings)

clusterer = HDBSCAN(
    metric='precomputed',
    min_cluster_size=15,
    min_samples=5
)
labels = clusterer.fit_predict(distance_matrix)

推奨: まず方法Bで話者数を指定できるか検討 → 無理なら方法Aで自動チューニング

4. オーバーラップ音声の限界

pyannote 3.1 はオーバーラップ対応ですが、WhisperX の GitHub でも指摘されているように：

"Overlapping speech is not handled particularly well by whisper nor whisperx"

複数人が同時に話す場面では精度が低下します。

5. 日本語での精度未検証

pyannote のモデルは主に英語で訓練されています。日本語での精度は別途検証が必要。

代替アプローチ（オープンソース）

コスト重視の場合、以下のオープンソースツールが選択肢：

ツール	特徴	推奨用途
pyannote 4.0 (community-1)	3.1より話者混同を大幅削減	今から始めるならこれ
WhisperX	transcription + diarization統合、セットアップ簡単	プロトタイプ、学習用
NVIDIA NeMo	Sortformer採用、end-to-end	大規模処理（要NVIDIA GPU）

推奨事項

元記事のアプローチを改善する場合

pyannote を 4.0（community-1）にアップグレード - 話者混同が改善
閾値の自動チューニングを導入 - 上記の方法A参照
話者数がわかる場合は num_speakers を指定 - 閾値より確実
日本語音声での精度検証を実施

まとめ

元記事の pyannote.audio 3.1 選択は妥当です。AWS Transcribe より高精度で、オープンソースとして十分な品質があります。

改善すべき点：

pyannote 4.0 への移行 - 話者混同が大幅に改善されている
閾値の固定値（0.75）を避ける - Optimizerで自動チューニングするか、話者数を指定
日本語での検証が必要 - 英語で訓練されたモデルのため
オーバーラップ音声が多い場合は精度低下を覚悟