財務3表コクピットにずんだもんの声を乗せた
財務3表コクピット画面の解説カードに、VOICEVOX のずんだもん(speaker_id=3、ノーマル)で音声読み上げを追加した。
テスト音声を1本生成して確認したあと、showGuideStep に音声再生ロジックを差し込み、closeGuide に停止処理を追加した。音声ファイルは dev-audio.ts ミドルウェアが /audio/cockpit/guides/ パスを自動配信するので、ファイルを置くだけで拾われる。
UIを段階的に育てた
最初のリリースはガイドツールチップのフッター左端にクレジット文字を置くだけだった。
それを「解説ボタンと音声切替ボタンを四角枠でグループ化し、クレジット(VOICEVOX:ずんだもん)をその隣に並べる」形に作り替えた。ボタンが散らばっていたのが、一つの操作ユニットに収まった。
倍速切替は 1.0× / 1.5× / 1.8× の3段階を実装した。「1.8倍はレビュー時にまとめてザッと聞きたい」という用途がある。デバッグ用のリピート再生ボタンはコメントマーカーで囲んで追加し、後で探して消しやすくした。
132ステップを一括生成した
no-01〜no-30 の全取引ガイド、合計132ステップの音声を tsx スクリプトで一括生成した。バックグラウンドで回して、generated=128 / skipped=4(既存)/ errors=0 で完走した。
スクリプトは進捗マークダウンを memo/2026-05-06/cockpit-guide-audio-progress.md に書き出す設計にした。途中で止まっても再開できる。
音声ファイルを一本再生するたびに読み誤りが見つかり、前処理ルールを追加して該当ファイルを再生成する、という作業を繰り返した。
読み誤り修正の記録
| 問題 | 対処 | 再生成数 |
|---|---|---|
| B/S がうまく読まれない | VOICEVOX辞書に全角「B/S」で登録、生成テキストを全角変換 | — |
| 「最終行」の誤読 | 該当1ファイルを再生成 | 1 |
| 「税引前当期純利益」の誤読 | 対象ファイルを削除→再生成 | 11 |
+ → 「プラス」、▲ → 「マイナス」 | スクリプトに前処理を追加 | 21 |
No(数字) が読まれない | No. に変換ルール追加 | 13 |
小文字 no(数字) → No に統一 | ガイド本文を1箇所修正+再生成 | 1 |
| 「CF」が読まれない | キャッシュフロー に前処理追加 | 7 |
| 「均衡を保ちます」が不自然 | ガイド本文を「貸借対照表がバランスします」に修正 | 2 |
VOICEVOX は記号・略語の読み下しが弱い。+、▲、CF、B/S など財務用語に頻出する表記が軒並みひっかかった。前処理で文字列を置換してから API に渡す層を育てていく形になった。
辞書登録(wrangler r2 object put ではなく VOICEVOX の辞書 API への登録)は全角表記との組み合わせで一本目から決まった。
R2 へ132ファイルをアップロードした
for file in audio/cockpit/guides/*.wav; do
wrangler r2 object put "bucket-name/${file}" --file "${file}"
done
bash ループで回した。途中、バックグラウンド実行でバッファリングが詰まってプロセスが沈黙した。フォアグラウンドに切り替えて再開したら、ログが流れ始めてそのまま完走した。132ファイル、エラー0。R2 の配信 URL でブラウザから再生して、音が出ることを確認した。
今日の感触
「音声ファイルを一括生成すれば終わり」と思っていたが、生成と再生と修正を8往復した。財務用語と記号が入り混じるテキストを VOICEVOX に渡す前に正規化する前処理層が、今日一番成長した部分だった。
前処理ルールが増えるたびに影響範囲の再生成が走り、132ファイルの中を何度か行き来した。スクリプトに再生成フラグを持たせておいたので、該当ファイルを削除して回すだけで済んだ。中断耐性の設計が効いた。