概要
このチュートリアルでは、Tiro API を使って音声ファイルをアップロードし、文字起こしを行い、複数の言語に翻訳するまでの一連の手順を説明します。前提条件
- 有効な Tiro API key
- 音声ファイル(MP3、WAV、M4A)
- 最大ファイルサイズ: 500MB
- 最大の長さ: 4 時間
Step 1: Voice File Job を作成する
まず、希望する文字起こしと翻訳の設定でジョブを作成します。Step 2: 音声ファイルをアップロードする
提供された署名付き URL に音声ファイルをアップロードします。Step 3: アップロード完了を通知する
アップロードが完了したことを API に伝えます。Step 4: ジョブの完了をポーリングする
処理が完了するまで、ジョブのステータスを監視します。Step 5: 結果を取得する
ジョブが完了したら、transcript と translations を取得します。完全な例
音声ファイルを最初から最後まで処理する完全な例を以下に示します。Step 6: Paragraph Summary を理解する
Paragraph Summary 機能は、インテリジェントなコンテンツ要約を提供し、音声ファイルの要点をすばやく把握するのに役立ちます。Paragraph Summary とは
Paragraph summary は、transcript や translation のコンテンツを自動生成した概要で、論理的なセクションに分割されています。各要約は次のものを提供します。- 簡潔な概要: 各段落の要点を markdown 形式で
- 言語別: transcript と translations の両方について生成される要約
- 構造化されたコンテンツ: 解析が容易で、アプリケーションへの統合も簡単
レスポンスの例
paragraph summary を取得すると、次のようなレスポンスを受け取ります。要約はいつ利用できますか
- Transcript と Translation の要約: ジョブ完了後(
COMPLETEDステータス)に利用できますCOMPLETEDは、transcript、translation(リクエストした場合)、およびその両方の paragraph summary を含む、すべての処理が完了したことを意味します
- 処理時間: 要約は非同期で生成され、通常はメイン処理の完了後 30〜60 秒以内に生成されます
ポーリングのベストプラクティス
指数バックオフ戦略
- 開始時の遅延: 2 秒(処理の開始には時間がかかります)
- 増加係数: 1.2 倍(緩やかな増加)
- 最大の遅延: 30 秒(サーバーへの過負荷を避けます)
- 最大試行回数: 想定される処理時間に基づきます
ジョブの状態遷移
処理時間のガイドライン
| ファイルの長さ | 想定される処理時間 | 推奨ポーリング間隔 |
|---|---|---|
| 5 分未満 | 30〜60 秒 | 開始: 2s、最大: 10s |
| 5〜30 分 | 1〜5 分 | 開始: 5s、最大: 20s |
| 30〜120 分 | 5〜15 分 | 開始: 10s、最大: 30s |
| 2 時間超 | 15〜30 分 | 開始: 30s、最大: 60s |
よくある問題と解決策
アップロードの失敗
- 問題: 413 Payload Too Large
- 解決策: ファイルサイズ(最大 500MB)を確認し、必要に応じて圧縮してください
処理の失敗
- 問題: 音声品質が低い
- 解決策: サンプルレートが 8kHz 以上であること、背景ノイズが最小限であることを確認してください
タイムアウトの問題
- 問題: 想定時間内にジョブが完了しない
- 解決策: 長いファイルではタイムアウトを長くし、ジョブの状態にエラーがないか確認してください