IndexTTS2:監督の厳しいタイムラインを現実にする感情音声モデル
長さ制御TTS、ゼロショット音声クローン、テキストによる感情制御を一度に実現
2025年8月11日FreeIndexTTS 2.0 チーム
音声制作で重要なのはタイミングです。セリフは自然に聞こえ、必要な感情を持ち、さらに決められた編集尺の中に収まる必要があります。IndexTTS2 はその現実的な制約に向けて設計されています。
タイミングが重要な理由
従来のテキスト読み上げは明瞭でも、動画、講座、製品デモのタイムラインに配置しにくいことがあります。音声が長すぎると編集側が合わせる必要があり、短すぎると後から伸ばした時に不自然になります。長さ制御は、生成段階からタイムラインを尊重するための仕組みです。
複雑なプロンプトなしの感情制御
IndexTTS2 はテキストによる指示で感情表現を導けます。セリフを調整し、求めるトーンを説明し、必要な部分だけ再生成するというシンプルな反復ができます。
ゼロショット音声ワークフロー
ゼロショット音声クローンは、完全な音声ライブラリを作る前の試作に向いています。短い参照音声で声の特徴を示し、脚本と感情指示で最終的なテイクを形作れます。