ES 202 211-2003
音声処理送信および品質側面 (STQ)、分散音声認識、拡張フロントエンド特徴抽出アルゴリズム、圧縮アルゴリズム、バックエンド音声再構成アルゴリズム (V1.1.1)

規格番号
ES 202 211-2003
制定年
2003
出版団体
ETSI - European Telecommunications Standards Institute
最新版
ES 202 211-2003
範囲
「本文書は、分散型音声認識システムの一部を形成する、拡張フロントエンド特徴抽出@その送信@バックエンドピッチ追跡および平滑化@およびバックエンド音声再構成のためのアルゴリズムを規定する。 仕様は以下のコンポーネントをカバーする。 ) メルケプストラムパラメータを作成するためのフロントエンド特徴抽出のアルゴリズム、b) 追加パラメータ抽出のアルゴリズム@、つまり基本周波数 F0 および音声クラス、c) より低いデータ伝送を提供するためにこれらの特徴を圧縮するアルゴリズムd) 送信用ビットストリームへのエラー保護機能を備えたこれらの機能のフォーマット化、e) 受信機でフロントエンド機能を生成するためのビットストリームのデコード、およびチャネル エラー軽減のための関連アルゴリズム、f) チャネル エラー軽減のためのアルゴリズムピッチ誤差を最小限に抑えるためのバックエンドでのピッチ追跡と平滑化、 g) 理解可能な音声を合成するためのバックエンドでの音声再構成のアルゴリズム。 注: コンポーネント (a)@ (c)@ (d)@ および (e) はすでに ES 201 108 [1] でカバーされています。 これら (4 つの) コンポーネント@ に加えて、本書では、バックエンド音声再構成と強化された声調言語認識機能を提供するコンポーネント (b)@ (f)@ および (g) も取り上げます。 これらの機能に興味がない場合は、(拡張されていない) ES 201 108 [1] を使用した方がよいでしょう。 このドキュメントでは、受信した DSR フロントエンド機能を利用する「バックエンド」音声認識アルゴリズムについては説明しません。 アルゴリズムは、数学的形式@疑似コード@またはフロー図として定義されます。 「C」プログラミング言語で書かれたこれらのアルゴリズムを実装するソフトウェアは、本書の最終公開バージョンとともに提供されます。 適合性テストは規格の一部として指定されていません。 標準の独自実装の認識パフォーマンスは、適切な音声データベース上の参照「C」コードを使用して得られる認識パフォーマンスと比較できます。 DSR ビットストリームは、DSR アプリケーションをサポートする特定のシステムに導入される場合、他の高レベル プロトコルのペイロードとして使用されることが予想されます。 拡張フロントエンド (XFE) 規格には、追加パラメータとして音調情報 @、つまり基本周波数 F0 とボイシング クラス @ が組み込まれています。 この情報は、北京語、広東語、タイ語などの声調言語の認識精度を高めるために使用できます。 拡張フロントエンド (XFE) 標準には、発声クラス情報の一部として音声アクティビティ情報が組み込まれています。 これを音声データのセグメント化 (またはエンドポイント検出) に使用して、認識パフォーマンスを向上させることができます。 」

ES 202 211-2003 発売履歴

  • 2003 ES 202 211-2003 音声処理送信および品質側面 (STQ)、分散音声認識、拡張フロントエンド特徴抽出アルゴリズム、圧縮アルゴリズム、バックエンド音声再構成アルゴリズム (V1.1.1)



© 著作権 2024