ES 202 212-2003
音声処理伝送および品質側面 (STQ)、分散型音声認識、拡張された高度なフロントエンド特徴抽出アルゴリズム、圧縮アルゴリズム、バックエンド音声再構成アルゴリズム (V1.1.1、フロッピー ディスクを含む)

規格番号
ES 202 212-2003
制定年
2003
出版団体
ETSI - European Telecommunications Standards Institute
状態
 2005-11
に置き換えられる
ES 202 212-2005
最新版
ES 202 212-2005
範囲
「本文書は、分散型音声認識システムの一部を形成する、拡張された高度なフロントエンド特徴抽出@その送信@バックエンドピッチ追跡および平滑化@およびバックエンド音声再構成のためのアルゴリズムを規定する。 仕様は以下のコンポーネントをカバーする。 a) メルケプストラムパラメータを作成するための高度なフロントエンド特徴抽出のアルゴリズム、b) 追加パラメータ、つまり基本周波数 F0 と音声クラスの抽出のアルゴリズム、c) より低いレベルを提供するためにこれらの特徴を圧縮するアルゴリズムデータ伝送速度、d) 送信用のビットストリームへのエラー保護を備えたこれらの機能のフォーマット、e) 受信機で高度なフロントエンド機能を生成するためのビットストリームのデコード、およびチャネル エラー軽減のための関連アルゴリズム、f)ピッチ誤差を最小限に抑えるためのバックエンドでのピッチ追跡および平滑化のアルゴリズム、 g) 明瞭な音声を合成するためのバックエンドでの音声再構成のアルゴリズム。 注: コンポーネント a)@ c)@ d) および e) はすでに ES 202 050 [2] でカバーされています。 これら (4 つの) コンポーネントに加えて、本書では、バックエンドの音声再構成と強化された声調言語認識機能を提供するコンポーネント b)@ f) および g) を取り上げます。 これらの機能に興味がない場合は、(拡張されていない) ES 202 050 [2] を使用した方がよいでしょう。 このドキュメントでは、受信した DSR の高度なフロントエンド機能を利用する「バックエンド」音声認識アルゴリズムについては説明しません。 アルゴリズムは、数学的形式@疑似コード@またはフロー図として定義されます。 「C」プログラミング言語で書かれたこれらのアルゴリズムを実装するソフトウェアは、このドキュメントに付属する ZIP ファイル es_202212v010101p0.zip に含まれています。 適合性テストは規格の一部として指定されていません。 標準の独自実装の認識パフォーマンスは、適切な音声データベース上の参照「C」コードを使用して得られる認識パフォーマンスと比較できます。 DSR ビットストリームは、DSR アプリケーションをサポートする特定のシステムに導入される場合、他の高レベル プロトコルのペイロードとして使用されることが予想されます。 特に、パケット データ送信の場合、IETF AVT RTP DSR ペイロード定義 (参考文献を参照) が、第 7 項で説明されているフレーム ペア フォーマットを使用して DSR 機能を転送するために使用されることが予想されます。 拡張された高度な DSR 標準は、不連続な送信をサポートし、音声アクティビティ情報の送信をサポートします。 付録 A には、Advanced DSR 標準と組み合わせて使用することが推奨される VAD アルゴリズムが記載されています@ ただし、これは本書の一部ではないため、メーカーは代替 VAD アルゴリズムの使用を選択する場合があります。 拡張アドバンスト フロントエンド (XAFE) には、追加パラメータとして音調情報 @、つまり基本周波数 F0 とボイシング クラス @ が組み込まれています。 この情報は、声調言語@ 例: 北京語@ 広東語@ およびタイ語の認識精度を高めるために使用できます。 」

ES 202 212-2003 発売履歴

  • 2005 ES 202 212-2005 音声処理伝送および品質側面 (STQ)、分散型音声認識、拡張された高度なフロントエンド特徴抽出アルゴリズム、圧縮アルゴリズム、バックエンド音声再構成アルゴリズム (V1.1.2、フロッピー ディスクを含む)
  • 2003 ES 202 212-2003 音声処理伝送および品質側面 (STQ)、分散型音声認識、拡張された高度なフロントエンド特徴抽出アルゴリズム、圧縮アルゴリズム、バックエンド音声再構成アルゴリズム (V1.1.1、フロッピー ディスクを含む)



© 著作権 2024