ISO 24614-1:2010
言語リソース管理 書かれたテキストの自動単語分割 パート 1: 基本概念と一般原則

規格番号
ISO 24614-1:2010
制定年
2010
出版団体
International Organization for Standardization (ISO)
状態
最新版
ISO 24614-1:2010
範囲
ISO 24614 のこの部分では、単語分割の基本概念と一般原則を示し、書かれたテキストを信頼性が高く再現可能な方法で単語分割単位 (WSU) に分割できるようにする言語に依存しないガイドラインを提供します。 注 1 言語関連の研究や産業において、単語は基本的かつ必要な概念です。 したがって、テキストを単語に分割するためには、単語を構成するものについての普遍的な定義を持つことが重要です。 スペースと句読点のみに基づくルールを単純に使用して単語を区切ることはできません。 このようなルールでは、ハイフンでつながれた複合語、略語、イディオム、または記号や数字を含む単語のような表現などの状況は考慮されていません。 単語の分割は、中国語や日本語などの単語を区切るのにスペースを使用しない言語や、韓国語など一部の機能単語クラスが接辞として実現される膠着言語ではさらに問題になります。 テキストを単語に分割する必要がある、つまり ISO 24614 のこの部分を適用できるアプリケーションや分野には、次のようなものがあります。

ISO 24614-1:2010 発売履歴

  • 2010 ISO 24614-1:2010 言語リソース管理 書かれたテキストの自動単語分割 パート 1: 基本概念と一般原則
言語リソース管理 書かれたテキストの自動単語分割 パート 1: 基本概念と一般原則



© 著作権 2024