- ホーム
- TR 41-2015
- 規格番号
- TR 41-2015
- 出版団体
- SG-SPRING SG1
- 最新版
-
TR 41-2015
- 範囲
- この一連のガイドラインは、構造化された機械可読データセットに対する、ドメインに依存しないデータ品質メトリクスの共通セットを明確にし、定義します。
データには以下が含まれる場合があります。
- 過去の情報を含む履歴データ (図書館の本の貸し出し、取引記録など)。
- 現在の情報を含むライブデータ (図書館の本の入手可能性など)。
データは次の形式で利用可能です。
- スポット データ。
離散的な時間間隔で時々収集または記録されます。
または - データ ストリーム。
連続した定常ストリームまたは一連の情報が含まれます。
例には、株価、市場データ フィード、感覚フィード、ビデオ フィードが含まれます。
非構造化データセットのデータ品質メトリクスは現在このドキュメントの範囲外であり、推奨されるガイドラインは非構造化データセットに適用される場合と適用されない場合があります。
業界の不可知性と一般性は、品質指標の基本セットに含めるための選択プロセスにおける基本的な懸念事項です。
他の指標は、一部の業界で使用されるデータセットのデータ品質を例示する場合がありますが、全体に簡単に適用できない場合は、これらの指標はこれらのガイドラインには含まれていません。
ただし、データプロバイダーは、4.2「目標-質問-指標の方法論」で説明されている方法論を採用して、潜在的な購入者が提供されるデータセットを評価する際に役立つデータ品質の特定の側面を伝えるのに役立つ追加の指標を開発することが推奨されます。
以下は、技術リファレンスの範囲外です。
- 解釈の対象となる指標、または購入者の評価プロセスの一部を構成する懸念事項に対処する指標も、これらのガイドラインの範囲外です。
- ユーザーのニーズに応じて計算または導出方法が異なる可能性がある、複数の基本メトリックから導出されるメトリックも含まれません。
たとえば、可能な最大レコード数に対する空でないレコードの比率は、データセットの完全性または広範さを示すことができます。
ただし、特定の種類のデータセットにはレコードの最大数または予想される数がない場合があるため、公開されたメトリクスを要件や期待に照らしてコンテキスト化するかどうかは、データセットを評価するユーザー次第となります。
- データ品質に関する高次の質問に答えるために、公開されたメトリクスを適用する方法に関する推奨事項。
アクセスコストやサポートなど、含まれる指標の一部はデータに固有のものではないことに注意してください。
ただし、これらは重要な考慮事項であり、ユーザーにとってデータセットの実現可能性を示す有用な指標を提供するため、ガイドラインの一部として組み込まれています。
TR 41-2015 発売履歴