2022年2月3日木曜日

機械判読可能データ

 令和2年12月なのでデジタル庁ができる前のこと。統計表における機械判読可能なデータの表記方法の統一ルールが策定されていた。この積み重ねがデジタル化された社会を作るわけだが,そもそもデータを改竄することになんのためらいもない政府だとどうなのか。

総務省が,政府統計の総合窓口(e-Stat)に掲載する各省庁の統計表における機械判読可能なデータの表記方法の統一ルールを策定した。e-Statは,日本の政府統計関係情報のワンストップサービスを実現するため2008年から本運用を開始した政府統計のポータルサイトだ。総務省統計局が整備し,独立行政法人統計センターが運用管理している。

統計表における機械判読可能なデータ 作成に関する表記方法」として,Excel形式のデータ表の場合について,作成ガイドラインが示されている。

1-1 ファイル形式はExcelかCSVとなっているか
1-2 1セル1データとなっているか
1-3 数値データは数値属性とし,文字列を含まないこと
1-4 セルの結合をしていないか
1-5 スペースや改行等で体裁を整えていないか
1-6 項目名等を省略していないか
1-7 数式を使用している場合は,数値データに修正しているか
1-8 オブジェクトを使用していないか
1-9 データの単位を記載しているか
1-10 機種依存文字を使用していないか
1-11 e-Stat の時間軸コードの表記,⻄暦表記又は和暦に⻄暦の併記が されているか
1-12 地域コード又は地域名称が表記されているか
1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合
2-1 データが分断されていないか
2-2 1シートに複数の表が掲載されていないか
ガイドラインは,それぞれの項目について悪い例と改善した例が具体的に示されていて,たいへんわかりやすい。この項目がそのままでチェックシートとなっていて,実践的に利用できる。

高等学校の必履修科目である教科「情報」では,これを取り上げればよいのに。プログラミング言語はperlにして・・・というかプログラミング言語はなんでもよいので,データストリームを処理するアルゴリズムを中心にする。htmlファイルやCSVファイルから必要な情報を取り出して加工し,最終的なデータ処理やプレゼンテーションに結びつけるとかいうテーマの演習を積み重ねたら,日本の情報化が一段と進むものと思われる。


0 件のコメント: