備忘録:データ移行業務を経験しての個人的感想(概念スキーマ)
どちらかといえば、データサイエンス寄りのプロジェクトで
お客様環境からデータをインポートしてくるようなデータ移行業務を経験する機会がありました。
個人的な感想など備忘録(概念スキーマ に関して)
(今時点の自身の実力を後から見返すことが目的。ベストプラクティスでは決してないです!)
データ移行で本来こうあるべきと感じたフロー
お客様から最新の元テーブル定義書を受領する
サンプルデータを受領して、元テーブル定義と実データを比較・確認する
元テーブル定義とサンプルデータを元に、移行先環境(作業環境)のテーブル定義を固める
移行先のテーブル定義を元に、実際に各インポート設定を行う
実際の場面で起きるフロー
古い最新の元テーブル定義書を受領する or 元テーブル定義書 なし
- 特に規模の大きく動きの早い企業様においては、扱うデータが変化することは常なので、最新の定義など無いことも良くある
- 作成するにも、一苦労
サンプルデータを受領する( ← ほぼここからスタート )
移行先のテーブル定義を元に、実際に各インポート設定を行う
所感
- サンプルデータを見れば、ある程度の作業はできるが、定義書をお互いにしっかりとやり取りした上でデータ連携をする方が望ましいと実感(当然と怒られるかもしれませんが)
- 後者の場合、特に、移行先環境で作業をする側に、かなりの検証工数がかかってくる
- エラーリスクも後者は各段に上がる
結論
定義書大事。実データは当たり前に大事
今回の記事では触れませんでしたが、以下もやってみると本当に大事...
- 物理名、データ型、長さ、必須、キー...
- 更新頻度、取込み時のパターン(追加/更新/上書き..)