備忘録:データ移行業務を経験しての個人的感想(概念スキーマ)

どちらかといえば、データサイエンス寄りのプロジェクトで

お客様環境からデータをインポートしてくるようなデータ移行業務を経験する機会がありました。

個人的な感想など備忘録(概念スキーマ に関して)

(今時点の自身の実力を後から見返すことが目的。ベストプラクティスでは決してないです!)

データ移行で本来こうあるべきと感じたフロー

  • お客様から最新の元テーブル定義書を受領する

  • サンプルデータを受領して、元テーブル定義と実データを比較・確認する

  • 元テーブル定義とサンプルデータを元に、移行先環境(作業環境)のテーブル定義を固める

  • 移行先のテーブル定義を元に、実際に各インポート設定を行う

実際の場面で起きるフロー

  • 古い最新の元テーブル定義書を受領する or 元テーブル定義書 なし

    • 特に規模の大きく動きの早い企業様においては、扱うデータが変化することは常なので、最新の定義など無いことも良くある
    • 作成するにも、一苦労
  • サンプルデータを受領する( ← ほぼここからスタート )

  • 移行先のテーブル定義を元に、実際に各インポート設定を行う

所感

  • サンプルデータを見れば、ある程度の作業はできるが、定義書をお互いにしっかりとやり取りした上でデータ連携をする方が望ましいと実感(当然と怒られるかもしれませんが)
  • 後者の場合、特に、移行先環境で作業をする側に、かなりの検証工数がかかってくる
  • エラーリスクも後者は各段に上がる

結論

  • 定義書大事。実データは当たり前に大事

  • 今回の記事では触れませんでしたが、以下もやってみると本当に大事...

    • 物理名、データ型、長さ、必須、キー...
    • 更新頻度、取込み時のパターン(追加/更新/上書き..)