データウェアハウス
テンプレート:データベースモデル データウェアハウスとは、直訳すれば「データの倉庫」である。利用者により定義範囲は異なるが、一般に時系列に整理された大量の統合業務データ、もしくはその管理システムを指す。
概要
定義
データウェアの提唱はビル・インモン(William H. Inmon)氏で、1990年の著作によれば、「データウェアハウスは、意志決定(Decision)のため、目的別(Purpose-oriented)に編成され、統合(Integrate)された時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。
複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、トランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。
必要性
データウェアハウスの登場は、1990年代にハードディスクが安くなったことと、PCやサーバで使用可能な安価なCPUを並列で使用する技術ができてきたことによる。この時代にはまだ基幹系システムのCPUやハードディスクは高止まりしており、データウェアには専用のハードウェアやソフトウェアが使用されていた。
特徴
基幹系システムではデータの参照時点での状況が把握できればよいので、過去のデータは基本的に保持されず、短ければ半期、長くても1年ごとに個別データをサマリに更新する。このため基幹系システムのディスク使用量は業務量が増大しない限り大きく変動しない。
これに対してデータウェアハウスの目的は過去のデータの蓄積と現在との比較であるため、データの削除や更新はされず、保持データ量は時間と比例して増大する。例えばある顧客が今までにどのような買い物をしたのか、さらに今後どの程度の購買が期待できるのか、といった判断のためにデータウェアハウスが使用される。
関連するシステム
データウェアハウスでは、データを分析して意志決定に役立てるため、複数の基幹系システムからデータを収集し、蓄積する。 意思決定にデータを活用するという観点から、データウェアハウスはBIの一つに位置付けられることがある。
データウェアハウスでは極めて小さい単位のデータ(「アトミックである」とも表現される)を扱うが、多くの場合適宜に集計されたデータを使用する方が速いので、ユーザが使うデータを予測しておいて、データウェアハウスからデータを集計しデータマートが構築されることがある。ユーザはツールを使ってデータマートから必要なデータやレポートを作成する。その名前のとおり、データウェアハウスはデータの倉庫であり、データマートはデータの小売店を意味している。
データウェアハウスから有用なデータを発見するための手法・ツールとして、MS Accessなど市販のデータベースソフトを利用する人もいるが、OLAPやデータマイニングの専用ツールが使われることも多い。
データウェアハウス製品
- Sybase - IQ
- Oracle - Oracle Database / Oracle Exadata
- TeraData - TeraData
- IBM - Red Brick
- Netezza - Netezza TwinFin
- NEC - InfoFrame DWH Appliance
- マイクロソフト - Microsoft SQL Server
- 日本HP - HP Neoview Platform