データモデルのまとめ情報

データモデル』の解説

データ・モデルは、班・要員間の意思疎通のための事業データを文書化し、組織化し、そして特にどのようにデータを格納し利用するかの、応用ソフト設計のための計画として使うソフトウエア工学の一つの抽象モデルである。

Hoberman (2009)によれば、「データ・モデルは、組織内での意思疎通を改善し、それによってより柔軟で安定したアプリケーション環境に導く、真の情報の部分集合を正確に説明するシンボルとテキストの集合を使う、事業とIT専門家の両方のための、道筋を見つける道具である。」

データ・モデルは、データまたは構造化データの構造を明示的に決める。データモデルの代表的な応用は、データベース・モデル情報システム の設計、及びデータの交換を可能にすることを含む。通常データ・モデルは、データ・モデリング言語によって規定する。

コミュニケーション精度は、データ・モデルがデータを使い交換する応用へもたらす2つの主要な利益である。データ・モデルは、異なる背景と異なる経験水準からなる事業要員がお互い意思疎通する媒体である。

精度は、データ・モデルにおける用語と規則をただ1つの方法で解釈することができ、そして曖昧さが無いことを仮定する。]]

データ・モデルの主な目的は、データの定義とフォーマットを提供することによって、情報システムの開発を支援することである。West とFowler (1999)によれば、「もしこれがシステムを通して一貫して行われたら、そこでデータの互換性が達成されうる。もし同じデータ構造がデータの格納やアクセスに使われるなら、そこで異なるアプリケーションがデータを共有できる。これの結果は上で示される。しかしながら、システムとインタフェースは、しばしば、構築し、運用し、そして維持するため、それらがあるべきより多くのコストを費やす。それらは、事業を支援するよりむしろ制約するかもしれない。1つの大きな原因は、システムとインタフェースに実装されるデータ・モデルの品質が貧弱だったことである。」。

  • 概念スキーマ : モデルのスコープである、1つのドメインの意味を記述する。たとえば、それは1つの組織あるいは産業の関心領域のモデルかもしれない。これは、そのドメインにおける重要なものの種類を表現するエンティティ・クラスと、一対のエンティティ・クラス間の関連について関連からなる。概念スキーマは、そのモデルを使って表されうる、事実と命題の種類を特定する。そのセンスで、それは、そのモデルのスコープによって限定される1つのスコープの、1つの人工的'言語'で許される表現を定義する。概念スキーマの利用は、事業ユーザーと共に強力なコミュニケーション・ツールとなるよう進化する。しばしば、「主題領域モデル (SAM) 」または「ハイレベル・データ・モデル (HDM)」と呼ばれるこのモデルは、事業ユーザーが全体的アプリケーション開発または事業体イニシアティブの一部として、コア・データ概念、ルール、及び定義をコミュニケートするのに使われる。オブジェクトのいくつかは、少なくかつ主要な概念に焦点を当てるべきである。大変大きな組織や複雑なプロジェクトのため、モデルは2ページ以上にまたがるかもしれないが、1ページにこのモデルを限定しようと試みる必要がある。
  • 論理スキーマ : 特定のデータ操作技術によって表現されるような、意味論を記述する。これは、他のものの間の、テーブル及びカラム、オブジェクト指向クラス、及びXMLタグの解説からなる。
  • 物理スキーマ : データが格納される物理的手段を記述する。これは、パーティション、CPU、表空間、あるいはそのようなことに係わる。

ANSIによれば、このアプローチの重要性は、3つの観点がそれぞれ相対的に独立であることを可能にすることである。格納技術は、論理的あるいは概念モデルのいずれにも影響することなく変更できる。テーブル/カラム構造は、概念モデルに(必要なら)影響することなく変更できる。いずれの場合も、もちろん、その構造は他のモデルとの一貫性を残さなければならない。テーブル/カラム構造は、エンティティ・クラスや属性の直接変換からは異なるかもしれないが、しかし、それは究極的に概念エンティティ・クラス構造の目的の外で扱わなくてはならない。多くのソフトウエア開発プロジェクトの初期段階は、の設計を強調する。このような設計は、で詳細化される。その後段で、このモデルは、に変換されるかもしれない。しかしながら、概念モデルを直接実装することも可能である。

歴史

情報システムのモデリングにおける最も初期の業績の1つは、「情報を規定する正確で抽象的な方法とデータ処理問題の時間的特徴」を論じた、Young と Kent (1958) によって為された。彼らは、「ハードウエアのあらゆる部分を取り巻く問題のためのに可能となるべき1つの表記法」を作ることを望んだ。彼らの作業は最初、異なるハードウエア・コンポーネントを使う異なる代替的実装を設計するための、1つの抽象仕様と不変の基盤を作る努力であった。情報システム・モデリングにおける次のステップは、「データ処理のシステム・レベルで、マシン独立の問題定義言語の正しい構造」を開発すると言う、本質的にYoung と Kentと同じことを目指した、1959年に編成されたIT業界コンソーシアムである、CODASYLによって行われた。これが1つの特定な情報システムの情報代数学 (Information_algebra) の開発に導いた 1960年代の終わりに向けて、エドガー・F・コッドは、彼のデータ編成の理論を練り、一階述語論理に基づいたデータベース管理のためのリレーショナル・モデルを提案した。

1970年代に実体関連モデルが、1976年にピーター・チェンによって初めて提案され、概念データ・モデルの新しいタイプとして出現した。実体関連モデルは、データベースに格納される情報ニーズや情報のタイプを記述するための、 要求分析中の情報システム設計の最初のステージで使われた。この技術は、あらゆる概念体系 、すなわち、一定の関心の領域のための、概念の全貌と分類とそれらの関連、を記述できる。

1970年代、G.M. Nijssen は、「自然言語情報分析手法」(NIAM) を開発し、そして1980年代にそれを発展させたオブジェクト役割モデリング (ORM) を Terry Halpin と一緒に開発した。

Jan L. Harrington (2000)によれば、更に1980年代に、「オブジェクト指向パラダイムの開発が、我々がデータとデータに作用する手続きを見る方法に基本的な変化をもたらした。伝統的に、データと手続きは:データベースにデータとそれらの関連、アプリケーション・プログラムに手続きをと、別々に格納されていた。オブジェクト指向では、しかしながら、そのデータと共にエンティティの手続きを組み合わせた。」

データベース・モデル

データベース・モデル (database model)は、どのようにデータベースが構造化され、使われるかを記述する理論または仕様である。いくつかのそのようなモデルは提案されてきた。広く知られたモデルは以下を含む:

Image:FigFileConvert000a.svg|フラット・モデル

Image:Hierarchisches Datenbankmodell.svg|階層型データモデル

Image:Network DB model.svg|ネットワーク型データモデル

Image:Relational model concepts.png|リレーショナル・モデル

これは、厳密にはデータ・モデルとして認められないかもしれない。フラット(またはテーブル)モデルは、与えられたカラムの全要素が、同じような値であり、そして1つの行の全要素が互いに関連していると想定される、データ要素の単一の2次元配列で構成される。
  • 階層型データモデル: このモデルにおけるデータは、それぞれ同じレベルのリストに特定の順序でレコートを保持するネスト化と並び替えフィールドを記述するそれぞれのレコードへの単純な上昇リンクを暗示する、ツリー構造に組織化される。
  • ネットワーク型データモデル:このモデルは、レコードとセットと呼ばれる、2つの基本的概念を使うデータを組織化する。レコードはフィールドを含み、セットはレコード間の、1は所有者、多はメンバーである、1対多の関連を定義する。
  • リレーショナル・モデル: は、一階述語論理に基づくデータベース・モデルである。その中核アイデアは、とりうる値と値の組み合わせへの制約を記述する、有限の述語変数を超える述語の集合としてデータベースを記述することである。

Image:Company codm.gif|概念指向モデル (Concept-oriented model)

Image:Star-schema.png|スタースキーマ

  • 概念指向モデル (Concept-oriented model) : リレーショナル・データベース・モデルと類似するが、オブジェクト、クラス、及び継承が、データベース・スキーマと問い合わせ言語で直接サポートされる。
  • スタースキーマは、データ・ウエアハウス・スキーマの最もシンプルなスタイルである。スタースキーマは、いくつかの「事実テーブル」(おそらく1つのみであり、その名前を正当化する)がどんな数の「次元テーブル」を参照する。 スタースキーマは、重要な雪形スキーマの特別なケースと考えられる。

データ構造ダイアグラム

thumb

データ構造ダイアグラム (DSD) は、エンティティとそれらの関連、及びそれらを拘束する制約 (constraints) を文書化する図式表記法を提供するよって、概念データモデルを記述するため使われる1つのダイアグラムでありデータ・モデルである。DSDの基本的図形要素は、エンティティを表すボックスと、関連を表すである。データ構造ダイアグラムは、複雑なデータ・エンティティを文書化するため最も有用である。

データ構造ダイアグラムは、実体関連モデルの1つの拡張である。DSDで、関連が、エンティティ群を束ねる制約を規定する属性から構成されるボックスとして描かれる一方で、属性は、エンティティの、外側でなく、内側で規定される。実体関連モデルは、堅牢である一方で、関連同士の制約を規定する方法を提供せず、そして、いくつかの属性を持つエンティティを表現するとき視覚的に扱い難くなる。DSDは、DSDが1つのエンティティ内での要素の関連に焦点を当て、そしてユーザーに各エンティティ間のリンクと関連を完全に見せることができるのに対して、実体関連モデルでは異なるエンティティ間の関連に焦点を当てる点で、異なる。

データ構造ダイアグラムを表現するため、多重度 (cardinality) を定義する方法に顕著な違いを伴う、いくつかのスタイルがある。選択は、鏃 、逆向き鏃 (鳥足) 、あるいは多重度の数値表現の間に存在する。

thumb

実体関連モデル (ERM)

実体関連モデルは、構造化されたデータを表現するためソフトウエア工学で使われる、1つの抽象概念スキーマ(または、意味的データモデル (semantic data model) )である。実体関連モデルのため使われるいくつもの表記法が存在する。

地理的データ・モデル

地理情報システムにおけるデータモデル (data model) は、データとして地理的オブジェクトまたは地表を表現するための数学的概念である。たとえば、

  • ベクターデータ・モデルは、点、線、及び多角形の集合として地形を表現する;
  • ラスターデータ・モデルは、数値を格納するセル・マトリックスとして地形を表現する;
  • そして不規則三角網 (TIN) データ・モデルは、連続、非重複の三角形のセットとして地形を表現する。

Image:Groups relate to the process of making a map.jpg|地図作成プロセスに関係するグループ

Image:NGMDB data model application.jpg|NGMDB データ・モデル・アプリケーション。

図は、今日のデータ・モデルが開発され、そして使われる方法を描いている。概念データモデル (conceptual data model) は、開発されているアプリケーションのためのデータ要求に基づき、おそらくアクティビティ・モデルの文脈で開発される。そのデータモデルは通常、エンティティ・タイプ、属性、関連、完全性ルール、及びそれらのオブジェクトの定義から成る。これは、そこでインタフェースまたはデータベース設計のためのスタート・ポイントとして使われる

  1. データ・モデル理論、すなわち、どのようにデータが構造化されそしてアクセスされるかの形式的な記述。
  2. データ・モデルインスタンス、すなわち、ある特定なアプリケーションのための特定なデータ・モデルインスタンスを生成するためにデータ・モデル理論を適用すること。

データ・モデル理論は、3つの主要なコンポーネントを持つ:。

データ・フロー・ダイアグラム (DFD)

thumb

データ・フロー・ダイアグラムは、プログラムのコントロールの流れを示すフローチャートとは違い、情報システムを通してのデータの「流れ」を示す、図式表現である。データ・フロー・ダイアグラムはまた、データ処理 (構造化設計) の可視化 (visualization) のため使われうる。データ・フロー・ダイアグラムは、Martin と Estrin の コンピュータの「データ・フロー・グラフ」に基づいた構造化設計のオリジナル開発者である、Larry Constantine (Larry Constantine) によって考案された。

それは、システムと外側のエンティティ間の相互作用を最初に示す、文脈レベル・データ・フロー・ダイアグラム (context-level Data flow diagram) を描く共通の実践である。DFDは、どのようにシステムが、分割された部分間のデータの流れに着目してより小さな部分に分割するかを示すため設計される。この文脈レベル・データ・フロー・ダイアグラムは、そこでモデル化されているシステムをより詳細に示すため「激増」される。

情報モデル

) 情報モデルの例。]]

情報モデルは、データ・モデルの一つのタイプではないが、一つの代替モデルより多いかまたは少ない。ソフトウエア工学の分野でのデータ・モデルと情報モデルの両方は、特性、関連、及びそれらで実行され得る操作を含め、エンティティ・タイプの抽象であり、公式表現である。モデル内のエンティティ・タイプは、ネットワーク内の機器のような、実世界のオブジェクトの種類かもしれないし、またそれらは、勘定システム内で使われるエンティティのような、抽象化されたそれら自身かもしれない。典型的に、それらは、エンティティ・タイプ、特性、関連、及び操作の閉じたセットによって記述される、制約されたドメインをモデル化するのに使われる。

Lee (1999)によれば。一般的用語情報モデルはさらに、施設、ビルディング、プロセス・プラントなどのような、個々のもののモデルのため使われる。このような場合、概念は、ファシリティ情報モデル (Facility Information Model) 、ビルディング情報モデル (Building Information Model) 、プラント情報モデルなどと特定される。そのような情報モデルは、施設についてのデータと文書を伴う施設のモデルの統合である。

情報モデルは、どのようにその記述がソフトウエアにおいて実際の実装にマップされたかの記述を制約することなく、問題ドメイン記述の形式主義を提供する。情報モデリングのマッピングには多くもものが存在する。そのようなマッピングは、それらが(UMLを使った)オブジェクトモデル (object model) 、実体関連モデル、または XMLのスキーマ (XML schema) であるかどうかにかかわらず、データ・モデルと呼ばれる。

) 標準、Document Object Model]]

オブジェクト・モデル

コンピュータ科学におけるオブジェクト・モデル (object model) は、プログラムがその世界のある特定な部分を試しそして操作できるオブジェクトあるいはクラスの集合である。言い換えるなら、ある種のサービスまたはシステムへのオブジェクト指向インタフェースである。そのようなインタフェースは、表現されたサービスまたはシステムのオブジェクト・モデルであると言える。たとえば、Document Object Modelは、ページを調べて動的変化をプログラムするスクリプトを使う、ウェブブラウザにおけるページ表現の集合である。Microsoft Excelを他のプログラムからコントロールするための、Microsoft Excelオブジェクト・モデルが存在するし、またASCOM (AStronomy Common Object Model)Telescope Driver は、天体望遠鏡をコントロールするための1つのオブジェクト・モデルである。

コンピューティングにおける用語オブジェクト・モデルは、プログラミング言語技術、表記法、または 方法論を使うある特定なコンピュータにおけるオブジェクトの一般的特性とは別の2番目の意味をもつ。例は: Javaオブジェクト・モデルComponent Object Model、あるいは、 オブジェクトモデル化技法 (OMT) 。このようなオブジェクト・モデルは通常、 クラスメッセージ継承多態性情報隠蔽のような概念を使って定義される。プログラミング言語の形式意味論 のサブセットとして形式化されたオブジェクト・モデルに関する膨大な文献が存在する。

オブジェクト役割モデル

オブジェクト役割モデリング (ORM) は、概念的モデリング (conceptual modeling) のための1つの手法であり、情報やルールの分析のための1つのツールとして利用できる。

オブジェクト役割モデリングは、概念レベルでのシステム分析のための1つの事実指向の手法である。データベース・アプリケーションの品質は、その設計に重大に依存する。正しさ、明確さ、適合性、及び生産性を確かにするのを助けるため、情報システムは、人々が容易に理解できる概念と言語を使って概念レベルで最初に規定されることがベストである。

概念的設計は、データ、プロセス、及び振る舞い的観点を含むかもしれないし、その設計を実装のため使われた実際のDBMSは、(リレーショナル、階層型、ネットワーク型、オブジェクト指向等の)多くの論理的データ・モデルの1つに基づいたかもしれない。

統一モデリング言語モデル

統一モデリング言語 (UML) は、ソフトウエア工学分野での、1つの標準汎用モデリング言語である。それは、ソフトウエア集約システムの成果物 (ソフトウエア開発) (artifacts) を、可視化し、規定し、構築し、そして文書化するための1つの図式言語 (graphical language) である。統一モデリング言語は、以下を含む、システムの青写真を描く標準方法を提供する。

UML は、機能モデル、データ・モデル、及びデータベースモデル (database model) の1つのミックスを提供する。

文献案内

  • David C. Hay (1996). Data Model Patterns: Conventions of Thought. New York:Dorset House Publishers, Inc.
  • Matthew West and Julian Fowler (1999). Developing High Quality Data Models. The European Process Industries STEP Technical Liaison Executive (EPISTLE).
  • Len Silverston (2001). The Data Model Resource Book Volume 1/2. John Wiley & Sons.
  • RFC 3444 - On the Difference between Information Models and Data Models
  • Len Silverston & Paul Agnew (2008). The Data Model Resource Book: Universal Patterns for data Modeling Volume 3. John Wiley & Sons.
  • Steve Hoberman, Donna Burbank, & Chris Bradley (2009). Data Modeling for the Business. Technics Publications, LLC
  • Andy Graham (2010), The Enterprise Data Model: a framework for enterprise data architecture

Category:データモデリング

Category:データベース

データモデル』に 関連する人気アイテム

リレーショナルデータベース入門―データモデル・SQL・管理システム

良い本だが話が冗長すぎる.

(参考になった人 6/11 人)

説明がいっぱいあってほんとは良い本なんですが,話が冗長過ぎてまとまってない.

もうちょっと項目やパラグラフを分けていいただいて,せっかくTeX使ってんだからitemizeとかenumerateとかdescriptionとか使って定義と説明文をきっちり分ければわかりやすくなりそうです.話の筋が見えにくくて,だらだら読む必要が出てきます.だらだらと教科書を読み続けて勉強できるという人には本当に良い本です.

ちなみに例題の解答例がないのも初学者にはつらいでしょう.

他の方のレビューにもありますが,まず他の本で一通り概要を知った上で読めば本質的な部分を深められて良いと思います.とにかくまとまってないので今すぐRDBを使いたいという人や概要を知りたいという人が読む本ではありませんね.学校のテキストとして使うのであれば用意するのが面倒なほどの板書やスライドが必要になるでしょう.

内容の良さについては他の方がとてもよいレビューをたくさん書いていらっしゃいますので割愛します.

適切な入門書

(参考になった人 16/18 人)

初版は1991年、本書はその改訂版。 RDBの基礎を学ぶには依然有用な一冊と言えます。 単純にDBにアクセスできる、操作できるという事だけを目的とするのでなく、 きちんとRDBの基礎理論まで理解させることを目的としており、 入門書とは言え、その辺りのお手軽本とは一線を画した内容となっています。 その分、何の前提知識もない初学者には理解し辛い面があるのも事実だと思います。 少なくとも一度はDBに触れてから、もしくは触れながら本書を読むと良いでしょう。 早いうちに基礎理論体系をものにしておくことは、先行き大きな力になります。 本書はその「自分への先行投資」に十分応えてくれる一冊です。

半年あるいは1年かけて、じっくり学ぶのに適した教科書.長く愛用できると思います. <この本の良いところ> ・良心的な価格設定。 あえてソフトカバー。 英断だと思います。 ・十分な厚みがあり、丁寧な説明 ・「リレーショナルデータベース」に関する話題。 設計理論、索引などなどをもれなく網羅 ・行間から識見、人柄がにじみ出る、個性と含蓄がある記述 ・Google等ではとても得られない.一貫性のある知識体系 王道の教科書です。 明瞭な説明、さすがと敬服します。

NOSQLの基礎知識

※ 本書に習い、「NoSQL」ではなく「NOSQL」という表現を使用する。

レビューワーは、所謂IT業界に籍を置くが、
データベースと聞けば、SQLやRDBMSしか頭に浮かばない(それで十分仕事は回る)
レガシーな人間であり、NOSQLのソフトウェアを利用することや、
それを売ったりすることは無いものの、ただ一方では、
NOSQLって何なの?を知っていないと勉強不足のそしりを免れない立場にある。
そんなレベルの人間に、NOSQLの世界の概要を教えてくれる素晴らしい一冊である。



本書はNOSQLを技術面から捉えた内容であり、ビッグデータというキーワードで
ビジネスでの利活用や法制度等を説いたビッグデータの衝撃――巨大なデータが戦略を決めるとセットで読めば、
もう鬼に金棒状態で、知ったかぶりのベンダーの営業や勉強不足の上司を撃退出来る。

レビューワーなりの要約を以下記載する。

1章は、NOSQLという概念やそれを実現するソフトウェアが出てくるまでに至る
背景や歴史に始まり、NOSQLの特性、特徴を語る。
NOSQLは、大量のかつ多種なデータを早く安く処理するために、
目的を絞ったデータベースであり、
既存のRDBMSとは別カテゴリーのソフトウェアであると明示している。

2章は、NOSQLのソフトウェアを、
データモデルという観点から、
キーバリュー型、カラム指向型、ドキュメント指向型、グラフ型の4つに分類し、
それぞれの特徴を説明する。
分類の仕方は色々あろうが、技術的な仕組み・実装ではなく、
データモデルという観点からの分類は、
素人・外野の立場の人間にとっては理解がしやすい。
カラム指向型という概念をこの本でやっと理解できた。

細かいが、カラム指向型とカラムナデータベースは名前は似ているが違うという
ちょっとした指摘に著者の見識の深さを垣間見た。

3章は、NOSQLソフトウェアのアーキテクチャ、データの整合性を担保する仕組み、
データ分割の方法等を解説する(ここら辺からより技術的な内容が濃くなってくる)
NOSQLデータベースでは、RDBMSではお馴染みのデータベースの4つの特性、
ACIDとは別の機能が求められ、
可用性と整合性のどちらを取るかで各プロダクトごとの特性が出てくる、というのが、
後々の章との関係でポイントとなる。

4章は、Hadoopを取り上げる。
HadoopはNOSQLではなく、分散ファイルシステム(HDFS)と
並列分散処理システム(MapReduce)を包含するフレームワーク(概念)であり、
似ているところはあるものの、目的とする所が違うと解説する。

5章は、主要なNOSQLデータベース製品を取り上げる。
やや駆け足的な記述になっている部分もあるが、
なんせ少なくとも何十という製品が世に出ている(本書P46)ので、
あまり懇切丁寧に説明していたら本書のメッセージがぶれただろう。

6章は、3章と5章を受けて、NOSQL製品の選択基準を定義する。
こっち方面に詳しい人は、この章の記載は物足りないというか、
参考にならないと思うが、
素人・外野の立場の人間からしてみれば、
「かくかくしかじかなる選択基準が存在すること」を知ることが重要なのである。

性能検証の結果も載っているが、
そのスピード絶対値は参考にならず(HWSWによって如何様でも変わりうる)、ただ、
製品ごとに得意・不得意な処理があることが一目瞭然であり、
製品のアーキテクチャーと利用目的を踏まえた製品選択が
大事であることが数字でもって示されている。

7章は、NOSQLを使うビジネスと銘打っているが、
この章は平凡である。目新しい内容はない。

各章の合間に、BBC、NYTimes、Twitter、Facebook、StumbleUpon、等々での
NOSQL活用事例が紹介されており、NOSQLの活用イメージが湧きやすい。
日本企業はゼロなので、人によっては馴染みが薄いかも知れないが。
あと、Diggは本書に載っているシステムアーキテクチャー切り替えと
それに伴うデザイン変更の結果、ユーザーから見放されたが
(その顛末は本書では詳しく語られていないが)ご愛敬ということで。

あと、こっち方面に詳しい人からすると、
テクニカルな正確さや厳密性やら網羅性やらが足らないとか
いろいろツッコミが入りそうな予感が何となくするが、
そして、この本の著者ならオタッキーな方向に走ることをも十分できたと思うが、
それを抑えて、分かりやすさ、理解のし易さを第一に置いた構成は素晴らしい。

読者像を勝手に描くと、
HadoopとNOSQLの違いが分からない人は、必読書。
HadoopとNOSQLが一緒くたになっている人も必読書。
キーバリュー型とカラム指向型という、キーワードは聞いたことがあるものの、
違いを説明できない人にとっても必読書。
一方、CassandoraとかHBaseをバリバリ使いこなせている人は、
そもそも本書を読む必要はない。日本にどれだけいるのか知らないが。

色々な知識を持っていることを前提にしているので、
脚注で用語の補足説明は加えてくれてはいるものの、
本書を読みこなすこと自体、結構高度なことになるのかも。

買って損しない内容

(参考になった人 9/10 人)

国産NOSQL-DBのHibari開発企業執筆で間違いのない一冊です。
「基礎知識」というタイトルにふさわしく、GoogleのBigtable、AmazonのDynamoを踏まえたNOSQLとして定義されるべき事項をしっかり盛り込んでいます。
さにありながら、このような本にありがちのソフトウェア開発者、プログラマー向けの至る所にコマンド、コード、構文・・・の内容となってなく、きっちり初心者向けに分かりやすく書かれています。
第1章でビッグデータとNOSQLの背景(生い立ち)から入り、第2章のデータモデル(DB構造の違いで分かれる型)でのNOSQL-DB分類、第3章ではアーキテクチャ概説(当方はここが一番有意義だった)、そして「Hadoopはデータベースに非ず」として第4章にはHadoop、MapReducerを押さえています。


第5章の製品解説は置いておいて、第6章では今この時点でたぶん先端を行くNOSQL-DBの選択基準を示していることは非常に価値ありです。用途での選定ポイントは一般論過ぎですが、性能評価はプロも一読すべき内容です。
総じて、IT系企業でビッグデータ、NOSQL-DBを提案、構築するシステムエンジニアは必読。もしくはユーザ系でもこの程度の基礎知識を持てば、(雨後の竹の子)流行売り込みベンダの素性能力を見極めることができると考えます。

遂に基礎知識になった

(参考になった人 7/8 人)

ビッグデータはクラウドの次のバズワードと
なっているようで、最近は大きなSIerも
盛んに喧伝をしているようなのですが、
その技術的基盤であるNOSQLについては
ピンと来ない方も多かったのではないでしょうか。

そこに真っ向勝負を挑んでいるのが紹介の本で、
NOSQLのデータモデル、アーキテクチャの基本概念、
NOSQL-DBMSの類型と代表製品の紹介、性能評価、
ユーザ事例などが平易にまとめられています。



しかも、平易なだけでなく、
ところどころ切れ味も鋭いです。
「HadoopはNOSQL-DBMSじゃない」とか、
「現時点で最初に検討すべきNOSQL-DBMSは
CassandraとHBaseだ」など、実際に数々の
NOSQL-DBMSを比較検討し、システム開発に
適用している著者たちにしか書けない言葉は、
それだけで2520円以上の価値があるでしょう。

こういう分かり易い基礎知識の本が出てくれると、
真面目にビッグデータの提案ができる雰囲気が
いよいよ形作られていくのかなと思いますね。

データ・サイエンティストに学ぶ「分析力」

ビッグデータを駆使していかに「顧客像」にリーチ・セグメント化し、最適化されたマーケティングを行うか。
amazon,facebook,google などによる効率的なダイレクトマーケティング手法の進化のスピードに、旧態然の商売スタイルの企業や年配管理職は呆然としながら手をこまねいているか、見ないふりをしている感がある。
しかし、ビッグ・データはIT業界が流行らせようとしているネタの一つでもあり、それがフィットしない商売も多いわけで、実際どうなのか、などとと考えつつ読む。

副題にビッグデータからビジネスチャンスをつかむとあるが、著書のスタンスはビッグ・データの活用であったり、手元のリトルデータへの仮説検証を交えた統計処理であったり、あるいは単なるSEOやA/Bテスト(少しづつ異なるweb siteデザインを公開し、最適化を図る手法)であったりと、内容的にはやや総花的・散文的。


他のレビューワーの方が書かれている様に、具体的な手法については、やや逃げ気味の書き方になっている。

著者は自称ギークだそうだが、それらしいスピード感あふれる文章で、データアナリストが顧客の層別を行う手順などを紹介しており、色々と自分のビジネスについて考え直すヒントは得られた点もあった。
具体的手法については相当ボンヤリ感のある「統計学が最強の学問である」に比べると、はるかにリズムがあり、具体的な本だと思う。

実際には手元のリトルデータでさえ分析できずに、「直感」「経験則」で、効果測定基準もないままに予算を総花的にバラマキ消費してはいないか?と、自身のコンサルティング事例を引きながら、比較的豊富な図版を使用しつつ、基本的な手法について説明してくれるのは、思い当たる節もある当方としては耳が痛い部分もあった。

主題とはやや離れるが、文中で紹介されたsmartな目標設定、というのは、まとめとしてパクりやすいので、自分用のメモとして以下、書いておく。

・具体的(Specific)
・測定可能(Measurable)目標に到達しつつあるのか、そうでないのか、追跡できないといけない
・達成可能(Achievable)
・現実的(Realistic)
・時間設定(Time table)いつ達成

Inputに対するOutputを測定するKPIを雰囲気だけで設定するプロジェクトが身の回りに溢れかえっているので、そうだよね、と思わされた。

自分達はデータ化され、差別され扱われる時代になった。データ分析の世界では購入者の特性は一人ひとりのキャラクターとしてではなく、ただの属性として扱われるようになる。そして、属性によって企業の扱い方が変わる。

顧客の側から見るとそんな時代になってきた。ただ、売り手の方からするとこんなにいい時代もない。何となくの感覚と雰囲気でやってきた活動を根拠を持ってやることが出来るし、優良顧客リストをいとも簡単に作成することが出来るのだから。

ただ、それをやらなかったり、十分な分析をしないと、持っているデータは宝の持ち腐れになる。

これからのマーケターは統計も必須となる。どの顧客をターゲットにし、それぞれの顧客にどんなアプローチを行うのかをデータで分析出来るようになった時代だからこそ、それが出来ないマーケターは淘汰されてしまうのだから。

この本はそんな経験と直感力を頼りにマーケティングを行うマーケターに向けた一冊。大きく2つのパートに分けられる。前半はどちらかというと、マーケティングの基本的な話。顧客をどう分解して、ターゲットにするべきなのか。それなりに新しい理論を紹介している。

売上額とクライアントの予算額から顧客を分類するバリュースペクトラムモデルや消費額と顧客の売上高の関係を示した差別化マーケティングピラミッドなど。そして、後半はAd Techと呼ばれるWeb上の広告の発展と活用法について。顧客の階層や訪問先HPによって広告を表示するテクニックやテストを繰り返し行うことの必要性についてまでご紹介。

著者が所属している企業の宣伝臭いところもありつつ、データをどうマーケティングに活用するのか、その一例としてのWebの広告技術について学ぶことが出来る一冊。

前半のマーケティングフレームワークは使えそうなので、図にまとめておこうと思います。

【キーワード】

目的:マーケター的戦略立案手法とサイエンス的アプローチの調和・融合

文系マーケター:自分の中に経験と直感力に基づく仮設がある場合が多い
理系システム担当者:分析の指示が論理的でも明確でもない。目的のすり合わせが出来ず。
→企業の中でマーケターマインドとサイエンスの調和と融合が必須【手に入れたきっかけ】

【手に入れたきっかけ】

Kindleキャンペーン!

HBR誌で、「21世紀で最もセクシーな職業」と謳われたように、
近年俄然注目を集めている「データサイエンティスト」。
ワタシも含め、この言葉は単なるBuzz Wordだという批判もあるが、
避けて通れない存在になっていることは確かである。

しかし、その定義に確固たるモノはなく、実態はなかなか見えにくい。
その中で本書は、手持ちのデータ(スモール・データ)でも十分に分析できるんだよ、
分析はこういう手順でやるんだよ、ということを教えてくれている。



具体的には、

1. ターゲティング:誰にアプローチするか?
2. メッセージ:何について話すか?
3. ロケーション:顧客はどこにいるか?
4. 予算:分析にいくら費やすか?
5. 測定:何が有効で、何が有効でないか?
6. 最適化:有効なものをさらに活用し、有効でないモノを排除するには?

以上が分析のステップだと挙げ、本書の構成もそれに準じたものとなっている。
このステップは非常に的を射ており、
十分な仮説立案もしないままいきなりデータを弄くりだしたり、
分析しっぱなしで効果測定もおこなわないマーケティング担当者には耳の痛い話だろう。

一方で、ダベンポートが説くような、「リーダシップ」や「組織」の必要性にはあまり触れておらず、
あくまで「分析」のみにフォーカスをあてている。
その意味では、すでに分析文化の根付いた企業でないと、
現場の理解は得られず、せっかく分析しても見向きもされない、、、
なんてことになりかねないだろう。

また、分析事例の多くがWEBなどのオンラインでの手法に偏っているので、
オフラインデータのみで勝負しなければならない企業にはあまり参考にならないかもしれない
(とはいえ、今後はオンライン調査を取り入れないで分析するのは
片手おちになってしまうのはいわずもがな、だが)。

P.S.
本書の原題は"Sexy Little Numbers"。
日本語訳に「データサイエンティスト」と入れてしまったのは、
逆に本書の価値を安っぽくしているのでは、と勝手に懸念している。。。

チャンス発見のデータ分析―モデル化+可視化+コミュニケーション→シナリオ創発

この本は、開発したpcプログラムを利用することを前提にしており、門外漢にとってはかなり浅い部分しか理解できない。 それでこの値は高い。 ただ、本格的に利用することを検討している人にとっては参考になるでしょう。 結局、統計を見てどうそのデータを参考にするかはその人またはグループの知識、能力次第というところは、共感しました。

これは面白いアイデアだ!

(参考になった人 1/2 人)

チャンス発見とは何か?を科学的に探求する教科書です。 データ分析だけで関係性を見極めることは困難ですが、人間の経験と直感を使って見つけ出すというKeyGraphの手法が様々な応用例とともに示されております。 チャンスを発見したい人だけでなく、物事を『文脈』で捉えたい人におすすめな本だと思いました。

2006年はじめまでのチャンス発見学の研究成果が一冊にまとまった本です。 大学や公的機関の研究者、企業内の研究者には著者の成果のみならず、チャンス発見の 関連分野のサーベイがすべて一冊にまとまっている良書です。 また、研究者およびこの本のチャンス発見手法を追試したい実務家に対しては 各章毎に十分な量の参考文献が載っているので、この本の内容と参考文献により 自分の問題に適用することも可能であり、また、著者の研究成果をベースにその上に 自分の研究を加えていくときにも役立ちます。 著者の今までの本の中でもっとも最新であり、もっとも中身が濃いチャンス発見本です。

実践的データモデリング入門

リレーショナルデータベースに始めて触れた時、フィールドをきちんと

配置し参照を考えたテーブルを複数用意すると、多少複雑な検索条

件でも、SQL文一発で、検索結果が得られたのに非常に感動をした

ことを思い出しました。

今なおデータモデルの設計が甘い為に抽出したデータをプログラムで

再加工していたり、なかなか美しいコーディングに行き着いてはいない

ので、本書を手に取るきっかけを得ました。



本書にはERwinとER/Studioというモデリングツールの試用版が付

録でついており本書内での演習に使えます。

私自身は、もし使用版が非常に気に入ってしまうと、正規版がほしく

なってしまうので、(ちょっと個人では買えそうにありません。私は

フォトショップでいっぱいいっぱいです)試用版を試すことなくもっぱ

ら読むことで概念をつかもうと心がけました。

それでも、論理モデルを作成することの有用性は充分に実感することが

出来ましたので、企業でERwinとER/Studioを導入する予定のある方、

もしくは個人でも余裕のある方にとっては非常に有効に活用できるの

ではないかと思います。

データモデリングについてわかりやすい解説をしている本

本の構成は、基礎編(理論編)と実践編となっており、基礎編では
モデリングの必要性や種類、そしてこの本で扱うIDEF1X形式をのべ
データモデル以外、プロセスモデルなどの補完モデルについて述べています。
実践編では、架空のネット書店について、エンティティの切り出し、属性項目
、ボトムアップ分析を経て最後には物理実装まで扱っています。

この本がすばらしいのは、基礎編でちゃんと理論的裏付けを行った後
実践編で、架空の書店についてモデリングを行っていること。


そして、実践編では、トップダウンモデリング、ボトムアップモデリングの
両方を解説し、最後に実際のデータベースのテーブルへと落とし込むところ
までを解説しています。
それぞれの章には章のまとめがあり、何を理解していなければならないのかが
明確でありわかりやすくまとまっています。

モデリングの解説書の中には、偏った分析を主に行っているものもある中
で、豊富な引用書籍を裏付けにした、網羅的でかつ、実践的でわかりやすい
この本は、手元の本も6版と版を重ねており、とても良い本ではないかと
思います。 お勧めです。

2chから辿って買った本だったかな?

(参考になった人 1/32 人)

内容は期待以下。 まとめて読んであー楽しかった!とはならなかった。 机の上に置いて、たまに参照してみます。 結果 評価が変わったら、☆の数を変えますね。 今は2個。 2014/3/5時点で13人が参考にならなかったレビューとしています。 参考になった人は0人。 本日星1個にしました。 この本を評価している人もいますが、本当にDB設計を学びたいのであれば、本なんか読んでる場合ではなく、データベーススペシャリストの勉強をすべきです。

データモデル』by Google Search

This page is provided by Matome Project.
Contact information.