統計図表
テンプレート:独自研究 テンプレート:WikipediaPage
統計図表(とうけいずひょう)とは、複数の統計データの整理・視覚化・分析・解析などに用いられるグラフ[1][2][3][4][5][6][7][8][9][9][10][11][12]および表テンプレート:要出典の総称である。ここで、グラフとは「図形を用いて視覚的に、複数の数量・標本資料の関係などを特徴付けたもの」を指す。この意味においてのグラフはしばしば「統計グラフ」と呼ばれる。
統計図表は、統計データの整理・分析・検定などの過程で用いられる。統計図表を駆使することで
- 調査活動によって得られた数量(統計データ)の特徴(増減の傾向の型、集団の構成など)
- 統計データ同士の関係(相関関係など)
を視覚的に理解できる。
目次
概要
統計図表を適切に活用すれば
- 統計データの特徴(増減など)をつかむ
- 得られた統計データを系統だてて比較する
など、現状把握や客観的判断を行ううえで大きな手助けとなる。統計図表を用いて、統計データの傾向などを把握することを「統計データの解釈」あるいは「資料解釈」という。
どんなときにどんなグラフを用いるのがよいのだろうか?研究やそれに準じる調査活動において統計グラフを作成する必要がある局面は
など様々な状況がありえるが、どのような場合においても、
- 「何を分析するのか」「何を主張するのか」「何を検定するのか」といった目的意識(下記統計グラフで分かること参照)
- 研究目的に照らして適切に取得・処理された統計データそのもの
がなければ統計グラフの作成が不可能である。これについては「統計図表を作る前に」で述べる。
統計グラフの作成は方眼紙などを用いるのが基本だが、小中学校の教育の現場を除けば、最近ではExcelなどの表計算ソフト、場合によってはOriginやカレイダグラフなどの統計ソフトを用いるほうが多いと思われる。
統計図表を作る前に
統計図表の作成は、実験・社会調査・マーケティングなどの調査活動におけるデータの整理・分析の一環として行われる。統計グラフの作成を、調査活動自体から切り離して考えるのは難しい。何を分析するのか、何を訴えるのかによって「適切なグラフは何か」が変わってくる。一般的な見地から「正しい統計グラフを作成するための目安」(一般的な精神のほか、「棒グラフを用いるのが適切な側面」のような事例分析)を示すこと自体は可能だが、馬鹿の一つ覚えは通用しない(データマイニング参照)。それぞれの場合に応じて、工夫をこらすだけの力をもつのが必要で、そのためにはよいといわれる論文などに掲載されている統計図表を、その論旨と照らし合わせながら吟味して、目を肥やす必要がある。
また、統計データそのものがない状態で、あたかもそれがあるように偽ってグラフを作成して発表しまっては、少数の例外を除き捏造である[13]。あくまで統計グラフの作成は、データの加工手段の一つである。「目的や着眼点に沿って散在する情報を収集する」という過程なしには成立し得ない。さらに言えば、グラフ作成の前に、データ自体に何らかの統計処理を加える場合がある。データの取得・処理の妥当性については、グラフの選択やスケールなどの設定以前の問題だが、この段階で問題がある場合には、グラフ自体の価値はなくなる。ただし、データの取得・処理の妥当性についても、統計学特に実験計画法などの体系的な学問が存在するが、安易に可否を決められる問題ではない。
先にも述べたように、グラフを作成する上では、
- 「何を分析するのか」「何を主張するのか」「何を検定するのか」といった目的意識(下記統計グラフで分かること参照)
- 研究目的に照らして適切に取得、処理された統計データそのもの
を明確にしておく必要がある[3][5]。 たとえば「ここに全国の小学生それぞれの身長・体重・学年・学校を記したデータがあります。さぁ統計グラフを作ってください」といわれたとして、データとしては膨大であるにしても、これだけの“情報”では「どのようなグラフをどのように作成するのが適切か」を決めることはできない。つまり、
- 使用するグラフの種類(円グラフにするのか、棒グラフにするのかなど)
- 主要なパラメータの選択(棒グラフの場合は軸の設定、円グラフの場合には分類の設定、ヒストグラムの場合には階級の設定)
- スケールの選択
などが定まらない(「統計グラフの種類と、グラフ選択の目安」参照)。たとえば
- 身長のバラつき(ここでは敢えて、評価方法を特定しないために素朴なバラつきという言葉を用いる。)が見たい(普通はヒストグラムを使う)
- 身長と体重の関係を見たい(普通は散分図を用いる)
のように、同じデータを用いたとしても何を議論するのかによって適切なグラフは異なる。同じ「身長のバラつき」が見たいと言った場合でも
- 小学2年生身長のバラつきが見たい(ヒストグラム)
- 小学2年生身長のバラつきと、5年生の身長のばらつき具合を比較したい(2個のヒストグラムをスケールを統一して表示。あるいは、箱ひげ図を用いる)
のように、スケールの選択や場合によってはグラフの選択さえ変わってくる。無論、複数の種類のグラフを選択し得る場合もある。なお、目的が明確になったとしても、どのような問題を論じるのにはどのようなグラフがよいのかについて知らねば、どうにもならないが、これについては後述する。
グラフ作成の下準備の過程は、概ね下記のとおりである。[3][5]
- 作成する統計グラフの主題を決める
- 作成するグラフの主題に沿って必要と思われるデータを収集・整理する
- データの取捨選択、主題の再検討
- どのようなグラフを作成するのかを検討する
- 実際に作成する
より一般に、グラフを作成するという問題は「『主張すべき事柄』を論証するための素材をどのような素材を集め、それをどのように配置するか」という問題の一部である。統計グラフの作成までの具体的な手順は、人それぞれで状況次第ではあるが、どのような場合においても「どのようなデータからどのような知見を得ようとするのか」がある程度定まらなければ作成できない。そのため統計グラフ作成の手順は、研究の手順とほぼ同じで、概ね 「目的や着眼点に沿って散在する情報を集約した後、それを整理・分析し、特徴・傾向を見出す」という過程を経る。当然の話だが、これらの各段階が適切に行われていることが、グラフ自体の適切・不適切を決める。
統計グラフの種類と、グラフ選択の目安
統計グラフの分類は、人によって様々だが、よく使われるものから順に
などがある[3][5][10][11][12]。これらそれぞれの説明は、それぞれの項目に委ねる。
- 2種類の系列からなるデータの相関 - 散布図
- 3-4種類の系列からなるデータの比較 - 等高線図、3次元等高線図(カラーチャート)(高次元の散布図の一種に分類されることがある)
- 1種類の系列からなるデータの時間的推移(時間との相関)- 折れ線グラフ(散布図の一種に分類されることが多い)
- 大きさの比較 - 棒グラフ
- 内訳や構成比を見る - 円グラフ
- ばらつきをみる - ヒストグラム(棒グラフの一種に分類されることが多い)・エラーバー付き線グラフ・箱ひげ図
実証的な研究分野における統計図表の活用
自然科学、社会科学、人文科学を問わず、統計を根拠とした実証性が求められる研究分野では、データの整理・分析の一環として、統計図表を作成する局面が多数ある。具体的には、
- 実験ノート上などの一次的な記録物や計算紙などの上でのデータの簡易的な分析
- 実験・調査後に行う本格的なデータの分析
- 論文・講演のスライド等の公表用の資料
など様々な状況がありえる。 そして、いずれの分野においても、
- 「何を分析するのか」「何を主張するのか」「何を検定するのか」といった目的意識
- 研究目的に照らして適切に取得・処理された統計データそのもの
といった場面が挙げられる。
変量同士の相関を議論することが主となる場合には、実際に用いられるグラフのほとんどが散布図である。そのほか等高線図や2次元分布図等の広い意味でのカラーグラフ(2D・3D)、棒グラフである。棒グラフはヒストグラムの提示に用いられるのがほとんどである。3Dグラフは、正しく使えば値の3次元的な分布を正確かつ直感的に伝えることができるため、特に最近では、権威ある査読つき論文においてもよくつかわれている。箇条書きにすると、以下がよくつかわれる。
統計処理に際し、本来的に「データは連続的な量として取得されているはず」という暗黙の前提があり、物理学・化学・工学・経済学・心理学問わず「変量同士の相関」を見るのが主な目的であるため、理想的には関数グラフのようなものを得たいという考えが暗にある。そのため圧倒的大多数において散布図を用いて
- 2種類(あるいは3種類)のデータの相関を散布図にまとめる
- そのデータに最もフィットし、現象論的にもっともらしい回帰曲線を描く(アレニウスプロットなど)
という処理が行われる。作成される散布図は、少数のデータから全体像を推測する場合には、「実際のデータの測定値」をそのまま散布図上に書き込むことが多い。データのラベルが離散的で、かつデータの量が充分多数で、そのデータの分布が正規分布に従っている場合には、ラベルごとの平均値のみをプロットし、それに適切なエラーバーをつける方法で作成されることが多い。
コンピュータ技術の進展により、統計グラフと画像(写真)の区別が曖昧になってきているという傾向がある。デジタル化された画像は空間座標・色の2種類の系列からなる情報の相関関係を2次元的あるいは3次元的に示したある種のカラーグラフの一種でしかなく、実際カラーグラフとして作成された等高線図などと解像度や、数字の羅列としてのデータ自体のみからでは区別がつかない。
初等教育の過程で重視される折れ線グラフは、ロードマップなどの未来技術予測などには多用されるものの、
- 自然科学特に物理学において時間的推移(時系列)とは「時間と測定結果の相関」に過ぎない
- ExcelやOriginなど一部のグラフ作成機能を有するソフトウェアでは「散布図の各点を棒で結ぶ」という方法で折れ線グラフが作成できる
- 特にExcelでは、仕様上折れ線グラフは「目盛り間隔は必ず等間隔」とされていて、ある特定の時間のデータが欠落した場合などに不自由するが、散布図として作成すればそのような問題が生じない
などの理由から、ほとんどの場合は散布図にとってかわられている。
データの存在しない場合
データのないグラフが描かれる場合もある。例えばある考えを主張する場合、それを説明するために、言葉で行うのが普通であるが、おそらくデータがあればこうなる、という形でグラフが活用されることがある。
例えば島嶼生態学における種数平衡説は、海洋島における生物の種数を島へ新たに入植する種数と島で絶滅する種数の間の平衡によって決定されると論ずるが、前者については大陸からの距離が遠くなるほど低くなる、また後者は島が小さいほど高くなるということは容易に想像できる。これをグラフ化すれば、両者の曲線が中程の特定の点で交差し、そこがその島の種数の平衡点にあたることになるだろうことが容易に理解できる。この場合、実際にその曲線がどのような形であるかは実際の調査が必要であろうが、いずれにせよ右上がり、右下がりであれば議論が成立するので、グラフを作成することは虚偽にならない範囲でそれにわかりやすさをもたらす効果がある。
学校教育等における統計図表に関する指導
最近では統計グラフの作成・解釈はノート作成、プレゼンテーション技術、文章技術などと並び、調査活動を行ううえで必要なアカデミックスキルの一つだと考えられるようになってきた。しかし、統計グラフの作成・解釈に関する系統だった指導は、あまりおこなわれていない。
小学校における算数の時間などに棒グラフや折れ線グラフなどの扱いを習い、高等学校の数学の教科書には「統計」の項目があり、そこでも簡単に触れられる。また、小中高を通じて、地理の時間には、社会統計や等高線の扱いを白地図などを用いて学ぶ。小中高の理科の時間にも「実験データの整理」などという意味合いで教えられることがある。大学では、学生実験などにおいて実験ノート指導などと平行して指導される。
公務員試験などでは「資料解釈」という科目として出題される。システムアドミニストレータ試験においても「状況に応じた適切なグラフ選択」の問題が出題される。また、品質管理などの現場で教育されることがあり、品質管理関係の教材には、グラフの選択などに対して詳しい検討を行っているものがある。
過度な統計図表装飾の弊害?
統計図表を用いればデータの直感的・客観的な扱いを両立させられる反面、用法・解釈を誤ることによって誤った印象を与えたり受けたりする可能性がある。
また、特に最近話題になる問題として「同じデータを用いて議論しているはずなのに、正反対の解釈がとられ、論争が生じる」ということも起こり得る。ただ、このような誤った印象の大半は「2倍を4倍にみせかけるインチキ」のように子供だまし程度まじめに考えるには値しない全くくだらないものである。このような子供だましの弊害をあおりたてる質の低い文献が最近多数出されているが、このような瑣末な問題は
- グラフから客観的に読み取れることは何か
- どういう問題を分析したい時にはどういうグラフが有効なのか
について正しく理解していれば、特段気に書けるほどの問題ではない。
一方で、いわゆる有意性の問題のように、大変深く科学的論証の根幹にかかわるような有意義な議論となりえるものもあり、このような問題は、科学者の間でも見解が分かれることがある。この問題は、総じて言えば正しい用法・印象・判断とするのかという問題は、深く考えればきわめて難しい問題であり、場合によっては「増加しているのか否か」というような「客観的なはずの問題」自体が極めて微妙な判断を要する問題になることもある。
参考文献
関連項目
外部リンク
- FooPlot (英語)
- qtown(無料アンケートブログパーツ)
- R graphics manual フリーのグラフソフトR言語を用いた統計図表例を1万数千点紹介しているar:مخطط بياني
<ref>
タグ; name "DC"が異なる内容で複数回定義されています