今週のお題「卒業したいもの」
こんにちは、ぽんです
いつも訪問ありがとうございます
今回は、先日合格した統計検定3級で使用した私のマイ単語帳のご紹介です
各サイトさまより引用させていただいた用語集です
用語の一覧は、統計検定の公式HPに記載がある各級に求められる・知っておくべき語彙リストより引用しました
この用語集がこれから受験される方の力になれば幸いです
※マイ単語帳のため語尾がそろっていない箇所が多数ありますので、予めご了承下さい
▼合格した統計検定3級の受験体験記はこちら▼
データの種類
- データのタイプの違いを理解し、それぞれのデータに適した処理法を理解する。
量的変数
枚数、身長、金額など、数値で推し測ることができ、数字の大小に意味をもつデータ
質的変数
好きなスポーツ、血液型、自動車のナンバーなど、単に分類や種類を区別するためだけのデータや、順位、学年など順序に意味があるデータ
名義尺度
回答された数値が「意味の違いを区別するための数字」であることを示します。例として、性別の回答が挙げられます。性別の質問においては、しばしば、「1: 男性、2:女性」というように数値が割り当てられます。ここでの1や2という数値は、データにおいて、男性と女性とを区別する役割を果たします。しかし、それ以上の意味はもちえません。1より2のほうが大きいとか強いとかいうような順序の情報は含まれません。
順序尺度
回答された数値が「順序関係を表している数字」であることを示します。例えば、「1: 満足、2: どちらともいえない、3:不満」という選択肢により生活満足度について回答されれば、これは順序尺度の例といえます。ここでの数値は、値が大きくなるにつれて、満足度が下がっていくことを意味します。つまり、値の違いが、意味を区別するのに加えて、順序関係をも表しているわけです。ただし、1(満足)と2(どちらともいえない)の距離と、2(どちらともいえない)と3(不満)の距離が必ずしも等しいわけではないので、得点であるかのようにデータを扱うことは許されません。
間隔尺度
間隔尺度とは、回答された数値が「等間隔に並ぶ得点となっている数字」であることを示します。間隔尺度の数値は、意味を区別し、かつ順序関係を表すだけでなく、さらに値の間の距離が同じ意味をもつようになります。ここでは政治学で使用される「感情温度計」を例としてみましょう。 感情温度計とは、政党に対する好感度を測るため、「あなたは〇〇党に対して、好意的な気持ちをもっていますか、それとも反感をもっていますか。好意も反感ももたないときには50度とし、好意的な気持ちがあれば60度から100度の数字に、反感をもっていれば0度から40度の数字に〇をつけてください。」というようにたずねる質問です。これに対する回答は、100度と90度の差の10と、50度と40度の差の10とは、同じ距離とみなせます。すなわち、好感度の違いが同程度とみることができます。このように、等間隔に並ぶ得点である間隔尺度の数値は、差を計算して、一方がもう一方よりもどれだけ上回っているかを示すこともできるようになります。
比例
ともなって変わる二つの変数をXとYとすると、Xが2倍・3倍になるにつれ、Yも2倍・3倍となる関係のことを比例という。これとは逆に、Xが2倍・3倍になるにつれ、Yが1/2・1/3となる関係のことを反比例という。
尺度
データの特徴に対して数値を対応させる基準のことです。 特徴別のデータの種類ともいえます。 尺度によって、計算(加減乗除)ができる/できないや、 用いることができる統計的手法が異なってきます。
スポンサードリンク
標本調査
- 標本調査の意味と必要性を理解し、標本の抽出方法や推定方法について説明することができる。
母集団
対象の全体のこと(日本の人口の場合・・日本人全員のこと)
標本
統計調査を行う時に、対象のすべてを調べるのではなく、一部だけを取り出して調査するもの。取り出されたものを標本という。
全数調査
対象となるもの全てを調査すること。総務省統計局が5年ごとに行っている国勢調査は代表的な全数調査である。
無作為抽出
母集団をすべて調べることができない場合、標本調査を行うが、標本を抽出する際、調査実施者の主観的判断が全く入らないよう、くじ引きのような方法で抽出することを無作為抽出という。この方法によれば、一部の対象のみを調査しても偏りがなく全体を知ることができる。
標本の大きさ
データの個数のことで、通常nで表される。「標本の大きさ」とも言う。「サンプル数」や「標本数」がサンプルサイズの意味で用いられることもあるが、これらは「標本の個数」という意味で使われる場合もあり紛らわしい。
乱数表
次の値が予測できないランダムな数値のこと。統計においては、ブートストラップ法やモンテカルロ法などのリサンプリング手法やマッチングにおいて用いられる。正規分布やポアソン分布など、特定の分布に従う乱数も存在する。 コンピュータ上では、真の意味での乱数を発生させることはできないため、何らかのアルゴリズムによって計算された疑似乱数(pseudo random number)を乱数と呼ぶ場合もある。
国勢調査
我が国にふだん住んでいるすべての人及び世帯を対象とする国の最も重要な統計調査。国及び地方公共団体における各種行政施策その他の基礎資料を得ることを目的としている。<調査していること:男女の別、出生の年月、就業状態、従業地・通学地、住居の種類など>
実験
実験の意味と必要性を理解し、実験の基本的な考え方について、説明することができる。
実験研究
よい結果を得るために最も効果的な実験を計画し、その実験で得られたデータに最適な解析手法を採択する手順のこと。
観察研究
対象を観察する方法のことで、自然観察法や実験観察法がある。質問紙法の結果は、調査対象者の自己報告に基づいているのに対し、観察法は観察者が対象者を「見ること」で結果が得られる。観察法は観察者のスキルや観察者と調査対象者の人間関係の影響を受けやすい。
処理群と対照群
新しい教育を行ったグループを処理群と呼び、従来の教育を行ったグループは比較の基準となるグループであり、対照群と呼ばれます。
スポンサードリンク
統計グラフ
- 基本的な1変数の統計グラフを適切に解釈したり、自ら書いたりすることができる。
棒グラフ
複数の数量の大小を比較するため、それぞれの量を棒の高さで表して横に並べたグラフ。
折れ線グラフ
横軸を経過時間、縦軸を数値とし、変化のようすをみることができるグラフのこと。
円グラフ
全体に占める各項目の割合を表したグラフのこと。(構成比の内訳を円で表したグラフ。)
帯グラフ
全体に占める各項目の割合を表したグラフ。(構成比の内訳を長方形で表したグラフ。)
積み上げ棒グラフ
通常の棒グラフと同様に、棒の高さが合計度数を表します。
レーダーチャート
放射線状に伸びた数値軸上の値を線で結んだ多角形のグラフのこと。クモの巣のような形をしている。複数の項目を比較してバランスを見る時や、季節や時間などの時系列のデータから傾向を分析する時などに使われる。
バブルチャート
散布図を構成するデータに加えて、それに関係するもう一つの量的なデータを加え、円の大きさで表すグラフです。 3つのデータの関係性について、一つのグラフで見ることができます。
ローソク足
1本で一定期間(日・週・月など)の始値(はじめね)、終値(おわりね)、高値、安値を表しています。 始値から終値までの四角い部分を「実体部」、実体部から伸びた高値や安値の線を「ヒゲ」と呼びます。 始値より終値のほうが高いローソク足は「陽線」、反対に始値より終値の方が低いローソク足は「陰線」と呼びます。
モザイク図
クロス集計表から、各層を縦棒の積み上げグラフとして表したグラフ。棒の高さはすべて等しくなるが、横幅は各層の度数の合計に比例する。また、クロス集計表の各セルに対応した四角形の面積は、各セルの度数に比例した大きさになる。
散布図(相関図)
二つの変数の関連を見るために、一つの変数を横軸に、もう一つの変数を縦軸にそれぞれ対応させて、1組のデータを平面上の一つの点として表したグラフのこと。
複合グラフ
規模が異なる値(千人規模と十人規模)や単位が異なる値(例:人数とパーセンテージ)を同時に表示することができるため、単一の種類のグラフよりも、より多くの情報を1つのグラフで可視化できるという特徴があります。
スポンサードリンク
データの集計
- 1変数のデータを適切に集計表に記述すること、また集計表から適切に情報を読み取り、説明することができる。
度数分布表
その属するデータがどのように散らばっているかを示す表のことを度数分布表という。
度数
度数は、各階級に属するものの個数のこと。
相対度数
ある属性に該当する度数が全体に占める割合。
累積度数
度数分布表で最小の階級から各階級までの度数の総和を表したもの
累積相対度数
その階級までの相対度数の全ての和(累積和)のことです
階級
たくさんあるデータを見やすく整理するために、データをまとめる範囲(区間)。
階級値
度数分布表の各階級の中央の値のこと。
度数分布表からの統計量の求め方
-
クロス集計表(2 元の度数分布表)
n個のデータをr個とc個のカテゴリーを持つ2つの属性により分類し、次のような度数表が得られたとき、この度数表をクロス集計表と言う。
スポンサードリンク
時系列データ
- 時系列情報を持つデータをグラフや指標を用いて適切に表現し、それらの情報を適切に読み取ることができる。
時系列グラフ
自然現象や社会現象を時間的な変化とともにまとめたもの。また、時系列データとは、時間の経過に沿って記録したデータのこと
指数(指標)
ある統計データについて、100又は1を基準とした数値で表し、時間的な変化や比率などをわかりやすくしたもの。
移動平均
時間的に連続するデータ(時系列データ)の季節変動などを取り除くために、前後いくつかの平均をとること。
スポンサードリンク
データの代表値
- 数値を用いてデータの中心的位置を表現すること、またそれらを用いて適切にデータの特徴を説明することができる。
平均値
いくつかの数量の合計を個数で割って,ならして等しくした大きさのこと。これによって算出される数値を平均値という。
中央値
データを大きさの順に並べて、全体のちょうど中央にくる値のこと。
例:五つの数字の中央値は「9」3・5・9・15・20
最頻値
起こる頻度が最も高い値のこと。最頻値を求めるには、度数分布を作り、度数が一番多いところである。
スポンサードリンク
データの散らばり
- データの散らばりを、指標を用いて把握し、説明することができる。
- 量的な2つの変数の散らばりを指標から把握し、説明することができる。
- データの散らばりをグラフ表現することを通して、散らばりの特徴を把握したり、グループ間の比較を行ったりすることができる。はずれた値の処理を考える。
最小値
ー
最大値
ー
範囲
データの最小値と最大値の間のこと。
四分位数
データを小さい順に並べて、下から1/4のところのデータを第1四分位数、2/4のところのデータを第2四分位数(「中央値」または「中位数」と同じ)、3/4のところのデータを第3四分位数という。
四分位範囲
散らばりの程度を表す尺度の一つ。「75パーセンタイル(第三四分位数)-25パーセンタイル(第一四分位数)」として求められる。
分散
平均を中心にどのくらいデータが散らばっているか示すもの。分散の値が大きいと、データの散らばりの度合いが大きいことを示す。
標準偏差
平均を中心にどのくらいデータが散らばっているか示すもので、分散の平方根で表される。標準偏差の値が大きいと、データの散らばりの度合いが大きいことを示す。なお、平方根にする理由は、単位をそろえるためである。
偏差値
平均が50、標準偏差が10となるように変換した値のこと。標準化した値を10倍して50を足すことで求められる。分布の形状が異なる2つのデータがあるとき、Z得点が同じであるからといって順位も同じであるとは限らない。
変動係数
標準偏差を平均値で割った値のこと。この値に100をかけてパーセントで表すこともある。ピアソンの変動係数とも言う。
例えば、キリンの体長のばらつきと猫の体長のばらつきを比較するときのように、スケールの異なるデータのバラツキを絶対値ではなく相対値で比較しようとする場合に用いられる。
共分散
二組の対応するデータの間の関係を表す数値です。
相関係数
相関を表す指標のこと。-1に近い値だと負の相関があるといい,散布図は右下がりに分布する。また,1に近い値だと正の相関があるといい,散布図は右上がりに分布する。相関係数が0に近くなると散布図のまとまりがなくなり,相関がないことを表す。
ヒストグラム(柱状グラフ)
データの分布を見るため、各属性に属する数を長方形で表し、それを並べたもの。縦軸に度数分布表の頻度を、横軸にデータ区間をとり表す。
累積相対度数グラフ
累積相対度数を表したグラフのこと
幹葉図
「幹」とよばれる左側のけた(今回はテストの点数の十の位)と、「葉」とよばれる右側のけた(今回はテストの点数の一の位)に分けて数字を並べて、数値を見やすく示す図を「幹葉図」といいます。
箱ひげ図
データの分布やばらつきをわかりやすく表現するために、長方形の箱とその両端から伸びるひげで表したグラフのこと。
はずれ値
他の多数のデータから大きく離れた値のこと。
スポンサードリンク
相関と回帰
- 相関関係と因果関係の区別ができる。
- 記述統計の範囲内での回帰分析の基本事項が理解できる。
相関
二つの変数の間の関係の強さ。一つの変数が増えるともう一つも増える傾向がみられる場合は「正の相関がある」といい、一つの変数が増えるともう一つの変数が減る傾向がみられる場合は「負の相関がある」という。また傾向がみられない相関関係がない場合がある。
擬相関
「見せかけの相関」「見かけ上の相関」とも言います。 例えば、AとBという事象が起きた際に、その両者間に相関関係が認められたとしても、ともに別の要因Cによって起きている場合、AとBに因果関係はありません。 この場合に「AとBは
因果関係
ー
最小二乗法
観測値と予測値の誤差の二乗和が最小になるように予測値の未知のパラメーターを求める方法。
回帰係数
回帰分析において、座標平面上で回帰式で表される直線の傾き。
予測
ー
確率
確率の意味や基本的な法則を理解し、さまざまな事象の確率を求めたり、確率を用いて考察することができる。
独立な試行
2つの試行が互いに他方に影響しない試行
条件付き確率
ある事象が起こるという条件のもとで、別のある事象が起こる確率のこと
確率分布
確率変数の平均・分散・標準偏差等を用いて、基本的な確率分布の特徴が考察できる。
二項分布
1回の試行に対して2種類の結果、が生じ、が起こる確率をとする。さらに、回の試行においてが生じる回数を確率変数とする。このときがある値となる確率は、以下の式で表される。
正規分布
ある集団におけるデータのばらつき(分布)がその平均値を境として、そこからはずれるにしたがって大きい方にも小さい方にも同じように減っていく形になる分布。ヒストグラム(度数分布)で表すと平均値を中心に釣鐘のような形になる。人の身長や体重などは十分に標本数を多くとると、正規分布に近づくことが知られている。
二項分布の正規近似
ー
スポンサードリンク
統計的な推測
- 標本分布の概念を理解し、区間推定と仮説検定に関する基本的な事項が理解できる。
標本平均・比率の標本分布
ー
母平均・母比率の区間推定
平均値などの統計量の母数をある程度の幅を持たせて推定する方法。
母平均・母比率の仮説検定
「とある仮説に対して、それが正しいのか否かを統計学的に検証する」という推計統計学の手法の一つです。 また、統計的仮説検定、もしくは省略して単に検定と呼ぶこともあります。
スポンサードリンク
偏差平方和
- 測定値と平均値の差の二乗のその総和。
分散
- 「各データ」から「平均値」をひいて、2乗する 。 そして、それらを合計する。 さらに、その合計した値を、 全体の人数で割る。
標準偏差
- 10人それぞれの生徒の点数から平均点を引いたものを2乗し、それを足したものを総人数で割った数の平方根です。
共分散
- 2 つの変数の偏差の積の平均を計算します。
スポンサードリンク
参考にさせていただいたサイト様
みなさんの統計検定3級合格による卒業を心より応援しております