教育評価とは

メニューヘ　 ▼メニュー	教育評価ノート 2006.9　三浦@int
1.教育評価とは 2.教育評価の目的 3.教育評価は難しい 4.評価の方法　基準による区別 5.評価の方法実施段階による区別 6.教育測定 7.偏差値について	１．教育評価とは－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－絶対評価・完全習得学習・適正処遇交互作用・形成的・総括的評価。これらの理論が1960年代に次々と提唱され、教育評価の考え方の基盤と理論が確立した。だが、「評価」は他の領域に比べてきちんとした理解が得られていない領域だともいわれている。評価活動や目的が多岐にわたるからだろうか。そもそも「評価」は誰が何を評価することなのか。そして何を目的としているのか。はっきりしているのは、評価とは、最終的には生徒のために、教師が行うものであるということ。行政が教育行政的目的のために行う評価は、とりあえず保留にしておく。評価活動は一般的には、教師が自分の指導の効果や生徒の学習の成果を評価し、指導に生かすことを通して授業内容を完全に理解させることを目指す。ブルームの完全習得学習理論（マスタリーラーニング）が有名。完全習得学習理論では、「指導と評価」を一体的に考え、評価は指導のための手がかりを得る手段とされる。「診断的評価」・「形成的評価」・「総括的評価」の３つの評価を通して、ほぼ全ての学習者に一定水準以上の学力を保証することを目的としている。また、測定と評価は２つで１つであるといわれている。評価を欠いた測定は意味がないし、測定を欠いた評価は危険。評価の客観的な側面に注目して教育測定といわれることもある。学校教育の過程ではさまざまな段階での評価がある。近年、ますます多岐・多様になってきている。何のために、何を評価しようとするのかにより、評価の内容も大きく変わってくる。年度初めなどに行われる診断的評価、授業中の態度や意欲などの評価、宿題･課題・提出物の評価、授業の区切りごとに行われる到達度テストなどの形成的な評価、中間・期末テストなどの総括的な評価など。さらに近年では、教育行政の立場から、市や県、さらに国が行う学力到達度検査なども増えている。学習の結果をテストという形で評価するのではなく、生徒の理解や思考の過程などを継続して評価しようとするポートフォリオという手法も注目されている。特に、点数の集計による評価から点数化しにくいものを評価しようとする動きが出ている。教育の場で行われる評価は「教育評価」といえるが、その実施目的により、実施方法や出題内容や結果の集計方法、評価資料などで大きな違いがある。それらの評価を一括して捉えることは困難だろう。教育評価の目的により、方法や内容や資料も変わってくるからである。近年の教育評価は、ほとんど「到達度評価」一色といっても過言ではない。教育目標に対する到達の程度を評価しようとするもので、教育目標に準拠しそれを規準とすることから絶対評価といわれる。だが、最終的に個々の到達度評価をABCや５段階に評価する段になると、相対的な評価手法をとりいれることで客観性や公平性を確保しようとしている現実もある。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－２．教育評価の目的－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－教育現場で評価を考えた場合、児童生徒＝学習者を目的とするものと、教師を目的とするものに大別される。だが実際には、誰のための評価かの判断は難しい。多くは、学習者を目的とすると同時に指導者の側の活用も目的とするなど、複数の目的をもつものが多い。入学試験は、入学者数を選抜するためのテストであり、教育評価とはいえない。また、行政が教育行政の施策を主目的として行う検査や調査も、教育評価から外れる。だが、学校や保護者等へのフィードバック情報により、広義の教育評価に含まれる。評価の目的は多様だが、どの評価も最終的には子供たちの人間的成長と学力の向上をめざすことになる。学習者のための評価といえば聞こえは良いが、いわゆる形成的評価は少なく多くは管理目的の総括的評価になることが多いように思う。評価はやはり、評価される側よりも評価する側の都合によることがおおいが、やむを得ない現実か。ＡＢＣ３段階評価のＣと評価された生徒のＢに上げるための指導の体制、５段階評価の２や１の生徒の指導はどうするのか。評価のしっぱなしの現実をどう改善していくのか。「評価と指導」の一体化が言われるが、評価と指導のサイクルを保証する具体的なシステムがないと、掛け声だけで終わってしまう。 ①学習者のため　学習者に、学習の到達程度の情報を与えることを目的とする。教授者が学習者に対し、どこまでわかっているか、どこが間違っているか、これからどのような学習をするかという情報をフィードバックするのが目的。学習者は、この情報を元に正しい自己評価をし、何をどう学習していけばよいかの指針を自分で作り上げることができる。そのためにはわかりやすいフィードバックが必要となる。学習者には、多くの場合、保護者が含まれる。だが、到達すべき学習目標は、学習者にどう提示されているのか。学習目標の達成程度を学習者に知らせても、目標に到達するための方略はどうなるのか。　 ②指導者のため教師＝教授者が指導のための資料を得ることを目的とする。教授者が個々の学習者の学習指導をどのように行うかを決めるために必要な情報を得るために行う。学期や単元が始まる前には、学習者のレディネス（学習準備状態）を把握し、指導内容の方針を決めるために用いる。また、指導途中ではどの程度理解が進んでいるかの把握に用い、指導後では指導内容、方法はどうであったかを客観的に把握するのに用いる。これらにより把握した情報を元に、次の学期、単元、学年に向けて指導方針や方法、教材などを決める。学級や学年全体の「評価と指導」の方略は策定できても、個々の生徒の学習目標への到達程度を踏まえた学習指導はどうなるのだろうか。形成的評価は学習者の学力「形成」のたるの評価だか、学習者個々に対して適用し、学力水準を保証していくことが課題。 ③管理目的や研究目的現実的には教育評価を行う目的も様々で、次のようなものがある。（1）教育行政のための資料としての評価（教委や文科省の学力調査など）（2）学校の管理・運営の資料としての評価（3）保護者の参考にするための評価（4）子どもの処遇決定のための評価（資格認定、振り分け、選抜）（5）カリキュラム改善のための評価利用目的に応じてどのような評価方法がよいかを判断していく必要がある。多くの評価は複数の目標を設定しがちだが、内容や方法の設定が散漫になってしまい、どちらも中途半端になってしまうことが多いようだ。やはり、適正な評価には、内容・方法・目的のバランスが肝要といえる。目的を明確にし、そのための最適の手段と評価方法を採用する必要がある。
	－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－３．教育評価は難しい－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－教育評価は一見簡単そうだが、いざ実施してみるといろいろ迷うことが多い。それでも評価の基本は、次の５点に集約される。（１）可能な限り「客観的で公平な評価」であること。（２）測定の実施と方法が適正であること。「妥当性と信頼性」への配慮。（３）「合目的的」であること。「教育」評価ということを外れないこと。（４）「どのような学力を評価」しようとしているのか。基礎･基本的な知識･理解なのか、思考力や課題解決力なのか。そのためにはどのような評価材を採用すればよいのか。（５）目標への到達程度を評価しても、到達程度の低かった生徒に対してどうやったら学力水準を保証していくことができるか。（１）と（３）は矛盾することもある。客観的で公正であることと学習者の学習と成長を願う評価との間には矛盾がある。教育活動全体からみれば、評価は手段にすぎない。「公正で・客観的な評価」を重視しすぎると手段が目的になってしまうという。ここに教育する者・評価する者の主観性がどうしても入ってきてしまう。教育評価が現場で適用されるときにはどうしても主観的になる。評価の問題も、教育そのものの主観性から逃れられない。逆に、だからこそ評価方法や内容の客観性・公平性がいっそう求められることになる。評価…測定の結果に価値判断を加えるないと評価にはならない。価値判断には多かれ少なかれ時代の主観性が入ることになる。何を価値とするのか。価値判断の基準は何か。これに対する解答は容易ではない。教育の目的を問うことになってしまう。測定…評価のための客観的な情報を得ることで、数値や数式で定量的にあらわされる。測定としての信頼性と妥当性が求められる。客観的な測定結果を、価値判断＝主観的な解釈をし適用することで評価となる。時代の学習指導要領の記述内容を規準とし、教師が採用する評価材の定量化された基準により、３段階や５段階の評価が行われる。観点別評価や領域別評価などがあり、得点や達成度（到達度）の程度によりＡ・Ｂ・Ｃなどと評価される。子供と保護者に発行される通知表、記録として残しておくことが義務付けられる指導要録、高校入試などの選抜資料となる内申書など、教師は膨大な評価資料を作成しなければならないが、それが教育評価として有効に活用されているかとなると問題が多い。学校教育で行われる評価の多くが、授業の展開とセットで行われる「形成的評価」であるよりは、通知表や指導要録のための「総括的評価」、行政的目的のための評価といった色彩が強い。それらの評価は、教師の授業の反省やカリキュラムの見直し、生徒の学習状況のフィードバックとして機能することは以外に少ないようだ。形成的評価の必要性が言われ、教師自作や市販教材にも形成的評価を目指すものが少なくないが、評価活動の実施や集計作業に追われ、指導に生かされることが少なかったり、通知表作成のための総括的評価に終わってしまうのが現実。特に、評価の結果、到達程度が低いと判定された生徒に対して、どうやって目標に近づくための指導を組織することができるのか。最も指導とケアーの必要な生徒に対して、十分な時間と場所が確保されていないという問題を解決する必要がある。何のための、誰のための評価なのか。考えさせられることが多い。日本の[絶対評価」は「主観的絶対評価」？絶対評価は「相対評価がもたらす競争を緩和」するという考え方によって導入された。集団の中での位置ではなく目標に対する到達程度により評価しようとするものである。絶対評価の「規準」は学習指導要領という形で示されるが、実際の段階評価振り分けの判断「基準」は教師の主観性の強い「絶対基準」となる。したがって、教育者である多くの教師の判断は教育的なものとなり、絶対評価のもつ評価の厳しさ、規準をクリアするプレッシャー、目標達成の厳しさ等はない。特に、学習目標に到達していない、おおむね満足とはいえない、努力を要するとされた児童・生徒はどうするのか。個別指導や到達度別指導などにより、全員の基準到達をはかるのか、それとも留年とするのか。「指導と評価」の一体化が叫ばれながらも、評価しっぱなしではしようがない。相対評価の場合はたかだかペーパーテストの評価として「次はがんばろう」で済ますこともできるが、絶対評価の場合は「Ｃ」評価の生徒の救いがない。「Ｂ」に到達させるための個別化された指導が必要となるが、教師も面倒な評価活動で疲れてしまい、なかなかフォローの学習指導につながっていかない。企業などで採用する「Pran・Do・See・Action」のサイクルは、その目的がコスト削減や売り上げ向上や効率化等と明確な場合、特に数値化された達成目標の場合には採用しやすいが、教育活動の場では、目的や目標の設定が価値判断を伴うため困難だったり、「See」の評価活動の手続きに疲れてしまい「Action」に結びついていかなかったりしがち。特に、実現すべき教育価値は、指導要領の記述を全員に到達させることなのか、入試突破的学力なのか、総合学習的な「生きる力」的な学力なのか、人間的な成長なのか、意見が分かれる。その根底には、教育の目的を知識の習得・学力の向上におくか、はば広い人間形成・能力の育成におくかの容易ならざる問題があるように思う。また、学校教育の場合は、人間形成や人格の涵養などの課題から逃れることはできない。教育における人間形成的な側面は世界的には家庭教育に属することとされ、かなりの程度で日本的特殊性になるという報告もあるが、それはそれで良い特殊性といえるのではないか。したがって教育評価は、このような教育目標の価値判断から離れて、具体的で明確な達成目標や学習内容への達成程度を測ることに限定して、極力、数値化された客観的な評価材の操作による評価に限定することで、評価としての客観性と信頼性、とりわけ実用性を確保しようとすることになる。
	－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－４．評価の方法　基準による区別－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－評価は、評価の規準や基準をどこに求めるかにより、相対評価・絶対評価・個人内評価の３つの方法があるとされる。（１）相対評価他人と比べる評価方法。学習者の属する集団（学年・性別・年齢など）の成績水準（平均点・平均到達度・正答率など）に基づき、個人の成績を解釈する（=位置づける、順位づける）評価方法。国、県といった比較的大規模な集団に準拠して各生徒の相対的な学力を計測するものと、クラスや学校など、比較的小さい集団を準拠集団とするものがある。相対評価のは客観的であることを特徴としており、学校内や教室内では十分客観的とはいえない。全ての子どもの学力保障といった教育理念とは無関係な評価方法であるという指摘がある。このような批判があることを理解した上で、相対評価を生徒の客観的な学力を測る目的に限定して利用すれば、有効な評価方法となる。相対評価と絶対評価は、評価方法では異なるが、相対評価に用いられるテストの出題を目標に準拠した形で作成することも可能であるといわれる。相対評価の問題が適切に作成され、標準化されているならば、それを絶対評価でに適応してもそれほど問題ではない。ただし、絶対評価用に作成された出題は、その評価法に特化して作成されている場合が多く、相対評価に利用することは不向きかもしれない。基礎的・基本的な習得目標のチェックリストのような到達度の確認テストもありうる。その場合の平均点は70～80点以上になってしまう。絶対評価用に作成された出題は、評価の性格上平均的な達成度が70～80％に設定されることが多く、得点や正答率の分布が正規分布のような形にはならないことが多い。相対的な評価は、統計学の正規分布に基礎をおく評価法で、正規分布曲線による５段階や１０段階評価などとして利用される。正規分布は身長や体重などの自然的な現象の測定度数分布などに見られる釣鐘型の分布形状で、学力得点をそれに適用したもの。集団の成績分布の位置により評価がきまることから相対評価という。「集団に準拠した評価」という言い方もある。客観的で信頼性があるが、子供を学力の内容・達成の程度からではなく、集団での位置関係からしか評価しないという特性がある。正規分布は標準偏差により完全に管理される。平均からの偏差を二乗して総和し、その平方根をもとめると標準偏差になる。σ（シグマ）は標準偏差のことで、５段階評価は１σ単位で区切り、１０段階評価は0.5σ単位で区切る。偏差値は51段階評価で0.1σを単位として、×10＋50　の加工をしたもの。平均の位置が偏差値50で、上は75、下は25くらいになる。偏差値は、学力を測る方法として、一定の数式により求めることができ、客観的な評価法として広く普及している。＜相対評価の欠点＞（１）「全ての子どもの学力保障」という理念に反する可能性が高い。子供たちにどんな学力がついたのかがわからない。学習目標に対する達成の程度がわからない。（２）「テストに合わせて教える・学ぶ」可能性が高くなる。良いか悪いか、テストの出題範囲を集中して勉強する、そのために勉強する。それが学習の動機付けとなっている。（３）目標の達成度を判断する基準が、必ずしも用意されているわけではない。相対評価は、評価そのものとしては、指導目標である学習内容そのものについては評価しない。（４）個人内の変化を把握するのには不向きである。（５）競争心は必要だが必要以上にあおる可能性がある。（２）到達度評価（絶対評価）　教育目標への到達程度による評価法。到達度評価のための基準は、教育目標を具体的に分析し設定したもので、学習者の行動を評価するための目標行動基準である。学力の内容・学習の内容を考慮しない相対評価に対して、評価基準を学力の内容＝到達目標に置く到達度評価は、教育評価としての適合度は高く、近年の評価は到達度評価一色にそめられているといっても過言ではない。だが、学習指導要領などの最低限の到達目標は設定しやすいが、実際の運用面では、思考、判断、表現などの高次の目標設定や行動分析では困難が多い。さらに、到達基準の設定評価の作業や、評価活動の負担や分析に評価者の力量の差が出てきてしまったり、現場教師の主観性の強い評価になるなどの問題も指摘されている。到達度評価は、クライテリオン（基準？規準？）準拠評価（Criterion Referenced Assessment）といわれるが、ドメイン準拠評価とスタンダード準拠評価の２つの解釈がある。クライテリオン準拠評価は、アメリカのR.グレイザ－が1963年に提唱したとされ、1980年代にオーストラリアのR.サドラーがスタンダード準拠評価を提唱した。クライテリオン準拠評価は日本語訳では「目標に準拠した評価」ということになる。目標準拠評価は、量的変量を扱う「ドメイン準拠評価」と、質的変量を扱う「スタンダード準拠評価」に分かれる。クライテリオンのドメイン準拠評価(Domein Referenced Assessment)は、「領域準拠評価」と訳され、原則的に量的変量を扱うとされ、「基準」という表現を使用するのがふさわしいとされる。評価する範囲を明確に規定したうえで、評価基準として明確な行動基準を設定すべきであるとする。評価基準を細分化してたくさん作り、チャックリストのようにチェックしていくことで、客観的に評価しようとした。正解・誤答、Yes・Noのような明確なかたちで採点できる問題を、一定の割合以上できたかどうかで判断する（何％以上の得点率ならＡ、何％以上ならＢとか）。このようなクライテリオン解釈を、ドメイン準拠評価という。日本で従来用いられてきた到達度評価という用語は，ほぼこのドメイン準拠評価に相当する。しかし、評価する範囲や内容を行動基準として明確に表現できる「知識・理解」さらに「技能・表現」についてはこのような方法が有効であるが、「思考・判断」、「関心意欲態度」などの観点の評価にはこのような方法は必ずしも適切でないとされている。スタンダード準拠評価（Standard Refernced Assessment）は、質的変量として評価を処理し、「規準」という表現を使用するのがふさわしいとされる。明確な範囲や行動基準を示したり、正解・誤答のような２分法的な採点や評価のできない能力や技能については、スタンダード準拠評価が適切な評価方法であるとされる。その特徴は、あまり再分化されない一定の達成レベルの評価基準を示すのに、各レベルの特徴を「言語表現」で示すとともに、このレベルに該当する児童・生徒の学習事例をいくつか集めた「評価事例集」で言語表現を補完することにある。つまり「言語表現」と「実例集」で評価基準を示す方法のことといえる。「思考力・判断力」のような、正解・誤答のような２分法的な評価ができず、児童・生徒の学習の質を判断することを必要とする能力の評価にこの方法は適している。イギリスはドメイン準拠評価を採用していたが、結果的には失敗し1994年からスタンダード準拠評価を導入している。一般に評価「規準」は質的なものの評価に、「基準」は量的なものの評価に使うとされる。Ａ・Ｂ・Ｃの段階評価の判断の基準、といった使い方をされる。文部科学省の文章では、規準と規準を特別には明確にせず、それらを含むものとしてすべて「評価規準」という表現に統一しているようだ。「判断基準」は「評価規準」として示され、学習目標の習得状況の程度を明示するための指標を、数値（１・２・３)や記号（Ａ・Ｂ・Ｃ)や文章表記で示したもの、とされている。質的な評価の「規準」や量的な評価の「基準」といっても言葉の問題であって、実際的には評価の方法論とは確立されておらず、瑣末な問題のようにも思う。「判断基準表」(＝到達目標＝目標行動一覧)は、縦軸にある単元に含まれる活動内容を列挙し、横軸にそれぞれの活動で想定される評価観点と評価規準、そしてそれらをより具体化した判断基準を整理して並べた一覧表のこと。到達度評価を実施する場合は、まず判断基準表を作成する必要がある。詳しい判断基準表では、さらにそれぞれの基準（Ａ・Ｂ・Ｃ）に点数（３点・２点・１点）を与えて、観点ごとの合計点や単元の学習成果の総括的な点数を算出できるように工夫したものもある。「判断基準表」は、ペーパーテストで客観的に評価しにくい観点を扱えば扱うほど、その判断基準の文章表記やレベル分けの仕方について、継続的な改善と修正を行うことが必要になる。さらに、各単元で設定した判断基準表を用いて算出した、一人ひとりの児童・生徒の観点別評価得点を、年度末の指導要録における評定に換算するためには、一定の「換算公式」を各学校において設定しておかなければならない。より妥当性と信頼性の高い換算公式にするためには、同じ学年や同じ教科の教師集団が、児童・生徒の学習状況を、ペーパーテストの得点だけではなく、作品分析や行動観察によって多面的にとらえて共有化して、それらを基にして常に判断基準表の改善と修正を行うことが大切とされる。また、必要に応じて、他校の判断基準表と比較検討することによって、少なくとも同じ市町村内の学校間で判断基準表や得点換算公式に大きな違いがないように、「判断基準検討会議」などを開いて情報交換を行うことも求められる。（大阪教育大学助教授　田中博之）絶対評価は学習目標に対する達成程度による評価だか、学習指導の成果の評価として妥当な評価法である。だが、いざ実施するとなると「評価基準表」はだれが作るのか、評価材として何を使いどう評価に結び付けていくのか、検討課題は多く、試行が続くことになる。到達度評価は、学習目標に対する到達度であって、それは集団の中での序列や位置情報は何も表現しない。それがために集団準拠基準の相対評価の価値が減ずるものではない。生徒の学習成果の確認として、相対評価は客観的で分かりやすく、適度な競争心により学習動機や学習目標にもなる。それぞれの評価法の良さを取り込もうとする考えもある。相対評価と絶対評価の成績を合計して記載するのではなく、それぞれを併記する二重システムのような書式を採用することも有効な手段ではないか、とする意見もある。到達度評価（絶対評価）の具体的な適用の実際は次のとおり。「目標に準拠した評価（いわゆる絶対評価）」。ここでいう「絶対評価」は予め設定された目標に照らし合わせて、それに到達しているかどうかによって評価する方法。教育課程審議会「児童生徒の学習と教育課程の実施状況の評価のあり方について」（答申）平成12年12月4日　次の４項目の基本的な方向が指示された。（１）目標に準拠した評価（集団準拠の相対評価から目標準拠の絶対評価へ）（２）個人内評価を重視する（３）指導と評価の一体化（４）評価を児童生徒の学習の改善に生かす「基礎・基本の確実な定着には、きめ細かな評価に基づく指導が効果的であり、そのためには、各時間ごとに、きめ細かな評価規準を工夫する必要がある。」「これからの評価の基本的な考え方答申においては，これからの評価の基本的な考え方が次のように示された。 ①新学習指導要領においては，自ら学び自ら考える力などの「生きる力」をはぐくむことを目指し，学習指導要領に示された基礎的・基本的な内容の確実な習得を図ることを重視していることから，学習指導要領に示す目標に照らしてその実現状況を見る評価（いわゆる絶対評価）を一層重視し，観点別学習状況の評価を基本として，児童生徒の学習の到達度を適切に評価していくことが重要となること。 ②自ら学ぶ意欲や問題解決の能力，個性の伸長などに資するよう，個人内評価（児童生徒ごとのよい点や可能性，進歩の状況などの評価）を工夫することも大切であること。 ③これからは，目標に準拠した評価及び個人内評価が柱となる中で，集団に準拠した評価については，児童生徒の発達段階などに配慮した上で，目的に応じて指導に生かすことが必要であること。」「中学校指導要録に記載する事項等」（文科省）観点別学習状況「中学校指導要領に示す各教科の目標に照らして、その実現状況を観点ごとに評価し、Ａ、Ｂ、Ｃの記号により記入する。この場合、「十分満足できると判断されるもの」をＡ、「おおむね満足できると判断されるもの」をＢ、「努力を要すると判断される」ものをＣとする。」（１）関心・意欲・態度　（２）思考・判断（３）表現・技能　（４）知識・理解評定「各教科別に中学校指導要領に示す目標に照らして、・・・その実現状況を総括的に評価し、記入する。」具体的な方法は、文科省・国政研は具体的な基準は提示していない。＜東京都の場合＞　観点別学習状況の評価　　　　　　　　　評定　　　　　－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　十分満足できる　　Ａ　　　　　　　　特に程度が高い　　５（到達値80%以上）　　　　　　　　　　十分満足できる　　４－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　おおむね満足できるＢ　　　　　　　　おおむね満足できる３（到達値50%以上）　　　　　　　　　　努力を要する　　　２－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　努力を要する　　　Ｃ　　　　　　　　一層努力を要する　１－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　評価規準の設定方法＜東京都の場合＞「教科の目標及び内容、評価の観点を踏まえ、各学年・各単元（題材）ごとに評価規準を設定する。」「学習の前後、過程において観点ごとに評価を行う。その際、ペーパーテストだけでなく、観察、作品、ノート、レポート等を活用する。」４つの観点の評価の総括としての５段階評価。 ③個人内評価その個人自身と比べる評価。個人の成績を解釈する際、個人の他の面の能力や過去の成績などを基準にして解釈する評価。生徒個人の成績の推移や前回の成績との比較など。個人内評価は、指導者である教師だけでなく生徒個人にも提示され、目標への到達程度や学習進度を理解し、今後の学習方略の参考になることが期待される。数学の「思考･判断」の評価の「Ｂ」が続いているような個人内評価では、生徒のこれからの学習にどれだけの意味があるのか。いくつ学期を経ても「Ｃ」評価が続いているような評価では、生徒も教師もやりきれない。個人の成績の推移といっても実際には過去の成績の羅列に留まってしまう。通知表の学期ごとの評価は、一種の個人内評価といえるが、その評価は何を意味しているのか。生徒の学習成果か教師の指導成果か。生徒に自信を持たせて学習意欲を引き出し、明確な学習動機を持たせ、次の学習課題へ意欲的に取り組ませる。そういう個人内評価は可能だろうか。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－５．評価の方法　実施段階による区別－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－評価は学習指導のどの段階で行うかにより、診断的評価･形成的評価・総括的評価の３つがある、とされる。 ①診断的評価学習者のレディネス（学習準備状態）の情報を得るために、学期や単元の前に実施。診断的評価とは、前もって学習者の実態を把握し、それに合わせた指導計画を立てるための評価。 ②形成的評価学期や単元の途中で出される評価。形成的評価とは、教授活動を通して学習者がどの程度理解したかを確認するための評価。これまでに教育活動で扱った内容について、どの程度理解しているか確認することによって、学習者は自分自身の理解の度合いを確認することができる。そして、教授者はその結果から指導方針の軌道修正が可能となります。学習活動の自己調整を図り、学習活動を強化し、学習過程の問題点の診断する。形成的評価は、学習の目的や目標などの理念がかたまっていないと、曖昧なものになる。 ③総括的評価学期や単元の最後におこなう評価。総括的評価とは、従来から行われてきた中間・期末試験による評価を指す。その意義として、学習者は自分自身の努力の結果を知ることができる。また、教授者も次の教育活動に対する改善点などの情報を得ることができる。ブルームは、特に形成的評価の役割を重視した。この理論を活用することによって９５％の学生が目標水準を達成できると主張する。その数値はともかくとしても、教育活動における学習者の理解の程度を確認することの重要性について大きな指摘をしている。
	－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－６．教育測定（Educational Measurement）－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－アメリカのソーンダイクらにより、1910年代に提案された。科学的・客観的であることを第一義とした正規分布の理論による相対評価。教育評価のための客観的な情報を得ること。教育測定は、統計的手法によりテストの作成・実施・統計処理・分析等をおこなうこと。測定は可能な限り客観的な手法により客観的な統計量を出すことにあるが、それは教育評価を目的とする。だが、教育評価は目標・方法・評価法ともに評価者の主観性が強い。教育評価を行うために教育測定をどう利用するか。妥当性と信頼性を測るための厳密に統計手法が研究・開発されているが、統計学そのものなのでここでは省略。（１）信頼性いつどこで誰がどのように測定しても同じ結果が得られるか。また、測定内容が等質か、安定しているか。 ①同一個人に同一の条件で同一のテストを行った場合、同一の結果が出るかどうか…安定性 ②同一個人が同じような質問に対して、同じような答えをするか…一貫性(あるいは等質性) （２）妥当性測定しようとするものを正しく測定しているかどうかの概念。内容的妥当性基準連関妥当性構成概念妥当性－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－７．偏差値について－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－相対評価の典型的な評価法が偏差値。偏差値は、正規分布の理論をテスト得点や成績の分布に適用して、平均からどの程度離れているかを、一定の統計量で表したもの。偏差値は、z(Z)得点ともいう。標準得点と言ういい方もある。変量がどのように散らばっているかを調べる方法として、各変量の平均からの隔たりが大きいか小さいかを調べる方法がある。各変量と平均の差を「偏差」という。それぞれの偏差を２乗して加えて平均を求めることで、データの散らばりの程度が分かる。これを「分散」という。分散の正の平方根を「標準偏差」という。平均の周りへのデータの散らばりが大きければ標準偏差はおおきくなり、散らばりが小さいほど0に近づく。標準的なテストの成績の場合は平均点の近くの人数が一番多く、０点や100点に近づくほど人数が少なくなり、左右対称の釣鐘型になることが多い。このような分布グラフの形を「正規分布」という。標準偏差が小さいと、平均の周りにデータは集中し、次のような形になっている。逆に標準偏差が大きいと、データは平均かに離れて分散することになる。 100点満点で、標準偏差が15くらいになる場合がそうである。逆に、標準偏差が25や30になる場合がある。データの分散が大きい場合や成績が良い生徒と悪い生徒に分散する場合である。正規分布は、次のような性質がある。この性質を段階評価に応用すると次のようになる。客観評価の５段階評価や10段階評価は、この正規分布の理論による。 z=(取った得点-平均点)/標準偏差五段階評定はこのｚ得点を基準としている。それは、平均を中心にして分布全体を５標準偏差で分割し、各標準偏差段階に該当する面積を分布全体の100%に対する比率としてあらわしたもの。ｚ得点と５段階評価の関係は次のとおり。　　　-1.5以下　　　は　　　1(全体の7%) 　　　-1.5～-0.5　　は　　　2(全体の24%) 　　　-0.5～0.5　　は　　 3(全体の38%) 　　　 0.5～1.5　　は　　　4(全体の24%) 　　　 1.5以上　　は　　　5(全体の7%) Z得点をさらに細分化した評価法が偏差値で、次のような式で求められる。偏差値は、５段階の評価をさらに1/10に分割したもので、50段階評価ともいえる。50を中心として25～75の50段階評価としてあらわされることが多い。 Z=50 + 10×(取った得点－平均点)／標準偏差この式により、平均点と同じ得点なら偏差値は50になる。得点が平均点を上回る程度に応じて51・52・53・・・と続き、上は75から80くらい、得点が平均点を下回る程度に応じて、49・48・47・・・となり、下は25くらいまで。例えば、100点満点のテストで、平均点が50、標準偏差が20とすると、50点は偏差値50、100点は偏差値75、0点は偏差値25となる。偏差値などの相対評価は、生徒の学力が平均点のまわりに釣鐘状に分布し、100点満点のテストでは平均点=50点、標準偏差=20のときに、0点が偏差値25、100点が偏差値75となりきれいに評価することができる。だが、実際のテスト問題がそのように作られることは稀で、多くは平均点が高かったり低かったり、得点分布の形も偏りがあったり２つに分布が割れたりする。偏差値が適正につけられるためには、テスト問題の出題そのものが、標準化されている必要がある。テスト問題そのものの評価材としての妥当性や信頼性の問題があるが、それを保障するためには次のようなテストの標準化のための努力が必要になる。（１）出題の範囲･内容、学力の質が評価の目的に沿っていること。（２）平均点を想定し、出題の４～５割りが想定正答率になり、さらに正答率が高い設問と低い設問のバランスをとるようにすること。（３）設問数・出題形式・難易度を評価目的に沿わせるとともに、評価の利用目的を実現するのに効果的な出題内容にすること。（４）評価の利用目的という観点から、集計方法や集計資料の出力内容に沿わせた出題内容になるようにする。テスト問題は、その作成や実施の実際から、知識・理解の定着の程度を測る内容になりがちである。だが、公立の入試問題などでは、思考･判断・読解さらに教科横断的であったり総合的な能力などの学力やを評価する試みも広まってきている。偏差値で測れるものには限界はあるが、単に学力の評価というだけには留まらない側面があることも事実。偏差値は、生徒にとって、普段の勉強の成果であり、受験勉強の成果であり、勉強を通じて身に着けた我慢強さや勤勉さ、知識の理解力・習得能力、その要領のよさといった幅広い潜在的な能力を反映していると見ることができる。その潜在的な能力は仕事で使う能力でもあり、企業に入ってから長い時間をかけて育成する上での基礎となるような能力でもある。だからこそ、親も子も偏差値を上げ、学力の向上をめざすのである。たかだか偏差値、されど偏差値、なのである。近年、求められる学力のイメージが変わってきた。集団の平均や分布の形に依存する評価法から指導要領の記載事項への達成の程度で評価する到達度・絶対評価の方向へと転換してきている。入試の点数だけで決まる選抜から多様な能力を評価しようとする入試改革・入試の多様化もひとつの試み。新しい学力観、生きる力の教育への転換に伴って、評価法も大きく変わってきている。学歴社会から生涯学習社会へ、とでもいえる流れである。それは、「教える」ことより主体的に「学ぶ」ことを重視する考えであり、学習者の主体性や自主性を強調し、学び手自身の自己責任を求めることにもなる。自立的で主体性を発揮できる個人を前提に学習論が組み立てられる。学ぶ機会の多様化、学校選択の自由化、選択教科の導入、高校教育の多様化など、学習者自身にに選択がゆだねられるようになった。それは教育の「自由化」ともいえる。教育の自由化に伴って、評価も自由化されることになるのか。相対評価の偏差値を、競争を激化させるものとして拒否することも自由であれば、成績を客観的に評価し集団のなかでの成績の位置を示してくれる有用な道具として活用することも自由である。生徒の競争心や向上心は、勉強の動機付けにもなるし全体としての学力向上のために必要な意識づけでもある。絶対評価を採用したから相対評価は不要というのではなく、学力の別々の評価法として両方を目的に応じて採用するのが、現実的で妥当な選択と考える。一部で、相対評価が全否定されたかのような理解があるが、教育課程審議会の答申(2000/12 答申)では、相対評価の有効性を否定はしていない。集団のなかでの位置情報は「自分の適性を知る手掛かりとなる」「自分の目標を定めて学習に取り組む動機付けを得たり」「将来の進路を考えていく際の情報として活用」できるとしている。「目的に応じて指導に生かす」とされている。中心は「目標準拠評価」だか、必要に応じて「集団準拠評価」を活用することを想定している。したがって、偏差値だから悪いだとか、使ってはいけないだとかということは言っていない。評価はどこへいくのか。それは教育はどこへいくのかと同義である。
	とりあえず、ここまで。	2002.4～　by Miura

メニューヘ　 ▼メニュー	教育評価ノート 2006.9　三浦@int
1.教育評価とは 2.教育評価の目的 3.教育評価は難しい 4.評価の方法　基準による区別 5.評価の方法実施段階による区別 6.教育測定 7.偏差値について	１．教育評価とは－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－絶対評価・完全習得学習・適正処遇交互作用・形成的・総括的評価。これらの理論が1960年代に次々と提唱され、教育評価の考え方の基盤と理論が確立した。だが、「評価」は他の領域に比べてきちんとした理解が得られていない領域だともいわれている。評価活動や目的が多岐にわたるからだろうか。そもそも「評価」は誰が何を評価することなのか。そして何を目的としているのか。はっきりしているのは、評価とは、最終的には生徒のために、教師が行うものであるということ。行政が教育行政的目的のために行う評価は、とりあえず保留にしておく。評価活動は一般的には、教師が自分の指導の効果や生徒の学習の成果を評価し、指導に生かすことを通して授業内容を完全に理解させることを目指す。ブルームの完全習得学習理論（マスタリーラーニング）が有名。完全習得学習理論では、「指導と評価」を一体的に考え、評価は指導のための手がかりを得る手段とされる。「診断的評価」・「形成的評価」・「総括的評価」の３つの評価を通して、ほぼ全ての学習者に一定水準以上の学力を保証することを目的としている。また、測定と評価は２つで１つであるといわれている。評価を欠いた測定は意味がないし、測定を欠いた評価は危険。評価の客観的な側面に注目して教育測定といわれることもある。学校教育の過程ではさまざまな段階での評価がある。近年、ますます多岐・多様になってきている。何のために、何を評価しようとするのかにより、評価の内容も大きく変わってくる。年度初めなどに行われる診断的評価、授業中の態度や意欲などの評価、宿題･課題・提出物の評価、授業の区切りごとに行われる到達度テストなどの形成的な評価、中間・期末テストなどの総括的な評価など。さらに近年では、教育行政の立場から、市や県、さらに国が行う学力到達度検査なども増えている。学習の結果をテストという形で評価するのではなく、生徒の理解や思考の過程などを継続して評価しようとするポートフォリオという手法も注目されている。特に、点数の集計による評価から点数化しにくいものを評価しようとする動きが出ている。教育の場で行われる評価は「教育評価」といえるが、その実施目的により、実施方法や出題内容や結果の集計方法、評価資料などで大きな違いがある。それらの評価を一括して捉えることは困難だろう。教育評価の目的により、方法や内容や資料も変わってくるからである。近年の教育評価は、ほとんど「到達度評価」一色といっても過言ではない。教育目標に対する到達の程度を評価しようとするもので、教育目標に準拠しそれを規準とすることから絶対評価といわれる。だが、最終的に個々の到達度評価をABCや５段階に評価する段になると、相対的な評価手法をとりいれることで客観性や公平性を確保しようとしている現実もある。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－２．教育評価の目的－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－教育現場で評価を考えた場合、児童生徒＝学習者を目的とするものと、教師を目的とするものに大別される。だが実際には、誰のための評価かの判断は難しい。多くは、学習者を目的とすると同時に指導者の側の活用も目的とするなど、複数の目的をもつものが多い。入学試験は、入学者数を選抜するためのテストであり、教育評価とはいえない。また、行政が教育行政の施策を主目的として行う検査や調査も、教育評価から外れる。だが、学校や保護者等へのフィードバック情報により、広義の教育評価に含まれる。評価の目的は多様だが、どの評価も最終的には子供たちの人間的成長と学力の向上をめざすことになる。学習者のための評価といえば聞こえは良いが、いわゆる形成的評価は少なく多くは管理目的の総括的評価になることが多いように思う。評価はやはり、評価される側よりも評価する側の都合によることがおおいが、やむを得ない現実か。ＡＢＣ３段階評価のＣと評価された生徒のＢに上げるための指導の体制、５段階評価の２や１の生徒の指導はどうするのか。評価のしっぱなしの現実をどう改善していくのか。「評価と指導」の一体化が言われるが、評価と指導のサイクルを保証する具体的なシステムがないと、掛け声だけで終わってしまう。 ①学習者のため　学習者に、学習の到達程度の情報を与えることを目的とする。教授者が学習者に対し、どこまでわかっているか、どこが間違っているか、これからどのような学習をするかという情報をフィードバックするのが目的。学習者は、この情報を元に正しい自己評価をし、何をどう学習していけばよいかの指針を自分で作り上げることができる。そのためにはわかりやすいフィードバックが必要となる。学習者には、多くの場合、保護者が含まれる。だが、到達すべき学習目標は、学習者にどう提示されているのか。学習目標の達成程度を学習者に知らせても、目標に到達するための方略はどうなるのか。　 ②指導者のため教師＝教授者が指導のための資料を得ることを目的とする。教授者が個々の学習者の学習指導をどのように行うかを決めるために必要な情報を得るために行う。学期や単元が始まる前には、学習者のレディネス（学習準備状態）を把握し、指導内容の方針を決めるために用いる。また、指導途中ではどの程度理解が進んでいるかの把握に用い、指導後では指導内容、方法はどうであったかを客観的に把握するのに用いる。これらにより把握した情報を元に、次の学期、単元、学年に向けて指導方針や方法、教材などを決める。学級や学年全体の「評価と指導」の方略は策定できても、個々の生徒の学習目標への到達程度を踏まえた学習指導はどうなるのだろうか。形成的評価は学習者の学力「形成」のたるの評価だか、学習者個々に対して適用し、学力水準を保証していくことが課題。 ③管理目的や研究目的現実的には教育評価を行う目的も様々で、次のようなものがある。（1）教育行政のための資料としての評価（教委や文科省の学力調査など）（2）学校の管理・運営の資料としての評価（3）保護者の参考にするための評価（4）子どもの処遇決定のための評価（資格認定、振り分け、選抜）（5）カリキュラム改善のための評価利用目的に応じてどのような評価方法がよいかを判断していく必要がある。多くの評価は複数の目標を設定しがちだが、内容や方法の設定が散漫になってしまい、どちらも中途半端になってしまうことが多いようだ。やはり、適正な評価には、内容・方法・目的のバランスが肝要といえる。目的を明確にし、そのための最適の手段と評価方法を採用する必要がある。
	－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－３．教育評価は難しい－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－教育評価は一見簡単そうだが、いざ実施してみるといろいろ迷うことが多い。それでも評価の基本は、次の５点に集約される。（１）可能な限り「客観的で公平な評価」であること。（２）測定の実施と方法が適正であること。「妥当性と信頼性」への配慮。（３）「合目的的」であること。「教育」評価ということを外れないこと。（４）「どのような学力を評価」しようとしているのか。基礎･基本的な知識･理解なのか、思考力や課題解決力なのか。そのためにはどのような評価材を採用すればよいのか。（５）目標への到達程度を評価しても、到達程度の低かった生徒に対してどうやったら学力水準を保証していくことができるか。（１）と（３）は矛盾することもある。客観的で公正であることと学習者の学習と成長を願う評価との間には矛盾がある。教育活動全体からみれば、評価は手段にすぎない。「公正で・客観的な評価」を重視しすぎると手段が目的になってしまうという。ここに教育する者・評価する者の主観性がどうしても入ってきてしまう。教育評価が現場で適用されるときにはどうしても主観的になる。評価の問題も、教育そのものの主観性から逃れられない。逆に、だからこそ評価方法や内容の客観性・公平性がいっそう求められることになる。評価…測定の結果に価値判断を加えるないと評価にはならない。価値判断には多かれ少なかれ時代の主観性が入ることになる。何を価値とするのか。価値判断の基準は何か。これに対する解答は容易ではない。教育の目的を問うことになってしまう。測定…評価のための客観的な情報を得ることで、数値や数式で定量的にあらわされる。測定としての信頼性と妥当性が求められる。客観的な測定結果を、価値判断＝主観的な解釈をし適用することで評価となる。時代の学習指導要領の記述内容を規準とし、教師が採用する評価材の定量化された基準により、３段階や５段階の評価が行われる。観点別評価や領域別評価などがあり、得点や達成度（到達度）の程度によりＡ・Ｂ・Ｃなどと評価される。子供と保護者に発行される通知表、記録として残しておくことが義務付けられる指導要録、高校入試などの選抜資料となる内申書など、教師は膨大な評価資料を作成しなければならないが、それが教育評価として有効に活用されているかとなると問題が多い。学校教育で行われる評価の多くが、授業の展開とセットで行われる「形成的評価」であるよりは、通知表や指導要録のための「総括的評価」、行政的目的のための評価といった色彩が強い。それらの評価は、教師の授業の反省やカリキュラムの見直し、生徒の学習状況のフィードバックとして機能することは以外に少ないようだ。形成的評価の必要性が言われ、教師自作や市販教材にも形成的評価を目指すものが少なくないが、評価活動の実施や集計作業に追われ、指導に生かされることが少なかったり、通知表作成のための総括的評価に終わってしまうのが現実。特に、評価の結果、到達程度が低いと判定された生徒に対して、どうやって目標に近づくための指導を組織することができるのか。最も指導とケアーの必要な生徒に対して、十分な時間と場所が確保されていないという問題を解決する必要がある。何のための、誰のための評価なのか。考えさせられることが多い。日本の[絶対評価」は「主観的絶対評価」？絶対評価は「相対評価がもたらす競争を緩和」するという考え方によって導入された。集団の中での位置ではなく目標に対する到達程度により評価しようとするものである。絶対評価の「規準」は学習指導要領という形で示されるが、実際の段階評価振り分けの判断「基準」は教師の主観性の強い「絶対基準」となる。したがって、教育者である多くの教師の判断は教育的なものとなり、絶対評価のもつ評価の厳しさ、規準をクリアするプレッシャー、目標達成の厳しさ等はない。特に、学習目標に到達していない、おおむね満足とはいえない、努力を要するとされた児童・生徒はどうするのか。個別指導や到達度別指導などにより、全員の基準到達をはかるのか、それとも留年とするのか。「指導と評価」の一体化が叫ばれながらも、評価しっぱなしではしようがない。相対評価の場合はたかだかペーパーテストの評価として「次はがんばろう」で済ますこともできるが、絶対評価の場合は「Ｃ」評価の生徒の救いがない。「Ｂ」に到達させるための個別化された指導が必要となるが、教師も面倒な評価活動で疲れてしまい、なかなかフォローの学習指導につながっていかない。企業などで採用する「Pran・Do・See・Action」のサイクルは、その目的がコスト削減や売り上げ向上や効率化等と明確な場合、特に数値化された達成目標の場合には採用しやすいが、教育活動の場では、目的や目標の設定が価値判断を伴うため困難だったり、「See」の評価活動の手続きに疲れてしまい「Action」に結びついていかなかったりしがち。特に、実現すべき教育価値は、指導要領の記述を全員に到達させることなのか、入試突破的学力なのか、総合学習的な「生きる力」的な学力なのか、人間的な成長なのか、意見が分かれる。その根底には、教育の目的を知識の習得・学力の向上におくか、はば広い人間形成・能力の育成におくかの容易ならざる問題があるように思う。また、学校教育の場合は、人間形成や人格の涵養などの課題から逃れることはできない。教育における人間形成的な側面は世界的には家庭教育に属することとされ、かなりの程度で日本的特殊性になるという報告もあるが、それはそれで良い特殊性といえるのではないか。したがって教育評価は、このような教育目標の価値判断から離れて、具体的で明確な達成目標や学習内容への達成程度を測ることに限定して、極力、数値化された客観的な評価材の操作による評価に限定することで、評価としての客観性と信頼性、とりわけ実用性を確保しようとすることになる。
	－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－４．評価の方法　基準による区別－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－評価は、評価の規準や基準をどこに求めるかにより、相対評価・絶対評価・個人内評価の３つの方法があるとされる。（１）相対評価他人と比べる評価方法。学習者の属する集団（学年・性別・年齢など）の成績水準（平均点・平均到達度・正答率など）に基づき、個人の成績を解釈する（=位置づける、順位づける）評価方法。国、県といった比較的大規模な集団に準拠して各生徒の相対的な学力を計測するものと、クラスや学校など、比較的小さい集団を準拠集団とするものがある。相対評価のは客観的であることを特徴としており、学校内や教室内では十分客観的とはいえない。全ての子どもの学力保障といった教育理念とは無関係な評価方法であるという指摘がある。このような批判があることを理解した上で、相対評価を生徒の客観的な学力を測る目的に限定して利用すれば、有効な評価方法となる。相対評価と絶対評価は、評価方法では異なるが、相対評価に用いられるテストの出題を目標に準拠した形で作成することも可能であるといわれる。相対評価の問題が適切に作成され、標準化されているならば、それを絶対評価でに適応してもそれほど問題ではない。ただし、絶対評価用に作成された出題は、その評価法に特化して作成されている場合が多く、相対評価に利用することは不向きかもしれない。基礎的・基本的な習得目標のチェックリストのような到達度の確認テストもありうる。その場合の平均点は70～80点以上になってしまう。絶対評価用に作成された出題は、評価の性格上平均的な達成度が70～80％に設定されることが多く、得点や正答率の分布が正規分布のような形にはならないことが多い。相対的な評価は、統計学の正規分布に基礎をおく評価法で、正規分布曲線による５段階や１０段階評価などとして利用される。正規分布は身長や体重などの自然的な現象の測定度数分布などに見られる釣鐘型の分布形状で、学力得点をそれに適用したもの。集団の成績分布の位置により評価がきまることから相対評価という。「集団に準拠した評価」という言い方もある。客観的で信頼性があるが、子供を学力の内容・達成の程度からではなく、集団での位置関係からしか評価しないという特性がある。正規分布は標準偏差により完全に管理される。平均からの偏差を二乗して総和し、その平方根をもとめると標準偏差になる。σ（シグマ）は標準偏差のことで、５段階評価は１σ単位で区切り、１０段階評価は0.5σ単位で区切る。偏差値は51段階評価で0.1σを単位として、×10＋50　の加工をしたもの。平均の位置が偏差値50で、上は75、下は25くらいになる。偏差値は、学力を測る方法として、一定の数式により求めることができ、客観的な評価法として広く普及している。＜相対評価の欠点＞（１）「全ての子どもの学力保障」という理念に反する可能性が高い。子供たちにどんな学力がついたのかがわからない。学習目標に対する達成の程度がわからない。（２）「テストに合わせて教える・学ぶ」可能性が高くなる。良いか悪いか、テストの出題範囲を集中して勉強する、そのために勉強する。それが学習の動機付けとなっている。（３）目標の達成度を判断する基準が、必ずしも用意されているわけではない。相対評価は、評価そのものとしては、指導目標である学習内容そのものについては評価しない。（４）個人内の変化を把握するのには不向きである。（５）競争心は必要だが必要以上にあおる可能性がある。（２）到達度評価（絶対評価）　教育目標への到達程度による評価法。到達度評価のための基準は、教育目標を具体的に分析し設定したもので、学習者の行動を評価するための目標行動基準である。学力の内容・学習の内容を考慮しない相対評価に対して、評価基準を学力の内容＝到達目標に置く到達度評価は、教育評価としての適合度は高く、近年の評価は到達度評価一色にそめられているといっても過言ではない。だが、学習指導要領などの最低限の到達目標は設定しやすいが、実際の運用面では、思考、判断、表現などの高次の目標設定や行動分析では困難が多い。さらに、到達基準の設定評価の作業や、評価活動の負担や分析に評価者の力量の差が出てきてしまったり、現場教師の主観性の強い評価になるなどの問題も指摘されている。到達度評価は、クライテリオン（基準？規準？）準拠評価（Criterion Referenced Assessment）といわれるが、ドメイン準拠評価とスタンダード準拠評価の２つの解釈がある。クライテリオン準拠評価は、アメリカのR.グレイザ－が1963年に提唱したとされ、1980年代にオーストラリアのR.サドラーがスタンダード準拠評価を提唱した。クライテリオン準拠評価は日本語訳では「目標に準拠した評価」ということになる。目標準拠評価は、量的変量を扱う「ドメイン準拠評価」と、質的変量を扱う「スタンダード準拠評価」に分かれる。クライテリオンのドメイン準拠評価(Domein Referenced Assessment)は、「領域準拠評価」と訳され、原則的に量的変量を扱うとされ、「基準」という表現を使用するのがふさわしいとされる。評価する範囲を明確に規定したうえで、評価基準として明確な行動基準を設定すべきであるとする。評価基準を細分化してたくさん作り、チャックリストのようにチェックしていくことで、客観的に評価しようとした。正解・誤答、Yes・Noのような明確なかたちで採点できる問題を、一定の割合以上できたかどうかで判断する（何％以上の得点率ならＡ、何％以上ならＢとか）。このようなクライテリオン解釈を、ドメイン準拠評価という。日本で従来用いられてきた到達度評価という用語は，ほぼこのドメイン準拠評価に相当する。しかし、評価する範囲や内容を行動基準として明確に表現できる「知識・理解」さらに「技能・表現」についてはこのような方法が有効であるが、「思考・判断」、「関心意欲態度」などの観点の評価にはこのような方法は必ずしも適切でないとされている。スタンダード準拠評価（Standard Refernced Assessment）は、質的変量として評価を処理し、「規準」という表現を使用するのがふさわしいとされる。明確な範囲や行動基準を示したり、正解・誤答のような２分法的な採点や評価のできない能力や技能については、スタンダード準拠評価が適切な評価方法であるとされる。その特徴は、あまり再分化されない一定の達成レベルの評価基準を示すのに、各レベルの特徴を「言語表現」で示すとともに、このレベルに該当する児童・生徒の学習事例をいくつか集めた「評価事例集」で言語表現を補完することにある。つまり「言語表現」と「実例集」で評価基準を示す方法のことといえる。「思考力・判断力」のような、正解・誤答のような２分法的な評価ができず、児童・生徒の学習の質を判断することを必要とする能力の評価にこの方法は適している。イギリスはドメイン準拠評価を採用していたが、結果的には失敗し1994年からスタンダード準拠評価を導入している。一般に評価「規準」は質的なものの評価に、「基準」は量的なものの評価に使うとされる。Ａ・Ｂ・Ｃの段階評価の判断の基準、といった使い方をされる。文部科学省の文章では、規準と規準を特別には明確にせず、それらを含むものとしてすべて「評価規準」という表現に統一しているようだ。「判断基準」は「評価規準」として示され、学習目標の習得状況の程度を明示するための指標を、数値（１・２・３)や記号（Ａ・Ｂ・Ｃ)や文章表記で示したもの、とされている。質的な評価の「規準」や量的な評価の「基準」といっても言葉の問題であって、実際的には評価の方法論とは確立されておらず、瑣末な問題のようにも思う。「判断基準表」(＝到達目標＝目標行動一覧)は、縦軸にある単元に含まれる活動内容を列挙し、横軸にそれぞれの活動で想定される評価観点と評価規準、そしてそれらをより具体化した判断基準を整理して並べた一覧表のこと。到達度評価を実施する場合は、まず判断基準表を作成する必要がある。詳しい判断基準表では、さらにそれぞれの基準（Ａ・Ｂ・Ｃ）に点数（３点・２点・１点）を与えて、観点ごとの合計点や単元の学習成果の総括的な点数を算出できるように工夫したものもある。「判断基準表」は、ペーパーテストで客観的に評価しにくい観点を扱えば扱うほど、その判断基準の文章表記やレベル分けの仕方について、継続的な改善と修正を行うことが必要になる。さらに、各単元で設定した判断基準表を用いて算出した、一人ひとりの児童・生徒の観点別評価得点を、年度末の指導要録における評定に換算するためには、一定の「換算公式」を各学校において設定しておかなければならない。より妥当性と信頼性の高い換算公式にするためには、同じ学年や同じ教科の教師集団が、児童・生徒の学習状況を、ペーパーテストの得点だけではなく、作品分析や行動観察によって多面的にとらえて共有化して、それらを基にして常に判断基準表の改善と修正を行うことが大切とされる。また、必要に応じて、他校の判断基準表と比較検討することによって、少なくとも同じ市町村内の学校間で判断基準表や得点換算公式に大きな違いがないように、「判断基準検討会議」などを開いて情報交換を行うことも求められる。（大阪教育大学助教授　田中博之）絶対評価は学習目標に対する達成程度による評価だか、学習指導の成果の評価として妥当な評価法である。だが、いざ実施するとなると「評価基準表」はだれが作るのか、評価材として何を使いどう評価に結び付けていくのか、検討課題は多く、試行が続くことになる。到達度評価は、学習目標に対する到達度であって、それは集団の中での序列や位置情報は何も表現しない。それがために集団準拠基準の相対評価の価値が減ずるものではない。生徒の学習成果の確認として、相対評価は客観的で分かりやすく、適度な競争心により学習動機や学習目標にもなる。それぞれの評価法の良さを取り込もうとする考えもある。相対評価と絶対評価の成績を合計して記載するのではなく、それぞれを併記する二重システムのような書式を採用することも有効な手段ではないか、とする意見もある。到達度評価（絶対評価）の具体的な適用の実際は次のとおり。「目標に準拠した評価（いわゆる絶対評価）」。ここでいう「絶対評価」は予め設定された目標に照らし合わせて、それに到達しているかどうかによって評価する方法。教育課程審議会「児童生徒の学習と教育課程の実施状況の評価のあり方について」（答申）平成12年12月4日　次の４項目の基本的な方向が指示された。（１）目標に準拠した評価（集団準拠の相対評価から目標準拠の絶対評価へ）（２）個人内評価を重視する（３）指導と評価の一体化（４）評価を児童生徒の学習の改善に生かす「基礎・基本の確実な定着には、きめ細かな評価に基づく指導が効果的であり、そのためには、各時間ごとに、きめ細かな評価規準を工夫する必要がある。」「これからの評価の基本的な考え方答申においては，これからの評価の基本的な考え方が次のように示された。 ①新学習指導要領においては，自ら学び自ら考える力などの「生きる力」をはぐくむことを目指し，学習指導要領に示された基礎的・基本的な内容の確実な習得を図ることを重視していることから，学習指導要領に示す目標に照らしてその実現状況を見る評価（いわゆる絶対評価）を一層重視し，観点別学習状況の評価を基本として，児童生徒の学習の到達度を適切に評価していくことが重要となること。 ②自ら学ぶ意欲や問題解決の能力，個性の伸長などに資するよう，個人内評価（児童生徒ごとのよい点や可能性，進歩の状況などの評価）を工夫することも大切であること。 ③これからは，目標に準拠した評価及び個人内評価が柱となる中で，集団に準拠した評価については，児童生徒の発達段階などに配慮した上で，目的に応じて指導に生かすことが必要であること。」「中学校指導要録に記載する事項等」（文科省）観点別学習状況「中学校指導要領に示す各教科の目標に照らして、その実現状況を観点ごとに評価し、Ａ、Ｂ、Ｃの記号により記入する。この場合、「十分満足できると判断されるもの」をＡ、「おおむね満足できると判断されるもの」をＢ、「努力を要すると判断される」ものをＣとする。」（１）関心・意欲・態度　（２）思考・判断（３）表現・技能　（４）知識・理解評定「各教科別に中学校指導要領に示す目標に照らして、・・・その実現状況を総括的に評価し、記入する。」具体的な方法は、文科省・国政研は具体的な基準は提示していない。＜東京都の場合＞　観点別学習状況の評価　　　　　　　　　評定　　　　　－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　十分満足できる　　Ａ　　　　　　　　特に程度が高い　　５（到達値80%以上）　　　　　　　　　　十分満足できる　　４－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　おおむね満足できるＢ　　　　　　　　おおむね満足できる３（到達値50%以上）　　　　　　　　　　努力を要する　　　２－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　努力を要する　　　Ｃ　　　　　　　　一層努力を要する　１－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－　　　　評価規準の設定方法＜東京都の場合＞「教科の目標及び内容、評価の観点を踏まえ、各学年・各単元（題材）ごとに評価規準を設定する。」「学習の前後、過程において観点ごとに評価を行う。その際、ペーパーテストだけでなく、観察、作品、ノート、レポート等を活用する。」４つの観点の評価の総括としての５段階評価。 ③個人内評価その個人自身と比べる評価。個人の成績を解釈する際、個人の他の面の能力や過去の成績などを基準にして解釈する評価。生徒個人の成績の推移や前回の成績との比較など。個人内評価は、指導者である教師だけでなく生徒個人にも提示され、目標への到達程度や学習進度を理解し、今後の学習方略の参考になることが期待される。数学の「思考･判断」の評価の「Ｂ」が続いているような個人内評価では、生徒のこれからの学習にどれだけの意味があるのか。いくつ学期を経ても「Ｃ」評価が続いているような評価では、生徒も教師もやりきれない。個人の成績の推移といっても実際には過去の成績の羅列に留まってしまう。通知表の学期ごとの評価は、一種の個人内評価といえるが、その評価は何を意味しているのか。生徒の学習成果か教師の指導成果か。生徒に自信を持たせて学習意欲を引き出し、明確な学習動機を持たせ、次の学習課題へ意欲的に取り組ませる。そういう個人内評価は可能だろうか。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－５．評価の方法　実施段階による区別－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－評価は学習指導のどの段階で行うかにより、診断的評価･形成的評価・総括的評価の３つがある、とされる。 ①診断的評価学習者のレディネス（学習準備状態）の情報を得るために、学期や単元の前に実施。診断的評価とは、前もって学習者の実態を把握し、それに合わせた指導計画を立てるための評価。 ②形成的評価学期や単元の途中で出される評価。形成的評価とは、教授活動を通して学習者がどの程度理解したかを確認するための評価。これまでに教育活動で扱った内容について、どの程度理解しているか確認することによって、学習者は自分自身の理解の度合いを確認することができる。そして、教授者はその結果から指導方針の軌道修正が可能となります。学習活動の自己調整を図り、学習活動を強化し、学習過程の問題点の診断する。形成的評価は、学習の目的や目標などの理念がかたまっていないと、曖昧なものになる。 ③総括的評価学期や単元の最後におこなう評価。総括的評価とは、従来から行われてきた中間・期末試験による評価を指す。その意義として、学習者は自分自身の努力の結果を知ることができる。また、教授者も次の教育活動に対する改善点などの情報を得ることができる。ブルームは、特に形成的評価の役割を重視した。この理論を活用することによって９５％の学生が目標水準を達成できると主張する。その数値はともかくとしても、教育活動における学習者の理解の程度を確認することの重要性について大きな指摘をしている。
	－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－６．教育測定（Educational Measurement）－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－アメリカのソーンダイクらにより、1910年代に提案された。科学的・客観的であることを第一義とした正規分布の理論による相対評価。教育評価のための客観的な情報を得ること。教育測定は、統計的手法によりテストの作成・実施・統計処理・分析等をおこなうこと。測定は可能な限り客観的な手法により客観的な統計量を出すことにあるが、それは教育評価を目的とする。だが、教育評価は目標・方法・評価法ともに評価者の主観性が強い。教育評価を行うために教育測定をどう利用するか。妥当性と信頼性を測るための厳密に統計手法が研究・開発されているが、統計学そのものなのでここでは省略。（１）信頼性いつどこで誰がどのように測定しても同じ結果が得られるか。また、測定内容が等質か、安定しているか。 ①同一個人に同一の条件で同一のテストを行った場合、同一の結果が出るかどうか…安定性 ②同一個人が同じような質問に対して、同じような答えをするか…一貫性(あるいは等質性) （２）妥当性測定しようとするものを正しく測定しているかどうかの概念。内容的妥当性基準連関妥当性構成概念妥当性－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－７．偏差値について－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－相対評価の典型的な評価法が偏差値。偏差値は、正規分布の理論をテスト得点や成績の分布に適用して、平均からどの程度離れているかを、一定の統計量で表したもの。偏差値は、z(Z)得点ともいう。標準得点と言ういい方もある。変量がどのように散らばっているかを調べる方法として、各変量の平均からの隔たりが大きいか小さいかを調べる方法がある。各変量と平均の差を「偏差」という。それぞれの偏差を２乗して加えて平均を求めることで、データの散らばりの程度が分かる。これを「分散」という。分散の正の平方根を「標準偏差」という。平均の周りへのデータの散らばりが大きければ標準偏差はおおきくなり、散らばりが小さいほど0に近づく。標準的なテストの成績の場合は平均点の近くの人数が一番多く、０点や100点に近づくほど人数が少なくなり、左右対称の釣鐘型になることが多い。このような分布グラフの形を「正規分布」という。標準偏差が小さいと、平均の周りにデータは集中し、次のような形になっている。逆に標準偏差が大きいと、データは平均かに離れて分散することになる。 100点満点で、標準偏差が15くらいになる場合がそうである。逆に、標準偏差が25や30になる場合がある。データの分散が大きい場合や成績が良い生徒と悪い生徒に分散する場合である。正規分布は、次のような性質がある。この性質を段階評価に応用すると次のようになる。客観評価の５段階評価や10段階評価は、この正規分布の理論による。 z=(取った得点-平均点)/標準偏差五段階評定はこのｚ得点を基準としている。それは、平均を中心にして分布全体を５標準偏差で分割し、各標準偏差段階に該当する面積を分布全体の100%に対する比率としてあらわしたもの。ｚ得点と５段階評価の関係は次のとおり。　　　-1.5以下　　　は　　　1(全体の7%) 　　　-1.5～-0.5　　は　　　2(全体の24%) 　　　-0.5～0.5　　は　　 3(全体の38%) 　　　 0.5～1.5　　は　　　4(全体の24%) 　　　 1.5以上　　は　　　5(全体の7%) Z得点をさらに細分化した評価法が偏差値で、次のような式で求められる。偏差値は、５段階の評価をさらに1/10に分割したもので、50段階評価ともいえる。50を中心として25～75の50段階評価としてあらわされることが多い。 Z=50 + 10×(取った得点－平均点)／標準偏差この式により、平均点と同じ得点なら偏差値は50になる。得点が平均点を上回る程度に応じて51・52・53・・・と続き、上は75から80くらい、得点が平均点を下回る程度に応じて、49・48・47・・・となり、下は25くらいまで。例えば、100点満点のテストで、平均点が50、標準偏差が20とすると、50点は偏差値50、100点は偏差値75、0点は偏差値25となる。偏差値などの相対評価は、生徒の学力が平均点のまわりに釣鐘状に分布し、100点満点のテストでは平均点=50点、標準偏差=20のときに、0点が偏差値25、100点が偏差値75となりきれいに評価することができる。だが、実際のテスト問題がそのように作られることは稀で、多くは平均点が高かったり低かったり、得点分布の形も偏りがあったり２つに分布が割れたりする。偏差値が適正につけられるためには、テスト問題の出題そのものが、標準化されている必要がある。テスト問題そのものの評価材としての妥当性や信頼性の問題があるが、それを保障するためには次のようなテストの標準化のための努力が必要になる。（１）出題の範囲･内容、学力の質が評価の目的に沿っていること。（２）平均点を想定し、出題の４～５割りが想定正答率になり、さらに正答率が高い設問と低い設問のバランスをとるようにすること。（３）設問数・出題形式・難易度を評価目的に沿わせるとともに、評価の利用目的を実現するのに効果的な出題内容にすること。（４）評価の利用目的という観点から、集計方法や集計資料の出力内容に沿わせた出題内容になるようにする。テスト問題は、その作成や実施の実際から、知識・理解の定着の程度を測る内容になりがちである。だが、公立の入試問題などでは、思考･判断・読解さらに教科横断的であったり総合的な能力などの学力やを評価する試みも広まってきている。偏差値で測れるものには限界はあるが、単に学力の評価というだけには留まらない側面があることも事実。偏差値は、生徒にとって、普段の勉強の成果であり、受験勉強の成果であり、勉強を通じて身に着けた我慢強さや勤勉さ、知識の理解力・習得能力、その要領のよさといった幅広い潜在的な能力を反映していると見ることができる。その潜在的な能力は仕事で使う能力でもあり、企業に入ってから長い時間をかけて育成する上での基礎となるような能力でもある。だからこそ、親も子も偏差値を上げ、学力の向上をめざすのである。たかだか偏差値、されど偏差値、なのである。近年、求められる学力のイメージが変わってきた。集団の平均や分布の形に依存する評価法から指導要領の記載事項への達成の程度で評価する到達度・絶対評価の方向へと転換してきている。入試の点数だけで決まる選抜から多様な能力を評価しようとする入試改革・入試の多様化もひとつの試み。新しい学力観、生きる力の教育への転換に伴って、評価法も大きく変わってきている。学歴社会から生涯学習社会へ、とでもいえる流れである。それは、「教える」ことより主体的に「学ぶ」ことを重視する考えであり、学習者の主体性や自主性を強調し、学び手自身の自己責任を求めることにもなる。自立的で主体性を発揮できる個人を前提に学習論が組み立てられる。学ぶ機会の多様化、学校選択の自由化、選択教科の導入、高校教育の多様化など、学習者自身にに選択がゆだねられるようになった。それは教育の「自由化」ともいえる。教育の自由化に伴って、評価も自由化されることになるのか。相対評価の偏差値を、競争を激化させるものとして拒否することも自由であれば、成績を客観的に評価し集団のなかでの成績の位置を示してくれる有用な道具として活用することも自由である。生徒の競争心や向上心は、勉強の動機付けにもなるし全体としての学力向上のために必要な意識づけでもある。絶対評価を採用したから相対評価は不要というのではなく、学力の別々の評価法として両方を目的に応じて採用するのが、現実的で妥当な選択と考える。一部で、相対評価が全否定されたかのような理解があるが、教育課程審議会の答申(2000/12 答申)では、相対評価の有効性を否定はしていない。集団のなかでの位置情報は「自分の適性を知る手掛かりとなる」「自分の目標を定めて学習に取り組む動機付けを得たり」「将来の進路を考えていく際の情報として活用」できるとしている。「目的に応じて指導に生かす」とされている。中心は「目標準拠評価」だか、必要に応じて「集団準拠評価」を活用することを想定している。したがって、偏差値だから悪いだとか、使ってはいけないだとかということは言っていない。評価はどこへいくのか。それは教育はどこへいくのかと同義である。
	とりあえず、ここまで。	2002.4～　by Miura