第4号

プログラム評価の二つの系譜
−評価研究と業績検査−
山谷　清志

山谷　清志
（広島修道大学助教授）

　1954年，青森市生まれ。中央大学大学院法学研究科博士後期課程単位取得修了。財団法人・行政管理研究センター主任研究員を経て現職。行政学専攻。

　はじめに

　アメリカ合衆国で1960年代中頃から関心を持たれてきた政策評価の活動は，実務の場では主として「プログラム評価」（"program evaluation"）と名づけられ，また学問的には「評価研究」（"evaluation research"）と呼ばれ，ここ四半世紀の間にかなりの定着を見てきた。今日ではわが国でも学会のテーマとして取り上げられたり（注1），あるいは会計検査をはじめとした実務において関心を集めその導入が検討されはじめている（注2）。

　しかしここには大きな問題が顕在化してきている。それはこのプログラム評価，あるいは評価研究（以後とくに限定なく「評価」という場合にはこの両者を併せて使用する）の実体がいまだに十分明らかにされないまま普及し，わが国でも導入の検討が進められているということである。もちろんこの「評価」については共通した了解が一応は存在している。すなわち政策目標を実現する手段である一群の事業としてのプログラム（施策）を，その「実施に至った後」の段階で，合法性や合規性，経済性や能率性という物差し，そして最終的には目標達成（多くの場合「有効性」と同義に使用される）という視点から評価するという了解である。しかし現実には「評価」の具体的な内容については，「評価」に対するニーズが「評価」の顧客ごとに異なり，それに応えるためのテクニックも評価担当者をはじめとするアクターごとにさまざまに異なっている。そのためいまだに多義的な解釈が存在し，これらの解釈に応じて多くの学問分野が関わっている。したがって統一的な定義がなされないまま理論化が進められ，実務への適用の議論が重ねられていると言ってよい。この状態を称して評価研究の「異種混交状態」とまで言う論者すら存在する（注3）。こうして「評価」の内容の複雑さ，使われる「専門用語」の多様さ，それによって生じる難解さは深まる一方である。

　その最も問題とされなければならない点は，この「評価」を意味する用語が多種多様に存在するということである。先に示したprogram evaluation, evaluation researchという用語はもとより，他にたとえばプログラム（結果）監査〔program (results) audit〕，評価研究〔evaluation studies〕，業績評価〔performance evaluation〕，そして政策評価〔policy evaluation〕という用語が評価を意味して使用されている。これらの用語がどのように違っているのかについてはあまり説明がないままに，「評価」の文献は増加し，それぞれの論者が異なった意図からこの「評価」の議論を展開し，実務での活用が進んでいるように思われる。これが「評価」をめぐる議論をわかりにくい複雑なものにしている最大の原因である。いわば，「評価」については正式の統一的な名称がないまま，理論が深められ，実務への適用が進められているということができるのである。

　しかもこれに対応するように「評価」の学問的背景も，その「学際的性格」のためか複雑であり，難解さを招いている。すなわち「評価」の背景の一方には政治学や行政学，そして1950年代に誕生して70年代以降大きな関心を集めている「政策研究」（policy studies）や「政策科学」（policy science），経済学，社会学，心理学，統計学，人類学などの学問分野がある（注4）。他方では教育学，社会福祉，公衆衛生，都市計画など実際の政策内容に直接関わる専門分野が背景にある。さらに実務の領域として会計検査が非常に大きな関わりを持つことは周知の通りである。また個別の政策領域内ではそれぞれ独自の評価（assessment, appraisal）が試みられてきており，対応する専門分野に知的に貢献している。

　本稿は，以下でこのように複雑きわまる「評価」が発展してきたアメリカの背景，発展の経緯，そして学問上のルーツをたどり，またそれらの問題点について明らかにしたい。それがわが国への導入を考える際の手がかりになるかも知れないからである。

　Ⅰ　プログラム評価の歴史

　「評価」の歴史はここ四半世紀ほどに限定されるものではなく，もっと長い歴史を持つという事実について共通した認識がある（注5）。そして多くのテキストでは「評価」の歴史は今世紀初頭にまで遡って論じられる。たとえばアメリカ合衆国では20世紀はじめから教育や公衆衛生，社会福祉（とくに「慈善」事業）の領域でさまざまな職業訓練を施してきたが，この方法をいかに効果的に，また節約的手段によって実施すべきかということが問題になっていた。これが「評価」の考えに結びついていく。また1930年代のニューディール期には，政府が実施する各種プログラムの評価に厳格な社会科学的手法（主に社会学での社会調査手法や心理学で開発された方法，あるいは統計手法）を使用する試みもなされている。

　さらに第二次世界大戦後には復員軍人のための職業訓練，技術研修，住宅供給，それにともなう都市再開発，健康・精神衛生維持活動などに多数の財政支出がなされたため，これらの活動の効果に関する情報を求める声が高まり，それぞれ教育学，心理学，公衆衛生，都市計画などの専門家が動員された。そのためこれらの専門領域では評価活動のノウハウがassessment, appraisalという言葉で蓄積されてきた（もっともassessmentやappraisalはevaluationとは違ってプログラムや政策が採用され，実施される以前の意思決定に情報を提供して支援する活動であり，事後評価であるevaluationと手法は似ているが本質的に性格を異にする）。その後1960年代はじめには有名なPPBSが登場し，プログラムを分析（analysis）し，意思決定を支援する経済学を主たる背景とした手法が導入されたが，このPPBSの手法，学問的背景，そして思考方法がプログラム評価に直接的な影響を与えていることは多くのプログラム評価関係の文献で既に明らかにされている。

　しかし，これらはわれわれが今日「評価」として論じるものの起源，前身とは言いえても，現在言われる「評価」それ自体ではない。その意味で「評価」自体を知るためにはアメリカ連邦政府に採用されて以降の歴史を知らねばならないであろう（注6）。すなわち「評価」は，それがプログラム評価として政府に採用されてから以降の発展を大きく三段階に分けることができ，それぞれいかなる目的を持って「評価」が行われていたかという視点から性格づけを行うことが可能である（注7）。

　すなわち具体的には，1960年代中ごろから70年代初頭にかけて「偉大な社会」や「貧困との戦い」が展開したプログラムの運営状況に対する連邦議会の疑惑が，政府機関にアカウンタビリティを確保させる手段として「評価」の登場を導いた。これが第一期である（注8）。第二期は政府の財政赤字を背景に不急不要のプログラムの廃止を決定するメカニズムとして，またプログラム管理を強化する手段としてのマネジメント機能を期待された70年代後半から80年代前半にかけての時期である（注9）。そして最後に「評価」自体の有用性，技術的な質の問題が浮上して，ひとつの専門分野としての存在意義が問われている1980年代後半以降現在までの第三期である（注10）。

　第一期は社会プログラムについて，その目標達成度を判定することでプログラム担当政府機関のアカウンタビリティを確保することができるはずである，という見込みから「評価」が注目された時期である。しかも当時アカデミズムで脚光を浴びつつあった政策科学，政策研究，政策分析，あるいはPPBSなどの影響で「評価」が積極的に，そしてかなりの楽観的な見通しをもって導入された時期でもある。すなわち体系的，科学的，そして合理的な測定手続きが，プログラムの成功や失敗を判定する客観的事実を提供するであろうという楽観主義が支配的であったのである。定量的手法（quantitative methods）として総称される統計的数理分析や，経験則に従って収集されたプログラム結果のデータは，プログラム運営にあたる行政機関のアカウンタビリティ追求に役立つ。しかもそれだけでなく同種のプログラムをより合理的に立案するため必要な情報を提供し，教育・福祉・保健医療・社会サービスなどその効果が量的に測定できない政策の意思決定に際して，合理的な判断基盤を提供すると非常に楽観的に期待されていたのである。

　第二段階の1970年代後半から80年代はじめにかけては，プログラム評価が地方政府にも波及していった時期である。それぞれの地方ごとに営まれるプログラムのユニークな特徴や実施プロセスの背景を十分に理解し，これらに「評価」が応答的になることが求められた時期である。それは個々の行政サービスにおいてサービスの受け取り側の意向を重視する"consumerism"とでも呼ぶべき動きの影響による。この"consumerism"の視点は議会がプログラムの作成に大きく関わるアメリカならではの動きであった。

　しかし他方では，当時政策過程の最終段階におけるプログラム継続や廃止の決定に必要な情報源としての役割が過度に強調されたこともあって，「評価」については「プログラムの殺し屋（terminator）」という一面的な理解が流布された。その上1970年代後半にアメリカを襲った財政赤字問題を契機として，行政におけるサービスのコスト削減問題やその実行手段としてのcutback managementが強調され，あるいはプログラムによって提供されるサービスの質の品質管理（quality control）の視点，さらには経済コストからの視点を「評価」に加えるように求める声が強く出はじめた。1960年代の楽観的かつ野心的な理論志向から見るとかなり後退しているこれらの要請の背景には，財政上の管理体制と絡めて「評価」結果をいかに活用するか，そして活用できる「評価」結果を得るにはどうすべきかという実務における関心が存在していたのである。こうして，導入された当初意図された社会福祉や教育などの社会プログラムに対するアカウンタビリティ追求のための評価とは異なる，「管理的側面」をもつ評価が強調されはじめた。

　この段階に至って現在使用されている「評価」の主要なモデルは一応出そろったが（表1参照），これらのモデルは次の三点で「評価」理論の成熟に向けて貢献したと考えられる。すなわち①「評価」という専門領域の概念化。②評価担当者（evaluator）の役割の定義あるいは限定。③状況に応じて採用される「評価」モデルの長所と短所の明確化（「評価」手法の選択）である。

　ただしこの第二期に至って理論上の問題が二点表面化してきた。第一に，「保守的」な政府が主張する「小さな政府」が過度に強調されたため，「評価」は政治的色彩を帯びていると批判されはじめたこと。第二にこの政治性が，プログラム内容について具体的な，かつ状況全体を考慮にいれた調査結果を客観的にまとめ上げる信頼できる方法を阻んだということである。そのため「評価」はその華やかな宣伝とは裏腹に，アカウンタビリティの判断だけでなく，管理者（とくに上級管理者）の意思決定にとってもあまり役に立たないと考えられるようになったのである。

　こうして第三期の1980年代後半以降には「評価」の性格，目的が問い直される時期になった。それはプログラム立案がプログラム実施に関わる者へ，「評価」がより一層の知的貢献をなすべきであるという要請が強く打ち出されてきたためである。それと同時に60年代から「評価」理論に定着してきた評価の対象，実施時期，評価結果の使用目的などによって評価活動を定義する二つの概念に疑問が呈されるようになった。つまり「総括的評価」（summative evaluation：時にインパクト評価，あるいはアウトカム評価とも呼ばれることがある），そして「形成的評価」（formative evaluation：プロセス評価と同義）といった単純な，今や古典的とも言える「評価」の二分法（表2参照）によっては，評価が本来果たすべき役割，評価が求められている役割は理解できないと考えられはじめたのである。

　たとえば政府機関のアカウンタビリティを確認するという目的にしても，もし本当にアカウンタビリティを実現させるのであれば単に総括的評価として事後的に実施するだけでは十分ではなく，やはりプログラムを運営する中で形成的評価を行うということも必要であると考えられはじめたのである。しかも先に述べたように「評価」はプログラムの成否を判定するといった機能に留まらず，プログラムの立案・実施段階にも情報を提供しながら，プログラムの立案や実施の改善に貢献すべきであるとも考えられている。

　こうして「評価」は，政策の立案，プログラム作成から政策評価にいたる政策過程のあらゆる段階で，それぞれのルーティンを統合する過程にあると考えられるようになったのである。つまりプログラムが活動する状況や背景とそのプログラム活動との関係を知るために実施されるevaluatability assessment，プログラム活動とその管理それ自体を記述的に示すprocess evaluationやformative evaluation，プログラム効果の確認であるoutcome evaluation, impact evaluation, summative evaluation，類似のプログラム同士の比較やさまざまな「評価」から得た調査結果の統合を試みるmeta-evaluationなど，すべてが「評価」の中に含まれると考えられるようになったのである。

　そして1980年代後半に入ってからの評価の理論は，より実際的で有用性が高い定量的な手法を開発してプログラムの業績を測定する新たな方向に向かっているのである（注11）。ただしこの新たな方向へむかうには，伝統的な監査理論におけるアカウンタビリティ確保をめざす「評価」の理論とは異なった，新たなイノベーションが必要であった。そしてこのイノベーションを求める作業は，まず「評価」の基本的な性格を探ることからはじめなければならない。すなわち「評価」のルーツを求める作業である。

　Ⅱ　評価研究と業績検査

　こうして「評価」理論やその実務への適用をめぐる議論においては，プログラム評価の「異種混交」（heterogenity）的性格の解読が何よりも優先されねばならないことが明らかになった。そして実はこの異種混交状態も，実務で定着しているプログラム評価の中では大きく二つの系譜に分類できるといわれている（注12）。すなわち一つは「業績検査」（performance audit）の系譜であり，他は「評価研究」（evaluation research）の系譜である。そして後に述べるように，この評価研究が伝統的な評価理論に新たなイノベーションをもたらしたのである。

　そもそもプログラム評価の一方の系譜である「業績検査」とは，本来その起源を会計学（accounting）や会計検査（auditing）そして財務監査（financial audit）に持ち，伝統的に検査を担当する"auditor"は公認会計士（certified public accountant）や公認内部監査人（certified internal auditor）の資格を持つことが多かった。彼らの基本的な関心事は法令や手続きの遵守（compliance）を通じて確保されるアカウンタビリティにあった。それがアカウンタビリティ概念の発展と共に行政活動の経済性や能率性をも業績検査の視野に入れ，今日では政府プログラムを運営した結果発生する効果における目標達成状況の判断を通じて把握される有効性にまで関心が拡大してきた。しかしいずれにしても業績検査の最大の関心事は一貫してアカウンタビリティの確保であり（注13），そのためいまだに業績検査においては行政統制としての性格が強く，統制対象である行政機関からの独立性が強く求められている。また業績検査が検査の対象にするのはプログラム実施担当機関の組織体制，構造，プログラム計画の立案手続き，プログラム実施の手続きである。その意味ではマネジメント・コントロールに似た役割を想定されている。こうした業績検査の顧客としてはまず議会などの外部の第三者，ついでにプログラム管理者が予定されている。

　これに対してプログラム評価のもう一つの系譜である評価研究の主たる関心は，何よりも政府活動のインパクト，つまり政府がプログラムを運営した結果社会環境にどのような影響を持つのかということにある。そのため評価研究は政府活動の実体や仕事自体の内容を主たる対象としている。社会学や人類学，統計学，心理学などで開発されてきた手法を通じて，プログラムの実施状況やインパクトに関する情報を収集し，それに基づいてプログラムの是非を論じることが評価担当者の第一の目標である。したがって業績検査のような行政機関からの独立性は強くはない。むしろプログラム管理者やプログラム実施担当者との密接な接触を図り，情報を収集し，これを分析し，評価し，その評価結果に基づいてプログラム改善を勧告するという役割が期待されているのである（注14）。つまり一種のフィードバックの役割である。したがって評価研究はその目的として，プログラム実施担当者やプログラム改善に携わる者に役立つ情報の収集に努めることになる。

　もちろん評価研究はプログラムの実施方法，そのインパクトに直接関連する問題に関わるため，担当する者はプログラム内容に関する具体的に詳細な知識を必要とする。したがって業績検査の背景になる実務領域・学問分野が会計学や会計検査，マネジメントなどに限定されるのとは異なり，評価研究の背景となる学問分野は広く社会科学一般に依拠している。評価研究が「応用社会科学」であると言われるのはこのためである（注15）。もっともプログラムが提供するサービスの具体的内容に関する専門的背景，たとえば教育学や公衆衛生，医療，社会福祉など，社会科学以外の専門も多く関わっている。そして一つにはこの多様性のため，会計検査や監査としてプロフェッションの成立をみている業績検査と比べると，評価研究がひとつのプロフェッションとして認識されることははるかに少ない。

　さらに専門職としての"auditor"が従う専門基準，たとえばthe General Accepted Government Auditing Standards, GAOが作成するthe Government Auditing Standardsのような専門職の準拠すべき厳格な基準は"evaluator"にはない。1977年に設立された評価研究学会（the Evaluation Research Society）のように専門基準を公表する団体もないわけではないが，"evaluator"はこれに従う義務はない。この点に関して言えば，"evaluator"は"auditor"よりもプロフェッショナリズムが弱いということになる。

　それではこのように性格をかなり異にしている評価研究と業績検査とが，プログラム評価の中に「異種混交」的に同居しているのは何故であろうか。

　その最大の理由としてはたびたび触れてきたように，アカウンタビリティ概念の発展・拡張があげられる。その発展過程は三段階に分けて論じられる。伝統的には支出や財産の保全において法令や手続きを遵守するという側面でのアカウンタビリティ，すなわち財務会計責任（financial accountability）あるいは準拠責任（compliance accountability）が主流であったが，ここに1950年代以降資源の経済的・能率的運用および管理についての責任（management accountability）が加わった。そして1960年代後半からは政府が実施するプログラムが，予期したようにその目標を効果的に達成しているか否かを問うアカウンタビリティが登場してきた。いわゆるプログラム・アカウンタビリティ（program accountability）である（注16）。

　このようなアカウンタビリティ概念の発展に伴い，当然アカウンタビリティを確保する手段についても進歩がみられた。最初のfinancial accountability, compliance accountabilityについては財務諸表監査（financial auditing）が行われていた。これに新たな手法として経済性や能率性の判定を試みる経営監査（management auditing）やマネジメント・レビューが加わった（この監査はefficiency auditingともいう）。これらに対してプログラムの有効性については，プログラムの結果における目標達成度を監査するところからプログラム結果監査（program results auditing）といわれたり，プログラムの有効性を監査するところから単に有効性監査（effectiveness auditing）と呼ばれる（注17）。

　そしてこの三番目に登場した手法はGAOが採用して以来，プログラム監査に評価研究を活用するという意味で「プログラム評価」として注目されるようになったのである。もっとも，それは監査とは言っても伝統的な監査，そして能率性や経済性をめぐる監査とは大きく異なるものであった。というのも事業効果やプログラムの効果は金銭タームや数量的な観点からだけではその測定が困難なため，違った方法を採らざるをえないからである。とくにこの新たな有効性の監査が求められた理由が，量的測定の困難な社会プログラムが提供するサービスが社会に与えるインパクトを知りたいという要請からであったことを考えると，質的な側面でプログラムが社会に及ぼす影響や効果を明らかにできる手段，すなわちプログラム評価が求められ，開発されたのは当然の結果である。

　さらにプログラムをインプット（金銭・使用した資材・時間・職員数などのコスト），プロセス（実施過程），アウトプット（サービスの顧客に提供された物や金銭等のサービスの量および提供した回数），アウトカム（成果，結果，効果，インパクト）という一連のシステムとして見たとき，そしてこの中で監査がフィードバック機能を持つと認識しはじめたとき，監査と評価研究の接近は決定的になる。なぜなら一方のプログラムを一つのシステムとして見て，プログラムを「原因」とし，その効果を「結果」として両者の「因果」関係をフィードバックとしての監査によって探ろうとすることと，他方の評価研究の背景にある政策科学や政策研究の考え方，つまり政策は一つのプロセスから成るシステムだとする考え方とは，基本的に同じ次元に立つものだからである。

　ところでGAOはプログラムの有効性を判定するため，プログラム結果の監査，すなわちプログラム効果の測定を担当する職員を多数雇用しはじめたが，その時期がモシャーのいう第Ⅲ期のGAO，つまり具体的にはE. S.スターツがGAO長官として在職した1966年から1981年に相当することは言うまでもない（注18）。この第Ⅲ期における経済学をはじめとしたさまざまな社会科学の専門家の採用は，GAOという組織の文化（組織を支配する価値観，規範，目的意識，組織活動が依拠する技術的学問的知識など）に大きな変更を加えた。そしてそれは当時の連邦議会の要請を受けスターツの目指したところでもあった（注19）。すなわち，この文化の変化はGAO内部の職員の間にauditingやaccountingの視点の拡大，言い換えると専門職員に対してかつての"auditor"から"evaluator"へとそのアイデンティティを拡大する志向性を付与したのである。つまり"accountants"や"auditor"が"evaluate"するのではなく，"evaluator"が"audit"するというようにである。それは評価担当者自身の専門的背景が会計学や監査だけでなく，社会科学一般も加わったことを反映しているのであった（注20）。

　こうして1980年代を通じて，業績検査と評価研究は公共政策やプログラムの効果の確認という共通の問題を志向し，プログラム評価における両者の共存状態がみられるようになった。しかも1985年，業績検査と評価研究はその背景の学問分野としても実務家集団としても，ひとつの専門に結びつこうとする試みが公に表明された。すなわち「アメリカ評価学会」（American Evaluation Association）の設立である（注21）。それは業績検査と評価研究という学問分野の結びつきだけを企図しただけでなく，GAOをはじめとする立法府の監査機関と執行部の評価担当機関とが共通の学会を組織したということでもあり，さらに立法府のアカウンタビリティ志向と執行部のマネジメント志向という二つの評価目的がそれぞれ知的レベルのアップを狙って一緒になったということでもあった。こうして評価をめぐるさまざまな動きが，プログラム評価というひとつの方向に「収斂（注22）」してきたのである。

　しかしながら，こうして新たな状況が展開したにもかかわらず問題はなお残る。それは「評価」の中の業績検査と評価研究がプログラム評価に一本化し収斂しているとしても，評価の方法や評価についてそのものの認識において，両者間にある微妙な差異が克服されたわけではないということである。そしてそれがプログラム評価によって作成される報告が実際に実務で使用される可能性，つまり有用性（utility）の問題に微妙な影を投げかけている。1980年代後半になって増えてきた「評価」に関する文献が「評価」の総括や再評価を試み，（あるいは逆説的ではあるが）初歩的な入門書的解説に論点を集中していたのも，まさに「評価」の有用性の問題のためであった。

　このようにしてみると1980年代後半から現在に至って，実は非常に基本的かつ原始的な問題，すなわちプログラム評価はプログラムの改善を目指すものなのか，それともプログラム担当機関をコントロールするものなのか，そしてこれらの目的は本当に役立つのかどうかという問題がもう一度非常に大きな課題になってきているとも言える。先述の「目標モデル」の特殊性が批判を受けたのも，評価方法がインパクトやアウトカムの定性的測定からより容易で実用的なアウトプット（中間産出物）の定量的な測定に傾いているのも，まさにこの有用性の問題から派生したと考えられる。評価は実用的で質の高い技術をもって行われることによって顧客の役に立ち，プログラム作成やプログラム改善に用いられる可能性は増す。その意味で「評価」のこの有用性，つまり評価結果の勧告の活用の拡大・増加こそ「評価」成功の基準であり，逆にその勧告がプログラム管理者や政策作成者に無視される「評価」は全く意味がないと言うことにもなるのである（注23）。

　Ⅲ　評価の有用性

　プログラム評価の有用性を考える時に重要なことは，この有用性を保証する評価方法の「技術的な質」（technical quality）に評価研究と業績検査それぞれの性格が影響しているという点である。したがって評価が成功したか否かを判断するためには，まず評価結果の有用性を判定する際の基準になると考えられる「技術的な質」の問題に対する評価研究，業績検査それぞれについての考察が必要になる（注24）。

　そもそも技術の質とは評価や検査によって収集した情報の質を言う。それは単に事後的な行政機関のアカウンタビリティの判定に役立つだけでなく，より広い意味で「政府のパフォーマンスについてのアカウンタビリティ」，つまり政策評価や政策の見直しまでも視野に含めて行う政策の改善にも役立つものでなければならない。またその情報を使って下されるプログラムの成否に関する判断の的確さまで考えるのであり，さらに言えば政府の統治能力（ガバナビリティ）の問題にもつながる。そしてこれらすべてが共に評価の有用性と深く関わってくるのである。

　この技術的な質の問題に関して評価研究は，その「応用社会科学」としての視点から評価の手法に「理論構成の妥当性」を求める。この妥当性とは統計によって導かれる結論から明らかにできるかも知れないし，評価担当者や評価の調査を受けるもの双方の視点から妥当であると考えられるべきものかもしれない。いずれにしてもプログラム評価にはさまざまな研究領域で開発されてきた手法の中から適切な手法を選択し，それを使って因果関係の推定とそれを一般化する試みが含まれる。特定のプログラムが介入すれば一定の予測した効果やインパクトが発生するはずであるという因果関係の推定が確実に行いうること，またこの推定を事後的に確認できること，あるいはその推定や確認した結論を他の同種のプログラムにも広げ一般化することでプログラムの体系全体を改善できること，これらが評価の技術的な質という視点からすれば重要であると考えられているのである。これは具体的には，第一にあるサービスが対象とする人々に予測した通りの効果を発生していることを確認することであり，第二にもし予測どおり発生していなければプログラムのどこに問題があるのか確認することである。また第三に確認した結果を改善案と共にプログラム作成者やプログラム運営に直接関与している人，そしてプログラム管理者に勧告することである。ここにはできればプログラムのサービス対象者にも公表すべきであるということも含まれる。これらの手続きを経て，理論構成の妥当性が確立されるのである。

　このように評価研究がその技術的な質の問題を論じる際には，理論としての妥当性や一般化の可能性を探ることに強調点を置くのであるが，それは先に述べたように，評価が「政治」化し行政機関に対する「価値のおしつけ」的な監督監視手段だけに終わるという状況を避け，客観性中立性を維持しつつプログラムの作成や運営にあたる現場での有用性を高めようと試みるからである。プログラムの具体的内容を的確に反映している，理論的に洗練された，体系的な，「改善された」情報の提供こそがプログラム評価の重要な目的の一つなのである。評価研究の有用性に関する議論はまずここからはじまるべきであろう。（もっともこの「改善された」情報の提供という目的は実務への貢献だけでなく，社会科学への学問上の発展に貢献する知識の収集という目的とも重なり，二つの目的が同時に追求されることもある。）

　他方，業績検査においては技術的な質の問題は，評価研究の理論志向と比べるとより「実務志向」的である。たとえば検査のために収集した情報は，検査結果を利用する者のニーズ（報告内容や提出期限についての要請）を満たすという意味での「適切さ」をもって収集される。また報告の内容はプログラム運営の現実に従って具体的実証的であらねばならず，しかも問題状況を批判的に考慮に入れているという意味での適切さも求められる。そしてこれら情報収集や報告の質を保証する際の物差しとして，専門家団体や専門機関の定める監査基準（たとえばGenerally Accepted Government Audit StandardsやGAOのStandards for Audit of Governmental Organizations, Programs, Activities and Functionsなど）が機能するのである。あるいは検査のテキストもまた検査自体の品質確保のためのマニュアルとして機能している。

　こうした業績検査が評価研究と比べてみて特徴的なところは，これらの基準やテキストが検査の品質確保のための詳細な手続きを非常に多く含んでいる点である。当然，検査機関がこの手続きを遵守しているかどうかがこの検査機関を監督する立場にある，検査報告を受ける組織（たとえば議会）の第一の関心事になる。それが検査機関にとって一つのチェック機能になっているが，チェックした結果として勧告が受け入れられる確率も高まり，検査機関やその検査のために集めた情報に対する社会の信頼性は増す。ただそれは専門家，プロフェッショナルとしての検査担当者の倫理観や良心によって保証されるものではなく，あくまで規則や手続きによって強いられ，極端な場合この規則や手続きに従わない場合懲戒処分を受けることもありうる。言うまでもなく評価研究の場合にはこうした規則や手続きはなく，制裁もない。ここに"auditor"と"evaluator"の本質的な立場の違い，社会的地位の差が出てくるのである。

　ところでプログラム評価の有用性を判断する基準としてもう一つ「実用性」（practicality, utilization）があげられることが多い。コストが低廉，報告がタイムリーであること，理解が容易，意思決定者の情報の必要性に対して応答的であること，説得力を持つこと，そして勧告が受け入れられること，（政治的に従属するのではなく）政治に敏感であることなどから構成されるこの実用性の有無は（注25），当然先の評価結果の技術的な質によって左右される。そしてこの実用性の問題からみた場合，評価研究と業績検査は微妙な関係，時として相反する立場に置かれる。たとえば評価や検査の対象からの独立性と評価結果，検査結果の客観性・中立性は複雑な関係にある。アカウンタビリティの確保を目指す検査機関としては実施する検査対象からの独立性は不可欠であるが，評価研究の場合社会科学としての学問的妥当性からすれば，詳細な報告をなすには独立性が強ければ必要な現場からの情報が得られなくなる。統制機関として業績検査を担当する機関が政府の中で占めてきた地位と，政策作成・実施の支援として評価研究を行う立場との違いがここに反映しているのである。また実用性という意味で問題になるタイムリーな報告，あるいはコストの抑制という要請は業績検査において非常に重視されるものであるが，評価研究にとってこの要請は評価結果の詳細さ，内容の充実を阻むと考えられる。ただし時間やコストを無視して充実した結論を出したとしても，学問的知的貢献はあるかも知れないが，実用性は低くなる。

　結局この実用性の問題は業績検査と評価との基本的な立場，目的，そのルーツ，背景となる専門領域などの違いが強く影響を及ぼしているのである。評価研究にとってはプログラムの背景をなすさまざまな研究領域に対する知的貢献という目的を持つ限りにおいて，社会科学としてみた場合の学問的な質，内容の充実が求められる。そこでは理論化の作業に必要な万全の情報収集活動が試みられる。あるいは理論的にみた妥当性と一般化可能性が報告に求められる。評価研究における実用性という要請はこれらの問題から定義し直されるのである。しかし業績検査においては，まず現実にプログラムを担当する機関のアカウンタビリティの確保が重要な関心事であるために，何よりもこの目的に応じた形で（時間的にも内容についても）検査報告が提出されることが望ましい。時期を逸し，利用する側の要請に応えていない報告は無意味なだけである。検査の技術的な質の問題はここから判断されるであろう。こうして評価研究における実用性と業績検査における実用性は，とくに評価の顧客と検査の顧客のニーズという視点からみた場合，かなりの距離がある。

　プログラム評価を考えるときには何よりもまず，このような貢献すべき対象，それぞれが持つ有用性の意味など，さまざまな点で違いのある評価研究と業績検査の二つの系統を内包しながら発展してきたものであると考えなければならないであろう（表3参照）

　むすびにかえて

　アメリカではプログラム評価は，評価研究の中でさまざまに発展してきた新たな理論を導入して，監査や検査の実務の伝統的な手法にイノベーションをもたらそうと試みてきた。この点でプログラム評価の関心は，行政統制としてのアカウンタビリティ確保から情報提供機能一般へと移りつつあるという考えには非常に説得力がある（注26）。ここではプログラム作成，実施の改善などのための情報提供がプログラム評価の主要な目的となっていることが指摘される。言い換えるとプログラム評価は回顧的な「総括的評価」としての性格を弱め，「形成的評価」として議会での政策形成をはじめとするあらゆる政策プロセスで機能するよう求められつつあると考えられている。それは言うまでもなく事後統制的なアカウンタビリティの追求という目的が，少なくとも議会補佐機関としてのGAOのプログラム評価においては後退しているということになる。このような状況が進む中でInspector General Actが1978年に制定され，結果的に後退したアカウンタビリティ追求のメカニズムをinspector generalが補うという含みも出てきている（注27）。

　このような展開を見せているプログラム評価は，わが国にどのような影響をもたらし，あるいはその導入が可能なのであろうか。この可能性を望むには二つの大きな阻害要因があることを指摘したい。第一に，「応用社会科学」である評価研究の知的母胎としての政策研究の伝統がわが国には乏しいと言うことである（注28）。第二に，極端な三権分立制度をとり，形式的にではあるにせよ連邦議会が直接に政策形成・政策決定に携わっているアメリカの統治制度と，わが国の議員内閣制度を採用している統治制度との違いである。つまりプログラム評価はアメリカのかなり特異な学問的環境と統治制度の中に誕生し，成長してきた手法なのである。

　この特異性から，わが国の施策評価におけるプログラム評価の影響はかなり限定的なものになるであろう。あるいは導入を試みても「一部移植」だけが可能かも知れない。つまり業績検査の部分を主とした導入が最も可能な選択肢であるかも知れない。というのも1970年代からいわゆる「3E監査」つまりeconomy，efficiency，effectivenessをめぐる監査についてはわが国でも相当研究が進められてきており，ここでは統治制度の違いという制度的な阻害要因の影響はあまり関係なさそうだからである。それでは評価研究の母胎である政策研究の知的伝統の欠如ということから生ずる阻害要因についてはどうであろうか。1980年代になってからの中央官庁や地方自治体における政策研究をめぐる研修の増加，大学や大学院レベルでの講座数の増加は，政策立案やプログラム作成に対する関心を高め，ある意味で「プログラム評価」導入の条件を可能にする方向への進歩がみられる。ただし，それでもプログラム評価のような形では定着しないのではなかろうか。それは行政の「文化」とでもいうべきものの性質が，わが国とアメリカでは異なっている，あるいはアメリカがこれもまた特異なためだからである。

　たとえば，イギリスにおいてもプログラム評価（program evaluation）という名の政策評価手法が政府において導入されて，イギリス大蔵省を中心に研究され，見直しが行われている。しかしその内容は同じ英語圏の国であり，似ている文化的背景を持っているイギリスであっても，社会科学的知識を動員してプログラム内容の改善を強調するアメリカ型のプログラム評価とはその性格がかなり異なっている（注29）。またイギリスのプログラム評価は「資源管理」の色彩が強く，「支出にみあった価値」（value for money）の改善に力点を置くものである。いうまでもなく，アメリカのプログラム評価の持つ「政策管理」的な機能はのぞまれていない。というのもここでは矛盾しがちな二つの要請，つまり一方の各省庁の大臣がもとめるサービス改善の要求と，他方での大蔵省が強く主張する一定レベルの支出範囲内で政策の優先順位を調和させたいという要請を妥協させつつ，まず「支出にみあった価値」，そして3Eの観点で政策を評価するためプログラム評価を用いようとするからである（注30）。この状況でプログラム評価として進められていたものにはレイナー卿が中心となって行われた"efficency scrutinies"が強く影響を及ぼし，そして節約や能率を重視するアウトプット測定や業績指標を基に評価する業績評価が基本となっていたのであった（注31）。アメリカのプログラム評価とはかなり異なる性格なのである。

　あるいはフランスのようにプログラム評価のような「評価」がほとんど政府に採用されず，進展を見なかった国もある。その理由の一つはフランスでは「評価」を担当すべき会計検査院が司法機関的色彩が強いためである。また各省庁の内部監査機関は伝統的な統制機関として，いまだに限定的な役割を演じているからでもある（それはやはり，大陸系の国においては合法性を重視する行政統制が主流であるためかもしれない）。あるいはこの状況を導いたのは，閉鎖的な官僚集団を形成する行政テクノクラートの特権的地位に基づく情報の独占のためかも知れない（言うまでもなく情報の公開は評価の不可欠な前提である）。またフランスの政治社会にある文化的知的伝統，つまり帰納法より演繹法を好み，経験的研究より規範的研究を求め，具体的活動に基づく志向より概念操作を好むという伝統的傾向が，プログラム評価に必要な観察やモニタリングに基づく経験的推測，フィールドワークによる情報収集法の洗練を阻んできたという説明もある（注32）。

　このように同じ西欧型の知的伝統にあっても，イギリスのように同じ「プログラム評価」という言葉を使っていてもかなりニュアンスが違っている国，フランスのように全く存在しない国があることからすれば，アメリカ型のプログラム評価は検査や監査の伝統においても，知的分野においても，かなり特異な存在であると考えられる。したがって，わが国へのプログラム評価導入の可能性を探るには，まずその前提作業として，「評価」の背景にある行政や社会の文化的伝統それ自体，そしてこうした「評価」を受け入れる社会のあり方の認識が必要になるであろう（注33）。あるいはまた研究の分野と実務の領域との交流がどこまで可能かを確認し，できればその可能性を高めることを検討すべきかも知れない（たとえばアメリカのように学会と実務の世界とを頻繁に往復できることがアメリカ流のプログラム評価発展の前提になっているように思われる）。そして最後に，このような評価の在り方がわが国の行政や政治の社会で認められるのかどうか，何よりもまず考えてみる必要がある。

（注1）佐藤克廣氏（北海学園大学）による日本行政学会1991年度大会での報告「政策過程とプログラム評価」（1991年5月19日，東北福祉大学）。

（注2）会計検査問題研究会（座長，加藤芳太郎中央大学教授）『業績検査に関する研究報告書』，平成2年，会計検査院，第Ⅳ章「プログラム評価の適用可能性」を参照。

（注3）Gerd-Michael Hellstern, "Assessing Evaluation Research," edited by Franz-Xaver Kaufmann, Giandomenico Majone, Vincent Ostrom,Guidance, Control, and Evaluation in the Public Sector, Walter de Gruyter, 1986, p. 290.

（注4）政策研究，政策科学の学説史的な発展過程を明らかにした業績としては，今村都南雄「米国における公共政策研究の位相」，『法学新報』，第87巻第1・2号（1981年），および小島昭「公共政策研究の現代的意義と課題」，小島美子・赤城須留喜編『現代の公共政策』，勁草書房，1990年，を参照。

　なお政策研究や政策科学で使用する言葉や概念はさまざまな用法が混乱して使用され，その混乱はプログラム評価や評価研究にも及んでいる。そこでここでは議論の展開を明確に導くために，一応の概念整理を行う。まず「政策」（policy）とは政府活動の一般的な方針に関する決定をいう。この政策の目標を実現するための具体的手段として作成されるのが「プログラム」（program）である。同一の政策目標を達成するために設定される一群の施策をいう。「政策研究」とは政策を「記述」し，そのあり方を「説明」し，政策を「評価」するという三つの部分から構成され，これらはそれぞれ政策や政策の「性格」，「原因」（つまりどのようにして政策が作られたのか），「効果」を明らかにする。この政策研究の背景になる主要な学問領域は政治学と行政学である。「政策評価」（policy evaluation）とはいくつか代替的に存在する政策のそれぞれを評価する活動を言い，政策研究の「評価」の部分に相当し，事前評価の性格をもっている。時に"policy appraisal"ともいう。また「政策分析」（policy analysis）は政策が採用されるプロセスに関心を持つ。社会の問題を解決するため作成される政策のそれぞれについて，予測される結果に関する情報を決定者に伝えることがその実務面での機能である。政策分析も事前評価としての性格を持っており，かつて"systems analysis"とも呼ばれた。「政策科学」（policy science）とは政策の作成や決定過程および執行過程についての科学的経験的体系的研究を学際的に行うアカデミックな活動である。作成や決定，執行の制度や慣行だけでなく，政策の内容についても研究対象とする。背景の認識，問題志向，多様性という三つの属性を持つ。政策の内容に対する学術的研究を行うのが「政策調査」（policy research）であり，ここでは政策課題としての社会問題に対してリサーチや分析が行われる。ただし単純に学術志向ではなく，政策の作成者や政策関係者に実践的な活動志向の情報を提供するという目的も併せ持っている。「評価研究」（evaluation research）は，政策研究が目標を所与のものとしてこの目標を最もよく達成する政策の選択を考えるのに対し，特定の政策を所与として，実際に行われている政策の効果を判定しようとする事後評価活動であり，応用社会科学としての性格をもっている。同時に評価の一般原則を開発することにも関心をもっている。最後に「プログラム評価」（program evaluation）は評価研究の一つのタイプとして考えられるが，より実務志向的性格を持ち，評価研究で開発された一般原則を適用する。Cf. Stuart S. Nagel, Policy Studies: Integration and Evaluation, Praeger, 1988, p. 5 and p. 255-7; Ann Majchzak, Methods for Policy Research, Sage, 1984, p. 13; Arnold J. Meltsnre, Policy Analysts in the Bureaucracy, University of California press, 1976; Harold D. Lasswell, A Pre-View of Policy Sciences, American Elsevier, 1971; David L. Weimer and Aidan R. Vining,Policy Analysis: Concepts and Practice, Prentice-Hall, 1989.

（注5）評価の「前史」についてはPeter H. Rossi, Howard E. Freeman, Sonia R. Wright, Evaluation: A Systematic Approach, Sage, 1979, pp. 21-29,を参照。

（注6）アメリカ合衆国，とくに連邦政府におけるプログラム評価採用の経緯については拙稿「政策評価とその問題点−プログラム評価理論を中心に−」，行政管理研究センター調査研究部編『政策研究のフロンティア』，行政管理研究センター，1988年，第三章および拙稿「合衆国連邦政府における行政統制システムの動向−プログラム評価をめぐって−」，『季刊　行政管理研究』，第37号，1987年3月を参照されたい。

（注7）評価を行う目的として①アカウンタビリティの確保，②マネジメントの補助，③社会科学系の各学問分野に貢献する専門的知識や実務の知識の収集があげられる。詳しくはLeonard Rutman and George Mowbray, Understanding Program Evaluation, A Sage Human Service Guide 31, Sage, 1983, chapter 2; Leonard Rutman ed., Evaluation Research Methods: A Basic Guide, second edition, Sage, 1984, 16-19,を参照。なお，この二つの著作には共にRutmanが関わっており，それぞれ同一の内容について書かれているが，一方のタイトルは"program evaluation"，他方では"evaluation research"というように異なる表現を用いていることに注意されたい。

（注8）連邦議会が行政監視機能強化のためにプログラム評価の導入を図った経緯については拙稿「議会の復権とその評価−1970年代におけるアメリカ連邦議会の改革をめぐって−」，『季刊　行政管理研究』，第43号，1988年9月を参照されたい。

（注9）1980年代までの評価の歴史については次の文献によった。Joan L. Herman, Lynn Lyons Morris, Carol Taylor Fitz-Gibbon, Evaluator's Handbook, Sage, 1987, pp. 9-11.　なおこのハンドブックはカリフォルニア大学ロサンゼルス校（UCLA）附属の"Center for the Study of Evaluation"（「評価研究センター」）が刊行した評価のマニュアル集，Program Evaluation Kit (second edition, Sage, 1987）と題するシリーズの第一冊目である。

（注10）Gerd-Michael Hellstern, "Assessing Evaluation Research",op. cit., p. 305-6.

（注11）Uday Desai, "Successful program evaluation: is there an alternative frame-work?" International Review of Administrative Science, Vol. 54, No. 2, June 1988, p. 267.

（注12）Cf. Gary T. Henry, "Program Evaluation", Marcia Lynn Whicker and Todd W. Areson eds., Public Sector Management, Praeger, 1990, chapter 6; and Dwight F. Davis,op. cit..

（注13）Gary T. Henry, op. cit., p. 115.

（注14）ここでの議論は，評価の対象については二つの種類があるということが前提になっている。すなわち一方の対象は政策（policy）および目標を達成するための手段としてのプログラムであり，他は政策やプログラムを実施する体制（administration）である。Policyのperformanceとは，ひとことで言えば政策作成者（議会や執行部の幹部）によって期待されるアウトカム（成果）が，その政策やプログラムを実施した結果発生する程度をいう。このアウトカムに対する評価はインパクト評価とほぼ同じ意味で使用される。他方のadministrationにおけるperformanceとは達成された作業量，サービスを受けた顧客数などのアウトプットに対する，コスト，作業に要した時間，使用した施設や資材などのインプットとの定量可能な比較によって表される。その代表が費用便益比である生産性概念とほぼ同義のこのインプット／アウトプット比較（評価）は，一般にマネジメント・コントロールの中で使用される。厳密にいえば前者の政策やプログラムの遂行状況（policy performance）を評価しようとする試みがプログラム評価であり，後者の実施体制の活動状況（administrative performance）を評価するのが「業績評価」（performance evaluation）である。そしてこの業績評価は業績監査と同義である。Cf.Sharon L. Caudle, "Evaluating Program Results and Success," in Robert E. Cleary, Nicholas Henry and Associates eds., Managing Pubic Programs: Balancing Politics, Administration, and Public Needs, Jossey-Bass Publishers, 1989, chapter 10, pp, 246-7.

（注15）Richard P. Nathan, Social Science in Government: Uses and Misuses, Basic Books, Inc., Publishers, 1988.　とくにchapter 2, "The Rise and Fall of Applied Social Science,"を参照。

（注16）会計検査問題研究会，前掲，1〜2頁参照

（注17）監査の範囲が拡大した結果新しい監査の概念ができてきたが，アメリカ会計検査院においてもこれらの概念に対応する標準的な，統一的な用語はなかなか確定しなかった。Cf. Comptroller General of the United States, Standards for Audit of Governmental Organizations, Programs, Activities, and Functions, 1981, Revision, U. S. GAO., p. 12.

（注18）Frederick E. Mosher, The GAO: The Quest for Accountability in American Government, Westview, 1979.　なおモシャーの著書はその出版された79年までを研究しているが，このスターツの就任以降の新たに試みられ，進められてきた改革は彼が退任した後現在に至るまで大きな変更はない。

（注19）Wallace Eael Walker, Changing Organizational Culture: Strategy, Stracture, and Professionalism in the U. S. General Accounting Office, The University of Tennessee Press, 1986, p. 5.　なお，この研究は先のモシャーの研究と同じくGAOの変化を研究対象としているが，一方のモシャーの研究が「外部からの，トップダウンの視点による」研究であったのに対し，「内部からの，ボトムアップ」の視点をもって行った研究であるという（p.4）。またウォーカーは，行政組織がその環境からの圧力に対応できずパフォーマンスが達せられない時，新たな組織戦略をたて，組織構造を修正し，組織文化を変えることによって新たなアウトプットを生み出せるようにするという（p.9）。GAOの場合，この組織文化の変容こそ"audit"から"evaluation"への転換と，それに伴う新たな知的背景を持つさまざまな社会科学者の採用であった，というのがウォーカーの主張である。

（注20）Wallace Eael Walker, op. cit., p. 13.

（注21）Cf. Gary T. Henry, op. cit, p. 118.

（注22）Ibid., p. 117.

（注23）Uday Desai, op. cit., p. 273.

（注24）Dwight F. Davis, op. cit., p. 38.

（注25）Ibid., p. 36.　なお前掲のUdayの論文はプログラム評価の成否を判断する基準として実用性（utilization）をあげるが，これはpracticalityとほぼ同義であると考えられる。

（注26）桜田桂「プログラム評価とわが国会計検査院による事業・施策の有効性の検査」，『会計検査研究』，第3号（1991年3月），69頁。

（注27）これは会計検査院審議室の吉江勉氏からいただいた示唆による。それは，GAOは議会の政策立案やプログラム改善を支援するためプログラム評価の「評価研究的側面」を強化してきたが，これによって検査，とくにアカウンタビリティ確保のための証憑監査（voucher audit）の部分が弱まってきた。この弱体化した部分をinspector generalの内部監査によって補うという戦略があったのではないかという御指摘であった。

　ところでこのinspector generalとは1978年に制定されたthe Inspector General Actによって各連邦省庁におかれた内部監査を担当する役職である。公的資金の誤用，濫用，浪費を予防するため監視を行うことがその目的である。上院の助言と同意をもって大統領が任命するこのinspector generalは，その所属する省庁の長に直接責任を負い，報告を行う。また所属する省庁からの一定の独立性を保持するため，法律（the Inspector General Act）によって半年に一度連邦議会への報告を義務づけられている。Cf. Bernard Rosen, Holding Government Bureaucracies Accountable, second edition, Praeger, 1989, pp. 151-3.

（注28）わが国においてはこれまで，個別の学問分野や政策領域内における個々の研究はみられたが，アメリカで発達してきたような学際的な「政策研究」一般についての研究蓄積はほとんど存在しなかった。したがって政策研究の入門書や教科書のような基本文献は，わが国においては以下にあげるように非常に限定的である。①吉村融・編著『政策科学：活力ある行政への挑戦』，旺文社（ラジオ大学講座），1981年；②田村明・森敬・村瀬誠・編著『自治体における政策研究の実践−ローカル・ガバメントの展望を拓く−』，総合労働研究所，1986年；③大平充夫・児玉文雄・伊藤大一・共著『地方公務員のための政策科学の基礎知識』，ぎょうせい，1988年；④財団法人・行政管理研究センター『政策研究のフロンティア』，1988年；⑤関西大学経済政治研究『現代日本の公共政策』，1988年；⑥薬師寺泰蔵『公共政策』，東京大学出版会，1989年；⑦E. R. クラスチケ・B. M.ジャクソン著，小池治・山谷清志訳『政策研究の基礎用語』，(財)行政管理研究センター，1989年；⑧大嶽秀夫『政策過程』，東京大学出版会，1990年。⑨日高昭夫「自治体行政における『政策課題研究』の意識と『課題設定』の一般的枠組み−若干の体験に基づく一試論−」，山梨学院大学行政研究センター・編『公務員行政研修のあり方』，第一法規，1991年。

（注29）アメリカのプログラム評価の特徴の一つは，プログラム管理の質を検討しようとする他の類似の分析手段とは対象的に，その焦点を「プログラム構造」に置くという点である。この構造はプログラム目標，プログラム要素（たとえば児童保護プログラムの場合，ケース・ワーク，児童虐待監視センター，ボランティアのサービス，給食サービス，補充教育センター等のプログラムの提供するサービスの具体的な内容である），アウトプット（提供されるサービスの回数や，保護された児童の数などの中間生産物），効果から構成される。したがって厳密に言えばプログラム評価（それはプログラムに対する評価研究と言い換えられる）は本来，プログラム管理とは性格が異なる活動であって，マネジメント・レビューが対象にするような通常の管理活動，資源の節約や能率性，あるいは生産性や業績達成状況は基本的に対象としない。（Cf. Leonard Rutman and George Mowbray, Understanding Program Evaluation, op cit, pp. 12-16.）これに対してイギリス大蔵省が公にする政策評価（ここでは政策とプログラムは同義である）の手引書は，管理者を評価の顧客とし，政策目標がどの程度達成されているのか，能率的に節約的に達成されているのかをめぐって評価するとしている。しかもそこでは「支出にみあった価値」が強く意識されているのである。Cf. HM Treasury, Policy Evaluation:　:A Guide for Managers, Her Majesty's Stationary Office, 1988.

（注30）Cf. Robin Butler, "Programme Evaluation: A Central Perspective, "in Royal Institute of Public Administration ed., Public Management and Policy Assessment: Development in Central Government, Peat Marwick, 1986, pp. 20-30.

（注31）Ibid., pp. 24-26.ここでバトラーが示唆する，現在イギリスで進められているプログラム評価へのアプローチに含まれるのは①policy review　②efficiency scrutinies　③top management systems　④output measures and performance indicators　⑤audit　の五種類の活動である。ただし80年代の政治状況，そしてサッチャーの行政管理改革の結果「資源管理」が強く押し進められ，イギリスのプログラム評価においては②③④⑤が強調されているのである。

（注32）Andrew P. kakabades, Paolo Rando Brovetto, Rainer Holzer eds., Management Development and the Public Sector: A European Perspective, Avebury: Gower Publishing Company, 1988, pp. 15-19.

（注33）この点に関しては財団法人　日本システム開発研究所『パブリック・アカウンタビリティと会計検査に関する調査研究報告書』（平成3年3月）が参考になる。

第4号

プログラム評価の二つの系譜 −評価研究と業績検査− 山谷 清志

山谷 清志 （広島修道大学助教授）

はじめに

Ⅰ プログラム評価の歴史

Ⅱ 評価研究と業績検査

Ⅲ 評価の有用性

むすびにかえて

プログラム評価の二つの系譜
−評価研究と業績検査−
山谷　清志

山谷　清志
（広島修道大学助教授）

　はじめに

　Ⅰ　プログラム評価の歴史

　Ⅱ　評価研究と業績検査

　Ⅲ　評価の有用性

　むすびにかえて