この文書は 日動協海外技術情報を基に作成しました。

動物福祉の観点からみた生物医学研究における適正な動物数

Appropriate Animal Numbers in Biomedical Research in Light of Animal Welfare Considerations

M.D.Mann, D.A.Crouse and E.D.Prentice(Department of Physiology
and Biophysics and Department of Anatomy, University of Nebraska Medical Center, Omaha, NE, U.S.A.)

 過去10年以上,生物医学研究に対する社会的対応が必ずしも変化してきたわけではないが,そうした研究に供する動物についての社会的関心は一般に増加してきている。多くの人々は,いまだに動物実験の潜在的な利益を認めており,また,そうした利益はそれに要する費用に勝るものであると信じている。しかし,同時に動物を人道的かつ賢明に用いる(賢明とは自然の資源を保護するという意味である)ことに,社会は関心を寄せている。科学者たちも一般にこうした意向を受入れて,研究に供する動物数を減少させる努力を払ってきた。

 科学研究助成金の交付機関,米国農務省(USDA)のような監視機関および各種学協会のいずれもが,RussellとBurchの3Rの原則を支持している。3Rの原則とは,動物を使用しないですむ実験系に置換えること(replacement),研究に供する動物数を減らすこと(reduction),および実験手技を洗練して動物が被る苦痛を減らすこと(refinement )である。1985年に制定された動物福祉法とその法律に基づく規則の趣旨は,研究者たちがこの3Rの原則を実行することを奨励している。その趣旨は公衆衛生局(PHS)の「実験動物の人道的な管理と使用に関する原則」の中のつぎの一節に反映されている。“選択すべき動物は適切な種と質であらねばならず,また,有効な結果を得るのに必要最少限の数であるべきである。数学モデル,コンピュータシミュレーションおよびin vitro の生物学的実験系などの方法を考慮に入れるべきである”。USDAの動物福祉に関する規定も,この趣旨を反映している。“動物を使用する研究活動を行なう,あるいは動物を使用する現行の研究活動に重要な変更を加えるという実験計請には,動物を使用する論理的根拠および使用する動物の種および数が適正であるという論理的根拠を含んでいなければならない”。

 こうした国家の方針と一致して,ネブラスカ大学医療センターでは,1979年以降,研究に用いた動物数が劇的に減少した。この一般的な動物使用数の減少傾向は,単に動物福祉に関する法令の結果だけではない。というのは,こうした傾向は1985年の動物福祉法の施行に明らかに先んじてみられた。使用数の減少は,動物購入費および飼育管理費の増加によるものでもあろうが,一方では,研究助成金の増加が動物使用数減少をある程度抑制したことも事実であろう。動物使用数の減少は,おそらく,つぎに述べるような多くの要因によってもたらされたものであろう。すなわち,動物福祉に関する科学者たちの認識の増大,動物の購入および維持に要する費用の増加,米国の各種財団から支給される動物に関連した研究に対する基金の減少,制度化された委員会による監視体制の強化,および,より少ない動物数で実施可能な分子生物学的アプローチやバイオテクノロジーの活用への傾斜等である。これらの要因は,その重要性によってランクづけすることはできない。動物使用数が減少した理由は,明らかに複合的なものである。

 PHSとUSDAは,動物の管理および使用に関する制度化された委員会(IACUC)に対し,適切かつ人道的な動物の飼育管理と使用を保証するよう要請してきた。いかなる委員会も,動物使用数の適切さを考慮に入れることなしには,このような保証をすることは困難である。適切な動物使用数の決定に関する5年間の経験から,このことが複雑な問題であり,動物の福祉を配慮するという観点に立って調査するに値する問題であると,われわれは確信した。研究計画における適切な動物使用数を考える際には,多くの要因がその中に入ってくる。統計学的,経済的,契約上および福祉についての問題点は,適切な動物使用数を考えるうえで大きな役割を果たす。したがって,適切な動物数を決定するに当たっては,研究者や委員会はこれらの要因のすべてを考慮しなければならない。この総説では,われわれは,最初,実験計画における統計学的な面について考え,ついで動物実験の申請書を審査するうえで委員会が遭遇する非統計学的な問題について取り上げる。

統計学的に適切な動物数

 実験に用いる動物数の決定は,しばしば統計学的立場に立って行なうことができる。つまり,適切な最小動物数は,実験の性質と得られたデータの解析に用いる統計学的検定法によって決められる。検定法は実験に先んじて決定すべきであり,実際には,実験は使用する検定法に適したように計画されなければならない。SokalとRohlfは,分散分析について,つぎのように述べている。“統計学的検定で重要な点は,検定法が実験結果とは無関係に計画され選択されることである。つまり,検定法は実験が実際に遂行され,結果が得られる以前に計画されなければならない”。多くの学術雑誌は,現在,投稿論文に対して,実験の検出力に基づいて標本の大きさが適切である旨を明記することを規定している。このような評価は,実験が始まる前に決定されなければならない。

 適切な標本の大きさを計算する数式を提示することがこの論文の主旨ではない。計算式,標本の大きさの計算表および計算図表にはさまざまな検定法がある。表1は,このような計算表が存在する検定法の例を示しているが,これですべてを網羅しているわけではない。この点については,とくに検出力分析について詳しく述べられていて,しかも,広範囲の統計学的検定に必要な計算表が載っているJacob Cohenの優れた成書を参照されたい。残念なことに,このような計算表に存在しないような検定法が実験研究によく用いられている。しかし,Erbは,計算表が存在しない検定に類似の既存の計算表を応用できることを示唆している。これらの計算式,計算表もしくは計算図表を用いるには,つぎに述べるいくつかのパラメータについての知識が必要である。α,第1種の過誤もしくは偽陽性の過誤;β,第2種の過誤;検出すべき最小差もしくは効果サイズ;対照集団と実験集団との変動分散。

 α過誤:α過誤とは,実際には効果がないのに,実験集団と対照集団との間に差がある,つまり動物に対する実験処置が効果があると判断する確率のことである。これは,本当は真実である場合に帰無仮説(差もしくは効果がないという仮説)を棄却する過誤のことである。パラメータ検定では,帰無仮説(H0 True)を表わしている正規曲線の下方で,片側検定では片側の,また両側検定では両側の,規準値を越えた面積部分を表わしている。すなわち,図1の網目部分に相当する。すべての生物集団はなんらかの変異を含んでいる。その集団から無作為に標本を選んだ場合,それらが互いに等しいことはまれである。したがって,1つの集団から非常に異なった2つの標本が抜き出される確率は存在する。標本が異なっているので,実際はそうでなくても,それらは異なった集団に由来するという結論が引き出されるかもしれない。

 生物実験では,α過誤の確率は決して0ではない。しかし,生物学者は,この確率を0ではないものの適当な低さに設定することになるだろう。これが遍在性有意水準もしくはp値である。許容可能なα確率として,よく行なわれている検定では,任意に0.05もしくは0.01の値が採用されてきた。その値が0.05であるということは,それが実際に正しいとき,20回に1回は誤まって帰無仮説を棄却してしまうことを示している。この確率はつぎのようにしてよく用いられている。すなわち,計算された確率が0.05以下のとき,帰無仮説は棄却される(実験処置の効果があったと結論される)。一方,0.06以上なら帰無仮説は棄却されない(実験処置の効果がないとされる)。このようにして,実験実施者は誤ちを犯す危険性を20回の実験のうち1回に抑えることができた。しかし確率0.06について考えてみよう。これは,過誤率が1/20の代わりに1/17〜1/18であることで,常識的には,0.06と0.05の間にはほとんど差がなく,同じような評価をすべきかも知れない。実際の値を明記することなく,p値が0.06もしくは0.07であった場合に,単に‘有意差なし’と記述する習慣は好ましくなく,計算されたp値を明記することが好ましい。

 多くの人々は,α過誤の確率が小さければ小さいほどよいと思うであろう。しかしながら,これは制限付きで正しいのである。一般に,α確率が小さいほど実験の検出力も小さくなり,すなわち仮に実験処置の効果があったとしても,その効果を見出すことは困難になる。他のすべてのことも同様で,許容可能なα確率が小さければ小さいほど,もし効果があったとしても,本当の効果を検出するためには標本の大きさがより大きくなければならない。どの統計学的計算表であれ,それらにざっと目を通しただけでも,この事実に気付く。図2には,3つの異なった効果サイズ(標準偏差の0.6,1.0および1.4倍)での標本の大きさに対する両側検定での有意標準,α2 をプロットしてある。明らかに,α確率が低いと標本の大きさは大きくなっている。さらに,偽陽性効果を受け入れる確率(α)が小さいほど,偽りの帰無仮説を棄却し損う確率が大きくなる。すなわち,β過誤の確率が大きくなるのである。

 β過誤:β過誤は実験処置の効果がないと誤って結論したときに起こり,研究の検出力と関連している。検出力=1_βで,これは実際に存在している差が研究によって検出される確率のことである。パラメータ検定では,β過誤は帰無仮説の対立仮説(H1 True)を表わしている正規曲線より下方で,規準値を超えた部分の面積部分で,図1の斜線部に相当する。検定における検出力は‘H1 True’曲線の下方の残りの部分である。αとβとの関係は研究条件に左右される。もしβ過誤を犯すほうがα過誤を犯すよりも損失が大きいのであれば,癌の治療の見込みのある処置を誤って打切られるというような場合のように,βはαより小さいであろう。治療をやめてしまった結果命を失ったり,苦痛が増加したりしたのではじつに損失が大きい。これに対して,もしα過誤を犯すよりもβ過誤を犯すほうが損失が大きいならば,他に効果のある治療法があるのに効果のない治療が施されたというような場合のように,αがβより小さいであろう。再度述べるが,命を失うことや苦痛が増すことは重要な事柄である。動物実験を行なう者は,この2つの値をほとんど0に近く小さくする誘惑にかられるかもしれないが,それを確実にするために必要な動物を追加することは,費用がかかり過ぎるかもしれない。

 図3には,図2に用いたと同じ3つの比較効果サイズについての有効性との関係を示した。明らかに検出力を減少させると標本の大きさは減少するかもしれないが,0.7以下では検出力を大きく下げても標本の大きさに及ぼす影響はほとんどない。
効果サイズ:Keppelは,つぎのことを指摘している。“われわれが行なった実験のすべてではないが,そのほとんどで,帰無仮説は誤りであった。それは,実験動物集団を別途に扱うと,それらは異なったふるまいをするだろうということである”。もしこれらの差が小さければ,それらを検出するには十分な動物数があればよい。効果サイズとは,測定できるパラメータで表わした実験集団と対照集団との間の実際の差である。適切な標本の大きさを決定するためには,実験者が自らが期待する効果,および標本の大きさを決定しなければならない。いい換えれば,検出するに値する最小差を決定しなければならないということである。非常に小さい差であっても,それが統計学的に有意であることを指摘することは可能であるが,しかし,この差が統計学的には有意であっても,生物学的もしくは臨床的には有意でなかったり,あるいは重要でなかったりすることがあろう。新薬の治療効果のごく小さな改良が統計学的に有意であると認められたとしても,その薬が高価でありすぎたり,好ましくない副作用があったりした場合には,この改良は臨床的には重要ではないといえる。

 Cohenはつぎのように指摘している。“ES(効果サイズ)を大きく仮定すれば,他の要素(有意水準,期待検出力)が等しいならば,必要な標本の大きさは小さくなる”。逆に,効果サイズを小さくすれば,標本の大きさは大きくなる。適正な標本の大きさは,もし効果が存在するとしたら,期待した効果サイズを検出するために必要なサイズである。Erbは意味のある最小差を検出するために必要なサイズ以上の標本の大きさは,動物の浪費であると強調している。さらに,そのような差を検出するに必要なサイズ以下の標本の大きさは,その研究のすべての動物を適切に使用していないことになる。

 この問題の1例として,われわれの委員会は,外科的に顎を短くする各種手技の研究にサルを用いるという実験計画の審査を求められた。最初の計画書では,15匹のサルが10の実験群に分けられていた。記載されていた実験予定の解剖学的観察や測定項目およびそのような観察の変動から判断して,この研究からは有益な情報は得られないものと考えられた。そこで委員会は,実験群当たりの動物数を増すか,もしくは実験群を減らすことを提案した。この場合,より多くの動物を使うことは動物の浪費をより少なくすることになろう。実際には,委員会によるこの実験計画の審査の結果,主に費用がかさむという理由で動物の使用数は増やさないことになったが,もっとも重要な差が認められるであろう観察項目に焦点をしぼった計画に変更された。

 このような誤りがいかに頻繁に生物医学研究のあらゆる分野で起こっているかを言明することは困難である。これがいかに普通のことであるかについては,陰性に終った71例の臨床試験について吟味したFreimanらがヒントを与えている。彼らは,これらの試験の中のデータを用いて,採用された標本の大きさで与えられた研究の検出力を計算し,67の検索報告では,25%の治療効果を確認するに不十分な患者数しか扱っていなかったことを見出した。50の検索報告では,50%の治療効果を確認することはできなかった。Freimanらは,それぞれの試験について,かかった費用と得られた利益とを計算する手段をもっていなかったが,50%の治療効果が重要でないと想像することは困難である。さらに悪いことに,著者の多くが臨床的に有意義な効果がなかったと結論している。われわれは,動物実験について同様なデータをもってはいないが,このような誤りが動物実験ではまれではないと推察している。動物を使用する同様の実験は動物の浪費であり,同僚たちから非倫理的とみなされるであろう。偽陰性所見は,科学の進歩を荒廃させるかもしれない付加的な効果をもっている。このような所見は,他者がそれに関連した現象を研究するのを妨げ,他者がこれらのことを思索する方法に確実に影響を与えるであろう。

 多くの心理学者(および多くの他領域の研究者)は,標本の大きさが5であるような実験から得られた結果は信用しないという傾向がある。しかし研究者や委員会は,つぎのことに留意すべきである。すなわち,もし統計学的検定の仮説がそのような小さな標本にとって真実であるとしたならば,統計的に有意な結果は信じることができる。われわれがこれまでみてきたように,結果が有意でないときが困難なのである。

 変動性:真の差を検出するのに失敗するもっとも一般的な原因の1つに,測定における高度の変動性がある。実験において対照群の測定を行なうことは好ましくない変動性を減少させるために重要である。しかしながら,仮にすべての外因性の変動性を制御できたとしても,測定されたパラメータは動物や実験材料が異なれば異なっており,集団内の各個体はお互いに異なっている。

 いかなる標本の値(平均,比率,分散)も,関連した集団の値に近接している,すなわち,信頼性がなければならないことが重要である。信頼度は要因の数に関連しているかもしれず,使用された特定の統計学的モデルに依存しているが,それはつねに標本の大きさに関連している。例えば,もっとも一般的に用いられている信頼度の尺度である平均の標準誤差は,母集団の分散(s)と標本の大きさ(n)の比の平方根に依存している。つまり,SE(標準誤差)=√S2/nである。同様に,Pearsonの相関係数の標準誤差は,母集団係数をrとした場合,SE=(1−r2)/√n−1で表わされる。統計学的検定では,標本の大きさが大きくなると誤差が小さくなり,結果の信頼度が増す。

 多くの検定では,効果サイズの標準偏差に対する比率が大きくなると,効果の統計学的有意性が増す。効果サイズが小さいときには,標本の大きさを増加して標準偏差を下げることがよく行なわれている。標本の大きさを上げることができない場合には,その実験の検出力は低くなる。標本の大きさを増加させる場合は,実験群および対照群ともに同様に行なう必要がある。後で考察するように,対照群のみの標本の大きさの増加は,仮説を棄却することになり,検定は無効になる。
 認識と評価:多くの場合,最小の標本の大きさを推定するためには,効果サイズ,αおよびβ確率および変動性を知ることが必要である。α確率については一般的に研究者集団の間では合意を得ているものの,α値をどう設定するかは任意である。その値を不変なものとしてすみやかに容認するためには,いくつかの注意を払う必要がある。たとえ確率がどのようなものであっても,1つの研究からどのような結論も引出すことが可能である。一方,α過誤の確率が大きすぎる場合,例えば0.1以上の場合,同僚の批評家は有意差があるとする結論を享受しそうにない。許容可能なβ確率は認められていない。NeymanとTokarskaによれば,0.8_0.9の検出力が効果を検出するために理にかなっているとしている。Kraemerはこれを0.8とした。McCanceは計算を行なう際に,可能な検出力の下限値として0.7を用いた。理にかなった検出力値は0.7_0.9の範囲内にある。

 データの効果サイズや変動性は,しばしば,その研究者もしくは他の研究者が過去に行なった実験から知ることができる。本質的に同じ母集団から,あるいは非常によく似た母集団から抽出した材料を用い,類似の実験計画に基いた実験がすでに存在しているかもしれない。その場合,これらの変数についてさらに正確な値が得られるかもしれない。とくに,新しい変数について測定するときには,実験者たちがこれらのパラメータのことをつねに知っているとはいえない。それではどうすればよいのであろうか。1つの可能なアプローチとして,小さな標本の大きさによる探り実験が挙げられる。もし実験者が,標本の平均と分散を母集団のパラメータの適切な推定値として認める意思があるならば,最小標本の大きさをおおまかな推定値に決めることができる。計算された最小標本の大きさは,少なくとも探り実験で得られたそれと同じ大きさの効果を検出するに十分な検出力を生ずるものとなろう。このような評価は,効果サイズや変動性が実際に知られているときに得られたものほど優れているわけではないが,なにもないよりはましである。

 標本の大きさを決定する際の非統計学的要因 倫理的考察:実験処置の効果が存在すると仮定して,その効果を検出するために使用する動物数が多すぎるか,もしくは少なすぎるかということに関しては,明らかに倫理的な問題がある。双方とも動物の浪費になるが,動物の使用数が少なすぎる場合のほうが結果的により大きい浪費となるだろう。倫理的もしくは動物福祉に関する配慮が動物の使用数に影響を与えるが,しかしこうした配慮は統計学的分析とはほとんど無関係なものである。例えば,最近われわれの委員会は,凍傷の研究にウサギを用いる実験計画書の審査をするよう求められた。その計画書によると,ウサギの両後肢に凍傷を作り,その後異なった方法で患部を温め,どの方法がもっとも壊死が少くなくかつ治癒が良好であるかを観察することになっていた。委員会としては,このような方法ではウサギは衰弱し,ケージの中では動き回れないであろうし,また,足の組織と血液循環にそれほどの損傷を与えるとウサギの命を縮めることになるのではないかと心配した。そこで,委員会はこの研究者に,使用動物数を倍に増やして片側の足だけに凍傷を作るか,もしくは後肢の代りに前肢か耳に凍傷を作成することを勧告した。これらの勧告は,単に動物の福祉の理由でなされたものである。

 このような配慮はしばしば,実験処置回数の減少もしくは使用動物数の増加を招く。いずれの結果も倫理的立場からも統計学的立場からも正当である。同一個体での頻回外科手術を含む実験計画書について,委員会では慎重に審査している。こうした実験計画の必要性(妥当性)を研究者は十分に証明することが要求される。研究者がもしこのような実験の正当性を十分に説明できない場合には,委員会は,結果として動物数の増加につながるとしても,異った群の動物で手術をすることを勧告するであろう。

 経済的配慮:イヌ,ネコもしくは霊長類を多数必要とする実験はほとんどないが,数100匹のげっ歯類を必要とする実験計画はごく普通のことであるとRowanは述べている。大動物の場合,ごく少数しか研究に使用しない理由は費用が高くつくからであるという彼の結論は,ほとんどではないが多くの場合,明らかに的確ではない。大動物を用いた実験の統計学的信頼度や不当に多くのげっ歯類が実験に用いられていることについての彼の疑問は,重要かもしれないが,この場合は意味がない。

 実験に当たって多くの動物種の中からある1つの種を選ぶことには,多くの理由がある。しばしば,げっ歯類の場合は近交系であるがゆえに,つまり多くの遺伝的バラツキが排除されて変異性が減少しているために選ばれている。プレーリードッグは,単に飼料を変えるだけで胆石を容易に誘発できるが,他の動物ではこうはいかない。ハムスターの頬袋には,微小循環系(小動脈と毛細血管の循環)の研究のための組織移植が可能である。イカは径の大きい軸索を持っているので,軸索の研究には理想的である。ある大動物はヒトとのなんらかの類似点があるという理由で,実験動物として選ばれる。しかし,しばしば単なる習慣によって,ある特定の種が用いられるということもある。長い間神経生理学の実験にはネコが用いられてきたが,それは単にこれまで長い間多くの研究者がネコを用いてきたという理由によるものである。

 動物の選択に経済的配慮がなされていないというわけではない。ラットは購入価格も維持費用も廉価であるので,イヌやネコでよく行なわれていた実験にラットを選ぶことがあるかも知れない。しかし,動物種を選ぶときに,費用の点だけを考慮すべきではない。発癌性の可能性の高い物質のスクリーニング実験には,多数の動物が必要である。というのは,予想される発癌率は低く,かつ,発癌までに長期間(動物種の寿命に近い期間)かかるからである。これは,ある面では経済的な問題であるが,しかし,ラットを豊富に使用できる状況にあるときに,その代りに絶滅寸前の霊長類を多数使用することを正当化することは困難である。
 Rowanは,固有の実験単位という観点についても見逃している。大動物の実験において,固有の実験単位はしばしば測定回数である。というのは,複数回の測定が動物各個体について行なわれるからである。従って,標本数nは測定回数であって動物数ではない。げっ歯類を用いた実験では,実験単位はしばしば動物数もしくは動物をプールしたものの数である。げっ歯類を用いた実験では,測定可能な量を得るため,もしくは望んでいる効果サイズを得るために,一定数の動物から集めた試料をプールして使用することがしばしばある。これらの実験では,必要な動物数は,実験条件の数とプールした試料当たりの動物数によって決定される。

 研究助成金交付機関が課す制約:研究者が助成金交付機関にある研究で助成金交付を申請し,契約を結んだ場合,ある定められた方法に従って研究を進めていくことに同意しなければならないことがしばしばある。実験に使用する動物数を明記している機関が多い。ときには,明らかなあるいは弁護できるような理由から使用動物数を明記していないこともある。実験群に対して2〜5倍の大きさの対照群を設けることを明記することが,このような契約においては一般的に行なわれている。このような慣例には,統計学的な正当性はない。対照群の大きさを大きくすることはそれ自体で実験の検出力を増加できるが,どのような形で
でも動物数を増やせばこの効果は得られるのであって,この場合,検出力の増加が単に明白になったというだけである。

 実験母集団と対照母集団の分散が同質であるという前提が,ほぼすべての統計学的検定には必要である。われわれがこれまでみてきたように,標本の大きさを増加すると標本の分散は減少し,従って分散に対する効果サイズの比率が増加する。しかしながら,2つの標本を比較するときには,検定の実際の検出力は最大ではなく最小の標本によって決定される。対照群のみを大きくすることは,両母集団の分散が同質であるという前提を破ることにつながり,統計検定を無効にすることになる。

 これらのケースでは,委員会はジレンマに直面する。このような実験計画を認めることは,動物の浪費を促すことであり,委員会の責任を放棄することにつながる。かといって,このような実験計画を却下すると,申請した研究機関は助成金交付機関との契約を拒まれることになる。契約に適正な動物数がきちんと明記されていることを保証することが,助成金交付機関の責任であるように思われる。いくつかのケースでは,適正な動物数は,助成金交付機関の責任においてではなく,慣例に従って記入されている。ワクチンの効力検定のケースがこれにあてはまり,Hendriksenらは,慣例で定められている標本の大きさを相当数減らしても,95%の信頼区間を達成するのになんら支障がないと述べている。同様の示唆が皮膚刺激性試験に関してShillakerらによって,また,発癌性試験に関してEnneverとRosenkranzによってなされている。

 対照群の大きさの人為的な膨張:研究者たちはしばしば,彼らが申請した実験に本当に必要な数よりも多くの動物を要求する。われわれは,研究者たちが実際に必要な動物数をきちんと計算していないからこのようなことが起こるのではないかと思う。多数の動物を使用する正当性についての質問に対して,研究者の多くは申請した動物数を減らすことで対応する。委員会の審議がつねに申請された使用動物数の変更をもたらすわけではない。例えば,最近申請された109の実験計画に関しては,89%についてはもともと要求されていた動物数が認められた。残りのうち2/3では研究者は動物数を減少し,1/3では研究者が委員会からの質問に応えて動物数を増加させていた。動物数を減らした件については,平均して33%(2〜67%の範囲)減らされている。2人の研究者は,実験処置回数を減らしているが,動物数は減らしていない。

 研究者たちは,ときどき法外に大きいと思われるような対照群を使うことを提案してくる。ある特定の処置を加えた後,特定のパラメータについて経時的に試料を採取することが研究計画に盛り込まれている場合に,このようなことが起こる。このような場合,実験群の動物が使用される各々の時点で対照群の動物も使われる。実験計画の性質によっては,このようなことも妥当であると考えられる。しかしながら,対照群がそれぞれの試料採取時点における変動を補なえない場合には,研究者たちは対照群を増加させ,実験におけるみかけの検出力を増加しようとするのであろう。前節で述べたように,これは妥当ではない。
 1つの実験計画に複数の実験を含んでいるような場合,しばしば各々の実験について異なった標本の大きさを採用していることがある。このような場合,委員会は研究者に対して,なぜ等しくない標本の大きさを用いるのか,もし大きい標本の大きさが実際に必要とされているのなら,いかにして小さい標本の大きさを用いることが妥当とされるのか,もしくは反対に,小さい標本の大きさで十分ならば,なぜ大きい標本の大きさを必要とするのか,といった点を納得のいくように説明することを求めるべきである。この問題は,げっ歯類を用いた実験ではしばしば起こる。というのは,おそらく,これらの実験では複数の実験に多数の動物を使用することが多いからであろう。

実験に供する動物数を減らす方法

 ほとんどすべての人が,実験に使用する動物数の減少は望ましいということに同意しているが,動物数の減少が検出力に及ぼす効果は劇的である。明らかに委員会および助成金交付機関は,標本の大きさの縮少を提案するまえに,実験の検出力について慎重に考慮しなければならない。実験の検出力を減少させずに動物数を減らすためにはどうしたらよいのであろうか。

 効果サイズの増加:もし効果サイズ,すなわち最小許容効果を増加させることができるなら,効果を検出するのに必要な最小標本の大きさを減少させられる。効果サイズを増加させる1つの方法は,測定時に用いる基準線を変化させることである。例えば,もし測定すべき効果が血糖値の変化であるなら,実験前に動物を絶食させることでこうした基準線を大きく変え,効果サイズを増加させることができる。Kempthorneは,実験前に栄養レベルを低下させることで,成長に及ぼす蛋白の効果を増強させることができた。ToweとMann は,単に刺激強度を減少させることによって,ネコの大脳皮質におけるストリキニーネの効果を検出することができた。最大強度を超えた強度では反応は飽和され,反応の増加は検出できなかった。他にもこのような操作が各種の状況で用いられている。

 このような操作はつねに適切であるとは限らない。例えば,飼料を操作することは,それ自体が実験処置という干渉に対する反応を変化させることができ,さらに対照群を追加する必要が生じるか,もしくは,得られた結論の普遍性に制限をつけることになるかもしれない。このような操作の妥当性は,実験の性質に依存している。もし実験目的が,実験処置という干渉が動物の応答になんらかの効果を及ぼすかどうかを観察することである場合には,ToweとMannによるストリキニーネの実験の場合と同じように,このような操作は確かに妥当であるといえる。

 変動性を減らすこと:もし,試料の測定における外因性の変動要因を減らすことができるならば,標本の大きさを減らすことができ,このことは,実験を計画するうえでの主要な目的に適っている。変動性を減らす1つの方法は,測定精度を上げることである。このことは,新しい測定機器の開発を意味している。もう1つの可能性は,近交系動物(遺伝的により一層類似した動物),同腹の動物もしくは条件の一致した動物を1組として用いることである。また,動物をそれ自身の対照群として用いることによっても,変動性を減らすことができる。

 実験計画におけるいくつかの要素はそれ自体,変動性を減らしたり制御したりする。乱塊法を使用することによって変動を制御することができる。さらに,共分散分析の主な目的は,実験的な変数とともに動く変数の効果を排除することである。これらの測定を行なった後でさえ,データには変動が残るであろう。これは測定自体における無作為変動であり,また,測定されたパラメータに関する集団内の個体間における変動である。これらの変動を排除することはできない。

 対照群の賢明な使い方:対照群を注意深く用いることによって,しばしば実験に用いる動物数を減らすことが可能である。いくつかの実験では,1匹の動物をそれ自体の対照として用いることができ,それによって対照群を別個に必要としなくなる。この方法は,対検定が使用されるであろうから,動物間変動の影響を最少限にすることによって,変動性を減少させるという利益がある。同じ実験計画のなかにあって,異なった実験における条件の変化のもとで,同じ順序で観察が連続してくり返されることがある。その際,時間が重要な変数とならなければ,対照群を2倍にする必要はない。このことでさらに動物を救うことができるであろう。

 動物からくり返して試料を採ること:微量分析技術を利用することによって,血中含有物の濃度を非常に少量の試料で測定できる場合がしばしばある。そうした場合には,ある期間を置けば,同一の動物からくり返して試料を得ることができる。各回ごとに別の個体から試料を採る必要がなくなるので,この方法によると動物数を減らすことができるだろう。他のほとんどの方法と同様に,この方法にも限界はある。実験者は,各試料がその後の試料にはなんの効果も及ぼさないことを知っているか,あるいはこのことが重要でないことを確信しておかなければならない。例えば,げっ歯類からの採血を眼窩静脈叢採血によって行なう場合,動物の福祉と科学的な配慮から,この操作をあまり頻繁に行なうことは好ましくない。さらに,われわれの委員会は,複雑なことを導入する可能性もあるが,あえてこの操作が麻酔下で行なわれるように要請している。カテーテルを入れるための開口には,とくに小動物の場合,さらに制限がある。しばしば開口部は時間とともに減少していくので,カテーテル処置の総有効期間は制限される。

 同じ動物からこの種の試料採取がくり返し行なわれるときは,統計学的解析は注意して行なわなければならない。というのは,くり返しの測定はそれぞれ独立しているわけではなく,各測定値は,それ以前に行なわれた測定と関連しているからである。2つの獣医学雑誌に載っていた論文の大きな欠陥が,あたかも独立しているようでじつはそうでない試料を扱っているということをShottは見出した。同じ動物でくり返し測定する際,これらの試料をあたかも同等のものとして扱うことは論理的でない。動物群からある時点に採取した試料と同じ群の動物から別の時点に採取した試料を,2つの標本が独立していることが求められる2標本t検定を用いて比較することは,同様に論理的でない。これらの状況下では,実験群と対照群との比較は論理的に行なわなければならない。

 反復もしくは逐次検定の使用:われわれが審査した実験計画で頻繁に申出られている標本の大きさは,5〜10匹である。多くの研究者は統計量tの観点から自分の実験結果を分析している。非常に多数の試料については,t分布は正規分布に近づく。標本の大きさの減少に従って,分布のピークは平らになり,両端は上昇する。要するに正規分布から次第にはずれていく。検定を行なううえでの仮定の1つは,データが事実上正規分布していることである。非常に少量の標本については,これはおそらく成立しない。なにが“非常に”少数の標本であるのかという確固たる定義はないが,しかしt分布を一寸みるだけでも,少数の標本では正確な分析が難しいことは容易に判る。95%の信頼区間は,標本の大きさが5のときは1,000のときよりも約0.7t単位広く,また,標本の大きさが35のときより0.6t単位広い。

 標本の大きさを35から5に減らすことによって,検定の効力は劇的に減少する。従って,可能性のある効果を確認できる確率は非常に小さくなる。検定の信頼度が低下するだけでなく,感受性も低下する。このような少数の標本でもってこれらの誤りを犯すもっとも一般的な理由は,適切な動物数を揃えることがあまりに高価であるとか,もしくは実験にかかる時間が長すぎるといったことである。いく人かの研究者は,実験を反復することによってこの問題を処理している。すなわち,いくつかの動物の大量の標本の代わりに,いくつかの少数の標本についてなんども同じ観察をすることである。結果をプールすることによって,適切な標本の大きさを得ることができる。しかしながら,そのためには,各時点において正確に同じ方法で実験を行なわなければならない。TverskyとKahnemanが言及しているように,もし効果が同じ傾向を示し,ほぼ同じ大きさであり,また,分散がほとんど等しいならば,“もとの所見の信頼度のいかんにかかわらず,反復によって信頼度は確実に増加する”。

 通常の試料採取方法は,すべての観察が実際に仮説の決定に必要であるかどうかにかかわらず,あらかじめ明記されている標本の大きさを用い,かつすべての試料について観察を行なうことを前提にしている。そして,逐次検定を用いることによって,標本の大きさを50%程度減少させることができるだろう。母集団の中から1時点に1組ずつ,任意に標本単位を選んでいく。各観察の後に,実験者は帰無仮説を棄却するか否か,もしくはつぎの観察を行なうか否かを決定しなければいけない(この決定は,帰無仮説,H0 を基にした検定における確率関数と対立仮説,H1 を基にしたそれとの比率に基づいている)。もちろん,αおよびβ確率は,実験に先立って決定しなければならない。このような方法で,通常あらかじめ定めておいた動物数を使用する以前に実験を終了させることができる。もちろん,もし貴方がそれを期待しているのならば,いかなる事象をも検出する確率はより大きなものとなる。このことは,通常の標本抽出統計量を連続検定に適用できないことを意味している。興味のある方は,確率の計算法やこれらの手法の応用例を含んでいる多くの有意義な資料を調べることができる。

 両側検定より片側検定を用いること:通常,実験者は実験群と対照群との間の差の方向性については明記しない。すなわち,実験者は,この差を実験群での測定値が対照群のそれより大きいかあるいは小さいかのどちらかであると認識しているからであろう。それには両側検定を使用する必要がある。しかしながら,もし実験者が期待している差の方向性を明記するつもりであるなら,片側検定が使用されるであろう。このような検定を用いる危険性は,期待したものとは反対の方向性を示す所見を排除してしまうことである。ある種の実験においては,うつ病改善薬の治療実験の場合のように,反対の結果にはなんら重要性はないかもしれない。研究者は,うつ病を増強するような薬品には興味を持たないようである。

 α確率が0.05の片側検定は,もし期待した方向に結果が出るようであれば,α確率が0.10の両側検定と同じ効力を示す。もし結果が反対の方向性を示すとしたら,片側検定はなんの効力ももたない。片側検定によって与えられた効力が増加するという結果は,より多数の標本を用いる両側検定で達成できると同じ効力を達成するために,より少数の標本の使用で可能であるということである。この方法を選択した研究者は,結果が予測と反対の方向を持つ場合,それが有意であっても確認することができないという不利益を被ることを覚悟しておかなければならない。
 非常に少数の標本の検出のための傾向変動分析の使用:もしあらかじめ選定した標本の大きさで実験を行なった際,実験前に選定したα確率よりも得られたp値のほうがより大きかった場合,ほとんどの研究者は,帰無仮説を単純には棄却しない傾向がある。彼らは,実験処置が効果がなかったと結論するであろう。誤りであるのに帰無仮説を認めるというβ過誤の可能性がまだ残っている。どのような実験においても,データを注意深く調べることはつねによい考えである。自分のデータを単純に統計プログラムにつめ込んで,自分の注意をコンピュータのアウトプットにのみ集中するような研究者であってはならない。データを調べること自体がβ過誤が起こっているかどうかを知る手掛りを与えてくれるであろう。例えば,実験群と対照群との間の平均値の差が,もしα以下もしくはαと同等の確率でなかった場合,おそらくは標本の大きさがあまりに小さすぎたのであろう。このようなことを検出する1つの方法は,正規もしくは非正規の傾向変動分析を行なうことである。もしすべての実験値がそれぞれの対照値よりも大きかったならば,追加の観察を行なう価値があるだろう。これに対して,もし半分は大きく半分は小さかった場合には,それ以上の観察は動物の浪費になるであろう。

 動物の代替:使用する動物数を減らすためのもっとも効果的な方法は,動物をまったく使用しないことである。いくつかのケースでは,in vitroの胚培養や細胞培養を用いて実験することが可能である。例えば,ウイルスによる細胞感染や,リンパ球のイオンチャンネルに対する変異原物質の作用に関する問題には,培養細胞を効果的に用いることで解答を得ることができる。もし細胞系が維持できなかったり細胞が使用できる数まで増えなかったりしたような場合には,このような細胞の供給源は動物であるので,細胞を用いることが単純に動物数を減らすことにはならないかもしれない。すべての研究課題が培養系の使用によって解答を出せるわけでない。癌転移の機序,組織および臓器の移植,脳地図の作成,行動およびその他多くの機序については,現在用いられている細胞培養では対応できない。一方,例えば末梢血や骨髄の造血幹細胞に関する問題点に関しては,臨床的に使用可能なヒトの細胞や組織を用いることによって対応できるが,つねにこういう方法が可能であるとは限らない。もしホストに細胞を導入したり,ホストから組織を採取したりしなければならないとしたら,ヒトを使うことはできない。 コンピュータやその他のタイプのモデルを動物の代替として研究に使用することが,一般に提案されている。実際,いくつかのモデルが,この目的に有用であると証明されそうである。しかし,いかなるモデルも,単なるデータや概念以上のものではない。われわれは,生体組織が十分に発展してすべてを網羅する効果的なモデルになるなどとは思いもしない。このようなモデルの発達が動物の必要性を排除するのではなく,単に必要とされる動物数を減らすものであることは明白である。RosenkranzとKlopmanは,モデルの正統性を実証するためにも,これからもずっと動物実験は必要であるということを正しく強調している。

結   論

 実験計画を評価する責務を負っている委員会は,法律によって,専門の研究職員と一般人の双方で構成されなければならない。専門の科学者でさえ,ここで簡単に概要を述べた統計学的配慮について熟知しているわけではない。まして,このような統計学的配慮に基づいて決定を下すことを一般人の代表に要求することは無理が多い。それにもかかわらず,委員会は,要求された動物数の適切さについての決定を含め,申請された実験計画について決定を下さなければならない。このような決定は,決して単純な手続きではなく,また,統計学的根拠によってのみなされることでもないことは,われわれには明らかなことである。委員会のメンバーたちは,動物数を決定するに際して,実験全体を検討しなければならない。われわれは,ここで,多数の実験計画について,われわれが考慮してきたなかで現われたいくつかの問題点を浮きぼりにできたと思っている。

 科学上の利益に関する問題については,ここでは故意に述べなかった。それは機会を改めて扱うべき難しい問題である。しかし,時間の浪費になるような実験はまた動物の浪費でもあるということを指摘しなかったことは,われわれの怠慢であった。
[Laboratory Animal Science.41(1),6‐14,1991]
キーワード 総説,実験技術,統計学,福祉