余談

 実は当初、このレポートの副題は「確率論的推論 vs 時系列的推論」であった。以下はその時設定した、時系列的推論プレイヤーの概要である。

時系列的推論モデル

情報収集

 注目する要素として二つの次元を考え、各々の次元に二つのバリエーションを設定した。

注目するイベント
最終的カード合計 ブラックジャック
とバスト
注目する
相手
プレイヤー自身 Aα Bα
ディーラー Aβ Bβ

 以下、各戦略の(あくまで大まかな)説明。

Aα

 それ以前のある一定回数のゲームにおける、自分の最終的カード合計を評価する。
 具体的には、

ゲーム終了状況 状況評価
21を大きく上回ってバスト 不調
21を僅かに上回ってバスト 大不調
21あるいは 21を僅かに下回ってバストを回避 大好調
21を大きく下回ってバストを回避 好調

Aβ

 それ以前のある一定回数のゲームにおける、自分とディーラーのカード合計の差を評価する。
 具体的には、

ゲーム終了状況 状況評価
自分だけバストした 不調
ディーラーと僅差で競り負けた 大不調
ディーラーと僅差で競り勝った 大好調
ディーラーだけバストした 好調

Bα

 それ以前のある一定回数のゲームにおける、自分の各種イベント発生頻度を評価する。
 具体的には、

ゲーム終了状況 状況評価
バストした 不調
ブラックジャックだった (大)好調

Bβ

 それ以前のある一定回数のゲームにおける、ディーラーの各種イベント発生頻度を評価する。
 具体的には、

ゲーム終了状況 状況評価 (*)
ブラックジャックだった (大)不調
バストした 好調

(*) ここでの好/不調は、プレイヤー自身にとっての評価である。

情報処理

 定式化は困難(あるいは不可能)である。設定者の主観により定める。

プレイヤーの行動

 p型、q型の二つを設定した。

好調時 不調時
p型 ステイする
タイミングを
遅らせる
ステイする
タイミングを
早める
q型 ゲームに
参加する
ゲームから
(一時的に)
降りる

 こうして情報収集で4種類、プレイヤーの行動で2種類のタイプが設定され、合計8種類(=4×2)の戦略が定義できた。しかしAα、Aβ、Bαの各タイプは自分自身も常時プレイに参加している必要があるので、ゲームを離脱する可能性のあるq型にはなれない。従ってその3つを除いた、5つの戦略が定義される。

問題点

 これらの戦略の定式化にあたり、すぐに以下の諸問題点に突き当たった。

情報選択法
  1. どの情報を好調/不調の指標とするのか。カード合計や、ブラックジャックとバストの頻度とするのは、筆者の主観に過ぎない。(ただし一般のプレイヤーがやるのは、このどちらかが殆どだろうが。)
  2. 何ゲーム前までの情報を利用するのか。あまり以前まで遡ると「流れ」自体が均質化してしまうし、プレイヤーの負担も増える。適当な基準はあるのか。
情報利用法
仮に流れに貢献している要素が特定できたとしても、その貢献の法則性までは未知のままである。情報をどのように加工して、プレイヤーの意志決定という形に乗せるのか。(具体的には、どのように数式を立てるのか)

 また実際にプログラムを試作し動かしてみたところ、さらに以下の問題点に気付いた。

推論の再帰性
例えばAαp型プレイヤーの場合、以前の自分の戦績を参照した上で今回の戦略を立てるわけだが、参照したその戦績自体、やはりさらに以前の自分の戦績を反映したものである。つまり自身の判断材料の中に、既に自身の判断結果が含まれてしまっている。

 以上の問題点は、今回の限られた時間内では解決できなかった。しかし生身のプレイヤーが、これらを意識的/無意識的にクリアしているのも現実である。


戻る