第31回ゲーム情報学研究会(発表件数15件)

第31回ゲーム情報学研究会(発表件数15件)
第31回ゲーム情報学研究会(発表件数15件)

日時：平成26年3月17日（月）10:20 - 18:15
場所：東京工科大学 八王子キャンパス（東京都八王子市）
      片柳研究所 2階 KE202号室
      http://www.teu.ac.jp/campus/access/006644.html
      http://www.teu.ac.jp/campus/map/
      http://www.teu.ac.jp/campus/index.html
主査：伊藤 毅志　幹事： 鶴岡 慶雅，村松 正和，篠田 正人, 大久保 誠也
-------------------------------------------------------------------
[プログラム]
一般講演(25分)：発表 20 分 ＋ 質疑応答 5 分
[10:20 -- 11:35] 各種ゲーム (3件)
[11:35 -- 12:00] モンテカルロ法 (1件)
[13:10 -- 14:00] 人工知能・学習 (2件)
[14:05 -- 15:25] 将棋 (3件)
[15:35 -- 17:15] 麻雀 (4件)
[17:25 -- 18:15] 大貧民 (2件)
--------------------------------------------------------------------

[10:20 -- 11:35] 各種ゲーム (3件)
(1) コントラクトブリッジ実戦的教授法の研究(6)
○清水 映樹、滝沢 武信（早稲田大学）
概要：
  コントラクトブリッジはオークションとプレイの2段階で成り立っているゲー
ムである．コントラクトブリッジをまったく知らない人に教える場合でも，最
初から複雑なビディングシステムを覚えさせなければならない．早稲田大学で
は比較的短期間でも教えられる新たな実践的方法を提案し，実際に入門者向け
セミナーで試みた．本稿では，その継続として開講した授業の5年度目の事例
を報告する．

(2)デジタルカーリングサーバーの提案と紹介
○北清 勇磨、岡田 雷太、伊藤 毅志（電気通信大学）
概要：
  カーリングは氷上のチェスと言われるほど戦術性の高い競技であるが、実際
のカーリングでは、気温やそれまでのプレイによる氷の状態の時間変化や選手
の疲労など考慮しなくてはならないことが多く、戦術のみを切り出して議論す
ることが少ない。そのためカーリングの戦術のデジタル的な研究が遅れている。
  ここでは、物理シミュレーションを用いた理想的なデジタルカーリングコン
ディションを提案し、戦略のみを切り出して議論できる場を提供しようと考え
ている。

(3) Game-refinement theory and its application to Volleyball 
竹内 純基、○飯田 弘之（北陸先端科学技術大学院大学）、Ramadan Rido（Institut Teknologi Bandung ）
概要：
This paper introduces a recent development of game-refinement theory
and shows its aplication to Volleyball. The game-refinement theory was
proposed in 2003 as a new game theory to measure entertainment impact
or sophistication of games with focus on uncertainty of game
outcome. The original framework of game-refinement theory was
constructed in the domain of board games such as Chess and Go. Later
it was extended for various types of games including sports games,
while considering a general model of game information progress. We are
interested in observing the rule changes of sports games and its
impact based on the game-refinement theory. We have chosen Volleyball
as a testbed in this study. It is found that the rule change from the
side-out system with 15 points to rally system with 25 points seems
reasonable to make the game more fascinating, but its value seems
higher than upper limit of comfortable zone of game-refinement
measure.

[11:35 -- 12:00] モンテカルロ法 (1件)
(4) ゲームの不完全情報推定アルゴリズムUPPとそのガイスターへの応用
○三塩 武徳、小谷 善行（東京農工大）
概要：
  人工知能の研究分野の一つである思考ゲーム研究では、近年完全情報ゲーム
において盛んな研究が行われ、中にはめざましい結果を挙げたものも存在する。
その中でもモンテカルロ法は、探索空間の広さと盤面の価値の評価の難しさゆ
えにMin-Max法が有効でないゲームにおいて非常に効果的である。　モンテカ
ルロ法は着手決定に大量のランダムシュミレーションから得られた情報を適用
する方法で、勝率のもっともよかった着手を選ぶ方法であるが、この手法はそ
の性質から不完全情報ゲームにおいても効果を発揮する。不完全情報ゲームの
研究は今日少しずつ行われており、中でも麻雀や大貧民、コンストラクトブリッ
ジなどにおいての研究がおこなわれている。これら不完全情報ゲームの例とし
て二人零和確定不完全ゲーム「ガイスター」というゲームを取り上げる。この
ゲームでは駒が良い駒と悪い駒の二種類存在し、相手の駒がどちらであるのか
が分からなくなっている。　本論文では、過去のシミュレーション結果と現実
に打たれた手から得られた情報を利用して不完全情報である相手の駒の正体を
推定し、あり得そうな世界に対してプレイアウトを多く割り当てるモンテカル
ロの応用手法を提案する。具体的には、現実に打たれた自分の手と相手の手を
確認し、二手前の自分の着手決定に利用されたプレイアウトの結果を参照する。
その中で相手が動かした駒が良い駒であるとした場合と悪い駒であるとした場
合の結果を比較し、相手の勝率が高い方がよりあり得そうな場合であると考え
る。その結果を利用してあり得そうな世界を推定していき、モンテカルロ法の
プレイアウトを行う時にありえそうな世界に対しより多くのプレイアウトを割
り当てるようにする。　本論文では、既存の手法である猪突戦法とモンテカル
ロ法を利用したプレーヤーとの対局実験を行った。

[13:10 -- 14:00] 人工知能・学習 (2件)
(5) プレイヤ行動の模倣に基づくAIキャラクタ行動ルールの自動生成
○張 輝陽、星野 准一（筑波大学）
概要：
  従来のAIの研究は実際の知能を人工的な手段で作成しようとしているものが
多い。人工的な手段とはゲーム開発者があらゆるゲーム場面に対してAIキャラ
クタの行動を予め設定することである。しかし、近年のゲームのコンテンツが
益々豊富になり、一つのゲームにおいて可能なゲーム場面が非常に多く、全部
のゲーム場面に対してAI キャラクタの行動を設定するのはかなり難しい故、
人工的な手段でゲームAIを開発するコストが厖大になりかねない。ゲームAIの
開発コストを削減するため、本稿では自己増殖ニューラルネットワーク
（SOINN）を用いて、ゲームのプレイログを利用したプレイヤ行動の模倣に基
づくAIキャラクタの行動ルールの自動的に生成する手法を提案する。本手法で
はプレイログに記録されているプレイヤの行動を有効な行動と無効な行動に分
けて、無効な行動を除去し、有効な行動だけによって行動ルールを生成するこ
とができる。

(6) 分散計算環境における並列パーセプトロンの将棋評価関数への適用
○浦 晃（東京大学）、三輪 誠（マンチェスター大学）、鶴岡 慶雅、近山 隆（東京大学）
概要：
  将棋の評価関数の学習時間を短縮することができれば、学習パラメータの調
整などに時間をかけることができるため有意義である。そこで、本研究では、
将棋プログラムである激指の評価関数の学習を、分散計算環境で並列化した。
激指の評価関数の学習にはパーセプトロンが用いられている。パーセプトロン
の並列化手法として、ミニバッチを用いる手法が提案されているため、これを
評価関数の学習に適用した。学習の評価には棋譜との一致率を用いた。64台の
計算機を用いた評価では、ある決められた一致率を実現するための時間を短縮
できることを示した。

[14:10 -- 15:25] 将棋 (3件)
(7) コンピュータ将棋における高次元組み合わせ評価のための評価項目自動抽出に関する研究
○後藤 嵩幸、橋本 剛（松江工業高等専門学校）
概要：
  現在のコンピュータ将棋の評価関数は，評価項目として複数駒の位置組み合
わせを用いているものが多い．しかし，項目数は駒組み合わせを増やすと爆発
的に増加する．そのため，参照する組み合わせを王を含む組み合わせに限る等
の工夫を施してもせいぜい３駒以下の組み合わせしか評価できない．そのため，
AIは盤面の細かな違いを認識することができない．この違いは，序盤において
重要であるためAIの序盤のレベルは低い．しかし，現在の駒組み合わせによる
評価項目は非常に無駄が多く，実際に対局中に現れることがない組み合わせま
で保持している．これらのムダな組み合わせを除外することができれば４駒以
上の高次元な組み合わせ評価が実現できる．そこで，本研究では，駒組み合わ
せの出現頻度に着目し重要な評価項目の抽出を行った．まず，出現頻度を調べ
るために対局中に現れる駒組み合わせの出現回数をカウントした．全ての組み
合わせをカウントすることは不可能なため，カウントする組み合わせはランダ
ムに選択した．その結果，ほとんど動くことがない香や桂馬，囲いなど比較的
出現頻度が高いと思われる組み合わせがカウント回数上位となった．このこと
から，ランダムカウントによる出現頻度の高い組み合わせの抽出が可能だとい
うことが分かった．また，抽出した組み合わせを用いて評価関数を設計し，既
存のBonanza評価関数に組み込んだ上で学習を行い，既存の評価関数と対局さ
せることにより性能評価を行った．

(8) コンピュータ将棋の初期の歴史
○清 愼一（株式会社富士通ソーシアルサイエンスラボラトリ）
概要：
  コンピュータ将棋の初期の歴史についての調査結果を報告する．将棋プログ
ラムのはじめては1967年の詰将棋プログラム，対局プログラムのはじめては
1975年であることがわかった．

(9) コンピュータ将棋におけるSVMを用いたMove Orderingの効率化
○野口 拓央、古宮 嘉那子、並木 美太郎、小谷 善行（東京農工大学）
概要：
  本稿では、機械学習手法のSupport Vector Regression (SVR)を用いたコン
ピュータ将棋のMove Ordering (MO)を提案する。 Move Orderingはコンピュー
タ将棋の探索を効率化のため可能手をなるべく良い物を先頭に並べる手法であ
る。このために可能手を1手ごとに探索して評価関数を適用すると時間のかか
る手法である。そこで本稿では可能手から特徴を抽出してSVRで手の優先度を
求めて評価関数を用いずにMOを行い、探索を効率化する手法を提案した。本手
法の精度を確認するためMOをした後にプロが指した手の平均順位を測定し既存
手法に4手ほど及ばなかったが既存手法と近い結果を出した。SVRを評価関数を
用いた探索の代替手段となりうる可能性が示唆された。また、本手法の性能を
確認するために200回対局を行ったところ、99-97-4という結果を得て勝ち越す
ことができた。

[15:35 -- 17:15] 麻雀 (4件)
(10) 麻雀初級者のための，状況に応じた着手モデル選択
○田中 悠、池田 心（北陸先端科学技術大学院大学）
概要：
  麻雀において初心者は往々にして状況を考慮せずに一貫してアガリを目指し，
振り込みが多くなる，最終局面で順位に関係ない上がりをするなどの悪い結果
を招く．このような初心者の教育には，取るべき手を示すのではなく「このよ
うな状況だから」という理由とともに取るべき戦略を示すことが望まれるが，
既存のコンピュータプレイヤは評価部分が人間には理解しづらい，ブラックボッ
クス化しているなどの理由によりこのようなアドバイスを出力するに適さない
場合が多い．そこで本研究では「早く上がる」，「高得点狙い」，「振り込み
回避」といった人間が理解しやすい評価基準を持つ複数のモデルを用いて上級
者のゲームの記録（牌譜）を上級者が選択したと思われる戦略別に分類，これ
を教師として場の状況から取るべき戦略を出力する分類木を作成する．これに
より，取るべき戦略を局面から導出でき，初級者への教育やコンピュータプレ
イヤの作成に貢献する．

(11) 有効牌を数えて牌効率をあげる面前全ツッパ麻雀AIの性能評価
○佐藤 諒（電気通信大学）、西村 夏夫（金融システムソリューションズ株式会社）、
保木 邦仁（電気通信大学） 
概要：
  本研究では、シャンテン数が下がるような牌を有効牌とし、数手先の有効牌
を数え上げることによって牌効率を向上させ、強い麻雀AIを作ることを目的と
した。簡単のためにフーロやオリをしない面前全ツッパに麻雀AIの戦略を制限
した。性能評価は、インターネット雀荘「東風荘」で人間のプレイヤーと対局
させ、レート等のデータを利用して行った。

(12) SVRを用いた麻雀における捨て牌の危険度の推定
○我妻 敦、原田 将旗、森田 一、古宮 嘉那子、小谷 善行（東京農工大学）
概要：
  今までに研究されているコンピュータ麻雀プレイヤーには，相手に直接上が
られないということに関してあまり触れられていないものが多い．そこで本研
究では相手に上がられることを少なくするということを中心に考えた，機械学
習を用いて捨てる牌の危険度を学習する手法について提案する．

(13) 麻雀における手牌と残り牌からの上がり探索による着手決定アルゴリズムCHE
○原田 将旗、古宮 嘉那子、小谷 善行（東京農工大学）
概要：
  麻雀において，引いて捨てるというシミュレーションでは上がりを全て見つ
けられるとは限らない．手牌と残りの牌をあわせたものから上がりを取りだす
ことで，全ての上がりを見つけることができることを利用した手法を提案する．

[17:25 -- 18:15] 大貧民 (2件)
(14) 大貧民における初期手札の不均等性を考慮したレーティングアルゴリズムの提案
○森田 茂彦、松崎 公紀（高知工科大学）
概要：
  チェスや将棋などにおいて，プレイヤの強さを数値として表すレーティング
システムが広く用いられている．レーティングアルゴリズムとして良く知られ
るイロレーティングでは，プレイヤ間のレート差と勝敗によってレートの増減
が計算される．特に，弱いプレイヤが強いプレイヤに勝つと，レートの増分が
大きくなる．本研究では，大貧民を対象としたレーティングアルゴリズムを提
案する．大貧民では，プレイヤの強さに加えて，初期手札の良さが勝敗に大き
く影響する．そのため，初期手札の良し悪しに差がある場合，従来のレーティ
ングアルゴリズムを用いるとレートの増減が過剰であったり不足することが起
こりうる．この問題を解決するため，初期手札の不均等性を考慮に入れたレー
ティングアルゴリズムを提案し，そのアルゴリズムについて評価を行う．

(15) 大貧民における棋譜データからの提出手役評価関数の学習
○地曳 隆将、松崎 公紀（高知工科大学）
概要：
  棋譜を教師データとした評価関数の学習は，特にコンピュータ将棋において
有効とされている．本研究では，コンピュータ大貧民を対象として，棋譜を教
師データとした提出手役評価関数の学習を行いその性能を評価した．提出手役
評価関数には3層ニューラルネットワークを用いた．提出手役評価関数の性能
を評価するため，棋譜で提出した手役との一致率を調査した．その結果，学習
に使用する教師データを増やすことで一致率が上昇したが，教師データ数
15000程度で一致率が頭打ちになることが確認された．教師データ数15000の棋
譜評価関数では，未知の盤面に対する提出手役一致率が69%であった．