運用賭徒的智慧|為你介紹多臂老虎機打開新知識的大門

09 14, 2023
老虎機攻略

多臂老虎機是一個有多個拉桿的賭博機,每一個拉桿的中獎機率是不一樣的,問題是如何在有限次數內,選擇拉不同的拉桿,獲得最多的收益。假設老虎機有 3 個拉桿,最笨的方法就是每個拉桿都試幾次,找到中獎概率最大的那個拉桿,然後把之後有限的遊戲機會都用在這個拉桿上。

多臂老虎機介紹

多臂老虎機是一種賭場常見的機器,玩家將硬幣投入後拉下拉桿,接著會隨機出現不同圖案,如果停止時出現符合相同或特定相同圖案連線,則可以根據賠率得到特定的報酬 (reward) 。再簡化一點,吃角子老虎機的運作方式其實就是「玩家拉下拉桿,將會得到一個具有隨機性的報酬」。

運用賭徒的智慧操作老虎機
賺錢 - 貪婪方法

具體操作就是,每次玩多臂老虎機的時候就抽一個 0 到 1 的隨機數,如果這個數大於 ε,則玩你認為中獎概率最大的那個拉桿(預估中獎概率)。如果小於 ε 則隨機再選擇一個拉桿,同時更新這個拉桿的預估中獎概率,以便於下次選擇做參考。

情境 - 預估回報方法

首先, 將多臂老虎機每個拉桿設置一個比較高的預估中獎概率(比如都是100%),然後每拉一次選中的拉桿, 這個拉桿的的預估概率就會改變。我第一次選擇拉第一個拉桿,發現沒有中獎,那這個拉桿的預估中獎概率就從 100% 變成了 50% 了。下一次選擇拉桿的時候,第一個拉桿的預估概率就不是最高了,我們就去找這個時候預估概率最高的拉桿來拉,每拉一次更新一下這個拉桿的預估中獎概率。

探索 - 突破困境

每個老虎機拉桿試 1000 次顯然比試 10 次所獲得的中獎概率更加準確。比如你試了 10 次,其中那個本來中獎概率不高的拉桿,有可能因為你運氣好,會給你一個高概率中獎的假象。

在有限次數下,如果堅持在你認為中獎概率高的拉桿上投入更多的次數呢,還是去試試別的拉桿呢?如何分配次數和拉桿的次數的問題,就是著名的探索 - 利用困境。

何謂多臂老虎機測試

多臂老虎機,指的則是很多台吃角子老虎機給玩家選擇,每一台機器可以得到的期望報酬皆不一樣。站在玩家的立場,目標應該是透過機器的選擇,在遊戲中獲得最大「期望報酬」。

現在有一種測試方法叫做「多臂老虎機測試」,可做為 A / B 測試的替代方案。

請想像一下,您置身在一座滿是多臂老虎機的大賭場,裡面有很多台不同的機台 。因為每一台老虎機,都有一個下拉的槓桿,讓您在投幣下注後可以拉動。而您認為,某些特定機台出現連線的頻率,要比其他 老虎機 來得高,在時間有限的情況下,如何讓自己快速地滿載而歸。

其實這是一個經典的思考實驗。因為每個人只有兩隻手臂。一次最多只能拉兩台機器,答案就是把自己變成一隻八爪章魚,因為唯有在最短時間內,儘量去拉動不同機台,並且發現哪個機台的勝率較高,接著就將更多的錢投到該機台上。

多臂老虎機問題點

有一個賭徒承認有一個多臂老虎機,從一開始,他就真的不知道每個老虎機的真實情況,他怎麼知道真實情況。結果來選擇下一頭的結果或者是否停止賭注,來釋放自己的從結果到的結果。

關於多台老虎機因為多臂老虎機在以前是有名的問題,這是一條土匪的干貨結果,而玩老虎機的來源就像是一條帶子,就像是被掏空,就像遇到了一樣。而在多臂老虎機問題中,我們面對多臂老虎機,原理其實很簡單,我們有一隻 k 臂的吃角子老虎機 ,每支吐幣的機率不同,而我們不知道這個機率如何分布,我們如何在有限回合取得較大的報酬?

最簡單的想法是隨機拉臂

再來就是透過有限的測試,找到報酬最大的那支臂,狂拉。

聽起來我們可以結合上述兩種策略,一面探索未知的報酬,一面著力在現有最大報酬的那支臂。

試玩最新老虎機