運用賭徒的智慧 | 為你介紹 多臂老虎機 打開新知識的大門

多臂老虎機 是一個有多個拉桿的賭博機,每一個拉桿的中獎機率是不一樣的,問題是如何在有限次數內,選擇拉不同的拉桿,獲得最多的收益。假設這個老虎機有3個拉桿,最笨的方法就是每個拉桿都試幾次,找到中獎概率最大的那個拉桿,然後把之後有限的遊戲機會都用在這個拉桿上。

多臂老虎機 新世界大門 - 運用賭徒的智慧 | 為你介紹 多臂老虎機 打開新知識的大門

多臂老虎機介紹

多臂老虎機 是一種賭場常見的機器,玩家將硬幣投入後拉下拉桿,接著會隨機出現不同圖案,如果停止時出現符合相同或特定相同圖案連線,則可以根據賠率得到特定的報酬 (reward) 。再簡化一點,吃角子老虎機的運作方式其實就是「玩家拉下拉桿,將會得到一個具有隨機性的報酬」。

運用賭徒的智慧操作 多臂老虎機

多臂老虎機 賺錢-貪婪方法

具體操作就是,每次玩 多臂老虎機 的時候就抽一個0到1的隨機數,如果這個數大於ε,則玩你認為中獎概率最大的那個拉桿(預估中獎概率)。如果小於ε則隨機再選擇一個拉桿,同時更新這個拉桿的預估中獎概率,以便於下次選擇做參考。

多臂老虎機 情境-預估回報方法

首先, 將 多臂老虎機 每個拉桿設置一個比較高的預估中獎概率(比如都是100%),然後每拉一次選中的拉桿, 這個拉桿的的預估概率就會改變。我第一次選擇拉第一個拉桿,發現沒有中獎,那這個拉桿的預估中獎概率就從100%變成了50%了。下一次選擇拉桿的時候,第一個拉桿的預估概率就不是最高了,我們就去找這個時候預估概率最高的拉桿來拉,每拉一次更新一下這個拉桿的預估中獎概率。

多臂老虎機 探索-突破困境

每個 多臂老虎機 拉桿試1000次顯然比試10次所獲得的中獎概率更加準確。比如你試了10次,其中那個本來中獎概率不高的拉桿,有可能因為你運氣好,會給你一個高概率中獎的假象。

多臂老虎機 有限次數下,如果堅持在你認為中獎概率高的拉桿上投入更多的次數呢,還是去試試別的拉桿呢?如何分配次數和拉桿的次數的問題,就是著名的探索-利用困境。

何謂多臂老虎機測試

多臂老虎機 ,指的則是很多台吃角子 老虎機 給玩家選擇,每一台機器可以得到的期望報酬皆不一樣。站在玩家的立場,目標應該是透過機器的選擇,在遊戲中獲得最大「期望報酬」。

現在有一種測試方法叫做「 多臂老虎機 測試」,可做為A/B測試的替代方案。

請想像一下,您置身在一座滿是 多臂老虎機 的大賭場,裡面有很多台不同的吃角子 老虎機 。因為每一台 老虎機 ,都有一個下拉的槓桿,讓您在投幣下注後可以拉動。而您認為,某些特定機台出現連線的頻率,要比其他老虎機來得高,在時間有限的情況下,如何讓自己快速地滿載而歸。

其實這是一個經典的思考實驗。因為每個人只有兩隻手臂。一次最多

只能拉兩台機器,答案就是把自己變成一隻八爪章魚,因為唯有在最短時間內,儘量去拉動不同機台,並且發現哪個機台的勝率較高,接著就將更多的錢投到該機台上

多臂老虎機問題點

有一個賭徒承認有一個 多臂老虎機 ,從一開始,他就真的不知道每個 多臂老虎機 的真實情況,他怎麼知道 老虎機 的真實情況。結果來選擇下一頭的結果或者是否停止賭注,來釋放自己的從結果到的結果。

關於多台 老虎機 因為 多臂老虎機 在以前是有名的問題,這是一條土匪的干貨結果,而玩 老虎機 的來源就像是一條帶子,就像是 老虎機 被掏空,就像遇到了一樣。 ,而在多臂老虎機問題中,我們面對 多臂老虎機 ,原理其實很簡單,我們有一隻 k 臂的吃角子 老虎機 ,每支吐幣的機率不同,而我們不知道這個機率如何分布,我們如何在有限回合取得較大的報酬?

最簡單的想法是隨機拉臂

再來就是透過有限的測試,找到報酬最大的那支臂,狂拉

聽起來我們可以結合上述兩種策略,一面探索未知的報酬,一面著力在現有最大報酬的那支臂

喜歡我們的文章
或是想查看更多 老虎機 資訊
歡迎下面點選觀看

發佈留言