Звичайний, «однорукий бандит» - це ігровий автомат, який може працювати як в офлайн так і в онлайн форматі. Ви тягнете його важіль (руку), і він повільно забирає у вас всі ваші гроші. Гра з одноруким бандитом не дуже цікава: ви просто сидите і смикаєте за важіль, знову і знову. Air Паріматч автомати в Україні має не тільки одноруких бандитів. Тут можна знайти саме той тип гри, який цікавить вас.
Сценарій з двома озброєними бандитами значно цікавіше: ви знаходитеся в кімнаті з двома ігровими автоматами, про яку нічого не знаєте. В найпростіших версіях ви знаєте, що розподіл виплат з певною машини кожен раз однаковий - секретний джекпот не створюється або щось в цьому роді. Вам дозволено грати фіксовану кількість разів, так що ваш вибір кожен хід в основному зводиться до того, який з двох важелів тягнути. Навчаючись по ходу справи, постарайтеся знайти стратегію, яка принесе вам найбільший прибуток до кінця. В бандитській грі з n-озброєнням у вас є більше ігрових автоматів на вибір.
Зверніть увагу, що багато різних проблеми можуть бути змодельовані як проблема багаторукого бандита. Типовий приклад: вам потрібно вибрати, яке оголошення показувати на вашому сайті, і вам платять за кожного користувача, який натискає на оголошення. Ви не знаєте, які оголошення будуть найбільш популярними, і хочете максимально збільшити очікуваний дохід. Тут кожне можливе оголошення - це рука бандита, а розподіл ймовірностей визначається тим, скільки людей натискають на кожне з оголошень.
Одна з ключових проблем - це баланс між розвідкою (випробування зброї, де наша модель все ще дуже невизначена) і експлуатацією (випробування зброї, яке ми вважаємо найкращим у відповідності з нашою поточною моделлю).
Одна з кращих стратегій відома як алгоритм UCB. При цьому використовується розумна комбінація середнього значення кожної руки плюс деякий коефіцієнт, помножений на стандартне відхилення для цієї руки. Коефіцієнт повільно збільшується з плином часу з певною швидкістю. Це гарантує, що кожна рука буде обрана «досить» раз, і в той же час буде використовуватися поточна «найкраща» рука. Це дуже розумна стратегія, і багато стратегії були засновані на цьому.
В кінцевому рахунку, гра являє собою не що інше, як математичну модель стану людини: ми потрапляємо в цей світ, стикаючись з безліччю варіантів, які ніколи не зможемо повністю зрозуміти, і ми повинні робити все можливе, навчаючись по ходу справи.
Отже, не дивно, що ми не досягли такого великого прогресу в цьому питанні.