Cảm ứng ngược là gì?
Cảm ứng ngược trong lý thuyết trò chơi là một quá trình lặp đi lặp lại của lý luận ngược thời gian, từ khi kết thúc một vấn đề hoặc tình huống, để giải quyết các hình thức hữu hạn và các trò chơi tuần tự, và suy ra một chuỗi các hành động tối ưu.
Giải thích ngược
Cảm ứng ngược đã được sử dụng để giải quyết các trò chơi kể từ khi John von Neumann và Oskar Morgenstern thiết lập lý thuyết trò chơi như một chủ đề học thuật khi họ xuất bản cuốn sách của họ, Lý thuyết về trò chơi và hành vi kinh tế vào năm 1944.
Ở mỗi giai đoạn của trò chơi, cảm ứng lùi quyết định chiến lược tối ưu của người chơi thực hiện bước cuối cùng trong trò chơi. Sau đó, hành động tối ưu của người chơi di chuyển tiếp theo được xác định, thực hiện hành động của người chơi cuối cùng như đã đưa ra. Quá trình này tiếp tục lạc hậu cho đến khi hành động tốt nhất cho mọi thời điểm đã được xác định. Thực tế, người ta đang xác định trạng thái cân bằng Nash của mỗi subgame của trò chơi gốc.
Tuy nhiên, kết quả suy ra từ cảm ứng ngược thường không dự đoán được lối chơi thực tế của con người. Các nghiên cứu thực nghiệm đã chỉ ra rằng hành vi của người Bỉ hợp lý (theo dự đoán của lý thuyết trò chơi) hiếm khi được thể hiện trong cuộc sống thực. Người chơi vô lý thực sự có thể cuối cùng nhận được số tiền thưởng cao hơn dự đoán bởi cảm ứng ngược, như được minh họa trong trò chơi con rết.
Trong trò chơi con rết, hai người chơi thay phiên nhau có cơ hội nhận phần lớn hơn của một số tiền đang tăng hoặc để chuyển tiền cho người chơi khác. Tiền thưởng được sắp xếp sao cho nếu cái bình được chuyển cho đối thủ và đối thủ lấy cái bình ở vòng tiếp theo, người ta sẽ nhận được ít hơn một chút so với người đã lấy cái bình ở vòng này. Trò chơi kết thúc ngay khi một người chơi cất giấu, với người chơi đó nhận phần lớn hơn và người chơi khác nhận phần nhỏ hơn.
Ví dụ về cảm ứng ngược
Ví dụ, giả sử Người chơi A đi trước và phải quyết định xem anh ta có nên đưa ra hay hay không, vượt qua Stash, số tiền hiện tại lên tới 2 đô la. Nếu anh ta lấy, thì A và B nhận được 1 đô la mỗi cái, nhưng nếu A vượt qua, quyết định lấy hoặc vượt qua bây giờ phải được đưa ra bởi Người chơi B. Nếu B lấy, cô ấy nhận được 3 đô la (tức là, số tiền trước đó là $ 2 + $ 1) và A được $ 0. Nhưng nếu B vượt qua, giờ A sẽ quyết định lấy hay vượt, và cứ thế. Nếu cả hai người chơi luôn chọn vượt qua, mỗi người sẽ nhận được số tiền thưởng là 100 đô la vào cuối trò chơi.
Điểm hay của trò chơi là nếu cả A và B hợp tác và tiếp tục vượt qua cho đến khi kết thúc trò chơi, họ sẽ nhận được khoản thanh toán tối đa 100 đô la mỗi trò chơi. Nhưng nếu họ không tin tưởng vào người chơi khác và mong họ sẽ nhận được cơ hội đầu tiên, thì trạng thái cân bằng Nash dự đoán người chơi sẽ đưa ra yêu cầu thấp nhất có thể ($ 1 trong trường hợp này).
Điểm cân bằng Nash của trò chơi này, trong đó không có người chơi nào có động cơ đi chệch khỏi chiến lược đã chọn của mình sau khi xem xét lựa chọn của đối thủ, cho thấy người chơi đầu tiên sẽ tham gia vào vòng đầu tiên của trò chơi. Tuy nhiên, trong thực tế, tương đối ít người chơi làm như vậy. Kết quả là, họ nhận được mức chi trả cao hơn mức chi trả được dự đoán bởi phân tích cân bằng.
Giải các trò chơi tuần tự bằng cách sử dụng quy nạp ngược
Dưới đây là một trò chơi tuần tự đơn giản giữa hai người chơi. Các nhãn có Người chơi 1 và Người chơi 2 bên trong chúng là các bộ thông tin cho người chơi một hoặc hai, tương ứng. Các số trong ngoặc đơn ở dưới cùng của cây là số tiền chi trả tại mỗi điểm tương ứng. Trò chơi cũng có tính tuần tự, do đó Người chơi 1 đưa ra quyết định đầu tiên (trái hoặc phải) và Người chơi 2 đưa ra quyết định sau Người chơi 1 (lên hoặc xuống).
Hình 1
Cảm ứng ngược, giống như tất cả các lý thuyết trò chơi, sử dụng các giả định về tính hợp lý và tối đa hóa, có nghĩa là Người chơi 2 sẽ tối đa hóa khoản thanh toán của mình trong bất kỳ tình huống nào. Tại một trong hai thông tin, chúng tôi có hai lựa chọn, bốn trong tất cả. Bằng cách loại bỏ các lựa chọn mà Người chơi 2 sẽ không chọn, chúng tôi có thể thu hẹp cây của chúng tôi. Bằng cách này, chúng tôi sẽ in đậm các dòng tối đa hóa mức chi trả của người chơi tại bộ thông tin đã cho.
Hình 2
Sau lần giảm này, Người chơi 1 có thể tối đa hóa số tiền chi trả của mình ngay bây giờ khi lựa chọn của Người chơi 2 được biết đến. Kết quả là một trạng thái cân bằng được tìm thấy bởi cảm ứng ngược của Người chơi 1 chọn "đúng" và Người chơi 2 chọn "lên". Dưới đây là giải pháp cho trò chơi với đường dẫn cân bằng được in đậm.
Hình 3
Ví dụ, người ta có thể dễ dàng thiết lập một trò chơi tương tự như trò chơi ở trên bằng cách sử dụng các công ty làm người chơi. Trò chơi này có thể bao gồm các kịch bản phát hành sản phẩm. Nếu Công ty 1 muốn phát hành một sản phẩm, Công ty 2 có thể làm gì để đáp lại? Công ty 2 sẽ phát hành một sản phẩm cạnh tranh tương tự? Bằng cách dự báo doanh số của sản phẩm mới này trong các tình huống khác nhau, chúng tôi có thể thiết lập một trò chơi để dự đoán các sự kiện có thể diễn ra như thế nào. Dưới đây là một ví dụ về cách người ta có thể mô hình hóa một trò chơi như vậy.
hinh 4
