LÝ THUYẾT TRÒ CHƠI LÀ GÌ

 - 

Lý thuyết Trò chơi (Game Theory) là một nhánh của Toán học ứng dụng. Mặc dù có nhiều vai trò quan trọng trong việc lý giải các hiện tượng tự nhiên và xã hội, thế nhưng học thuyết này cũng rất khó tiếp cận, đồng thời nó cũng là nền tảng cho sự phát triển của tiền điện tử và đưa Bitcoin đi lên trong hơn một thập kỷ. Trong bài viết này chúng ta hãy cùng tìm hiểu về Lý thuyết Trò chơi là gì nhé.

Bạn đang xem: Lý thuyết trò chơi là gì


Lý thuyết trò chơi là gì?

Lý thuyết trò chơi là lĩnh vực nghiên cứu về việc ra quyết định hợp lý được thực hiện bởi người chơi trong một hệ thống (trò chơi, kịch bản,…) trong đó các tham số đã được xác định. Nó nghiên cứu các tình huống chiến thuật trong đó các đấu thủ lựa chọn các hành động khác nhau để cố gắng làm tối đa kết quả nhận được.

Ban đầu lý thuyết trò chơi phát triển như là một công cụ để nghiên cứu hành vi kinh tế học, tuy nhiên ngày nay nó đã được sử dụng trong nhiều ngành khoa học, từ Sinh học tới Triết học, tâm lý học, logic, khoa học máy tính,…Lý thuyết trò chơi có thể được coi là một mô hình thu nhỏ của hành vi con người trong các tình huống được đặt ra trong đó các cấu trúc và cơ chế khuyến khích nhất định có thể dẫn đến hành vi trung thực và có thể dự đoán được của người chơi.

Một mô hình lý thuyết trò chơi có ít nhất 3 thành phần:

Người chơi: Những người đóng vai trò đưa ra quyết định. Ví dụ. Các nhà quản lý trong các công ty, các thành viên của xã hội, những nút trong mạng lưới blockchain,…Chiến lược: Tập các quyết định mà người chơi có thể lựa chọn. Chiến lược là sự điều chỉnh hành vi mà người chơi thực hiện đồng thời tính đến các chiến lược tiềm năng của những người chơi khác. Chẳng hạn như tăng hoặc giảm giá, tuân thủ giao thức trong mạng hay lách luật hoặc tệ hơn là phá bỏ nó để gian lận…Kết quả: Kết quả khi thực hiện các chiến lược kết hợp với sự tương tác với những người chơi khác trong hệ thống. Với một cơ chế khuyến khích phù hợp, có thể khuyến khích một số hành vi diễn ra lặp đi lặp lại với kết quả tương tự. Chẳng hạn như phạt tiền sẽ khuyến khích các lái xe tuân thủ luật giao thông, thưởng các thợ mỏ một lượng Bitcoin nhất định khuyến khích họ duy trì mạng lưới và tuân thủ các giao thức thay vì phá hoại chúng.

Song đề tù nhân

Song đề tù nhân hay Thế tiến thoái lưỡng nan của người tù (Prisoner’s Dilemma) là một trò chơi có tổng không bằng không trong lý thuyết trò chơi. Chúng ta phát biểu song đề này một cách đơn giản như sau:

B không khaiB thú tội
A không khaiCả hai được thảA được tự do. B bị chung thân.
A thú tộiB được tự do. A bị chung thân.Cả hai bị 10 năm tù.

*

Giả sử A và B bị bắt gặp ăn cắp một cửa hàng tạp hóa và trong quá trình điều tra, người ta đã phát hiện ra rằng cả hai đã phạm tội nghiêm trọng hơn nhiều trong quá khứ. Cảnh sát nghi ngờ cả hai người này đều dính líu đến một vụ cướp ngân hàng. Trong quá trình điều tra, cảnh sát thẩm vấn từng người một và đưa ra một số đề xuất như nhau cho cả hai:

Đề xuất thứ nhất: Nếu cả hai im lặng và không khai ra người còn lại thì cả hai sẽ cùng phải ngồi tù 2 năm do tội ăn cắp.Đề xuất thứ hai: Nếu một trong hai người khai ra người kia và người kia im lặng, thì người chịu khai ra sẽ được miễn án phạt và được thả tự do, trong khi người kia sẽ nhận án 8 năm tù.Đề xuất thứ ba: Nếu cả hai đều khai ra nhau thì mỗi người đều sẽ nhận 4 năm tù.

Trong trường hợp này, mỗi tù nhân có hai lựa chọn: hợp tác với kẻ còn lại và giữ im lặng, hay phản bội và khai ra kẻ còn lại. Kết quả của mỗi lựa chọn đều tuỳ thuộc vào lựa chọn của người kia. Tuy nhiên, không người nào biết được lựa chọn của người kia. Nếu họ có thể nói chuyện với nhau, họ cũng chưa chắc là tin tưởng nhau được. Từ đó ta xây dựng được ma trận thưởng phạt như sau:

*

Giả sử rằng cả hai tù nhân đều ích kỷ và đều muốn làm giảm tối thiểu thời gian tù tội của mình. Nếu người này tin rằng người kia sẽ giữ im lặng, lựa chọn tối ưu của hắn là đổ tội, vì thế hắn sẽ được thả tự do ngay trong khi người kia sẽ bị nằm tù 8 năm. Ngược lại, nếu hắn tin rằng người kia sẽ khai ra mình, thì lựa chọn tối ưu mà hắn có thể thực hiện lúc này cũng là đổ tội và khai ra tên còn lại, vì nếu phản bội thì hắn sẽ bị tù chỉ 4 năm thay vì 8 năm nếu giữ im lặng. Mặc dù, nếu cả hai hợp tác với nhau và giữ im lặng, cả hai sẽ được thả tự do trong vòng 2 năm.

Tuy nhiên đây không phải là lựa chọn tối ưu trong một môi trường thiếu tin tưởng, bởi một trong hai người không hề biết gì về phía còn lại. Do đó, lựa chọn ổn định, tối ưu nhất cho cả hai trong trường hợp này là nên đổ tội và khai ra nhau. Khi đó, dù lựa chọn của người kia là như thế nào, thì anh ta cũng chỉ còn phải nhận một án tù ngắn hơn nhiều. Dù cho kết quả này khiến cả hai đều bị ngồi tù lâu hơn là cùng giữ im lặng.

Xét quan điểm tối ưu cho cả hai người, thì kết quả tốt nhất sẽ là hai người đều hợp tác với nhau, khi đó thời gian ở tù tổng cộng của cả hai người chỉ là 4 năm. Bất cứ lựa chọn nào khác cũng sẽ dẫn đến thời gian tù tội của hai người dài hơn. Tuy nhiên vì mỗi người đều theo đuổi quyền lợi ích kỷ của mình, do đó cả hai đều bị lãnh án dài hơn. Mỗi người đều muốn giành thuận lợi cho mình, bất chấp tình trạng của người kia do đó, kết quả của trò chơi này không tối ưu cho cả hai. Mỗi người đều có động cơ để đào ngũ. Vì thế trò này mới được gọi là song đề.

Tuy vậy, điều này đưa chúng ta đến một vấn đề.

Điều gì xảy ra nếu có một kịch bản mà giải pháp tối ưu cho cả hai người chơi nhưng lại có tác động xấu đối với xã hội?

Giả sử A và B đang lên kế hoạch cho một vụ gian lận để tấn công tiền điện tử với ma trận thưởng phạt trong trường hợp này như sau:

*

Như bạn có thể thấy, trong kịch bản giả thuyết này, chiến lược tốt nhất và tối ưu nhất xảy ra khi cả A và B đều gian lận để thực hiện vụ tấn công. Mặc dù điều này có thể tốt cho cả hai, nhưng nó không phải là một điều tốt cho xã hội nói chung. Sở dĩ có điều này bởi trò chơi mà họ đang chơi là trò chơi luôn thắng, và không bị trừng phạt khi bị thua.

Xem thêm: Tác Dụng Của Collagen Type 1 2 3 Là Gì ? Công Dụng Của Từng Loại Collagen

Bởi vậy, để hạn chế sự gian lận, đây là lúc chúng ta đưa ra các ý tưởng trừng phạt các vụ gian lận.

Trong ví dụ trên, giả sử chúng ta đưa ra một chiến lược trừng phạt như sau:

Sau mỗi -0,5 đơn vị lợi ích của công chúng bị thiệt hại, thì kẻ gian lận sẽ bị trừng phạt là -6 đơn vị lợi ích.

Nói cách khác, mọi hành động được coi là xấu đối với xã hội sẽ bị trừng phạt nghiêm khắc. Khi kẻ bị buộc tội gây ra thiệt hại -0.5 đơn vị lợi ích cho xã hội (về tiền bạc, thời gian,…) sẽ phải chịu trừng phạt gấp nhiều lần thiệt hại gây ra (-6 đơn vị lợi ích).

Khi thêm vào yếu tố trừng phạt cho các hoạt động xấu, ma trận thưởng phạt sẽ có dạng như sau:

*

Bằng cách thêm yếu tố trừng phạt, cân bằng Nash đã thay đổi từ chiến lược có thể có hại cho xã hội sang một chiến lược tốt cho xã hội. Thay vì thực hiện việc gian lận mà không bị trừng phạt những kẻ tội phạm giờ đây phải đối mặt với những hậu quả nghiêm trọng hơn. Và đây trở thành động cơ để anh ta tuân thủ đúng các giao thức xã hội.

Song đề tù nhân có nhiều biến thể, nhưng câu chuyện đơn giản này minh họa ý tưởng sử dụng các mô hình lý thuyết trò chơi để nghiên cứu hành vi của con người và các kết quả có thể có dựa trên quá trình ra quyết định hợp lý của con người.

Lý thuyết trò chơi và tiền điện tử

Khi áp dụng cho tiền điện tử, các mô hình lý thuyết trò chơi đóng một vai trò quan trọng khi thiết kế một hệ thống kinh tế an toàn và không có ủy thác, chẳng hạn như Bitcoin. Việc tạo ra Bitcoin như là một hệ thống Chịu lỗi Byzantine (BFT) là kết quả của sự kết hợp hài hòa giữa mật mã học và lý thuyết trò chơi.

Việc sử dụng lý thuyết trò chơi trong bối cảnh tiền điện tử đã khai sinh ra khái niệm về Kinh tế học Mã hóa. Về cơ bản, nó là nghiên cứu về kinh tế học của các giao thức blockchain và những hệ quả tiềm tàng mà thiết kế của các giao thức này có thể mang đến – như là một kết quả của các hành vi của thành phần tham gia. Nó cũng xem xét hành vi của “các tác nhân bên ngoài” mà không thực sự là một phần của hệ sinh thái nhưng có thể tham gia vào mạng lưới chỉ nhằm mục đích gây phá vỡ từ bên trong.

Nói cách khác, Kinh tế học Mã hóa nghiên cứu hành vi của các nút mạng dựa trên các khích lệ được giao thức cung cấp, xét các quyết định hợp lý nhất và có thể xảy ra nhất.

Vì blockchain Bitcoin được thiết kế như một hệ thống phân tán, nhiều nút được phân tán ở các vị trí khác nhau, nên việc xác thực các giao dịch và các khối cần phải dựa vào sự đồng thuận của các nút này. Tuy nhiên, các nút này không thực sự có thể tin tưởng lẫn nhau. Vậy làm thế nào một hệ thống như vậy có thể tránh được hoạt động độc hại? Làm thế nào một blockchain có thể ngăn việc bị phá vỡ bởi các nút không trung thực?

Một trong những tính năng quan trọng nhất của mạng Bitcoin giúp bảo vệ nó khỏi hoạt động độc hại là thuật toán đồng thuận Proof of Work. Thuật toán này áp dụng các kỹ thuật mã hóa làm cho quá trình đào trở nên rất tốn kém và phức tạp, tạo ra một môi trường đào có tính cạnh tranh cao. Do đó, kiến trúc của các đồng tiền điện tử dựa trên PoW khuyến khích các nút đào hoạt động trung thực (các nút sẽ không mạo hiểm để mất các nguồn lực đã được đầu tư). Ngược lại, bất kỳ hoạt động độc hại nào đều không được khuyến khích và nhanh chóng bị trừng phạt. Các nút đào có hành vi không trung thực sẽ có thể mất rất nhiều tiền và sẽ bị loại ra khỏi mạng. Do đó, quyết định hợp lý nhất và có thể xảy ra nhất từ thợ mỏ là hành động một cách trung thực và giữ an toàn cho blockchain.

Kết luận

Ứng dụng chung của lý thuyết trò chơi là mô hình hóa và kiểm tra cách con người hành xử và ra quyết định dựa trên sự suy xét hợp lý. Do đó, các mô hình lý thuyết trò chơi phải luôn được xem xét khi thiết kế các hệ thống phân tán, chẳng hạn như các hệ thống tiền điện tử.

Nhờ sự kết hợp cân bằng giữa mật mã học và lý thuyết trò chơi, thuật toán đồng thuận Proof of Work đã có thể tạo ra blockchain Bitcoin như một hệ thống kinh tế phi tập trung, có khả năng cao chống lại các cuộc tấn công. Điều này cũng đúng với các đồng tiền điện tử khác, và các khái niệm về lý thuyết trò chơi cũng áp dụng cho các blockchain dựa trên PoS. Sự khác biệt chính ở đây là cách một blockchain Proof of Stake xử lý các giao dịch và tiến hành xác nhận các khối.

Xem thêm: Lách Luật Tiếng Anh Là Gì - Lách Luật Trong Tiếng Tiếng Anh

Tuy nhiên, hãy nhớ rằng mức độ bảo mật và khả năng phục hồi của blockchain phụ thuộc vào giao thức của nó và liên quan trực tiếp đến số lượng người tham gia vào mạng. Các mạng phân tán lớn đáng tin cậy hơn các mạng nhỏ.