摘 要:针对对等网用户缺乏资源共享动机和不合作问题,提炼出用户在参与对等网时的“有限理性”和“间接互惠”特征,提出使用进化博弈的理论进行建模,建立模仿者动态进化博弈模型,提出了实施激励机制的可能途径。
关键词:进化博弈;对等网;激励
0. 引言
07年9月24日举办的“中国互联网大会”报告[1]指出:中国互联网的网络流量分为IM、HTTP、P2P三种,其中P2P总体流量超过一半,其流量在白天占总流量的35%~60%,而晚上则高达50%~90%。由此可见,对等网技术存在着广阔的应用前景。
经过几年的发展,针对对等网拓扑和资源发现机制的研究取得了长足进步,但是,对等网技术无论是在应用上还是在技术上都处于摸索阶段,健康有序的对等网使用秩序、合理的拓扑构造、有效的资源定位、资源的合理配置、激励机制、节点的隐私保护和安全等等问题还都有待解决。本文将从进化博弈论视角着重讨论对等网的激励机制问题。
1. 对等网概述
对等网(Peer-to-Peer Networks,简称P2P),是指采用非集中控制的方式使用网络中分布的资源来完成一定功能的系统或应用,是构建在现有网络协议基础之上的一层覆盖网络[2]。每台参与对等网的计算机称为一个节点,在对等网中节点遵守共同的协议、地位均等,每个节点自愿共享自己的软硬件、带宽及其他资源,没有中心控制节点,节点间信息的传输和服务的实现都是由这些地位相同的节点相互协作来完成。
对等网是自组织的网络,其一切资源来源于参与节点的自愿供给,每个节点都希望尽可能多的使用对等网资源,同时减少对自身系统性能带来的影响,即不共享自己的资源。这种现象在博弈论中称为“公共资源私人供给”和“公共地的悲剧”问题[3]。因此,设计有一效的激励机制促进节点之间的合作具有非常重要的意义。
2. 博弈论研究视角
2.1 激励机制
现有的激励机制大致可分为集中式激励、强制激励和分布式激励三种:
集中式激励将激励信息(如节点对网络的贡献)放置在少数可信节点上,用户间的交易必须通过这少数节点,权威节点作为监视者维护网络的公平性[4]。
强制激励假设应用的软件系统(包括代码和数据)是可靠的和不可逆的[5],代码的完整性保证了协议的完整性。在这种假设下,激励机制通常将用户的“贡献”信息放置于节点本身,节点交易中,代码和数据的诚实性保证了激励机制进行奖励或惩罚的有效性。
最新的研究往往采用博弈论的方法,提出分布算法机制设计(Distributed Algorithm Mechanism Design,DAMA)[6]的思想。DAMD的实质是将节点的理性、节点间的博弈以及计算的复杂性统一考虑,以期在各种具体激励问题中找到一种对付节点消极倾向的有效制约手段,保证分布式环境的良性发展。
现有的激励机制不考虑网络拓扑的优化,事实上,拓扑优化可以使得表现良好的节点更有效地使用网络,从而达到网络真正的公平性。
2.2经典博弈论
经典博弈论的基本假设认为参与人具备完全理性,并从信念、偏好及理性三个方面界定参与人主体的特征[7]:
(1)信念是个体认为不同结果将会出现的基于个体所获信息之上的条件概率,认为参与者对所处环境的知识即使不是绝对完备,至少也相当丰富和透彻;
(2)偏好则是基于不同结果的理念之上的序,认为参与者具有一个很有条理的、稳定的偏好体系,即能够用数学公式表示的效用函数;
(3)理性是根据上述偏好及信念,个体获得最优决策的程度以及个体根据已经获得的信息来修正信念的能力。认为参与个体拥有很强的计算能力,能计算出在他们的备选行动方案中,哪个可以达到效用函数的最大化。
从博弈论的角度看,对等网每个个体都努力改善自身的网络使用效用,当全体系统成员各自追求的效用相互协调时,系统才可良性发展。然而,在面临资源稀缺的条件时,追求网络效用最大化的个体之间发生了冲突,理性个体为竞争稀缺资源,倾向于将其它理性个体当作改善自身网络效用的手段,这样,资源的稀缺性导致资源配置博弈。作为博弈参与者,理性个体倾向于陷入“囚徒困境”,这就意味着系统的“非理性”,并最终导致系统瓦解。在实际应用中,对等网仍能够快速发展,并渗透到社会生活的各个方面,经典博弈论对此难以给出合理的解释。
2.3 进化博弈论
西蒙[8]认为,人们实际决策过程中寻找的往往并非“最大”或“最优”解,而是“满意”解,提出以有限理性人代替完全理性人。有限理性首先意味着博弈方不能或不会采用完全理性条件下的最优策略,博弈方之间的策略均衡往往是学习调整的结果,而不是一次性选择的结果,而且即使达到了均衡也可能再次偏离。
进化博弈论从有限理性行为理论出发,并利用该理论的均衡概念——进化稳定均衡来预测参与人的群体行为,而不关心导致这个群体动态的具体个体的行为。认为参与人只能知道系统状态的一部分,参与人不可能知道各种状态出现的客观概率及不同状态对自己支付的意义;在多数情况下参与人并不能对环境的任何变化都做出最优反应,其决策是基于某种“常规”而非理性的计算结果。
另外,对等网系统本身就是一个依靠交互合作形成的“圈子”,参与人的行为受到“圈子”内部的行为规范的影响,而此行为规范的形成是参与人交互作用的结果。这个圈子之所以形成的原因正是人类与生据来的亲和性和共同利益的需要。人的自私性决定了其最大可能的获取网络效用而不顾及“圈子”的整体利益,个体的贡献在将来得到回报的可能性将急剧下降,这时某些少量哪怕不考虑未来的回报,也要对背叛者施以惩罚的强互惠主义者就会出现,从而显著提高对等网的生存机会。在对等网系统中,我们难以界定有多少个体是强互惠主义者,也无法采用手段强迫个体采取强互惠主义措施,那么,这个强互惠主义的角色将由系统扮演,系统将以一定的机制对不利系统的行为做出惩罚。
本文用进化博弈论的思想分析对等网发展中面临的激励问题,希望能够为对等网的研究提供一条新的思路。
3. 对等网进化博弈激励模型
3.1 节点行为模型及博弈分析
对等网用户具有有限理性和间接互惠的行为特征,我们利用进化稳定策略的基本思想做如下假设和定义:
假设1 节点具有有限理性,即节点不能明确表达自己的收益计算模型、不具备全局知识、不具备推理全局行为所需的超强计算能力,节点决策受到所处环境、情感等因素影响。
假设2 节点具有间接互惠意识,即节点有互惠、公平和对不良节点做出惩罚的意愿。
定义 表示P2P网络中的节点,表示网络中提供或消费相同服务的节点群,表示整个P2P网络,它由多个提供或消费相同服务的群构成。表示节点之间的交互行为。表示节点参与网络的策略空间,在该策略下节点采用某一策略选择机制选择不同的策略与其它节点进行交互博弈。博弈者即P2P节点所采用策略的概率分布函数为。