1,什么是马尔可夫决策过程
马尔可夫决策过程是研究随机环境下多阶段决策过程优化问题的理论工具,在过去的几十年中,随着生态科学、经济理论、通讯工程以及众多学科中需要考虑不确定因素和序列决策问题的大量新模型的涌现,进一步刺激了马尔可夫决策过程在理论上和应用领域中长足发展50年代r.贝尔曼研究动态规划时和l.s.沙普利研究随机对策时已出现马尔可夫决策过程的基本思想。r.a.霍华德(1960)和d.布莱克韦尔(1962)等人的研究工作奠定了马尔可夫决策过程的理论基础。1965年,布莱克韦尔关于一般状态空间的研究和e.b.丁金关于非时齐(非时间平稳性)的研究,推动了这一理论的发展。1960年以来,马尔可夫决策过程理论得到迅速发展,应用领域不断扩大。凡是以马尔可夫过程作为数学模型的问题,只要能引入决策和效用结构,均可应用这种理论。
2,什么是 边际收益递减
通俗地讲:当你极度口渴的时候十分需要喝水,你喝下的第一杯水是最解燃眉之急、最畅快的,但随着口渴程度降低,你对下一杯水的渴望值也不断减少,当你喝到完全不渴的时候即是边际,这时候再喝下去甚至会感到不适,再继续喝下去会越来越感到不适(负效用)。
另一种解释方法:你开了个小作坊,每天可以产出5件商品,那么效率是5件/天。你的生意越做越大,需要找来帮手,于是现在变成了2个员工。人多了,工作时聊天误工、两个人相互推托依赖,都希望自己偷偷懒、省省力,于是效率变成了4.5件/天,在工资等激励制度不变的情况下,产出效率会越来越小。这就是边际效用递减规律在生活中的2则实例。
可以用各种理由来解释边际效用递减,但最重要的是一种生理解释。效用,即满足程度是人神经的兴奋,外部给一个刺激(即消费某种物品给以刺激,如吃面包刺激胃),人的神经兴奋就有满足感(产生效用)。随着同样刺激的反复进行(消费同一种物品的数量增加),兴奋程度就下降(边际效用递减)。这个规律对我们理解消费者的消费行为非常重要。
消费者购买物品是为了从消费这些物品中得到效用,这样,消费者为了购买一定数量物品所愿意付出的价格就取决于他从这一定数量物品中所得到的效用。效用大,愿付出的价格高;效用小,愿付出的价格低。随着消费者购买某物品的数量增加,该物品给消费者带来的边际效用是递减的,这样,消费者所愿付出的价格也在下降,所以,需求量与价格成反方向变动。