选择 mechanism design for AI agents,意味着你可以同时获得关于 LLM, RL/RLHF, game theory 的前沿领域,通读 math, cs, econ 三大学科门类的专业文章,评价为这辈子有了(
这个问题基本就是和 RLHF, incentivized learning和machanism design有关,虽然现在LLM是热点但我感觉大概率还是只能做成传统 RL 问题,但无所谓先有一个明确思路再说。
目前已有的一些研究:
- 偏好优化:agent对一个query输出两个答案,人挑一个好的,然后反向传播fine-tune
- delegation:econ里研究的比较多,一般会有两种形式:agent观测state并给出一个report,但最后的action由principal来抉择,action由prior belief和report共同决定(例如,agent给N个股票排名,但最后的资金分配由principal决定);另一种相对简单粗暴,principal限制agent的决策从而达到对齐的作用,比如只给agent在一个 constrained set 内进行选择。
- bi-level RL optimization:指在 agent 能 maximize its reward的前提下 minimize principal 的损失,这个是很好的模型框架,我感觉最后大概率也会这么做,问题主要在于:1) principal 的 loss 本来就是一个很难界定的条件,如果是一个有客观 reward 的任务那还好,对于人类偏好而言则又需要训练人类的 reward model,但这时候,如何利用人类反馈更高效、准确地建立model则是问题的关键;2). max 很好理解,min 的 target 就是关键,也就是我们这里的 delegation,delegation能否改变 agent 的内部参数?之前的研究有给reward加panelty的,有直接改变参数本身的。但直接限制 action space 的,目前还没有见到过。
总的来说本问题的核心点在于两个:
- 如何更好的表示人类偏好
- 如何限制agent的行为
Relevant literature:
- multi-agent reinforcement learning with mechanism design: mostly by using VCG to align each agents, the agents can only report(can misreport) their reward function, the action will be made by principal. Most common used method VCG is to let agent pay a reward to balance their utility.
Learning Dynamic Mechanisms in Unknown Environments: A...
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline...
- single-agent reinforcement learning with mechanism design: under exploration, the most well-known design is information design(persuasion) and mechanism design(delegation), but persuasion doesn’t make sense since the information(state) can be reached by agent without principal.
Sequential Information Design: Markov Persuasion Process and Its...
- principal-agent problem in econ setting:
Frankel - 2014 - Aligned Delegation.pdf