3.1

明显感到天暖和起来了，我的核心出装也变成了短袖+单外套。说我是皮糙肉厚确实不为过，很多周围人的常见问题我都遇不到，就好比说这个花粉过敏。春天到了，之前总是觉得喜欢冬天，经过今年这个没有下雪的冬天之后，又觉得自己不过是更喜欢下雪罢了。

和实践认识的小团体玩了一晚上桌游，终于短暂逃离了科研。加了几天班之后感觉 Weijie 那边的题目算是比较 tractable 了，打算下周五之前给他写一个综述和 idea sketch 之类的希望能和他约到 meeting， yunzong 那边打算先做一些比较简单的情形了，就先这样了，不想让科研占满自己所有的生活了。

月底想去日本，尽管这会花掉我相当一部分的存款，而我这学期其实没什么收入，但我觉得是时候进行一场逃离了。

3.2

这个工作强度，我指，每天起床就开始看 paper，不看 paper 的时候也没闲着，还是太恐怖了。完全是不具有持久性的，当然现在 Weijie 那边明显投入过大，虽然有点趋炎附势的意思，但事已至此，只能先在第三周结束之前写一份足够 make sense 的 literature review 和 research plan 给他，至少给他画一个让他可以在人群中多看我一眼的饼，再来说后面的事情。

3.3

最近高强度看文章，虽然自己是数学人，理应看到公式就像回家了一样，但看到一堆做 theory 的大哥做的工作尤其是 rl/dl theory 的工作花里胡哨翻云覆雨最后得到一个其实也并不优雅的结果，放到实际应用中更是差了十万八千里，但还能乐在其中（或许如此），我就会觉得：他们真是神人啊（

其实看多了之后，又会觉得其实自然会有套路，比如 decision-making 基本就是收集数据——评估参数（统计）——作出决定（优化），所以说基本就是统计和优化两条线，所以给定 model 下可以做的事情无非就是：如何估计的更准，如何优化的更快更有效；再高级一些就是如何更好的利用数据，如何 balance exploration&exploitation等等。但最难的还是 modeling，尽管我真心觉得尤其是在大模型意义下做的所有的模型抽象基本都是真空中的球形鸡，但我还是觉得这是我和顶级大佬差距最大的地方，好吧任何地方差距都很大。

第二周就这么结束了，课业的压力确实趋于零了，下周的目标就是把 Weijie 的 research plan 发出去，然后继续看 paper 了。

3.4

继续高强度看 RL theory 的文章，包括 RLHF 和 RL with incentive 等等，评价为这真是大水坑啊。现在的大方向已经很明确了，如果就按照 Weijie 的说法那就是吧把 RLHF 看成一个 principal-agent problem with learning agent 的问题，也就是 agent 抽取 state—— agent提供advice —— principal 进行 action 或者 agent 抽取 state—— principal 进行 constraint——agent 进行 action等等，反正确实都没人做过，虽然我觉得它大概率不 work 但问就是 Weijie 这么让我干的。

最痛苦的研究问题脉络的一周基本过去了，明天可以开写 research plan 了，强度可以慢慢降下来了。

二字班估计快要填推研意向了，我显然是要填推迟推研毕竟我没选复分析已经没有今年推研的可能性了，而为啥不填放弃推研因为这玩意显然不在 Pareto 最优上。

所以有冇可能真的六年本科学制一年不浪费啊（

3.5

我会向所有还有机会明年上本科生课的人推荐表导演基础（

就，尽管还是会一如既往的和之前的艺术课一样与那么一些疏离感，但当人本身成为这门课的主体时，很多隔阂可以尽可能地被消除，而这是之前的实践艺术课组比如声乐、音乐剧所无法带来的体验。听了大家的自我介绍，又觉得对这个世界充满了希望（？），多了一分逼迫自己从阴暗角落里走出来的动力。

Weijie 那边的 research plan 已经完全想好了，明天开写。