不知不觉就已经是生命的第三十个年头了。也许是年纪渐增,感觉脑力逐渐变得大不如从前了。工作上也好,平时也好,集中精力思考一些问题之后,总会感觉
2022年的回望
生活 两年半前买的房子终于要在这周日交付了,随之而来的就是要准备验房、办证、装修之类的事情了,由于各种原因,到现在都还没确定装修公司,后面必须
Counterfactual Regret Minimization
博弈论基础 最近关注了下牌类游戏(主要是斗地主)的AI算法,初步调研之后,得知在德州扑克上,SOTA的方法依然是基于CFR这个框架的,比如De
关于工作与生活的感想
工作快三年了,跳槽也很荒唐的有了两次,虽然中间那次工作只持续了一个星期。前段时间,又再次有了强烈的跳槽想法,主要是感觉工作既没有意义,实际上
RL: A Horrible Career (Part I)
RL(Reinforcement Learning), originated from control theories, aims to solve decision problems with machine intelligence. Its creation can be dated back to the middle of the 20th century. Since the dramatic prosperity of deep learning, it has been equipped with deep neural networks and has shown its power and potential to solve many real-world decision problems. The amount of research papers related with RL is growing rapidly in recent years, as fancy ideas and algorithms seem to emerge constantly.
2021年总结
今年开年就多灾多难,先是跳槽被蚂蚁坑,然后迅速离职去了本来并不想去的启元,中间还弄伤了手,顺带连指甲都出了问题,恢复了大半年的时间,往医院跑
关于宗教信仰的重思(一)
这一段时间,因为宗教信仰相关的东西,让我相当焦头烂额。在工作和茶饭之余,我思考了许多,发现之前一直地将信仰和自然科学进行类比,和人讨论的时候
自然策略梯度
策略梯度(Policy Gradient)是强化学习中的一大类方法,它的目的是通过求累积回报对于策略参数的梯度,来更新策略参数,从而增加回报更
变分信息瓶颈(Variational Information Bottleneck)
之前在做对抗模仿学习的时候,接触到了变分信息瓶颈(VIB)[3]这个概念,最近刷arXiv上面关于强化学习的paper,又发现了VIB的应用
关于强化学习的想法(一)
从17年最早接触强化学习开始,到现在也断断续续做了很长时间了。这期间里,强化学习出了不少大新闻,从alphago到alphazero,再从s