Conformer 是一种卷积和Transformer相结合的架构,也算是我认真读完的第一篇论文(因为比较短hhh),可能是我积累的比较少,里面module的设计感觉没有特别精妙的地方,给人感觉更像是trick的堆砌,但自己也在VoxCeleb2的数据上train了一下。确实结果比较好。对于这篇文章的其他感想,等我精读完Attention is all you need再一起来说。
觉得title实在是太有范了,整个文章阐述了Transformer架构,没有使用CNN or RNN,这个架构基于Self-attention,由于没有像RNN那样的Sequentia operations所以给出了并行化的答案。这篇文章在看原文的时候还同时看了很多参考的解读,但要进一步再去理解还需要自己去复现以及调参数试试。而且在看的时候自己其实也有些思考,也找了很多相关的论文准备继续看看,看能不能解答我的困惑。 越看越觉得要学习的东西实在太多啦,不过很有意思还挺喜欢这种感觉哈哈哈。
刚开始其实觉得这个想法看起来不新鲜,但是读完后觉得文章的具体实现part很精彩,还有一篇很related的work是Fast inference from transformers via speculative decoding,读完之后再对比一下。先写到这,具体实现还没完成,完成后再调一调看能不能解决自己的问题,特别是与kvcache相关的东西,貌似还涉及到了另一个技术pagedattention,和上过的system课的内容很相似。
这篇其实内容量不小,而且涉及到vLLM,目前读完主要是对Paged attention这个深入了点,其他部分看完了有点仅停留在概念的感觉。打算做一下Nano-vLLM,结合代码来把论文中一些东西理解一下。
很好文章使我大脑旋转。 学会分析性能问题,非常关键,在发现问题,研究问题时都能得到很insightful的结果。很多问题本质是tradeoff,该怎么tradeoff怎么思考,这篇文章给了一个很好的学习范本。 浅入深出,好文!一些细节还有些模糊,多思考多做。
关于AF分离,主要是看了三篇文章,首先看了GLaM: Efficient Scaling of Language Models with Mixture-of-Experts补了一下专家并行,再对比看了MegaScale-Infer: Efficient Mixture-of-Experts Model Serving withDisaggregated Expert Parallelism & Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving。说实话这两篇看的时间很久,基本花了差不多两天,因为一开始对MoE不是很了解,其中提到一些通信库的知识又去看了一些文章补了下,结果越看越多hhh。不过收获还是很多,两篇文章都给人很扎实的感觉,后面有时间的话想去了解下算子优化那一块看的时候并没有具体去看实现,这周得先做nano-vllm。 还有几篇看完了但还需要整理下思路,几篇思路都是很连续的。