Kylin Page

A fool who dreams.

RLHF Cookbook

RLHF详解

[TOC] 为什么用RL? 使用强化学习(而非监督学习)的方式更新语言模型,最大的优势是在于能够使得「模型更加自由的探索更新方向,从而突破监督学习的性能天花板」。 RLHF 整体流程 这里的reward我们使用判别模型输出,以降低人工成本 1) 生成采样(Rollout) # prompt池 prompts = [ '刚收到货,感觉', '这...

LLM 中的长文本问题

Long Context in LLM

[TOC] 长文本的核心问题 训练端计算、储存分析 以decoder-only为例,一般在训练中考虑的储存为参数、梯度、优化器显存,为4倍参数显存 参数量 self-att: $4h^2+4h$ mlp: $8h^2+5h$ ln: $4h$ embedding: $2vh$ or $vh$ (tied embedding) 梯度、优化器 梯度等于参数量 优化器...

携程2025届算法笔试

coding to XieCheng

[TOC] 3.28 算法 选择题 下列关于XGBoost模型说法错误的是(A) A XGBoost模型基学习器可以是线性分类器,比如线性回归与逻辑回归 B XGBoost支持模型上的并行 C XGBoost损失函数用到了二阶导数通常用来增加优化精度 D XGBoost损失函数加入了正则项,用于控制模型复杂度 ...

LLMSys Reading List

LLMSys论文列表

[TOC] ASPLOS 24 [ASPLOS ‘24] AttAcc! Unleashing the Power of PIM for Batched Transformer-based Generative Model Inference [ASPLOS ‘24] NeuPIMs: NPU-PIM Heterogeneous Acceleration for Ba...

阿里云2025届算法笔试

coding to AliCloud

[TOC] 3.28 算法 选择题 协同过滤的变体是:A A 矩阵分解 B 关联规则 C 决策树 D 逻辑回归 5个人选3种裙子,某一种裙子被3个人选择的概率 冒泡排序的交换次数 双端队列的出队序列(后端可以进可以出,前端只能出) 最佳适应算法 ...

淘天2025届算法笔试

coding to TB

[TOC] 3.27 算法 选择 SFT的学习率选择 对于难度较高的任务,模型需要更细致地调整其参数以捕获数据中的复杂模式。在这种情况下,选择较小的学习率可能有助于模型更加仔细地进行权重更新,避免过大的更新步长导致模型错过最优解。然而,这也意味着模型可能需要更多的时间来收敛。 任务难度大倾向选小的lr 朴素贝叶斯进行文本分类,但是一个词在多个文档中出现频繁,...

美团2025届算法面筋

interview to MT

[TOC] 一面 bert结构,用于下游nlp任务细节 decode only和encoder-decoder结构的区别 mllm的结构 xgboost的原理 xgboost和lgbm的区别 bert和大语言模型哪个好?why? 了解哪些mllm的benchmark? 手撕:最大乘积子数组,dp O(n)过 二面 多模态LLM细节全部讲一次:输入输出是哪些?上线细节,有...

Coding on 最短路

D and F 及其题单

[TOC] Dijkstra1 朴素(稠密图) class Graph: def __init__(self, n: int, edges: List[List[int]]): self.g = [[inf]*n for _ in range(n)] for x,y,w in edges: self.g[x][y] = w...

Coding on All

Leetcode题单

[TOC] 题单 滑动窗口(定长/不定长/多指针) 二分算法(二分答案/最小化最大值/最大化最小值/第K小) 单调栈(矩形系列/字典序最小/贡献法) 网格图(DFS/BFS/综合应用) 位运算(基础/性质/拆位/试填/恒等式/贪心/脑筋急转弯) 图论算法(DFS/BFS/拓扑排序/最短路/最小生成树/二分图/基环树/欧拉路径) 动态规划(入门/背包/状态机/划分/区间/状压/数位/数据结...

达摩院2025届算法面筋

interview to Damo

[TOC] 3.20 一面 项目 Lora原理?Lora的参数量计算?Lora参数是包含Attention还是MLP?Lora参数的初始化?为什么这样初始化? 介绍Speculative Decoding、vLLM、FlashAttention 以上三个工作结合起来有什么创新 transfomer的计算瓶颈到底是在哪? 不同的论文不同视角,从LLM的prefill...