Kylin Page

A fool who dreams.

阿里饿了么2025届算法笔试

coding to Ele

[TOC] 3.16 算法 选择 CRF模型相对HMM模型的优势 CNN和MLP哪个可以使用稀疏连接 L1、L2范数怎么计算 OJ Q1 输入三个二维坐标,给出第四个坐标,使得四个坐标能构成二维平面里的矩形。 A1 三个x异或起来,三个y异或起来,ok两行ac Q2 好串是指通过重新排列组合能形成回文串的字符串 现在给定一个字符串,小红要询问若干次,每次...

高德2025届算法笔试

coding to Meituan

[TOC] 3.12 算法 选择 (1)Batch Normalization 的细节 import torch.nn as nn class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.fc1 = nn.Linear(784, 25...

CodeReview for CLIP

CLIP源码解析

[TOC] CLIP ViT (1)patch embedding:假如输入图片大小为224x224,patch大小为16x16,则每张图像会生成224x224/16x16=196个patch,即输入序列长度为196,每个patch维度16x16x3=768,即一共有196个token,每个token的维度是768。这里还需要加上一个特殊字符cls,因此最终的维度是197x768。...

美团2025届算法策略笔试

coding to Meituan

[TOC] 3.9 算法策略 Q1 MT 是美团的缩写,因此小美很喜欢这两个字母。现在小美拿到了一个仅由大写字母组成字符串,她可以最多操作k次,每次可以修改任意一个字符。小美想知道,操作结束后最多共有多少个’M’ 和’T’ 字符? 输入 输入两个正整数n和k,代表字符串长度和操作次数第二行输入一个长度为n的、仅由大写字母组成的字符串。 约束条件 1≤k≤n≤10^5 输出描述 ...

InternLM-XComposer2 详解及 Code Review

Mastering Free form TextImage Composition and Comprehension in Vision Language Large Models

[TOC] InternLM-XComposer2 ViT和LLM的连接部分 self.vit = build_vision_tower() # 其实就是ViT,但是处理的权重的pos_emb,能适应不同尺寸图片 self.vision_proj = build_vision_projector() 其实就是用三个线性层进行映射: def build_vision_pro...

Coding on Dijkstra

Dijkstra 及其题单

[TOC] Dijkstra 1976. 到达目的地的方案数:计算到达每一个点的最短路径数(单源最短) 朴素Dijkstra class Solution: def countPaths(self, n: int, roads: List[List[int]]) -> int: g = [[inf for _ in range(n)] f...

LLM Inference Optimization 2403 Review

LLM优化技术进展

[TOC] Cascade Inference1 带宽高效的共享前缀自注意力操作 SGLang2 提出了RadixAttention,其中KV-Cache被组织成前缀树的形态,这类注意力操作可以使用多级的Cascade Inference加速 LMaaS3 XXX Reference Cascade Inference: Memo...

Coding on 换根DP

换根DP 及其题单

[TOC] 换根DP 这种算法的本质是什么? 答:以图中的这棵树为例,从「以 0 为根」换到「以 2 为根」时,原来 2 的子节点还是 2 的子节点,原来 1 的子节点还是 1 的子节点,唯一改变的是 0 和 2 的父子关系。由此可见,一对节点的距离的「变化量」应该是很小的,那么找出「变化量」的规律,就可以基于 ans[0] 算出 ans[2] 了。这种算法叫做换根 DP。 题单...

Speculative Decoding 的 Sampling 误解浅析

Why and How Sampling in Speculative Decoding

[TOC] Speculative Decoding12 初探 按照Huggingface公众号3、以及Tianqi Chen4 的综述,会产生一个误解:Speculative Decoding就是小模型Inference一次,大模型Verifying一次,并在最后一个不一致Token位置,用大模型的答案进行修正。 但是仔细看了原论文之后,发现原论文的思想和上面不太一样。上面的说法...

Rotary Positional Embeddings 详解

RoPE Combining Absolute and Relative

[TOC] Absolute Positional Embedding 对每一个position产生一个embedding 有两种产生方式: Advantages: 会受到训练时候的max_length限制 不存在位置直接的关联,比如:我们希望P1和P2的相似性大于P1和P500的相似性 Relative Posit...