Kylin Page

A fool who dreams.

字节跳动2025届算法面筋

interview to ByteDance

[TOC] 一面 项目 多模态评论生成的指标,人工准确率是多少 mplug的结构,纯LLM效果怎么样 预训练细节 手撕 输入文件1: 1kw行title,中文,1k 输入文件2 : 10w 个实体词,中文,最大100 输出:统计文件1中,出现频次最高的100个实体词(来自文件2)及其频次 # encoding: utf-8 file1 = [] file2 = [] m...

拼多多2025届算法笔试

coding to PDD

[TOC] 3.24 算法 Q1 这里有n个正整数,a1,….,an Alice 会先去掉其中最多d 个数 Bob 接下来会将剩余的数中最多m个数乘以 -k Alice 想要剩余数之和尽可能大,Bob 想要剩余数之和尽可能小。假设 Alice 和 Bob 都足够聪明,请问最后剩余数之和是多少。 输入描述 第一行一个正整数T,接下来有T组数据 每组数据2行 第一行4 个数 ...

关于Pretrain和摩托车修理技术

Pretrain and How to Love

[TOC] 优化器 AdamW1 Adafator2 显存估计 显存主要包括两部分3: Model States (1) 权重4 参数量*每个参数的内存 (2) 梯度 参数量*每个参数的内存 (3) 优化器 AdamW: 参数量*每个参数的内存*2 Residual States (1) activation (2) ...

Diffusion Model 推理优化研究综述

MLSys for Diffusion Models

[TOC] Reference

阿里高德2025届算法面筋

interview to Gaode

[TOC] 一面 clip细节:数据怎么构造、怎么训练、怎么设计loss 参考1 怎么提高zero-shot的能力 对比学习、多任务学习 instruction tuning 我对多模态有什么了解 BN层的作用 输入数据进行归一化,加速收敛 稳定输出,跳出鞍点 BN层的缺点 对于文本数据,不同有...

阿里饿了么2025届算法面筋

interview to Ele

[TOC] 一面 lora初始化参数?为什么一半是0 参考1 prenorm / postnorm区别 前比较明确的结论是:同一设置之下,Pre Norm结构往往更容易训练,但最终效果通常不如Post Norm2。(迁移性能,就是sft之后在下游的性能) 简单来说,就是prenorm有退化,在transfomer layers比较多的情况下,其等效于宽...

阿里巴巴达摩院2025届算法笔试

coding to Meituan

[TOC] 3.12 算法 选择 1)KMP match之前的比对次数 2)小根堆调整为大根堆堆最小交换次数 3)冒泡排序的交换次数 逆序对的个数 4)K-means决定K是多大 Elbow法拐点出现的地方 5)Hash线性探测法最终插入位置 6)小明有10颗草莓糖、10颗橘子糖,小红有10颗草莓糖,现在小明随机拿10颗糖给小红,之后小红随机打卡一颗糖,是...

蚂蚁2025届算法笔试

coding to Ant

[TOC] 3.16场 选择 (不定项)对于假设检验,下列说法正确的选项有(CD) A、在给定样本量n的条件下,第一、第二类错误的犯错率是可以同时降低的 B、第一、第二类错误都是对于虚无假设H0成立时而言的 C、第一类错误是指错误地落入了拒绝域 D、在固定第一类错误犯错率时,为减少第二类错误的犯错率,可以通过加大样本量来实现 Ref1 (不定项...

Coding on 线段树

线段树 及其题单

[TOC] 线段树 题单 Reference

Coding on 树状数组

树状数组 及其题单

[TOC] 树状数组1 初始化O(nlgn): 对每个 nums[i]调用一次 update(i, nums[i]) class NumArray: __slots__ = 'nums', 'tree' def __init__(self, nums: List[int]): n = len(nums) self.nums ...