蚂蚁2025届算法笔试

[TOC]

A、在给定样本量n的条件下，第一、第二类错误的犯错率是可以同时降低的

B、第一、第二类错误都是对于虚无假设H0成立时而言的

C、第一类错误是指错误地落入了拒绝域

D、在固定第一类错误犯错率时，为减少第二类错误的犯错率，可以通过加大样本量来实现

Ref¹

数据集增强

参数范数惩罚

提前终止

dropout

	决策树有三种常用的启发式生成算法，这三种算法各有自己的特点和适用条件。下列选项中，对于这三种算法的比较，结论错误的是（）
A	ID3 算法和C4.5 要求输入的特征数据是离散的
B	ID3 算法生成的是多叉树，而C4.5和 CART 生成的是二叉树
C	ID3 算法对缺失值比较敏感，而C4.5和 CART 可以对缺失值进行不同方式的处理
D	CART 处理连续型变量时，通过对数据排序后找到类别不同的分割线作为切分点，然后根据切分点把连续数值变为布尔型

	决策树是机器学习中经常使用的分类器。决策树有三种常用的启发式数据构造准则，下列选项中，关于这三种常用的构造启发式算法，结论正确的是（）
A	ID3 算法只能处理离散变量
B	ID3算法和C4.5算法只能用于分类任务
C	ID3 算法和 C4.5算法对缺失值比较敏感，而 CART 自带缺失值处理策略
D	CART 每个结点只会产生两个分支，形成一颗二叉树

某电商平台计划使用决策树为首页活动根据用户的兴趣偏好进行排序，将用户最可能感兴趣的活动优先进行展示。对于特征选择部分，为了改进决策树信息增益中的诸多缺陷，如泛化性较差以及对某一类别样本数量过于敏感等，计划使用信息增益比作为特征重要性的判别标准。

输入描述

输入是一个二维 list，每一列表示一个特征，最后一列表示标签 label，特征和label都为整数，其中特征取值有三种：

0，1， 2， label取值有两种：0，1。

输出描述

输出信息增益比最大的特征对应的索引，返回值是一个整数。

coding to Ant