搜题库

试题题干(必填) 试题类型(必填，题型请用下拉菜单实现）选项（用'|'隔开）答案（填空题用'|'隔开）(必填)

下列哪个算法属于深度学习（）单选 Decision Tree|CNN|Logistic Regression|SVM B

以下不是数据清理中空值的处理方式（）单选均值填充|中位数填充|直接删除|不用管 D

聚类分析算法属于（）单选有监督学习|无监督学习|统计模式识别方法|句法模式识别方法 B

以下可以用于分类与回归应用的算法有（）单选决策树|逻辑回归|Apriori算法|K均值法 A

关于KNN与K-means算法描述正确的是（）单选 KNN是分类算法,K-Means是聚类算法|它们都是监督学习|都是在数据集中找离它最近的点|都有明显的前期训练过程 A

在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计（）单选 EM算法|维特比算法|前向后向算法|极大似然估计 D

关于梯度方向的说法正确的是（）单选给定某定点，沿着梯度方向函数值增加最快|给定某定点，沿着梯度方向函数值减少最快|任何函数的定点一定存在梯度方向|若函数不是凸函数，则一定存在至少一个点不存在梯度方向 A

下列说法不正确的是（）单选梯度下降法是利用当前位置的负梯度作为搜索方向的方法|批量梯度下降和随机梯度下降相比，一个优势是对于大规模样本效率很高|牛顿法和梯度下降法相比，一个劣势是求解复杂，一个优势是收敛速度加快|共轭梯度法仅需利用一阶导数的信息，但是收敛速度高于梯度下降法 B

以下不属于分类算法的是（）单选 ARIMA|随机森林|KNN|SVM A

下列属于无监督学习的模型是（）单选 Kmeans|KNN|SVM|决策树 A

分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（）问题单选关联规则挖掘|分类与回归|聚类分析|时序预测 A

以下哪些方法不可以直接对文本分类（）单选 K-means|决策树|支持向量机|KNN A

以下哪个模型是生成式模型（）单选贝叶斯模型|逻辑回归|SVM|条件随机场 A

以下机器学习中，在数据预处理时，不需要考虑归一化处理的是（）单选 logistic回归|SVM|树形模型|神经网络 C

关于logistic回归算法，以下说法不正确的是（）单选 logistic回归是当前业界比较常用的算法，用于估计某种事物的可能性|logistic回归的目标变量可以是离散变量也可以是连续变量|logistic回归的结果并非数学定义中的概率值|logistic回归的自变量可以是离散变量也可以是连续变量 B

k最近邻方法在什么情况下效果较好（）单选样本较多但典型性不好 |样本较少但典型性好 |样本呈团状分布 |样本呈链状分布 B

下列哪项不是SVM的优势（）单选可以和核函数结合|通过调参可以往往可以得到很好的分类效果|训练速度快|泛化能力好 C

Naive Bayes是一种特殊的Bayes分类器，特征变量是X，类别标签是C，它的一个假定是（）单选各类别的先验概率是相等的|以0为均值，为标准差的正态分布|特征变量X的各个维度是类别条件独立随机变量|P(X|C)符合高斯分布 C

通常可以通过关联规则挖掘来发现啤酒和尿布的关系，那么如果对于一条规则A →B, 如果同时购买A和B的顾客比例是4/7, 而购买A的顾客当中也购买了B的顾客比例是1/2, 而购买B的顾客当中也购买了A的顾客比例是1/3,则以下对于规则A →B的支持度(support)和置信度(confidence)分别是多少（）单选 4/7，1/3|3/7，1/2|4/7，1/2|4/7，2/3 C

对于k折交叉验证, 以下对k的说法正确的是（）单选 k越大,不一定越好,选择大的k会加大评估时间|选择更大的k,就会有更小的bias (因为训练集更加接近总数据集)|在选择k时,要最小化数据集之间的方差|以上均正确 D

下面关于Adaboost算法的描述中，错误的是（）单选 AdaBoost模型是弱分类器的线性组合|提升树是以分类树或者回归树为基本分类器的提升办法，提升树被认为是统计学习中最有效的办法之一|AdaBoost算法的一个解释是该算法实际上是前向分步算法的一个实现，在这个方法里，模型是加法模型，损失函数是指数损失，算法是前向分步算法。|AdaBoost同时独立地学习多个弱分类器 D

在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果（）单选可以解决维度灾难问题|可以做特征选择,并在一定程度上防止过拟合|可以加快计算速度|可以获得更准确的结果 B

数据清洗的方法不包括（）单选缺失值处理|噪声数据清除|一致性检查|重复数据记录处理 D

下列有关神经网络的描述正确的有（）单选增加层数可能扩大测试误差|减少层数一定缩小测试误差|增加层数一定减少训练误差|增加层数一定增加训练误差 A

以下说法不正确的是（）单选机器学习中使用L2正则化可以得到平滑的权值|在AdaBoost算法中，所有被错分的样本的权重更新比例相同|Boosting和Bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率决定其权重|梯度下降有时会陷于局部极小值，但EM算法不会 C

EM算法（Exception Maximization Algorithm）是机器学习领域的一个经典算法，下面关于EM算法的表述中不正确的有（）单选 EM算法属于一种分类算法|如果优化的目标函数是凸函数，那么EM算法一定能找到全局最优解|EM算法可以分为E-Step和M-Step两步|EM算法可用于从不完整的数据中计算最大似然估计 A

bootstrap数据的含义是（）单选有放回的从整体M中抽样m个特征|无放回的从整体M中抽样m个特征|有放回的从整体N中抽样n个样本|无放回的从整体N中抽样n个样本 C

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（）单选频繁模式挖掘|分类和预测|数据预处理|数据流挖掘 C

使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（）单选探索性数据分析|建模描述|预测建模|寻找模式和规则 A

下列不是SVM核函数的是（）单选多项式核函数|logistic核函数|径向基核函数|Sigmoid核函数 B

决策树中不包含一下哪种结点（）单选根结点（root node)|内部结点（internal node）|外部结点（external node）|叶结点（leaf node） C

假设12个销售价格记录组已经排序如下：5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频分箱时，15在第几个箱子内？（）单选第一个|第二个|第三个|第四个 B

（）是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。单选边界点 |质心|离群点 |核心点 C

在以下不同的场景中，使用的分析方法不正确的有（）单选根据商家最近一年的经营及服务数据，用聚类算法判断出商家在各个类目下所属的商家层级|用关联规则算法分析出对护肤内容有兴趣的用户，是否对彩根据妆内容感兴趣|根据用户最近运动轨迹信息，用决策树算法识别出用户的出行工具是否为汽车|根据用户近几年的话费数据，用聚类算法拟合用户未来一个月可能的收入计算公式 D

当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）单选分类 |聚类|关联分析 |隐马尔可夫链 B

建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？（）单选根据内容检索 |建模描述|预测建模 |寻找模式和规则 C

常见的隐层激活函数不包含（）单选 Sigmoid函数|Tanh函数|ReLU函数|cos函数 D

PageRank是一个函数，它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高，那么它就（）单选相关性越高|相关性越低|越重要|越不重要 C

KNN算法的缺点是什么（）单选既可以用来做分类也可以用来做回归|计算量大|准确度高，对数据没有假设|可用于非线性分类 B

以下不属于多层感知机神经网络的结构的是（）单选输入层|隐藏层|输出层|透明层 D

下列关于普查的缺点的说法中，正确的是（）单选工作量较大，容易导致调查内容有限、产生重复和遗漏现象|误差不易被控制|对样本的依赖性比较强|评测结果不够稳定 A

假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为（）单选 0.821|1.224|1.458|0.716 D

一组数据，均值>中位数>众数，则这组数据（）单选左偏|右偏|钟形|对称 B

想要了解杭州市中学生的身高，从中抽取了1000个样本，这项调查中的样本是（）单选杭州市全部中学生|杭州市全部中学生的身高|从中抽取的1000名中学生|从中抽取的1000名中学生的身高 D

随机地掷一骰子两次，则两次出现的点数之和等于8的概率为（）单选 3/36|4/36|5/36|2/36 C

某地区每个人的年收入是右偏的，均值为5000元，标准差为1200元。随机抽取900人并记录他们的年收入，则样本均值的分布为（）单选近似正态分布，均值为5000元，标准差为40元|近似正态分布，均值为5000元，标准差为1200元|右偏分布，均值为5000，标准差为40|左偏分布，均值为5000元，标准差为1200元 A

箱线图中不包含的内容是（）单选中位数 |平均值|下四分位数|上四分位数 B

下列关于众数的叙述错误的是（）单选一组数据可能存在多个众数|众数一般不受极端数据的影响|一组数据的众数肯定是唯一的|众数一般用于测度数据的集中趋势 C

对某地区工业企业职工进行调查，调查对象是（）单选各工业企业|各工业企业的全体职工|一个工业企业|每一个职工 B

从N个元素组成的总体中抽取n个元素作为样本，并且总体中每一个元素被抽到的机会相同，这样的抽样组织形式称为（）单选整群抽样|多阶段抽样|分层抽样|纯随机抽样 D

样本均值的分布是一种什么分布（）单选总体分布|样本分布|抽样分布|二项分布 C

在假设检验中，不拒绝原假设意味着（）单选没有证据证明原假设错误|原假设肯定是正确的|没有证据证明原假设正确|原假设肯定是错误的 A

常用的测度变量之间相关关系的直观方法有（）单选直方图法|散点图法|折线图法|饼状图法 B

第一个提出大数据概念的公司是（）单选脸谱公司|麦肯锡公司|谷歌公司|微软公司 B

与大数据密切相关的技术是（）单选蓝牙|云计算|博弈论|wifi B

大数据应用需依托的新技术有（）单选大规模存储与计算|数据分析处理|智能化|三个选项都是 D

下列关于舍恩伯格对大数据特点的说法中，错误的是（）单选数据规模大|数据类型多样|数据处理速度快|数据价值密度高 D

一切皆可连，任何数据之间逻辑上都有可能存在联系，这体现了大数据思维维度中的（）单选定量思维|相关思维|因果思维|实验思维 B

根据涂子沛先生所讲，现在非结构化数据已经占人类数据总量的（）单选 45%|60%|75%|95% C

标签库登陆的方式是（）单选从DM中登陆|从4A登陆|从黄金眼登陆|从神灯扫描登陆 C

客户群的主键类型不包括哪项（）单选手机号码|用户ID|身份证号码|家庭ID C

如何修改客户群（）单选右击我的客户群进行修改|在我的客户群下，点击客户群后面操作按钮下的修改进行操作|在我的客户群中，将已创建的客户群添加到收纳篮中修改规则|在客户群集市中，将已创建的客户群添加到收纳篮中修改规则 B

如何使用客户群智能分析功能（）单选在智能客群雷达中点击操作中的智能分析，然后拖拽分析属性至设置进行客户群智能分析|在我的客户群中点击操作中的智能分析，然后拖拽分析属性至设置进行客户群智能分析|在营销效果评估中点击操作中的智能分析，然后拖拽分析属性至设置进行客户群智能分析|在客户群集市中点击操作中的智能分析，然后拖拽分析属性至设置进行客户群智能分析 B

如何延期客户群（）单选在我的客户群中，点击批量延期进行客户群延期|在智能客群雷达中，点击批量延期进行客户群延期|在营销效果评估中，点击批量延期进行客户群延期|在客户群集市中，点击批量延期进行客户群延期 A

客户群推送设置中，推送平台不包括（）单选精准营销平台（精营家）|获客宝|喜传单|神灯扫码 B

业务标签的业务分类中不包括（）单选流量营销|宽带业务|校园营销|话费充值 D

簇群标签的分类中不包括（）单选集团簇群|家庭簇群|学校簇群|物联网 C

想要获取用户某一天的运动轨迹信息，可以从哪个模型中获取（）单选 I_TPOS_TRAIL_D|A_USOC_USER_ATTR_M|I_CDM_LACCI|I_USOC_COMM_ALL_M A

交往圈月整合模型中，字段结构不包括（）单选通话总时长|月通话天数|对端收入|对端用户编码 C

若对端用户不是移动号码，可从交往圈月整合模型中获取什么数据（）单选对端用户的手机号码|对端用户的出账费|对端用户的籍贯|对端用户的位置信息 A

用户消费行为基本属性月视图模型中，可获取信息不包括（）单选出账费|欠费金额|本月消费支出|本月主动充值金额 C

个人社会属性月视图模型中，一个月数据记录数大概有多少（）单选 6千万|1亿7千万|2亿7千万|3亿7千万 B

浙江移动在网手机用户数量大概有多少（）单选 6千万|1亿7千万|2亿7千万|3亿7千万 A

融合模型的分类体系不包括（）单选客户视图|终端视图|属性标签|渠道视图 C

融合模型属于浙江移动Hadoop平台数据架构的哪一层（）单选 DWD层|DW层|应用层|融合层 B

目前MR网格数据精准定位的最细定位精准度达到多少（）单选 100米|200米|50米|10米 C

DACP模型开发界面，新建模型时默认周期类型为（）。单选小时|日|月|周 B

DACP模型开发界面，新建模型默认ORCFILE的文件格式，是因为（）。单选存储空间最小，查询效率最高|数据直接存储，加载数据速度最高|兼顾存储效率和处理效率|响应速度快，提供更好的交互式查询体验 C

DACP中“循环”组件可配置的最大并发数是（）。单选 9|10|11|12 C

DACP开发时，可通过（）获取日期参数说明信息。单选程序开发界面的“？”帮助按钮|SQL组件窗口的“？帮助”按钮|SQL组件窗口的“HIVE函数说明”按钮|SQL组件窗口的“查看全局变量”按钮 D

DACP程序开发中，变量赋值组件可同时赋值（）个变量。单选 1|2|3|任意个 A

DACP中已开发程序test1，共10个SQL组件，步骤id为1——10的连续数字，如果某开发人员在测试该程序时希望从第3个组件开始执行，一直运行到第7个组件完成时停止，则执行步骤号应设置为（）。单选 3-7|3-8|2-7|2-8 B

DACP程序的调度配置中，依赖前一个批次的偏移数应设置为（）。单选 2|1|-1|-2 C

关于DACP客户群标签发布功能，以下说法正确的是（）。单选拥有数据开发角色的开发人员均可发布客户群|HIVE侧源表必须以“DK+三位数字地区号”开头|GBASE侧目标表第一个字段必须是PRODUCT_NO|GBASE侧目标表和HIVE侧源表字段格式应保持一致 D

DACP标签配置中，无法配置的标签主题是（）。单选基础标签|复合标签|簇群标签|内容标签 C

DACP取数工具的查询结果展示界面，不可以实现的操作是（）。单选复制表数据|复制所有列名|查看单列数据|查看单行数据 C

DACP新建模型时，压缩类型包括（）。单选 Rar|Rar4|Zip|Zlib D

DACP程序开发时，一定不需要录入任务关系的情况是（）。单选源表为DEFAULT表|源表为维表|日程序源表为月模型|月程序源表为日模型 C

DACP中，源表为BDI同步的表，录入任务关系时，应选择（）。单选任务依赖|SQL依赖|时间依赖|平台依赖 B

DACP敏捷挖掘平台中，新增数据源时无可选项的数据库来源是（）。单选 HIVE库|Gbase库|Oracle库|MySQL库 B

DACP敏捷挖掘平台中，模型的执行状态不包括（）。单选变更中|等待中|训练中|已完成 A

关于jieba库的函数jieba.lcut(x)，以下选项中描述正确的是（）。单选精确模式，返回中文文本x分词后的列表变量|搜索引擎模式，返回中文文本x分词后的列表变量|全模式，返回中文文本x分词后的列表变量|向分词词典中增加新词w A

random.uniform(a,b)的作用是（）。单选生成一个[a, b]之间的随机整数|生成一个(a, b)之间的随机数|生成一个[a, b]之间的随机小数|生成一个均值为a，方差为b的正态分布 C

代码“1.23e+4+9.87e+6j.real”执行的结果为（）。单选 12300.0|123e-4|9882300.0|9.87e+6 A

关于Python循环结构，以下选项中描述错误的是（）。单选 Python通过for、while等保留字提供遍历循环和无限循环结构|break用来跳出最内层for或者while循环，脱离该循环后程序从循环代码后继续执行|每个continue语句只有能力跳出当前循环|遍历循环中的遍历结构可以是字符串、文件、组合数据类型和range()函数等 C

“下面代码的输出结果是（）。

for s in “abc”:

for i in range(3):

print (s,end=”“”“)

if s==“c”:

break” 单选 aaabccc|aaabbbc|abbbccc|aaabbbccc B

以下不属于Python的pip工具命令的选项是（）。单选 show|Install|download|get D

已知x=[1,2,3,4,5,6,7],那么x.pop()的结果是（）。单选 1|4|7|5 C

以下选项中不是 Python 语言的保留字的是（）。单选 except|do|pass|while B

关于Python语言的变量，以下选项中说法正确的是（）。单选随时声明、随时使用、随时释放|随时命名、随时赋值、随时使用|随时声明、随时赋值、随时变换类型|随时命名、随时赋值、随时变换类型 B

以下属于 Python 的 HTML 和 XML 第三方库的是（）。单选 Mayavi|TVTK|Pygame|Beautiful Soup D

以下选项中不是 Python 数据分析的第三方库的是（）。单选 numpy|scipy|pandas|requests D

以下文件操作方法中，打开后能读取 CSV 格式文件的选项是（）。单选 fo = open(“123.csv”,“w”)|fo = open(“123.csv”,“x”)|fo = open(“123.csv”,“a”)|fo = open(“123.csv”,“r”) D

以下关于Python文件对象f的描述，错误的选项是（）。单选 f.closed文件关闭属性，当文件关闭时，值为False|f.writable()用于判断文件是否可写|f.readable()用于判断文件是否可读|f.seekable()判断文件是否支持随机访问 A

ls = [3.5, “Python”, [10, “LIST”], 3.6]，ls[2][ –1][1]的运行结果是（）。单选 I|P|y|L A

以下关于同步赋值语句描述错误的选项是（）。单选同步赋值能够使得赋值过程变得更简洁|判断多个单一赋值语句是否相关的方法是看其功能上是否相关或相同|设 x，y 表示一个点的坐标，则 x=a;y=b 两条语句可以用 x，y = a，b 一条语句来赋值|多个无关的单一赋值语句组合成同步赋值语句，会提高程序可读性 D

Python可以将一条长语句分成多行显示的续行符号是()。单选 \|#|;|' A

下面有关HIVE描述错误的是（）。单选 Hive的集合数据类型有map，struct，array这三种|hive.mapred.mode=strict表示所有查询语句都必须指定分区|hive.auto.convert.join为mapjoin开关|parquet是行式存储，orc是列式存储 D

关于HIVE SQL，以下说法正确的是（）。单选 hive支持不等价连接|hive执行过程条件写在on或者where中，效率一样|join应将记录少的表/子查询放在join操作的左边|hive列分隔符支持任意指定分隔符 C

有关HIVE中ORDER BY 和 SORT BY 用法正确的是（）。单选 SORT BY 用于分组汇总|SORT BY用于局部排序，ORDER BY用于全局排序|使用完全一致|以上说法都不对 B

要在yarn上部署spark程序并用于生产，建议使用的模式为：单选 client|cluster|local|standalone B

为了避免执行任务时出现内存溢出，应该：单选使用mappartition而非map|使用map而非mappartition|多使用collect|多使用take A

要对 RDD 中的每行数据进行 F 操作，而 F操作来自第三方 jar，此时应该：单选使用collect将所用数据收集起来再使用循环语句依次处理|在map操作中调用F并在提交程序时一并提交依赖的jar|无法实现该操作|以上说法都不对 B

spark 任务的最小单元是：单选 application|job|stage|task D

spark rdd操作中，哪种依赖的执行效率高容错性好：单选宽依赖|窄依赖|全局依赖|局部依赖 B

spark sql 中建议使用的数据类型是：单选 RDD|Dataframe|Graph|DStream B

为了避免重复计算已有的 RDD，可以使用什么方式保存中间结果：单选使用cache操作|使用persist操作|只能写入文件|既可以写入文件也可写入内存 ABD

RDD中reduceBykey与groupByKey哪个性能好: 单选 reduceByKey|groupByKey|两者一样|无法比较 A

Spark 2.x 版本开始，推荐使用的机器学习 api 是：单选 Spark ML|Spark MLlib|GraphX|Spark Stream A

通过 spark 将数据集中的数据扁平化，使用的操作是：单选 map|flatmap|mapPartitions|mapPartitionsWithIndex B

要想在 spark 的 executor 中访问某个变量或函数，该变量或函数必须被封装成单选全局变量|局部变量|对象|闭包 D

spark 中用于图计算的组件是：单选 spark-sql|mllib|spark-streaming|graphX D

相比 hadoop 的 MapReduce， spark 提供的 RDD 操作：单选同样需要频繁的IO操作|可以在更大的数据集上运算|通过DAG进行优化效率更高|没有区别 C

spark streaming 更适合处理：单选依据网页间的链接计算各个网页的权重|词频分析|采集数据并转存HDFS|基于频繁项挖掘的购物篮分析 C

spark 中数据倾斜的原因不包括：单选 key本身分布不均衡|key设置不合理|shuffle时的并发度不够|数据量太大 D

下列选项中，（）不是Hadoop的资源调度器。单选 FIFO Scheduler|Fluent Scheduler|Capacity Scheduler|Fair Scheduler B

YARN架构中，关于ApplicationMaster的说法正确的是（）。单选为应用程序启动容器|与RM的调度器通讯，协商管理资源分配|如果container出现故障，进行资源重分配|是一个对Application使用资源描述的集合 B

HDFS的心跳机制中，默认每隔（）发送一次“心跳”。单选 1s|2s|3s|4s C

MapReduce框架中的TaskTracker实体的任务是（）。单选提交MapReduce作业|协调作业的运行|处理作业划分后的任务|在其它实体间共享作业文件 C

MapReduce框架中的Reduce任务主要用来执行以下哪种操作？单选数据提取|全局归并|数据传输|事务处理 B

Hive 中包含以下数据模型：DB，External Table，Table，Bucket，Partition。其中，以文件形式存在的是（）。单选 External Table|Table|Bucket|Partition C

在HIVE命令行中，“-e”的含义是（）。单选执行HQL脚本|输出执行的HQL语句到控制台|从文件初始化HQL|从命令行执行指定的HQL D

关于Hadoop和Spark的说法，正确的是（）。单选都是大数据框架，用于分布式数据的存储|都是用MapReduce来进行并行计算|都会将Job中间输出结果保存在内存中|都可以将数据对象存储在磁盘中 D

Hadoop-2.x版本以后，集群的HDFS默认的数据块的大小是（）。单选 32M|64M|128M|256M C

以下（）不是HDFS的守护进程。单选 secondarynamenode|mrappmaster/yarnchild|datanode|namenode B

请问以下命令组成错误的是（）。单选 sbin/hdfs dfsadmin -report|sbin/stop-dfs.sh|bin/hadoop namenode -format|bin/hadoop fs -cat /hadoopdata/my.txt A

MapReduce的Shuffle过程中（）操作是最后做的。单选溢写|分区|排序|归并 D

下面有关分类算法的准确率，召回率，F1值的描述正确的是？多选准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率|召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率|正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高|为了解决准确率和召回率冲突问题，引入了F1值 ABD

利用梯度下降求解参数的过程中，可以使用的方法包括（）多选 SGD|Momentum|Adagrad|RMSprop ABCD

以下关于随机森林模型的说法中不正确的是（）多选随机森林模型可有效处理不相关的特征变量|随机森林模型可有效并行|随机森林模型可有效生成新的特征变量|随机森林模型需对变量进行单调性处理 CD

以下方法属于集成方法的是（）多选 bagging|stacking|blending|boosting ABCD

下列说法正确的是（）多选 SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面|Naive Bayes是一种特殊的Bayes分类器，其中一个假定是每个变量相互独立|Xgboost是一种优秀的集成算法，其优点包括速度快，对异常值不敏感等|随机森林不容易出现过拟合现象 ABD

在某神经网络的隐层输出中，包含-1.5，那么该神经网络采用的激活函数不可能是（）多选 sigmoid|tanh|relu|cos ABC

数据挖掘的挖掘方法包括:( ) 多选聚类分析|回归分析|神经网络|决策树算法 ABCD

有监督机器学习方法可以被分为判别式模型和生成式模型，下面属于生成式模型的有（）多选 SVM支持向量机|朴素贝叶斯|隐马尔科夫|logistic回归 BC

下列关于脏数据的说法中，正确的是（）多选格式不规范|编码不统一|意义不明确|与实际业务关系不大 ABCD

下列方法中，可以用于特征降维的方法包括() 多选主成分分析PCA |线性判别分析LDA |矩阵奇异值分解SVD |最小二乘法LeastSquares ABC

以下哪项是防止过拟合的方法（）多选 early stopping|Data augmentation|Regularization|Dropout ABCD

影响聚类算法效果的主要原因有（）多选特征选取|模式相似性测度|分类准则|已知类别的样本质量 ABC

在机器学习中需要划分数据集，常用的划分测试集和训练集的划分方法有哪些（）多选留出法|交叉验证法|自助法|评分法 ABC

在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是（）多选将负样本重复10次,生成10w样本量,打乱顺序参与分类|直接进行分类,可以最大限度利用数据|从10w正样本中随机抽取1w参与分类|将负样本每个权重设置为10,正样本权重为1,参与训练过程 ACD

一个回归模型存在多重共线问题。在不损失过多信息的情况下，应该怎么做（）多选移除共线的两个变量|移除共线的两个变量其中一个|可以计算方差膨胀因子（variance inflation factor)来检查存在的多重共线性并采取相应的措施|移除相关变量可能会导致信息的丢失，为了保留这些变量，可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚 BCD

下面机器学习算法属于监督学习的是（）多选线性回归|K-均值|朴素贝叶斯|SVM ACD

半监督学习主要的学习方法包括（）多选自训练|协同训练|生成式模型|Co—EM算法 ABD

根据Shannon的信息论理论，下列关于信息熵的说法中正确的是（）多选当数据变得越来越纯净时，熵的值变得越来越小|当包含有50%的正例和50%的负例时，熵取最大值|当D中所有数据都只属于一个类时，熵得到最小值|熵可以作为数据纯净度或混乱度的衡量指标 ABCD

下列关于决策树ID3算法的核心思想的说法中正确的是（）多选信息增益更大，区分样本的能力更强，更具有代表性|信息增益更小，区分样本的能力更强，更具有代表性|信息增益更大，区分样本的能力更弱，更不具有代表性|信息增益更小，区分样本的能力更弱，更不具有代表性 AD

数据处理的步骤中包含（）多选数据清洗|数据转化|数据提取|数据采集 ABC

下面哪些是数据分析的步骤（）多选数据准备|数据收集|效果验证|模型构建 ABCD

特征工程的主要构成部分有（）多选特征提取|数据预处理|数据探索|样本筛选 ABC

噪声数据的产生原因主要有：（）多选数据采集设备有问题|在数据录入过程中发生了人为或计算机错误|数据传输过程中发生错误|由于命名规则或数据代码不同而引起的不一致 ABCD

下列哪一项不是描述连续变量的（）多选二项分布|泊松分布|超几何分布|正态分布 ABC

按照涉及自变量的多少，可以将回归分析分为（）多选线性回归分析|非线性回归分析|一元回归分析|多元回归分析 CD

下列哪些指标反映数据的离散程度（）多选方差|众数|标准差|极差 ACD

下面哪些适用于描述和分析事物的结构（）多选直方图|饼图|分类|折线图 ABD

按变量之间关系的密切程度不同，相关关系可分为（）多选单相关|完全相关|不完全相关|不相关 BCD

推断统计学研究的主要问题是（）多选如何科学地从总体中抽出样本|怎样控制样本对总体的代表性误差|怎样消除样本对总体的代表性误差|如何科学地由所取样本取推断总体 ABD

影响抽样误差大小的因素有（）多选总体各单位之间的离散程度|调查人员的素质|抽样方式与抽样方法|调查的时间 AC

非随机抽样包括（）多选判断抽样|系统抽样|任意抽样|配额抽样 ACD

下列关于大数据的说法中，正确的是（）多选大数据具有体量大、结构单一、时效性强的特征|处理大数据需采用新型计算架构和智能算法等新技术|大数据的应用注重相关分析而不是因果分析|大数据的应用注重因果分析而不是相关分析 BC

数据再利用的意义在于（）多选挖掘数据的潜在价值|实现数据重组的创新价值|利用数据可扩展性拓宽业务领域|优化存储设备，降低设备成本 ABC

传统数据密集型行业积极探索和布局大数据应用的表现是（）多选投资入股互联网电商行业|打通多源跨域数据|提高分析挖掘能力|实现科学决策与运营 BCD

大数据人才整体上需要具备（）等核心知识多选数学与统计知识|计算机相关知识|马克思主义哲学知识|在特定业务领域的知识 ABD

大数据的应用领域包括（）多选大数据技术|大数据工程|大数据收集|大数据科学 ABD

大数据的特点（）多选 Volume（大量）|Velocity（高速）|Variety（多样）|Value（价值） ABCD

运用大数据进行大治理要做到（）多选用数据说话|用数据决策|用数据管理|用数据创新 ABCD

互联网出现的海量信息可以划分为三种，以下属于的是（）多选结构化信息|非结构化信息|半结构化信息|特殊化信息 ABC

以下关于大数据的说法正确的是（）多选大数据是一种思维方式|大数据不仅仅是讲数据的体量大|大数据会带来机器智能|大数据的英文名称是largedata ABC

关于我国大数据战略的意义，表述正确的包括（）多选促进经济的创新驱动发展|促进国家治理体系与治理能力现代化提升|促进收入水平直线上升|促进国家综合实力增长 ABD

标签库中有哪些标签（）多选基础标签|内容标签|业务标签|地市标签 ABCD

标签库的功能有哪些（）多选变更标签|客户群搜索|客户群创建|客户群推送 BCD

互联网访问日志日模型中，主要分析了用户的哪些信息（）多选 APP编号|APP访问流量|APP访问次数|APP浏览内容 ABC

用户常住地月整合模型中，有那些周期的工作地和居住地信息（）多选 30日周期|15日周期|10日周期|5日周期 AC

在精营家平台中，创建营销策略的基本步骤有哪些（）多选选择政策|选择用户|选择渠道|选择时机 ABC

基础标签的分类包括（）多选个人属性|通信行为|位置轨迹|偏好习惯 ABCD

DACP的标签配置中，需要配置维表的标签类型包括（）。多选枚举型|文本型|标识型|内容型 AD

DACP中，开发人员查询模型信息的渠道有（）。多选大数据字典|模型开发|程序开发|源系统数据字典 ABD

DACP敏捷挖掘平台中，目前可支持的编程语言包括（）。多选 Python|Scala|R|C++ AC

HDFS是Master/Slave结构，其中，Master包括（）。多选 NameNode|DataNode|ResourceManager|DataManager AC

Shared Cache机制的作用在于为Yarn上的应用(application)提供了一种安全可扩展的上传和管理的资源的方式，主要特性有（）。多选可扩展性|安全性|易操作性|容错性 ABD

在YARN上启动Spark应用有两种模式，分别是（）。多选 server模式|cluster模式|client模式|daemon模式 BC

HDFS系统中NameNode的任务是（）。多选负责客户端文件操作的控制|负责文件系统客户端的读写请求处理|负责提供真实文件数据的存储服务|负责存储任务的管理与分配 AD

HDFS的NameNode组件包含的文件有（）。多选 Editlog|EditTime|FsImage|FsTime ACD

MapReduce的整个工作流程包含了4个独立实体，下列不是这4个实体的是（）。多选 JobClient|JobTracker|JobInProgress|JobJar ACD

下列业务场景中，能直接使用Reducer充当Combiner使用的是（）。多选 sum求和|max求最大值|count求计数|avg求平均 ABC

Namenode在启动时自动进入安全模式，在安全模式阶段，说法正确的是（）。多选锁定数据块，无法进行复制或删除|安全模式目的是在系统启动时检查各个DataNode上数据块的有效性|文件系统允许有修改|当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式 BD

下列哪个是　spark 的部署模式：多选 local|standalone|Spark on mesos|Spark on Yarn ABCD

为了避免单个节点内存溢出，启动 spark 任务时应该：多选通过driver-memory参数调大内存|executor-memory 参数调大内存|避免使用collect()操作|避免使用cache() ABC

spark作业依赖第三方的 java 程序，可以：多选提交时一并提交依赖的jar|制作jar时一并将依赖的库进行打包|无法使用第三方依赖|以上说法都不对 AB

在 spark 应用中，当没有操作在执行时却依然存在并占用资源的有多选 executor|driver|没有操作所有资源就被释放|只要spark application还存在，资源就不会被释放 ABD

spark 父子 rdd 之间的关系被划分为：多选宽依赖|窄依赖|全局依赖|局部依赖 AB

相比 RDD, spark 中的 Dataframe：多选增加了元数据信息|查询效率比RDD高|查询效率一样高|查询效率比RDD低 AB

RDD 操作中 cache和persist的关系是：多选 cache调用了persist|persist调用了cache|cache支持更多缓存方式|persist支持更多缓存方式 AD

在RDD操作中，相比groupByKey, reduceByKey操作：多选先聚合再shuffle|先shuffle再聚合|性能更优|性能较差 AC

Spark ML 与 Spark MLlib 的区别是：多选 Spark MLlib是rdd-based api|Spark MLlib是dataframe-based api|Spark ML是rdd-based api|Spark ML是dataframe-based api AD

以下 spark 操作属于 action 的有：多选 reduce|collect|count|take ABCD

HIVE中创建表时，（）格式的文件采用的是列存储。多选 TextFile|RCFile|SequenceFile|Parquet BD

以下关于Hive基本操作描述错误的是()。多选创建外部表使用external关键字，创建普通表需要指定internal关键字|创建外部表必须要指定location信息|加载数据到Hive时源数据必须是HDFS的一个路径|分区可以在创建表时指定也可在创建表后通过Alter命令添加分区 ACD

以下选项中，描述浮点数0.0和整数0相同性错误的是（）。多选它们使用相同的计算机指令处理|它们具有相同的数据类型|它们具有相同的值|它们使用相同的硬件执行单元 ABD

以下选项中，属于IPO模式一部分的是（）。多选 Process (处理)|Program (程序)|Output (输出)|Input (输入) ACD

以下属于Python深度学习第三方库的选项是（）。多选 Arcade|TensorFlow|Caffe2|MXNet BCD

关于 Python 字符编码，以下选项中描述正确的是（）。多选 chr(x)和 ord(x)函数用于在单字符和 Unicode 编码值之间进行转换|print chr(65)输出 A|print(ord(‘a’)) 输出 97|Python 字符编码使用 ASCII 编码 ABC

关于jieba库的描述，以下选项中正确的是（）。多选 jieba是Python中一个重要的标准函数库|jieba.cut(s)是精确模式，返回一个可迭代的数据类型|jieba.lcut(s)是精确模式，返回列表类型|jieba.add_word(s)是向分词词典里增加新词s BCD

以下关于函数的描述，错误的是（）。多选函数的全局变量是列表类型的时候，函数内部不可以直接引用该全局变量|如果函数内部定义了跟外部的全局变量同名的组合数据类型的变量，则函数内部引用的变量不确定|函数能同时返回多个参数值，需要形成一个列表来返回|函数的简单数据类型全局变量在函数内部使用的时候，需要在显式声明为全局变量 CD

关于数据维度的描述，正确的是（）。多选一维数据采用线性方式组织，对应于数组概念|一维数据采用线性方式存储|一维数据是由对等关系的有序数据构成，无序数据不是一维数据|CSV文件的每一行是一维数据，可以使用Python中的列表类型表示 ABD

关于Python的浮点数类型，以下选项中描述正确的是（）。多选浮点数类型与数学中实数的概念一致，表示带有小数的数值|sys.float_info可以详细列出Python解释器所运行系统的浮点数各项参数|浮点数有两种表示方法：十进制表示和科学计数法|Python语言的浮点数可以不带小数部分 ABC

以下选项中不符合Python语言变量命名规则的是（）。多选 *i|3_1|AI!|Templist ABC

已知x是一个列表，那么x = x[3:] + x[:3]可以实现把列表x中的所有元素循环左移3位。判断正确

使用pickle进行序列化得到的二进制文件使用struct也可以正确地进行反序列化。判断错误

大数据预测能够分析和挖掘出人们不知道或没有注意到的模式，确定判断事件必然会发生。判断错误

对于移动运营商来说，给用户进行各种促销或者实施运营策略的时机比较重要，而且对不同兴趣偏好的用户最好集中处理。判断错误

各变量值与算术平均数的离差之和等于0。判断正确

简单随机抽样，是从总体N个对象中任意抽取n个对象作为样本，最终以这些样本作为调查对象。在抽取样本时，总体中每个对象被抽中为调查样本的概率可能会有差异。判断错误

”过拟合是有监督学习的挑战，而不是无监督学习”以上说法是否正确。判断错误

孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。判断错误

寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。判断错误

SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier）判断错误

在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。判断错误

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数判断正确

Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。判断错误

深度学习与机器学习算法之间的区别在于，后者过程中无需进行特征提取工作，也就是说，我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是：判断错误

如果自变量 X 和因变量 Y 之间存在高度的非线性和复杂关系，那么经典回归方法一定优于树模型方法。这个说法正确吗？判断错误

数据可视化可以便于人们对数据的理解判断正确

总体的平均指标是衡量总体集中趋势的重要指标判断正确

中位数就是一系列数值中出现次数最多的那个数值判断错误

随机抽样的基本要求之一是：严格遵守“随机性”原则判断正确

从一个总体可以抽取到多个样本，因此，样本平均数是一个变量判断正确

假设检验的重要依据之一是小概率原理判断正确

如果样本相关系数很高，则总体相关系数也必定很高判断错误

抽样误差大小不可事先计算，但能控制判断错误

创建客户群可以分为一次性客群和周期性客群判断正确

DACP中若不小心删除了正在执行的查询窗口，除非该语句已通过“保存脚本”按钮保存，否则无法找回。判断错误

DACP中程序配置了输入表，除了时间依赖，无需再录入任务关系。判断错误

DACP中开发人员除了通过程序开发界面进行程序的调度配置工作外，可以通过其他途径修改调度配置。判断正确

DACP中配置复合标签时，第一个子标签可以不是枚举型。判断正确

DACP中查看标签信息，只能进入拥有标签一键发布功能的团队中，通过标签一键发布界面查看。判断错误

HIVE中，SQL运算出现数据倾斜的原因可能有业务数据本身的特性、key分布不均匀和没加索引。判断错误

spark 的 executor 可以任意访问主程序中的变量和函数判断错误

spark 程序不用受数据倾斜的影响判断错误

Hadoop运行的三种模式分别为独立模式、伪分布模式和集群模式。判断正确

HDFS的心跳机制是指每隔一定时间，NameNode就会向DataNode发送一次心跳，以维持NameNode和DataNode之间的通信。判断错误

HDFS的多副本存放策略，就是将数据备份3个副本，分别存放在不同机架的Datanode中，以保证副本均匀分布于集群中，有效防止整个机架失效时的数据丢失，进而提高系统的可靠性和容错性。判断错误

MapReduce框架中Mapper就是将一个复杂的任务拆解为多个简单的小任务并行处理，以提高执行效率，所以一个任务拆解的Map数越多越好，也越能体现并行计算的优势。判断错误