复合机 频道

做数据挖掘高手 数据挖掘精选经典试题3

  数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

  自测链接:http://selftest.chinaunix.net/Start_31c87f47-07a0-4a2a-b29e-e43f69996f66.html 

  1. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 ( )

  A 2 B 3 C 3.5 D 5

  答案:C

  2. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( )

  A 0.821 B 1.224 C 1.458 D 0.716

  答案:D

  3.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( )

  A 18.3 B 22.6 C 26.8 D 27.9

  答案:A

  4. 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:( )

  A 31 B 24 C 55 D 3

  答案:A

  5. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: ( )

  A 一年级 B二年级 C 三年级 D 四年级

  答案:A

  6. 下列哪个不是专门用于可视化时间空间数据的技术: ( )

  A 等高线图 B饼图 C 曲面图 D 矢量场图

  答案:B

  7. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( )

  A 有放回的简单随机抽样 B无放回的简单随机抽样 C分层抽样 D 渐进抽样

  答案:D

  8. 数据仓库是随着时间变化的,下面的描述不正确的是 ( )

  A. 数据仓库随时间的变化不断增加新的数据内容;

  B. 捕捉到的新数据会覆盖原来的快照;

  C. 数据仓库随事件变化不断删去旧的数据内容;

  D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.

  答案:C

  9. 关于基本数据的元数据是指: ( )

  A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;

  B. 基本元数据包括与企业相关的管理方面的数据和信息;

  C. 基本元数据包括日志文件和简历执行处理的时序调度信息;

  D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.

  答案:D

  10. 下面关于数据粒度的描述不正确的是: ( )

  A. 粒度是指数据仓库小数据单元的详细程度和级别;

  B. 数据越详细,粒度就越小,级别也就越高;

  C. 数据综合度越高,粒度也就越大,级别也就越高;

  D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.

  答案:C

0
相关文章