2010新浪笔试---数据挖掘
感谢王师兄提供真题!时间:2010-10-23 下午2:00-3:30地点:对外经济贸易大学图书馆报告厅应聘职位:数据挖掘工程师================================================一.选择题。一共40道题,其中两
感谢王师兄提供真题!
时间:2010-10-23 下午2:00-3:30
地点:对外经济贸易大学图书馆报告厅
应聘职位:数据挖掘工程师
================================================
一.选择题。一共40道题,其中两道多选题,涉及的知识点有数据结构、网络、信息安全、Linux、web、数据挖掘。
1.链表使用情形
删除和添加操作比较多的时候
2.一个网络,包含6个子网,子网中最多有26台主机,问子网掩码是多少?
26台主机,所以需要5个位置保存主机号。因为25=32
6个子网,所以需要3个位置保存子网号。因为23=8
11111111, 11111111, 1111 1111, ××× ?????
子网号 主机号
子网掩码的二进制形式:
11111111, 11111111, 11111111, 11100000
转化成十进制:255.255.255.224
3.数据挖掘中的apri***算法,何时剪枝?
Apriori算法在产生频繁集之后,根据最小支持度剪枝,小于supmin的树枝将被剪掉。
4.Linux中如何查看系统磁盘空间?
df
查看进程信息 :ps
查看系统资源(CPU,内存,文件描述符的占用情况)使用信息:top
5.如何查看DNS服务器的ip地址?
在cmd中nslookup,(windows和linux都好使),则出现本机的default server 和address。
接着输入set querytype=NS,然后就可以输入要查的服务器的域名了。比如:baidu.com,结果如下:
> baidu.com
Server: dns.cau.edu.cn
Address: 202.205.80.132
Non-authoritative answer:
baidu.com nameserver = ns4.baidu.com
baidu.com nameserver = ns3.baidu.com
baidu.com nameserver = ns2.baidu.com
baidu.com nameserver = dns.baidu.com
dns.baidu.com internet address = 202.108.22.220
ns2.baidu.com internet address = 61.135.165.235
ns3.baidu.com internet address = 220.181.37.10
ns4.baidu.com internet address = 220.181.38.10
6.http面向连接还是无连接?面向对象还是面向记录?
应用层 无连接,不保存状态
传输层 TCP
网络层 IP
数据链路层 PPP,以太网,令牌环
物理层 双绞线,同轴电缆,光缆,蓝牙(2.4GHz,10m以内),wifi/802.11G协议(2.4Ghz),X.25
http即超文本传输协议,无连接,没有会话,每次请求一次性报告完毕。
后面的问题不知道了。
7.木马是蠕虫吗?防火墙可否有效地防止病毒?
木马不是蠕虫,防火墙也不可以防止病毒。
对于一台电脑,病毒的来源有:网页(自己去访问页面被自动执行的那些东东)、移动设备(U盘、光盘、移动硬盘等那些和电脑有过数据交换,并且可以自身携带“程序”的设备,可能在你访问设备或不访问设备的时候悄悄进入电脑的)、不知名的(肯定是要联网的嘛,比如QQ等在你聊天的时候偷偷溜进来的)。
还是要找书的,都忘了。稍等,一会去图书馆。
防火墙根据源地址、目的地址、端口号判断是否进行拦截,而不针对具体的内容进行分析。所以,如果从防火墙认为安全的端口传播病毒,防火墙也是防不住的。
8.给定集合,找出支持度为3的关联规则
感觉题目很是宽泛,没有给出准确的集合。还有支持度是项集出现的概率,不应为整数吧
那就找出现过3次的频繁集吧~,注意不是项集哦!
9.DNS的作用?域名转为ip地址
域名解析协议,将域名转为IP地址
10.ARP的作用?ip地址转为物理地址
地址解析协议,将IP地址转为物理地址
11.网页中能保存用户名密码的功能由什么实现?cookie,(重复)
Cookie和历史记录
12.网页访问成功后返回的状态值是?404还是304?
200访问成功
301永久重定向
302重定向
404页面不存在,没有找到
500服务器内部错误
13.环比增长速度是12%,11%,13&,14%,那么*基速度是多少?
各环比增长速度加1后连乘积再减1等于定基增长速度
先应将各环比增长速度加1换算成环比发展速度,然后再连乘换算成定基发展速度,最后再减1即得定基增长速度
故发展速度 : 1.12*1.11*1.13*1.14=1.6
定基增长速度为 60%
14.观察事物的动态变换用什么方法?指数,时间序列,频率统计,回归方程?
首先记录,记录的形式有数据、图片、声音等各种信息,终归结底是能够被计算机识别和保存的那种方式。
然后比较,根据不同的属性和维度。
再用各种数学方法进行分析。
二.填空题
1.回归分析的定义,分类,理论基础
确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
回归分析是通过已知而且是控制的变量(可控变量)预测另一个随机而且是对应的变量(因变量)的过程,可用方程式表示。
线性回归
一元回归
多元回归
非线性回归
多项式回归
逻辑回归
2.数据预处理包括哪些?数据清洗,————,————。
抽取,转换和加载。即ETL,Extract,Transform,Load
这里多说几句。
数据预处理的目的是为企业提供单一的、权威的数据源,因此产生的数据是详细的、历史的、规范的、可理解的、即时的和质量可控制的。ETL过程就是将数据调和的过程。
3.计算机一个序列的平均值,众数,极差,方差,标准差。
平均值:一般为算数平均值
众数:一组数据中出现次数最多的数值。可以是多个
极差:一组数据中的最大数据与最小数据的差
方差:D(X)=E{[X-E(X)]^2}
标准差:σ(X)=D(X)^0.5
4.一个检索系统,给出4个检索状态:A,检索出来,相关。B.检索出来,不相关。C.未检索出来,相关。D.未检索出来,不相关。问该系统的召回率和正确率是多少?
| 相关 | 不相关 |
检索出来 | A | B |
未检索出来 | C | D |
召回率R:
检索出来&&相关 A
---------------------- ------------
相关 A+C
精度P:
检索出来&&相关 A
---------------------- ------------
检索出来 A+B
貌似跟 未检索出来&&不相关的集合 没有关系
三.计算题
1.给定一个数列,计算其3阶(1,3,1)加权移动平均值
加权移动平均值,这个关注的很少。因为和经济、时间序列密切相关。
2.给出两个等长序列,求欧几里得距离,曼哈顿距离,明斯基距离(p=3)
| 王伟成绩 | 班级平均 | 标准差 |
|
|
期中考试 | 75 | 70 | 4 |
|
|
期末考试 | ? | 75 | 4 |
|
|
80
??这个有些不清楚
在word里面敲的好好的放上来就这样了,设置颜色和字体的功夫也白费了。
希望大家不要被样子打消了心情~
更多推荐
所有评论(0)