27、在工程实施之前,验收方可以不给施工方弱电布线图纸,但施工结束后必须有图纸
您的答案: 标准答案: B
28、在OSI七层协议中,提供一种建立连接并有序传输数据的方法的层是
您的答案: 标准答案: C
29、网络中端口与端口之间连接所用的层是
您的答案: 标准答案: D
您的答案: 标准答案: A
31、在无线协议里面,能够达到54Mbps/的中间语言IL。
您的答案: 标准答案: A
31、计算机病毒的会造成哪些危害?
B、 计算机用户的伤害
D、 程序和数据的破坏
您的答案: 标准答案: D
32、在Windows 32 位操作系统中,其EXE文件中的特殊表示为?
您的答案: 标准答案: B
33、能够感染EXE、COM 文件的病毒属于?
您的答案: 标准答案: C
34、下列描述不正确的是?
A、 不存在能够防治未来的所有病毒的发病毒软、硬件
B、 现在的杀毒软件能够查杀未知病毒
C、 病毒产生在前,反病毒手段相对滞后
D、 数据备份是防治数据丢失的重要手段
您的答案: 标准答案: B
35、下列预防计算机病毒的注意事项中,错误的是?
A、 不使用网络,以免中毒
B、 重要资料经常备份
D、 尽量避免在无防毒软件机器上使用可移动储存介质
您的答案: 标准答案: A
36、什么是敲竹杠病毒?
A、 对电脑设置开机密码类,再提供密码索要费用的木马病毒
B、 盗取数据信息的病毒
C、 破坏计算机运行的病毒
您的答案: 标准答案: A
37、在OD工具调试中,JE跳转不成立,不改变病毒运行顺序的情况下,可以把ZF标志位修改为1。
您的答案: 标准答案: A
38、EAX寄存器保存的是操作字符串的地址信息。
您的答案: 标准答案: A
39、病毒屏蔽杀毒软件后可以用改文件名的方法来进行绕过。
您的答案: 标准答案: A
40、注册表映像劫持的路径是?
您的答案: 标准答案: C
A、 检索系统快照中遇到的第一个进程的信息
B、 搜索一个文件或子目录名匹配一个特定名称的目录
C、 获取进程信息为指定的进程、进程使用的堆、线程建立一个快照
D、 函数终止指定进程及其所有线程
您的答案: 标准答案: C
42、每个函数都有自己的栈帧,每个函数都是利用自己的栈帧空间保存全局变量与函数的调用关系。()
您的答案: 标准答案: B
43、如果能控制进程的执行流程,不能够执行想要执行的指令,达到我们目的的指令序列就叫做shellcode。()
您的答案: 标准答案: B
44、下面是漏洞代码,分析的结果:创建一个ba数组,将ba内容加密,修改ba内容,为ba解密。()
您的答案: 标准答案: B
45、缓冲区溢出漏洞的原理,它就是因为我们输入了过长的字符,而缓冲区本身又没有有效的验证机制,导致过长的字符将返回地址覆盖掉了
您的答案: 标准答案: A
您的答案: 标准答案: A
您的答案: 标准答案: A
您的答案: 标准答案: A
49、32位的无符号整数可以表示的整数范围是:0-2的16次方-1。
您的答案: 标准答案: B
50、在操作系统中安装全局钩子以后,只要目标进程符合我们所设定的条件,全局钩子的DLL文件会被操作系统自动或强行地加载到该进程中。
您的答案: 标准答案: A
1、下列哪项不是信息安全的定义?
A、 数据安全,确保数据不会被非法入侵者读取或破坏
B、 程序安全,重视软件开发过程的品质及维护
C、 系统安全,维护计算机系统正常操作
D、 环境安全,管理员不能用弱口令
您的答案: 标准答案: D
2、下列哪项不是正确的防止被骗操作?
A、 在淘宝购买东西应该使用旺旺交流
B、 商家发送的发票文件,直接打开
C、 商品多次修改价格,应该提高警惕
D、 对商家发送的文件进行查杀
您的答案: 标准答案: B
3、下列选项中对DES加密算法描述不正确的是?
A、 以64位为分组对数据进行加密
B、 其密钥长度为56位
C、 运用相同算法进行加密解密
D、 DES加密算法为最安全的加密算法之一
您的答案: 标准答案: D
4、下列关于标准防火墙的描述错误的是?
A、 防火墙安全规则遵循从上到下匹配原则,一旦有一条匹配,剩余的规则就不匹配了
B、 所有的规则都没有匹配到,数据包将丢弃
C、 安全过滤规则主要包含源、目的地址和端口
D、 防火墙的主要功能是防止病毒等恶意程序的传输
您的答案: 标准答案: D
您的答案: 标准答案: B
41、安卓系统最早起源来于?
您的答案: 标准答案: A
您的答案: 标准答案: B
41、安卓系统最早起源来于?
您的答案: 标准答案: A
您的答案: 标准答案: D
43、DedeCMS5.7远程文件包含漏洞中存在变量覆盖漏洞的语句是
您的答案: 标准答案: D
44、文件包含分为本地文件包含和远程文件包含
您的答案: 标准答案: A
45、Discuz使用了以下哪种标记语言??()
您的答案: 标准答案: C
您的答案: 标准答案: B
47、通过告警日志分析攻击事件的基本技能不包括以下哪个选项?()
A、 网络协议基础知识
B、 网站架构基础知识
C、 程序代码编写能力
D、 网站常见攻击手段
您的答案: 标准答案: C
48、御剑在进行后台探测时发送的HTTP请求方式是?()
您的答案: 标准答案: B
49、告警信息原始报文中可以看到的信息不包括以下哪个选项?()
A、 攻击者发送的HTTP请求
B、 服务器返回的响应信息
C、 服务器的网络拓扑结构
D、 攻击者使用的IP地址
您的答案: 标准答案: C
50、MYSQL远程登录成功会生成安全审计类告警信息。()
您的答案: 标准答案: A
1、Web程序中出现以下哪种情况能形成漏洞?()
A、 可控变量进入正常函数
B、 可控变量进入危险函数
C、 不可控变量进入正常函数
D、 不可控变量进入危险函数
您的答案: 标准答案: B
2、以下哪个选项是SQL注入payload中#的作用?()
A、 闭合前面sql语句
B、 闭合后面sql语句
C、 注释前面sql语句
D、 注释后面sql语句
您的答案: 标准答案: D
3、以下哪个选项是PHPCMS中存在SQL注入漏洞的字段?()
您的答案: 标准答案: B
4、在PHPCMS SQL注入漏洞中构造的payload是使用的以下哪种方法?()
您的答案: 标准答案: C
5、insert into语句一次不可以向数据库插入多条数据。
您的答案: 标准答案: B
您的答案: 标准答案: D
7、在BlueCMS1.6 SQL注入漏洞中构造的payload是使用的以下哪种方法?()
A、 闭合update语句,将敏感数据读取到页面中
B、 构造delete语句,将敏感数据读取到页面中
C、 闭合insert语句,将敏感数据插入到评论表
D、 构造union语句,将敏感数据插入到评论表
您的答案: 标准答案: C
A、 POST发送可识别的MIME类型数据
B、 POST发送不可识别的MIME类型数据
C、 客户端发送GET请求
D、 客户端发送HEAD请求
您的答案: 标准答案: B
9、在xml中,CDATA区段的文本会被xml解析器忽略。
您的答案: 标准答案: A
您的答案: 标准答案: C
11、需要如何修改HTTP请求才能触发XML注入漏洞?()
您的答案: 标准答案: D
12、在Bash中哪个命令可以将局部变量变成全局变量?()
您的答案: 标准答案: C
您的答案: 标准答案: B
14、以下选项中哪个PHP的函数可以执行系统命令?()
您的答案: 标准答案: C
15、以下哪个PHP函数可以将数据写入文件?()
您的答案: 标准答案: C
16、PHP中的extract函数的作用是从数组中将变量导入到当前的符号表。
您的答案: 标准答案: A
A、 服务器网络配置信息
B、 服务器php配置信息
C、 服务器系统配置信息
D、 服务器硬件配置信息
您的答案: 标准答案: B
18、以下选项中哪种情况可以导致PHP代码执行漏洞?()
A、 用户通过浏览器提交执行命令,客户端没有针对执行函数做过滤
B、 用户通过浏览器提交执行命令,客户端针对执行函数做过滤
C、 用户通过浏览器提交执行命令,服务器端针对执行函数做过滤
D、 用户通过浏览器提交执行命令,服务器端没有针对执行函数做过滤
您的答案: 标准答案: D
19、PHP代码执行漏洞可以调用system函数执行系统命令。
您的答案: 标准答案: A
您的答案: 标准答案: C
21、Web目录下的upload/test.zip文件通过以下哪种链接可以下载?()
您的答案: 标准答案: C
您的答案: 标准答案: B
您的答案: 标准答案: D
您的答案: 标准答案: A
您的答案: 标准答案: C
A、 基础方法是post请求
B、 基础方法是get请求
D、 可用于文件上传时,设置表单的MIME类型
您的答案: 标准答案: B
27、以下哪个选项的内容可以替代SQL语句中的空格?()
您的答案: 标准答案: A
A、 去除字符串中的预定义字符
B、 将字符串中的预定义字符之前添加反斜杠
C、 将字符串按照预定义字符进行分割
D、 将字符串中的预定义字符替换为空格
您的答案: 标准答案: B
29、mysql数据库使用utf-8字符集可能导致宽字节注入。
您的答案: 标准答案: B
30、%df’在以下哪种情况下能闭合单引号,形成宽字节注入?()
您的答案: 标准答案: D
31、以下哪种方式可以防止宽字节注入?()
您的答案: 标准答案: C
32、以下哪个选项对asp运算符的解释错误?()
B、 IS判断两个字符串是否相等
您的答案: 标准答案: B
您的答案: 标准答案: C
34、以下选项中哪些措施不能防御CSRF攻击?()
A、 使用一次性Token验证
B、 在HTTP头中自定义属性并验证
C、 全部操作使用POST传递数值
D、 使用复杂度高的验证码
您的答案: 标准答案: C
35、以下哪个函数是作为FLASH与宿主界面JavaScript通信的接口?()
您的答案: 标准答案: C
36、以下哪个选项的内容是JavaScript中的注释符?()
您的答案: 标准答案: B
37、以下哪个选项对于反射型XSS的描述是错误的?()
A、 可以结合CSRF来利用
B、 攻击代码存储在客户端
C、 攻击代码存储在服务端
D、 可以劫持用户访问链接
您的答案: 标准答案: C
38、以下哪个选项可以成功的设置Web应用浏览器端的Cookie值?()
您的答案: 标准答案: A
39、技术流的完整提供测试不包含下面那一项?
您的答案: 标准答案: D
40、以下哪个选项不属于安全测试的流程?
您的答案: 标准答案: D
41、软件开发安全生产解决方法不包含哪一项?
您的答案: 标准答案: D
42、安全检测需要嵌入到软件开发流程中。
您的答案: 标准答案: A
43、HTTPS的设计是可以避免下列哪种攻击?
您的答案: 标准答案: C
44、同源策略不包含下面那一项?
您的答案: 标准答案: A
45、哪些设置可以有效的避免cookie的完整性所带来的安全问题?
您的答案: 标准答案: D
46、App-web接口检测系统架构的组成包含哪些?
您的答案: 标准答案: D
47、App-web接口检测系统使用哪种方法识别APP上的广告?
您的答案: 标准答案: A
48、下面哪一项不属于浏览器的防护手段?
您的答案: 标准答案: C
49、Redis未授权漏洞的根本原因是运维人员安全意识薄弱
您的答案: 标准答案: A
50、如果服务端IP为192.168.1.1,下列哪项是使用命令手动连接Redis的正确方式?
您的答案: 标准答案: A
1、在汽车内网的网络结构类型中,____结构其中一个网络节点损坏会造成整个通讯瘫痪。
您的答案: 标准答案: C
2、下列选项中不是LIN数据传输类型的是____。
A、 主机向从机发送消息让从机返回数据(eg.开关状态)
B、 主机初始化两个从机的通信
C、 主机发送数据到CAN级别再次返回LIN数据
D、 主机发送命令(如开关窗户)
您的答案: 标准答案: C
3、根据IOS定义,信息安全保护的核心对象是____。
您的答案: 标准答案: D
4、根据IOS定义,信息安全保护的核心对象是____。
您的答案: 标准答案: D
5、软件开发安全生产解决方法不包含哪一项?
您的答案: 标准答案: D
6、安全检测需要嵌入到软件开发流程中。
您的答案: 标准答案: A
7、HTTPS的设计是可以避免下列哪种攻击?
您的答案: 标准答案: C
8、同源策略不包含下面那一项?
您的答案: 标准答案: A
9、哪些设置可以有效的避免cookie的完整性所带来的安全问题?
您的答案: 标准答案: D
10、App-web接口检测系统架构的组成包含哪些?
您的答案: 标准答案: D
11、App-web接口检测系统使用哪种方法识别APP上的广告?
您的答案: 标准答案: A
12、下面哪一项不属于浏览器的防护手段?
您的答案: 标准答案: C
13、Redis未授权漏洞的根本原因是运维人员安全意识薄弱
您的答案: 标准答案: A
14、如果服务端IP为192.168.1.1,下列哪项是使用命令手动连接Redis的正确方式?
您的答案: 标准答案: A
您的答案: 标准答案: B
16、$_GET可以用于接收表单的值。
您的答案: 标准答案: A
17、下面哪个不是CMS?
您的答案: 标准答案: D
18、SQL注入又可以称为“PHP注入”,“JSP注入”。
您的答案: 标准答案: B
您的答案: 标准答案: A
20、SQLmap可以进行表单注入。
您的答案: 标准答案: A
21、为了防止恶意用户爆破web登录,为们只需在登录界面加上验证码提示。
您的答案: 标准答案: B
22、后台登录验证都是先验证验证码是否正确,再验证用户名密码是否正确
您的答案: 标准答案: B
23、在验证过程中,根据返回值在本地验证,该种验证方法可绕过
您的答案: 标准答案: A
24、只要用户的密码足够复杂,就不存在信息泄露的风险。
您的答案: 标准答案: B
您的答案: 标准答案: A
26、下面哪项密码设置方式会造成被弱口令攻击的风险?
A、 增大密码的复杂度
B、 使用初始化账号密码
您的答案: 标准答案: B
27、下面哪个密码更合乎密码安全性规则?
您的答案: 标准答案: D
28、只要密码足够复杂,就不会存在密码泄露。
您的答案: 标准答案: B
您的答案: 标准答案: D
30、下面不是防止WebLogic弱口令的是?
B、 修改默认账号密码
C、 使用默认配置路径
您的答案: 标准答案: C
31、WebLogic是一个基于JAVAEE架构的中间件,用于开发、集成、部署和管理大型分布式Web应用、网络应用和数据库应用的Java应用服务器。
您的答案: 标准答案: A
32、为了密码安全起见,密码的更换周期一般为多久?
您的答案: 标准答案: C
33、不同注册使用相同的密码。
您的答案: 标准答案: B
34、下面哪个不属于使用密码的好习惯?
A、 将账号密码记录在网络上
C、 使用密码位数大于15位且复杂度高
您的答案: 标准答案: A
35、靠欺骗别人来获得安全敏感信息的方式被称作( )。
您的答案: 标准答案: A
36、撞库得手的原因是( )。
A、 用户扫描不安全的二维码
B、 用户为图省事,在许多网站设置相同的用户名和口令
C、 用户电脑被植入木马
D、 用户连接不安全的无线网络导致
您的答案: 标准答案: B
37、在下述产生安全口令的方法中,相比而言最安全的一项是( )。
A、 将用户名的名字,姓或名的第一个字母以及该用户的相关信息作为口令
B、 用地名、山名、著名人物、小说题目、常用英文单词作为口令
C、 组合用户的名字,形成一个字符串,将该串进行二进制表示
D、 将一个长句子使用某种安全哈希函数进行压缩,作为口令
您的答案: 标准答案: D
38、最低效的口令攻击类型是______。
您的答案: 标准答案: A
39、在下述产生安全口令的方法中,相比而言最安全的一项是()
A、 将用户名的名字,姓或名的第一个字母以及该用户的相关信息作为口令。
B、 用地名、山名、著名人物、小说题目、常用英文单词作为口令。
C、 组合用户的名字,形成一个字符串,将该串进行二进制表示。
D、 将一个长句子使用某种安全哈希函数进行压缩,作为口令。
您的答案: 标准答案: D
40、工业企业网由信息网络与控制网络统一组网,再与现场总线互联。
您的答案: 标准答案: A
41、在工业控制系统中,现场控制层的作用是?
C、 现场保护和控制设备
您的答案: 标准答案: C
42、工控网络对系统的稳定性和可用性要求非常高
您的答案: 标准答案: A
43、工控系统安全和IT安全巨大的区别在于对"CIA"三者关注焦点不同
您的答案: 标准答案: A
44、ANSI等国际标准给出了工业控制系统模型和体系几层结构?
您的答案: 标准答案: C
45、在未授权的情况下,被攻击者能够利用的缺陷攻击系统,我们称之为工控系统漏洞。
您的答案: 标准答案: A
46、HAVEX通过调用什么接口来获取敏感数据?
您的答案: 标准答案: C
47、工业控制网络有几层边界?
您的答案: 标准答案: B
48、边界攻击的最终目的是控制输出模块对执行机构下达命令攻击。
您的答案: 标准答案: A
49、Stuxnet病毒是通过U盘,插入ICS计算机,传染给控制网络
您的答案: 标准答案: A
50、震网病毒修改Step7组态控制软件,修改其工程文件截获Step7与逻辑控制器的通信
您的答案: 标准答案: A
1、使用adb调试工具如何卸载安卓程序?
A、 使用adb install命令加APK文件的路径来卸载安卓程序
C、 使用adb delete命令加APK的包名卸载安卓程序,包名可通过逆向获得
D、 使用adb uninstall命令加APK的包名卸载安卓程序,包名可通过逆向获得
您的答案: 标准答案: D
2、下列关于smali的描述错误的是?
A、 smali是安卓系统中JAVA虚拟机(Dalvik)使用的一种.dex文件的汇编器
B、 安卓系统中代码最终编译不是采用java的class,而是使用smali
C、 smali是一种安卓开发语言
D、 smali有着自己独特的语法特点
您的答案: 标准答案: C
3、通常情况下,下列哪个目录不是APK安装后释放文件的目录?
您的答案: 标准答案: D
4、下列关于安卓系统目录的描述错误的是?
D、 /system/lib ,存放系统的配置文件,比如APN介入点设置等核心配置
您的答案: 标准答案: D
5、下列对于Dalvik字节码的描述错误的是?
C、 .registers指定了方法中占用内存空间大小
D、 .local 指令表名了方法中寄存器的总数
您的答案: 标准答案: D
6、下列哪项不是APK中class文件的保护的方法?
您的答案: 标准答案: C
7、下列哪项不是APK保护中native的功能?
您的答案: 标准答案: B
8、下列哪项不是预防手机中xcodeghost病毒的措施?
B、 下载盘古工具进行自检
C、 卸载或更新已感染文件
您的答案: 标准答案: D
B、 文件安装后执行会与IP为192.168.1.2的主机进行通信
C、 设置与主机通信的端口为4444
D、 通信时手机会打开4444端口
您的答案: 标准答案: D
10、Metasploit设置的LHOST是本机实际地址而不是外网地址。
您的答案: 标准答案: A
您的答案: 标准答案: A
B、 无符号右移vy,vz指定移动的位置,结果存入vx
C、 右移vy,vz指定移动的位置,结果存入vx
您的答案: 标准答案: C
您的答案: 标准答案: D
14、(Android系统中,)java代码反编译之后那种字节码方便于读取
您的答案: 标准答案: C
您的答案: 标准答案: C
您的答案: 标准答案: D
您的答案: 标准答案: A
您的答案: 标准答案: B
第一篇:《MySQL最新最全面试题和答案》
在缺省模式下,MYSQL是autocommit模式的,所有的数据库更新操作都会即时提交,所以在缺省情况下,mysql是不支持事务的。
在非autocommit模式下,你必须使用COMMIT来提交你的更改,或者用ROLLBACK来回滚你的更改。
MYSQL相比于其他数据库有哪些特点?
MySQL是一个小型关系型数据库管理系统,开发者为瑞典MySQL AB公司,现在已经 被Sun公司收购,支持FreeBSD、Linux、MAC、Windows等多种操作系统
与其他的大型数据库例如Oracle、DB2、SQL Server等相比功能稍弱一些
1、可以处理拥有上千万条记录的大型数据
2、支持常见的SQL语句规范
3、可移植行高,安装简单小巧
4、良好的运行效率,有丰富信息的网络支持
5、调试、管理,优化简单(相对其他大型数据库)
介绍一下mysql的日期和时间函数
返回 date 是一月中的第几天,范围为 1 到 31:
返回 date 是一年中的第几天,范围为 1 到 366:
返回 date 的星期名:
返回 date 的月份名:
返回 date 在一年中的季度,范围为 1 到 4:
对于星期日是一周中的第一天的场合,如果函数只有一个参数调用,返回 date 为一年的第几周,返回值范围为 0 到 53 (是的,可能有第 53 周的开始)。两个参数形式的 WEEK 允许你指定一周是否以星期日或星期一开始,以及返回值为 0-53 还是 1-52。这里的一个表显示第二个参数是如何工作的:
0 一周以星期日开始,返回值范围为 0-53
1 一周以星期一开始,返回值范围为 0-53
2 一周以星期日开始,返回值范围为 1-53
16、ysql中存储用户全局权限的表是( D )
17、删除用户的命令是(A )
18、给名字是zhangsan的用户分配对数据库studb中的stuinfo表的查询和插入数据权限的语句是( B ) (2分)
二、多项选择题(共12分)
21、下列的函数中可以处理日期和时间的函数有( BCD )(4分)
三、简答题(共12分)
24、在mysql中常用存储引擎有哪几种(最少三种),每个引擎特点区别?(6分)
25忘记MySQL管理员root的密码如何解决?写出步骤和指令(6分)
四、编程题(共42分)
1. 有一个关于商品供应及顾客订单的数据库。其中包括四个表,表中信息如下: 供应表 apply(id、name、sid、price)
说明:id 供应厂家编号 name 供应厂家名称 sid 商品编号 price 商品价格
说明: sid 商品编号 name 商品名称 count 商品数量 1)分析各个表之间的关系(主外键引用关系),创建四个表(4分)
2)从供应表中查询全体供应厂商的基本信息(3分)
3)从顾客表中查询地址在长春的顾客的顾客编号、顾客姓名及余额(3分)
4) 从商品表中查询以?可乐?两个字结尾的商品名称及数量,并按数量降序排序(4分)
5)从订单表中查询购买商品编号为?101?商品的顾客编号及订单日期(3分)
6)从商品表中查询最多商品数量、最少商品数量及商品总数量的记录信息(4分)
7)查询出顾客的订单信息,要求包括顾客姓名、商品名称及订单日期(4分)
9)将商品表中商品编号为204的商品名称更改为?百事可乐? (3分)
10)将顾客表上余额不足1000元的,将其订单日期延后10天(4分)
11) 删除订单表中商品编号为?102?的订单记录(3分)
12)将商品表中没有顾客订购的商品信息删除(4分)
第四篇:《2016年计算机二级MySQL数据库试题及答案》
1.在MySQL中,通常使用________语句来进行数据的检索、输出操作。
2.在SELECT语句中,可以使用________子句,将结果集中的数据行根据选择列的值进行逻辑分组,以便能汇总表内容的子集,即实现对每个组的聚集计算。
1.SELECT语句的执行过程是从数据库中选取匹配的特定________和________,并将这些数据组织成一个结果集,然后以一张________的形式返回。2016年计算机二级MySQL数据库试题及答案2016年计算机二级MySQL数据库试题及答案。
2.当使用SELECT语句返回的结果集中行数很多时,为了便于用户对结果数据的浏览和操作,可以使用子句来限制被SELECT语句返回的行数。
请使用SELECT语句将数据库db_test的表content中留言人姓名为“MySQL初学者”的所有留言信息检索出来。
1.请简述什么是子查询?
2.请简述UNION语句的作用。
2016年计算机二级MySQL数据库试题及答案
在MySQL命令行客户端输入如下SQL语句即可实现:
1.略。可参考第5章5.4节内容。
2.略。2016年计算机二级MySQL数据库试题及答案计算机等级考试题库。可参考第5章5.9节内容。
【MySQL习题及答案】相关文章:
所谓物以类聚-人以群分,“类”指的是具有相似性的集合,聚类是指将数据集划分为若干类,使得各个类之内的数据最为相似,而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分,属于无监督学习。
K-Means是最常用且简单的聚类算法,最大特点是好理解,运算速度快,时间复杂度近于线性,适合挖掘大规模数据集。但是只能应用于连续型的数据,并且一定要在聚类前需要手工指定要分成几类;
K-Means采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有数值的均值得到的,每个类的中心用聚类中心来描述。对于给定的一个(包含n个一维以及一维以上的数据点的)数据集X以及要得到的类别数量K,选取欧式距离作为相似度指标,聚类目标是使得类的聚类平方和最小,即最小化:
关联规则挖掘可以让我们从数据集中发现项与项之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系,进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。
2、关联规则中重要的概念
我举一个超市购物的例子,下面是几名客户购买的商品列表:
支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大。
我们看啤酒出现了3次,那么5笔订单中啤酒的支持度是3/5=0.6。同理,尿布出现了5次,那么尿布的支持度是5/5=1。尿布和啤酒同时出现的支持度是3/6=0.6。
它指的就是当你购买了商品 A,会有多大的概率购买商品 B。
我们可以看上面的商品,购买尿布的同时又购买啤酒的订单数是3,购买啤酒的订单数是3,那么(尿布->啤酒)置信度= 3/3=1。
再看购买了啤酒同时购买尿布的订单数是3,购买尿布的订单数是5,那么(啤酒->尿布)置信度=3/5=0.6。
提升度代表的是“商品 A 的出现,对商品 B 的出现概率提升的”程度。所以我们在做商品推荐的时候,重点考虑的是提升度。
那么我们来计算下尿布对啤酒的提升度是多少:
怎么解读1.67这个数值呢?
其实看上面提升度的公式,我们就可以理解,也就是AB同时出现的次数越多,单独出现B的次数越少,那么支持度也就越大也就是B的出现总是伴随着A的出现,那么A对B出现的概率就越有提升!
我们一起来看下经典的关联规则 Apriori 算法是如何工作的。
Apriori 算法其实就是查找频繁项集 (frequent itemset) 的过程,所以我们需要先了解是频繁项集。
频繁项集就是支持度大于等于最小支持度阈值的项集,所以小于最小值支持度的项目就是非频繁项集,而大于等于最小支持度的项集就是频繁项集。
假设我随机指定最小支持度是0.2。首先,我们先计算单个商品的支持度:
因为最小支持度是 0.2,所以你能看到商品 鸡蛋 是不符合最小支持度的,不属于频繁项集,于是经过筛选商品的频繁项集如下:
在这个基础上,我们将商品两两组合,得到两个商品的支持度:
筛选大于最小支持度(0.2)的数据后:
在这个基础上,我们再将商品三个组合,得到三个商品的支持度:
筛选大于最小支持度(0.2)的数据后:
在这个基础上,我们将商品四个组合,得到四个商品的支持度:
再次筛选大于最小支持度(0.2)数据的话,就全删除了,那么,此时算法结束,上一次的结果就是我们要找的频繁项,也就是{牛奶、面包、尿布}、{面包、尿布、啤酒}。
我们来总结一下上述Apriori算法过程:
我们可以看到 Apriori 在计算的过程中有以下几个缺点:
这就好比我们数据库中的“全表扫描”查询一样,非常浪费IO和时间。在数据库中我们都知道使用索引来快速检索数据,那Apriori 能优化吗?
FP-growth算法是基于Apriori原理的,通过将数据集存储在FP树上发现频繁项集,但不能发现数据之间的关联规则。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说Apriori算法是高效的。其中算法发现频繁项集的过程是:(1)构建FP树;(2)从FP树中挖掘频繁项集。
概念知识不在这凑字数了,我们直接来干货!假设我们从以下数据中来挖掘频繁项。
首先创建,项头表,这一步的流程是先扫描一遍数据集,对于满足最小支持度的单个项按照支持度从高到低进行排序,这个过程中删除了不满足最小支持度的项(假设最小支持度是0.2)。
整个流程是需要再次扫描数据集,对于每一条数据,按照支持度从高到低的顺序进行创建节点(也就是第一步中项头表中的排序结果),节点如果存在就将计数 count+1,如果不存在就进行创建。同时在创建的过程中,需要更新项头表的链表。
先把原始数据按照支持度排序,那么原始数据变化如下:
下面我们把以上每行数据,按照顺序插入到FP树中,注意FP树的根节点记为 NULL 节点。
接下来插入第二行数据,由于第二行数据第一个数据也是B,和已有的树结构重合,那么我们保持原来树结构中的B位置不变,同时计数加1,C、D是新增数据,那么就会有新的树分叉,结果如下图:
以此类推,读取下面的三行数据到FP树中。
最后生成的FP数如下:
我们终于把FP树建立好了,那么如何去看这颗树呢?得到 FP 树后,需要对每一个频繁项,逐个挖掘频繁项集。具体过程为:首先获得频繁项的前缀路径,然后将前缀路径作为新的数据集,以此构建前缀路径的条件 FP 树。然后对条件 FP 树中的每个频繁项,获得前缀路径并以此构建新的条件 FP 树。不断迭代,直到条件 FP 树中只包含一个频繁项为止(反正我第一次看完这句话是没理解)。
FP树是从下往上看了,也就是根据子节点找父节点,接下来还是来图解~
首先,我们看包含A的频繁项:
我们可以看到包含A的树有两个,我们先看树2,可以得到路径{B:2,C:2},此处的2是根据A出现的次数定的。接着我们创建FP树,具体的创建过程和上面创建 FP 树的过程一样,如下图:
注意此时头指针表中包含两个元素,所以对每个元素,需要获得前缀路径,并将前缀路径创建成条件 FP 树,直到条件 FP 树中只包含一个元素时返回。
同理,我们来看树1,树1比较简单,就一个路径{B:1},根据上述方法我们得到此分支频繁项为{A:1,B:1},{A:1}。
经典的算法,很多大神已经实现,我们直接拿来用就行了,比如上面的FP-GROWTH算法,介绍一款专门的包pyfpgrowth。
(机器学习图谱+机器学习十大算法)
回复【226】即可领取
《机器学习资料包》概览
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。