在现代操作系统中,int一般(注意,是一般)占用4个字节(Byte)的内存,共32位(bit)。如果不考虑正负数,当所有位都为1时,他的值最大,为232≈43亿。这是一个很大的数,实际开发中很少用到。而像1、99、12234等较小的数使用频率反而较高。
使用4个字节保存较小的整数绰绰有余,会空闲出两三个字节来,这些字节就白白浪费了,不能再被其他数据使用。现在电脑内存都比较大了,比较低的也有2G,浪费一些内存不会带来明显的损失。而在C语言发明的早期,或者在单片机和嵌入式系统中,内存都是非常稀缺的资源,所有程序都在尽力节省内存。
反过来再说,43亿虽然很大,但要表示全球人口数量还是不够,必须要让整数占用更多的内存,才能表示更大的值,比如占用6个或8个字节。
让整数占用更少的内存可以在int前面加short,让整数占用更多内存可以在int前面加long,例如:
这样a只占用2个字节的内存,而b可能(是可能)会占用8个字节的内存。
也可以将int省略,只写short、long,如下:
两者完全等价,写法更简洁,实际开发中常用。
int是基本的数据类型,short和long是在int的基础上进行的扩展,short可以节省内存,long可以容纳更大的值。
short、int、long是C语言中常见的整数类型,其中int称为整型,short称为短整型,long称为长整型。
上面我们在描述short、int、long类型的长度时,只对short使用肯定的说法,而对int、long使用了“一般”或者“可能”等不确定的说法。这种描述言外之意是,只有short的长度是确定的,即两个字节,而int和long的长度无法确定,在不同的环境下有不同的表现。
一种数据类型占用的字节数,称为该数据类型的长度。例如,short占用2个字节的内存,那么他的长度就是2.
C语言并没有严格规定short、int、long的长度,只做了宽泛限制:
所以,他们长度(所占字节数)的关系为:
可以看出,short不一定真的“短”,long也不一定真的“长”,他们可能和int占用相同的字节数。
在16位环境下,short长度为2byte,int也为2byte,long为4byte。16位的环境多用于单片机和嵌入式系统,在pc和服务器上已经见不到了。
在64位环境下,不同操作系统会有不同的结果,如下:
目前我们使用较多的PC系统位Win7、Win8、Win10、Mac OS、Linux,在这些系统中,short和int的长度都是固定的,分别为2和4,可以放心使用。只有long的长度在Win64和类Unix系统下会有所不同,使用时要注意移植性。
获取某个数据类型的长度可以使用sizeof操作符,如下所示:
在32位环境已经Win64环境下的运行结果为:
需要注意的是,sizeof是C语言中的操作符,不是函数,所以可以不带(),后面我们再详解。
使用不同的格式控制符可以输出不同类型的整数,他们分别是:
下面例子演示完整的输出:
在编写代码的过程中,我们应该将个师傅和数据类型严格对应起来。如果不严格对应,一般也不会导致错误,例如,很多人喜欢用%d
输出所有整数类型:
当使用%d
输出short或者使用%ld
输出short、int时,不管值多大,都不会发生错误,因为格式控制符足够容纳这些值。
当使用%hd
输出int、long,或者使用%d
输出long时,如果要输出的值比较小,一般也不会发生错误,如果要输出的值比较大时,就可能发生错误,例如:
输出结果完全是错误的。至于为什么会出现这个值,等我们聊到整数在内存中的存储时,详细和大家分析。
C语言中的整数除了可以使用十进制,还可以使用二进制、八进制和十六进制。
一个数字默认是十进制的,表示一个十进制的数字不需要任何特殊的格式。但是,表示一个二进制、八进制或者十六进制就不一样了,为了和十进制数字区别开,必须采用某种特殊的写法。具体来说,就是在数字前面加上特定的字符,也就是加前缀。
二进制由0和1两个数字组成,使用时必须以0b
或0B
开头(不区分大小写),例如:
请注意,标准的C语言并不支持二进制写法,有些编译器自己进行了扩展,才支持二进制数字。换句话说,并不是所有的编译器都支持二进制数字,这与编辑器的种类和版本都有关系。
八进制由0~7八个数字组成,使用时必须以0
开头(注意是数字0,不是字母o),例如:
十六进制由数字0~9,字母A~F或a~f(不区分大小写)组成,使用时必须以0x
或0X
(不区分大小写)开头,例如:
之前我们提到可以使用printf以十进制的形式输出short、int、long三种类型的整数。这里我们主要说说如何将他们以八进制、十进制、十六进制输出,下表列出了不同类型的整数,以不同形式输出时对应的格式控制符:
十六进制数字表示用到了英文字母,有大小写之分,要在格式控制符中体现出来:
八进制数字和十进制数字不区分大小写,所以格式控制符都用小写形式。如果你一定要试试大写形式,那么行为是未定义的:
注意,虽然部分编译器支持二进制数字的表示,但是却不能使用printf输出二进制。当然,通过转换函数可以将其他进制数字转成二进制数字,并以字符串形式,然后在printf函数中使用%s输出即可。这点我们后面再说。
这里我们可以看到,一个数字不管用什么进制来表示,都能以任意进制形式输出。数字在内存中始终以二进制形式存储,其他进制数字在存储前必须转换为二进制形式;同理,一个数字在输出时要进行逆向的转换,也就是从二进制转成其他进制。
注意看上面的例子,会发现有一点不完美,如果只看输出结果:
区分不同进制数字的一个简单方法就是,在输出时带上特定的前缀。在格式控制符中加上#
即可输出前缀,例如%#x、%#o、%#ho等,如下:
十进制数字没有前缀,所以不用加#。如果你加上了,那么他的行为是未定义的,有些编译器支持十进制加#,只不过输出结果和没有加#一样,有的编译器不支持加#,可能会报错,也可能会导致奇怪的输出。大部分编译器都能正常输出,不至于当成一种错误。
在数学中,数字有正负之分。在C语言中也是一样,short、int、long都可以带上正负号,如:
如果不带正负号,默认就是正数。
符号也是数字的一部分,也要在内存中体现出来。符号只有正负两种情况,用1位(Bit)就足以表示;C语言规定,把内存的最高位作为符号位。以int为例,他占用32位的内存,31位表示正负号,如下:
在编程语言中,计数一般是从0开始,如字符串“abc123”,我们称第0个字符是a,第一个字符是b。
C语言规定,在符号位中,用0表示正数,用1表示负数。例如int类型的-10和+16在内存中表示如下:
short、int、long默认都是带符号位的,符号位以外才是数值位。如果只考虑正数,那么各种类型能表示的数值范围(取值范围)就比原来小了一半。
很多情况下,我们能确定某个数字就是正数,比如某物品的数量,某学校学生人数,字符串长度等,这时候符号位就是多余的了,不如删掉符号位,把所有位都用来存储数值,这样能表示的数值范围会比原来大一倍。
C语言中规定,如果不希望设置符号位,可以在数据类型前加上unsigned关键字,如:
这样,short、int、long中就没有符号位了,所有位都用来表示数值,正数取值范围更大了。但是,这也意味着unsigned只能用来表示正数,不能直接表示负数。
如果将一个数字分为符号和数值两部分,那么不加unsigned的数字称为有符号数,能表示正数和负数。加了unsigned的数字称为无符号数,只能表示正数。
无符号数可以以八进制、十进制和十六进制的形式输出,他们对应的控制符为:
我们之前提到了不同进制形式的输出,但是却没有提到正负数,所以没有关心这一点。我们现在讲到了正负数,所以我们在深入的说一下。
严格来说,格式控制符和整数的符号是紧密相关的,具体就是:
我要说的是,printf并不支持以八进制或十六进制输出有符号数,他没有对应的控制符。在实际开发中,也基本没有“输出负的八进制或者十六进制数”这样的需求。
下表全面的总结了不同类型的整数,以不同形式输出时对应的格式控制符(–表示没有对应的格式控制符)
之前我们也使用了%o和%x来输出有符号数了,他并没有发生错误,这是因为:
对于一个有符号的正数,他的符号位是0,当按照无符号数的形式读取时,符号位就变成了数值位,但是该位刚好是0不是1,所以对数值不会产生影响。这就相当于在一个数字前加0,无论加多少个0,都不会影响数字的大小。
如果对一个有符号的负数使用%o或者%x输出,那么结果就会大相径庭。
可以说,“有符号的正数最高位是0”这个巧合才使得%o和%x输出有符号数时才不会出错。
再次强调,无论是以%o、%u、%x输出有符号数,还是以%d输出无符号数,编译器都不会报错,只是对内存的解释不同了。%o、%d、%u、%x这些格式控制符不会关心数字在定义时到底是有符号的还是无符号的:
说的再直接一些,我管你在定义时是有符号数还是无符号数呢,我只关心内存,有符号数也可以按照无符号数输出,无符号数也可以按照有符号数输出,至于输出结果对不对,那我就不管了。
我们可以看到,b、m、n的输出结果看起来非常奇怪。照着一般的推理,b、m、n这三个整数在内存中的存储形式分别为:
当以%x输出b时,结果应该是0x;当以%hd、%d输出m、n时,结果应该分别时-7fff,-0。实际却不是这样。
注意,-7fff 是十六进制形式。%d 本来应该输出十进制,这里只是为了看起来方便,才改为十六进制。
这其实跟整数在内存中的存储形式和读取方式有关。b是一个有符号的负数,他在内存中并不是像上图演示的那样存储,而是需要经过一定的转换才能写入内存。m、n的内存虽然没有错误,但是当以%d输出时,并不是原样输出,而是有一个逆向的转换过程。
总之,整数在写入内存之前可能会发生转换,在读取时也可能会发生转换,我们没有考虑这种转换,所以导致推理错误。那么整数在写入内存前究竟发生了怎样的转换呢?我们将在详细说说。
我们每个程序员或许都有一个梦,那就是成为大牛,我们或许都沉浸在各种框架中,以为框架就是一切,以为应用层才是最重要的,你错了。在当今计算机行业中,会应用是基本素质,如果你懂其原理才能让你在行业中走的更远,而计算机基础知识又是重中之重。下面,跟随我的脚步,为你介绍一下计算机底层知识。
还不了解 CPU 吗?现在就带你了解一下 CPU 是什么
是能够让你的计算机叫计算机
的核心组件,但是它却不能代表你的电脑,CPU 与计算机的关系就相当于大脑和人的关系。CPU 的核心是从程序或应用程序获取指令并执行计算。此过程可以分为三个关键阶段:提取,解码和执行。CPU从系统的主存中提取指令,然后解码该指令的实际内容,然后再由 CPU
的相关部分执行该指令。
下图展示了一般程序的运行流程(以 C 语言为例),可以说了解程序的运行流程是掌握程序运行机制的基础和前提。
在这个流程中,CPU 负责的就是解释和运行最终转换成机器语言的内容。
CPU 主要由两部分构成:控制单元
和 算术逻辑单元(ALU)
CPU 是计算机的心脏和大脑,它和内存都是由许多晶体管组成的电子部件。它接收数据输入,执行指令并处理信息。它与输入/输出(I / O)设备进行通信,这些设备向 CPU 发送数据和从 CPU 接收数据。
从功能来看,CPU 的内部由寄存器、控制器、运算器和时钟四部分组成,各部分之间通过电信号连通。
寄存器
是中央处理器内的组成部分。它们可以用来暂存指令、数据和地址。可以将其看作是内存的一种。根据种类的不同,一个 CPU 内部会有 20 - 100个寄存器。
控制器
负责把内存上的指令、数据读入寄存器,并根据指令的结果控制计算机
运算器
负责运算从内存中读入寄存器的数据
时钟
负责发出 CPU 开始计时的时钟信号
在 CPU 的四个结构中,我们程序员只需要了解寄存器
就可以了,其余三个不用过多关注,为什么这么说?因为程序是把寄存器作为对象来描述的。
不同类型的 CPU ,其内部寄存器的种类,数量以及寄存器存储的数值范围都是不同的。不过,根据功能的不同,可以将寄存器划分为下面这几类
存储运行的数据和运算后的数据。 |
用于反应处理器的状态和运算结果的某些特征以及控制指令的执行。 |
程序计数器是用于存放下一条指令所在单元的地址的地方。 |
存储数据内存的起始位置 |
存储基址寄存器的相对地址 |
储存正在被运行的指令,CPU内部使用,程序员无法对该寄存器进行读写 |
其中程序计数器、累加寄存器、标志寄存器、指令寄存器和栈寄存器都只有一个,其他寄存器一般有多个。
下面就对各个寄存器进行说明
程序计数器(Program Counter)
是用来存储下一条指令所在单元的地址。
程序执行时,PC的初值为程序第一条指令的地址,在顺序执行程序时,控制器
首先按程序计数器所指出的指令地址从内存中取出一条指令,然后分析和执行该指令,同时将PC的值加1指向下一条要执行的指令。
我们还是以一个事例为准来详细的看一下程序计数器的执行过程
这是一段进行相加的操作,程序启动,在经过编译解析后会由操作系统把硬盘中的程序复制到内存中,示例中的程序是将 123 和 456 执行相加操作,并将结果输出到显示器上。
地址 0100
是程序运行的起始位置。Windows 等操作系统把程序从硬盘复制到内存后,会将程序计数器作为设定为起始位置
0100,然后执行程序,每执行一条指令后,程序计数器的数值会增加1(或者直接指向下一条指令的地址),然后,CPU 就会根据程序计数器的数值,从内存中读取命令并执行,也就是说,程序计数器控制着程序的流程。
高级语言中的条件控制流程主要分为三种:顺序执行、条件分支、循环判断
三种,顺序执行是按照地址的内容顺序的执行指令。条件分支是根据条件执行任意地址的指令。循环是重复执行同一地址的指令。
下面以条件分支为例来说明程序的执行过程(循环也很相似)
程序的开始过程和顺序流程是一样的,CPU 从0100处开始执行命令,在0100和0101都是顺序执行,PC 的值顺序+1,执行到0102地址的指令时,判断0106寄存器的数值大于0,跳转(jump)到0104地址的指令,将数值输出到显示器中,然后结束程序,0103
的指令被跳过了,这就和我们程序中的 if()
判断是一样的,在不满足条件的情况下,指令会直接跳过。所以 PC 的执行过程也就没有直接+1,而是下一条指令的地址。
条件和循环分支会使用到 jump(跳转指令)
,会根据当前的指令来判断是否跳转,上面我们提到了标志寄存器
,无论当前累加寄存器的运算结果是正数、负数还是零,标志寄存器都会将其保存
CPU 在进行运算时,标志寄存器的数值会根据当前运算的结果自动设定,运算结果的正、负和零三种状态由标志寄存器的三个位表示。标志寄存器的第一个字节位、第二个字节位、第三个字节位各自的结果都为1时,分别代表着正数、零和负数。
CPU 的执行机制比较有意思,假设累加寄存器中存储的 XXX 和通用寄存器中存储的 YYY 做比较,执行比较的背后,CPU 的运算机制就会做减法运算。而无论减法运算的结果是正数、零还是负数,都会保存到标志寄存器中。结果为正表示 XXX 比 YYY 大,结果为零表示 XXX 和 YYY 相等,结果为负表示 XXX 比 YYY 小。程序比较的指令,实际上是在 CPU
接下来,我们继续介绍函数调用机制,哪怕是高级语言编写的程序,函数调用处理也是通过把程序计数器的值设定成函数的存储地址来实现的。函数执行跳转指令后,必须进行返回处理,单纯的指令跳转没有意义,下面是一个实现函数跳转的例子
图中将变量 a 和 b 分别赋值为 123 和 456 ,调用 MyFun(a,b) 方法,进行指令跳转。图中的地址是将 C 语言编译成机器语言后运行时的地址,由于1行 C 程序在编译后通常会变为多行机器语言,所以图中的地址是分散的。在执行完 MyFun(a,b)指令后,程序会返回到 MyFun(a,b) 的下一条指令,CPU 继续执行下面的指令。
函数的调用和返回很重要的两个指令是 call
和 return
指令,再将函数的入口地址设定到程序计数器之前,call
指令会把调用函数后要执行的指令地址存储在名为栈的主存内。函数处理完毕后,再通过函数的出口来执行 return 指令。return 指令的功能是把保存在栈中的地址设定到程序计数器。MyFun 函数在被调用之前,0154 地址保存在栈中,MyFun 函数处理完成后,会把 0154 的地址保存在程序计数器中。这个调用过程如下
在一些高级语言的条件或者循环语句中,函数调用的处理会转换成 call 指令,函数结束后的处理则会转换成 return 指令。
接下来我们看一下基址寄存器和变址寄存器,通过这两个寄存器,我们可以对主存上的特定区域进行划分,来实现类似数组的操作,首先,我们用十六进制数将计算机内存上的 - FFFFFFFF 的地址划分出来。那么,凡是该范围的内存地址,只要有一个 32 位的寄存器,便可查看全部地址。但如果想要想数组那样分割特定的内存区域以达到连续查看的目的的话,使用两个寄存器会更加方便。
例如,我们用两个寄存器(基址寄存器和变址寄存器)来表示内存的值
这种表示方式很类似数组的构造,数组
是指同样长度的数据在内存中进行连续排列的数据构造。用数组名表示数组全部的值,通过索引来区分数组的各个数据元素,例如: a[0] - a[4],[]
内的 0 - 4
几乎所有的冯·诺伊曼型计算机的CPU,其工作都可以分为5个阶段:取指令、指令译码、执行指令、访存取数、结果写回。
取指令
阶段是将内存中的指令读取到 CPU 中寄存器的过程,程序寄存器用于存储下一条指令所在的地址
指令译码
阶段,在取指令完成后,立马进入指令译码阶段,在指令译码阶段,指令译码器按照预定的指令格式,对取回的指令进行拆分和解释,识别区分出不同的指令类别以及各种获取操作数的方法。
执行指令
阶段,译码完成后,就需要执行这一条指令了,此阶段的任务是完成指令所规定的各种操作,具体实现指令的功能。
访问取数
阶段,根据指令的需要,有可能需要从内存中提取数据,此阶段的任务是:根据指令地址码,得到操作数在主存中的地址,并从主存中读取该操作数用于运算。
结果写回
阶段,作为最后一个阶段,结果写回(Write Back,WB)阶段把执行指令阶段的运行结果数据“写回”到某种存储形式:结果数据经常被写到CPU的内部寄存器中,以便被后续的指令快速地存取;
CPU 和 内存就像是一堆不可分割的恋人一样,是无法拆散的一对儿,没有内存,CPU 无法执行程序指令,那么计算机也就失去了意义;只有内存,无法执行指令,那么计算机照样无法运行。
那么什么是内存呢?内存和 CPU 如何进行交互?下面就来介绍一下
内存(Memory)是计算机中最重要的部件之一,它是程序与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存对计算机的影响非常大,内存又被称为主存
,其作用是存放 CPU 中的运算数据,以及与硬盘等外部存储设备交换的数据。只要计算机在运行中,CPU
就会把需要运算的数据调到主存中进行运算,当运算完成后CPU再将结果传送出来,主存的运行也决定了计算机的稳定运行。
内存的内部是由各种 IC 电路组成的,它的种类很庞大,但是其主要分为三种存储器
丢失
。
更快
的存储器。当 CPU 向内存写入数据时,这些数据也会被写入高速缓存中。当 CPU
需要读取数据时,会直接从高速缓存中直接读取,当然,如需要的数据在Cache中没有,CPU会再去读取内存中的数据。
内存 IC 是一个完整的结构,它内部也有电源、地址信号、数据信号、控制信号和用于寻址的 IC 引脚来进行数据的读写。下面是一个虚拟的 IC 引脚示意图
图中 VCC 和 GND 表示电源,A0 - A9 是地址信号的引脚,D0 - D7 表示的是控制信号、RD 和 WR 都是好控制信号,我用不同的颜色进行了区分,将电源连接到 VCC 和 GND 后,就可以对其他引脚传递 0 和 1 的信号,大多数情况下,+5V 表示1,0V 表示 0。
我们都知道内存是用来存储数据,那么这个内存 IC 中能存储多少数据呢?D0 - D7 表示的是数据信号,也就是说,一次可以输入输出 8 bit = 1 byte 的数据。A0 - A9 是地址信号共十个,表示可以指定 - 共 2 的 10次方
= 1024个地址
。每个地址都会存放 1 byte 的数据,因此我们可以得出内存 IC 的容量就是 1 KB。
让我们把关注点放在内存 IC 对数据的读写过程上来吧!我们来看一个对内存IC 进行数据写入和读取的模型
来详细描述一下这个过程,假设我们要向内存 IC 中写入 1byte 的数据的话,它的过程是这样的:
WR(write)
的值置为 1,执行完这些操作后,即可以向内存 IC 写入数据
为了便于记忆,我们把内存模型映射成为我们现实世界的模型,在现实世界中,内存的模型很想我们生活的楼房。在这个楼房中,1层可以存储一个字节的数据,楼层号就是地址
,下面是内存和楼层整合的模型图
我们知道,程序中的数据不仅只有数值,还有数据类型
的概念,从内存上来看,就是占用内存大小(占用楼层数)的意思。即使物理上强制以 1 个字节为单位来逐一读写数据的内存,在程序中,通过指定其数据类型,也能实现以特定字节数为单位来进行读写。
我们都知道,计算机的底层都是使用二进制数据进行数据流传输的,那么为什么会使用二进制表示计算机呢?或者说,什么是二进制数呢?在拓展一步,如何使用二进制进行加减乘除?下面就来看一下
那么什么是二进制数呢?为了说明这个问题,我们先把 这个数转换为十进制数看一下,二进制数转换为十进制数,直接将各位置上的值 * 位权即可,那么我们将上面的数值进行转换
0。这个位权也叫做次幂,那么最高位就是2的7次幂,2的6次幂 等等。二进制数的运算每次都会以2为底,这个2 指得就是基数,那么十进制数的基数也就是 10 。在任何情况下位权的值都是 数的位数 - 1,那么第一位的位权就是 1 - 1 = 0, 第二位的位权就睡 2 - 1 =
那么我们所说的二进制数其实就是 用0和1两个数字来表示的数,它的基数为2,它的数值就是每个数的位数 * 位权再求和得到的结果,我们一般来说数值指的就是十进制数,那么它的数值就是 3 * 10 + 9 * 1 = 39。
在了解过二进制之后,下面我们来看一下二进制的运算,和十进制数一样,加减乘除也适用于二进制数,只要注意逢 2 进位即可。二进制数的运算,也是计算机程序所特有的运算,因此了解二进制的运算是必须要掌握的。
首先我们来介绍移位
运算,移位运算是指将二进制的数值的各个位置上的元素坐左移和右移操作,见下图
刚才我们没有介绍右移的情况,是因为右移之后空出来的高位数值,有 0 和 1 两种形式。要想区分什么时候补0什么时候补1,首先就需要掌握二进制数表示负数
的方法。
二进制数中表示负数值时,一般会把最高位作为符号来使用,因此我们把这个最高位当作符号位。 符号位是 0 时表示正数
,是 1
时表示 负数
。那么 -1 用二进制数该如何表示呢?可能很多人会这么认为:因为 1 的二进制数是 ,最高位是符号位,所以正确的表示 -1
应该是 ,但是这个答案真的对吗?
计算机世界中是没有减法的,计算机在做减法的时候其实就是在做加法,也就是用加法来实现的减法运算。比如 100 - 50 ,其实计算机来看的时候应该是 100 + (-50),为此,在表示负数的时候就要用到二进制补数
,补数就是用正数来表示的负数。
为了获得补数
,我们需要将二进制的各数位的数值全部取反,然后再将结果 + 1 即可,先记住这个结论,下面我们来演示一下。
具体来说,就是需要先获取某个数值的二进制数,然后对二进制数的每一位做取反操作(0 ---> 1 , 1 ---> 0),最后再对取反后的数 +1 ,这样就完成了补数的获取。
补数的获取,虽然直观上不易理解,但是逻辑上却非常严谨,比如我们来看一下 1 - 1 的这个过程,我们先用上面的这个 (它是1的补数,不知道的请看上文,正确性先不管,只是用来做一下计算)来表示一下
那么正确的该如何表示呢?其实我们上面已经给出结果了,那就是 ,来论证一下它的正确性
0000,结果发生了溢出
,计算机会直接忽略掉溢出位,也就是直接抛掉 最高位 1 ,变为 。也就是
所以负数的二进制表示就是先求其补数,补数的求解过程就是对原始数值的二进制数各位取反,然后将结果 + 1。
在了解完补数后,我们重新考虑一下右移这个议题,右移在移位后空出来的最高位有两种情况 0 和 1
。
将二进制数作为带符号的数值进行右移运算时,移位后需要在最高位填充移位前符号位的值( 0 或 1)。这就被称为算数右移
。如果数值使用补数表示的负数值,那么右移后在空出来的最高位补
1,就可以正确的表示 1/2,1/4,1/8
等的数值运算。如果是正数,那么直接在空出来的位置补 0 即可。
下面来看一个右移的例子。将 -4 右移两位,来各自看一下移位示意图
如上图所示,在逻辑右移的情况下, -4 右移两位会变成63
, 显然不是它的 1/4,所以不能使用逻辑右移,那么算数右移的情况下,右移两位会变为 -1
,显然是它的
1/4,故而采用算数右移。
那么我们可以得出来一个结论:左移时,无论是图形还是数值,移位后,只需要将低位补 0 即可;右移时,需要根据情况判断是逻辑右移还是算数右移。
下面介绍一下符号扩展:将数据进行符号扩展是为了产生一个位数加倍、但数值大小不变的结果,以满足有些指令对操作数位数的要求,例如倍长于除数的被除数,再如将数据位数加长以减少计算过程中的误差。
以8位二进制为例,符号扩展就是指在保持值不变的前提下将其转换成为16位和32位的二进制数。将这个正的 8位二进制数转换成为 16位二进制数时,很容易就能够得出11
1111
这个正确的结果,但是像 这样的补数来表示的数值,该如何处理?直接将其表示成为11 1111
就可以了。也就是说,不管正数还是补数表示的负数,只需要将 0 和 1 填充高位即可。
我们大家知道,计算机的五大基础部件是 存储器
、控制器
、运算器
、输入和输出设备
,其中从存储功能的角度来看,可以把存储器分为内存
和 磁盘
,我们上面介绍过内存,下面就来介绍一下磁盘以及磁盘和内存的关系
计算机最主要的存储部件是内存和磁盘。磁盘中存储的程序必须加载到内存中才能运行,在磁盘中保存的程序是无法直接运行的,这是因为负责解析和运行程序内容的 CPU 是需要通过程序计数器来指定内存地址从而读出程序指令的。
我们上面提到,磁盘往往和内存是互利共生的关系,相互协作,彼此持有良好的合作关系。每次内存都需要从磁盘中读取数据,必然会读到相同的内容,所以一定会有一个角色负责存储我们经常需要读到的内容。我们大家做软件的时候经常会用到缓存技术
,那么硬件层面也不例外,磁盘也有缓存,磁盘的缓存叫做磁盘缓存
。
磁盘缓存指的是把从磁盘中读出的数据存储到内存的方式,这样一来,当接下来需要读取相同的内容时,就不会再通过实际的磁盘,而是通过磁盘缓存来读取。某一种技术或者框架的出现势必要解决某种问题的,那么磁盘缓存就大大改善了磁盘访问的速度。
虚拟内存
是内存和磁盘交互的第二个媒介。虚拟内存是指把磁盘的一部分作为假想内存
来使用。这与磁盘缓存是假想的磁盘(实际上是内存)相对,虚拟内存是假想的内存(实际上是磁盘)。
虚拟内存是计算机系统内存管理的一种技术。它使得应用程序认为它拥有连续可用
的内存(一个完整的地址空间),但是实际上,它通常被分割成多个物理碎片,还有部分存储在外部磁盘管理器上,必要时进行数据交换。
通过借助虚拟内存,在内存不足时仍然可以运行程序。例如,在只剩 5MB 内存空间的情况下仍然可以运行 10MB 的程序。由于 CPU 只能执行加载到内存中的程序,因此,虚拟内存的空间就需要和内存中的空间进行置换(swap)
,然后运行程序。
采用的是分页式。该方式是指在不考虑程序构造的情况下,把运行的程序按照一定大小的页进行分割,并以页
为单位进行置换。在分页式中,我们把磁盘的内容读到内存中称为 Page
In
,把内存的内容写入磁盘称为 Page Out
。Windows 计算机的页大小为 4KB ,也就是说,需要把应用程序按照 4KB 的页来进行切分,以页(page)为单位放到磁盘中,然后进行置换。
为了实现内存功能,Windows 在磁盘上提供了虚拟内存使用的文件(page file,页文件)。该文件由 Windows 生成和管理,文件的大小和虚拟内存大小相同,通常大小是内存的 1 - 2 倍。
之前我们介绍了CPU、内存的物理结构,现在我们来介绍一下磁盘的物理结构。磁盘的物理结构指的是磁盘存储数据的形式。
磁盘是通过其物理表面划分成多个空间来使用的。划分的方式有两种:可变长方式
和 扇区方式
。前者是将物理结构划分成长度可变的空间,后者是将磁盘结构划分为固定长度的空间。一般
Windows 所使用的硬盘和软盘都是使用扇区这种方式。扇区中,把磁盘表面分成若干个同心圆的空间就是 磁道
,把磁道按照固定大小的存储空间划分而成的就是 扇区
扇区
是对磁盘进行物理读写的最小单位。Windows 中使用的磁盘,一般是一个扇区 512 个字节。不过,Windows 在逻辑方面对磁盘进行读写的单位是扇区整数倍簇。根据磁盘容量不同功能,1簇可以是 512 字节(1 簇 = 1扇区)、1KB(1簇 = 2扇区)、2KB、4KB、8KB、16KB、32KB( 1 簇 = 64
扇区)。簇和扇区的大小是相等的。
我们想必都有过压缩
和 解压缩
文件的经历,当文件太大时,我们会使用文件压缩来降低文件的占用空间。比如微信上传文件的限制是100
MB,我这里有个文件夹无法上传,但是我解压完成后的文件一定会小于 100 MB,那么我的文件就可以上传了。
此外,我们把相机拍完的照片保存到计算机上的时候,也会使用压缩算法进行文件压缩,文件压缩的格式一般是JPEG
。
那么什么是压缩算法呢?压缩算法又是怎么定义的呢?在认识算法之前我们需要先了解一下文件是如何存储的
文件是将数据存储在磁盘等存储媒介的一种形式。程序文件中最基本的存储数据单位是字节
。文件的大小不管是 xxxKB、xxxMB等来表示,就是因为文件是以字节 B =
文件就是字节数据的集合。用 1 字节(8 位)表示的字节数据有 256 种,用二进制表示的话就是 -
。如果文件中存储的数据是文字,那么该文件就是文本文件。如果是图形,那么该文件就是图像文件。在任何情况下,文件中的字节数都是
连续存储
的。
上面介绍了文件的集合体其实就是一堆字节数据的集合,那么我们就可以来给压缩算法下一个定义。
压缩算法(compaction algorithm)
指的就是数据压缩的算法,主要包括压缩和还原(解压缩)的两个步骤。
其实就是在不改变原有文件属性的前提下,降低文件字节空间和占用空间的一种算法。
根据压缩算法的定义,我们可将其分成不同的类型:
无损压缩:能够无失真地
从压缩后的数据重构,准确地还原原始数据。可用于对数据的准确性要求严格的场合,如可执行文件和普通文件的压缩、磁盘的压缩,也可用于多媒体数据的压缩。该方法的压缩比较小。如差分编码、RLE、Huffman编码、LZW编码、算术编码。
有损压缩:有失真,不能完全准确地
恢复原始数据,重构的数据只是原始数据的一个近似。可用于对数据的准确性要求不高的场合,如多媒体数据的压缩。该方法的压缩比较大。例如预测编码、音感编码、分形压缩、小波压缩、JPEG/MPEG。
如果编解码算法的复杂性和所需时间差不多,则为对称的编码方法,多数压缩算法都是对称的。但也有不对称的,一般是编码难而解码容易,如 Huffman 编码和分形编码。但用于密码学的编码方法则相反,是编码容易,而解码则非常难。
在视频编码中会同时用到帧内与帧间的编码方法,帧内编码是指在一帧图像内独立完成的编码方法,同静态图像的编码,如 JPEG;而帧间编码则需要参照前后帧才能进行编解码,并在编码过程中考虑对帧之间的时间冗余的压缩,如 MPEG。
在有些多媒体的应用场合,需要实时处理或传输数据(如现场的数字录音和录影、播放MP3/RM/VCD/DVD、视频/音频点播、网络现场直播、可视电话、视频会议),编解码一般要求延时 ≤50 ms。这就需要简单/快速/高效的算法和高速/复杂的CPU/DSP芯片。
有些压缩算法可以同时处理不同分辨率、不同传输速率、不同质量水平的多媒体数据,如JPEG2000、MPEG-2/4。
这些概念有些抽象,主要是为了让大家了解一下压缩算法的分类,下面我们就对具体的几种常用的压缩算法来分析一下它的特点和优劣
个半角字符的文件(文本文件)进行压缩。虽然这些文字没有什么实际意义,但是很适合用来描述 RLE
的压缩机制。
由于半角字符(其实就是英文字符)是作为 1 个字节保存在文件中的,所以上述的文件的大小就是 17 字节。如图
那么,如何才能压缩该文件呢?大家不妨也考虑一下,只要是能够使文件小于 17 字节,我们可以使用任何压缩算法。
最显而易见的一种压缩方式我觉得你已经想到了,就是把相同的字符去重化
,也就是 字符 *
重复次数
的方式进行压缩。所以上面文件压缩后就会变成下面这样
行程长度编码) 算法。RLE 算法是一种很好的压缩方法,经常用于压缩传真的图像等。因为图像文件的本质也是字节数据的集合体,所以可以用 RLE 算法进行压缩
下面我们来介绍另外一种压缩算法,即哈夫曼算法。在了解哈夫曼算法之前,你必须舍弃半角英文数字的1个字符是1个字节(8位)的数据
。下面我们就来认识一下哈夫曼算法的基本思想。
文本文件是由不同类型的字符组合而成的,而且不同字符出现的次数也是不一样的。例如,在某个文本文件中,A 出现了 100次左右,Q仅仅用到了 3 次,类似这样的情况很常见。哈夫曼算法的关键就在于 多次出现的数据用小于 8 位的字节数表示,不常用的数据则可以使用超过 8 位的字节数表示。A 和 Q 都用
不过要注意一点,最终磁盘的存储都是以8位为一个字节来保存文件的。
哈夫曼算法比较复杂,在深入了解之前我们先吃点甜品
,了解一下 莫尔斯编码
,你一定看过美剧或者战争片的电影,在战争中的通信经常采用莫尔斯编码来传递信息,例如下面
接下来我们来讲解一下莫尔斯编码,下面是莫尔斯编码的示例
,大家把 1 看作是短点(嘀),把 11 看作是长点(嗒)即可。
莫尔斯编码一般把文本中出现最高频率的字符用短编码
来表示。如表所示,假如表示短点的位是 1,表示长点的位是 11 的话,那么 E(嘀)这一数据的字符就可以用 1 来表示,C(滴答滴答)就可以用 9
位的 来表示。在实际的莫尔斯编码中,如果短点的长度是 1 ,长点的长度就是 3,短点和长点的间隔就是1。这里的长度指的就是声音的长度。比如我们想用上面的 AAAAAABBCDDEEEEEF 例子来用莫尔斯编码重写,在莫尔斯曼编码中,各个字符之间需要加入表示时间间隔的符号。这里我们用 00 加以区分。
所以使用莫尔斯电码的压缩比为 14 / 17 = 82%。效率并不太突出。
刚才已经提到,莫尔斯编码是根据日常文本中各字符的出现频率来决定表示各字符的编码数据长度的。不过,在该编码体系中,对 AAAAAABBCDDEEEEEF 这种文本来说并不是效率最高的。
下面我们来看一下哈夫曼算法。哈夫曼算法是指,为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础来进行压缩。因此,用什么样的编码(哈夫曼编码)对数据进行分割,就要由各个文件而定。用哈夫曼算法压缩过的文件中,存储着哈夫曼编码信息和压缩过的数据。
接下来,我们在对 AAAAAABBCDDEEEEEF 中的 A - F 这些字符,按照出现频率高的字符用尽量少的位数编码来表示
这一原则进行整理。按照出现频率从高到低的顺序整理后,结果如下,同时也列出了编码方案。
0 |
在上表的编码方案中,随着出现频率的降低,字符编码信息的数据位数也在逐渐增加,从最开始的 1位、2位依次增加到3位。不过这个编码体系是存在问题的,你不知道100这个3位的编码,它的意思是用 1、0、0这三个编码来表示 E、A、A 呢?还是用10、0来表示 B、A 呢?还是用100来表示 C 呢。
而在哈夫曼算法中,通过借助哈夫曼树的构造编码体系,即使在不使用字符区分符号的情况下,也可以构建能够明确进行区分的编码体系。不过哈夫曼树的算法要比较复杂,下面是一个哈夫曼树的构造过程。
自然界树的从根开始生叶的,而哈夫曼树则是叶生枝
使用哈夫曼树之后,出现频率越高的数据所占用的位数越少,这也是哈夫曼树的核心思想。通过上图的步骤二可以看出,枝条连接数据时,我们是从出现频率较低的数据开始的。这就意味着出现频率低的数据到达根部的枝条也越多。而枝条越多则意味着编码的位数随之增加。
接下来我们来看一下哈夫曼树的压缩比率,用上图得到的数据表示 AAAAAABBCDDEEEEEF 为 ,40位 = 5 字节。压缩前的数据是 17 字节,压缩后的数据竟然达到了惊人的5 字节,也就是压缩比率 = 5 / 17 = 29% 如此高的压缩率,简直是太惊艳了。
大家可以参考一下,无论哪种类型的数据,都可以用哈夫曼树作为压缩算法
最后,我们来看一下图像文件的数据形式。图像文件的使用目的通常是把图像数据输出到显示器、打印机等设备上。常用的图像格式有
图像文件可以使用前面介绍的 RLE
算法和哈夫曼算法,因为图像文件在多数情况下并不要求数据需要还原到和压缩之前一摸一样的状态,允许丢失一部分数据。我们把能还原到压缩前状态的压缩称为 可逆压缩
,无法还原到压缩前状态的压缩称为非可逆压缩
。
一般来说,JPEG格式的文件是非可逆压缩,因此还原后有部分图像信息比较模糊。GIF 是可逆压缩
程序中包含着运行环境
这一内容,可以说 运行环境 = 操作系统 + 硬件 ,操作系统又可以被称为软件,它是由一系列的指令组成的。我们不介绍操作系统,我们主要来介绍一下硬件的识别。
我们肯定都玩儿过游戏,你玩儿游戏前需要干什么?是不是需要先看一下自己的笔记本或者电脑是不是能肝的起游戏?下面是一个游戏的配置(怀念一下 wow)
操作系统版本:说的就是应用程序运行在何种系统环境,现在市面上主要有三种操作系统环境,Windows 、Linux 和 Unix ,一般我们玩儿的大型游戏几乎都是在 Windows 上运行,可以说 Windows 是游戏的天堂。Windows 操作系统也会有区分,分为32位操作系统和64位操作系统,互不兼容。
处理器:处理器指的就是 CPU,你的电脑的计算能力,通俗来讲就是每秒钟能处理的指令数,如果你的电脑觉得卡带不起来的话,很可能就是 CPU 的计算能力不足导致的。想要加深理解,请阅读博主的另一篇文章:
显卡:显卡承担图形的输出任务,因此又被称为图形处理器(Graphic Processing Unit,GPU),显卡也非常重要,比如我之前玩儿的剑灵
开五档(其实就是图像变得更清晰)会卡,其实就是显卡显示不出来的原因。
内存:内存即主存,就是你的应用程序在运行时能够动态分析指令的这部分存储空间,它的大小也能决定你电脑的运行速度,想要加深理解,请阅读博主的另一篇文章
存储空间:存储空间指的就是应用程序安装所占用的磁盘空间,由图中可知,此游戏的最低存储空间必须要大于 5GB,其实我们都会遗留很大一部分用来安装游戏。
从程序的运行环境这一角度来考量的话,CPU 的种类是特别重要的参数,为了使程序能够正常运行,必须满足 CPU 所需的最低配置。
CPU 只能解释其自身固有的语言。不同的 CPU 能解释的机器语言的种类也是不同的。机器语言的程序称为 本地代码(native code)
,程序员用 C
等高级语言编写的程序,仅仅是文本文件。文本文件(排除文字编码的问题)
在任何环境下都能显示和编辑。我们称之为源代码
。通过对源代码进行编译,就可以得到本地代码
。下图反映了这个过程。
计算机的硬件并不仅仅是由 CPU 组成的,还包括用于存储程序指令的数据和内存,以及通过 I/O 连接的键盘、显示器、硬盘、打印机等外围设备。
在 WIndows 软件中,键盘输入、显示器输出等并不是直接向硬件发送指令。而是通过向 Windows 发送指令实现的。因此,程序员就不用注意内存和 I/O 地址的不同构成了。Windows 操作的是硬件而不是软件,软件通过操作 Windows 系统可以达到控制硬件的目的。
接下来我们看一下操作系统的种类。同样机型的计算机,可安装的操作系统类型也会有多种选择。例如:AT 兼容机除了可以安装 Windows 之外,还可以采用 Unix 系列的 Linux 以及 FreeBSD (也是一种Unix操作系统)等多个操作系统。当然,应用软件则必须根据不同的操作系统类型来专门开发。CPU 的类型不同,所对应机器的语言也不同,同样的道理,操作系统的类型不同,应用程序向操作系统传递指令的途径也不同。
是有差异的。所以,如何要将同样的应用程序移植到另外的操作系统,就必须要覆盖应用所用到的 API 部分。
键盘输入、鼠标输入、显示器输出、文件输入和输出等同外围设备进行交互的功能,都是通过 API 提供的。
这也就是为什么 Windows 应用程序不能直接移植到 Linux 操作系统上的原因,API 差异太大了。
在同类型的操作系统下,不论硬件如何,API 几乎相同。但是,由于不同种类 CPU 的机器语言不同,因此本地代码也不尽相同。
操作系统
其实也是一种软件,任何新事物的出现肯定都有它的历史背景,那么操作系统也不是凭空出现的,肯定有它的历史背景。
在计算机尚不存在操作系统的年代,完全没有任何程序,人们通过各种按钮
来控制计算机,这一过程非常麻烦。于是,有人开发出了仅具有加载和运行功能的监控程序
,这就是操作系统的原型。通过事先启动监控程序,程序员可以根据需要将各种程序加载到内存中运行。虽然仍旧比较麻烦,但比起在没有任何程序的状态下进行开发,工作量得到了很大的缓解。
随着时代的发展,人们在利用监控程序编写程序的过程中发现很多程序都有公共的部分。例如,通过键盘进行文字输入,显示器进行数据展示等,如果每编写一个新的应用程序都需要相同的处理的话,那真是太浪费时间了。因此,基本的输入输出部分的程序就被追加到了监控程序中。初期的操作系统就是这样诞生了。
类似的想法可以共用,人们又发现有更多的应用程序可以追加到监控程序中,比如硬件控制程序
,编程语言处理器(汇编、编译、解析)
以及各种应用程序等,结果就形成了和现在差异不大的操作系统,也就是说,其实操作系统是多个程序的集合体。
Windows 操作系统是世界上用户数量最庞大的群体,作为 Windows 操作系统的资深
用户,你都知道 Windows 操作系统有哪些特征吗?下面列举了一些 Windows 操作系统的特性
这些是对程序员来讲比较有意义的一些特征,下面针对这些特征来进行分别的介绍
这里表示的32位操作系统表示的是处理效率最高的数据大小。Windows 处理数据的基本单位是 32
位。这与最一开始在 MS-DOS
等16位操作系统不同,因为在16位操作系统中处理32位数据需要两次,而32位操作系统只需要一次就能够处理32位的数据,所以一般在 windows 上的应用,它们的最高能够处理的数据都是 32
语言来处理整数数据时,有8位的 char
类型,16位的short
类型,以及32位的long
类型三个选项,使用位数较大的
long 类型进行处理的话,增加的只是内存以及磁盘的开销,对性能影响不大。
现在市面上大部分都是64位操作系统了,64位操作系统也是如此。
,一经查实,将立刻删除涉嫌侵权内容。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。