我曾经自学过C++,现在回想起来,当时是什么都不懂。说不上能使用C++,倒是被C++牵着鼻子走了。高中搞NOIP并不允许使用STL库,比赛中C++面向对象的机制基本没有什么用武之地,所以高中搞NOIP名为用C++,其实就是c加上了cout和cin。
前几天看韩老师的《老码识途》,里面记录了一些C++面向对象机制的探索,又勾起了我的兴趣。而这个学期自学了汇编,又给了我自己动手探索提供了能力基础,自己上手以后,从一个更加底层的视角看C++机制的实现,让我在黑暗中摸到了驯服C++的缰绳。
本质上是指针,这一点即使大家没有看反汇编应该也是猜到了。
对象在内存上的布局:
1: class Father
2: {
3: int iA_;
4: int iB_;
5:
6: void FuncA();
7: void FuncB();
8: };
9:
10: class Child : Father
11: {
12: int iC_;
13: void FuncC();
14: };
一个Father对象里只包含 (低地址 –> 高地址) : iA_,iB_。也就是一个Father对象的大小是8个字节,函数并不会占用内存空间。
为什么不会?
其实类的成员函数可以看做本质上与普通函数相同。
编译器在编译的时候就知道函数的位置,所以调用普通函数的时候会直接 call 函数地址(偏移)。也就是被硬编码了,函数的地址是固定的( 不考虑重定位之类的情况 )。
而成员函数的调用也是如此,只是编译器还多做了一件事情,就是判断这个对象有没有调用这个函数的“权限”(函数不是你声明的,当然无权调用),“权限”不够就会报错,告诉那个对象类型没有这个方法。
所以,类对象的大小与这个类的方法数多少是没关系的。成员函数和普通函数本质上一样,实现这个机制,要靠编译器来做工作。
this指针:
成员函数与普通函数不同之处之一就是访问对象的数据。
要访问一个对象的元素,说白了就是要找到这个元素所在的内存位置,也就是要有指针。
我们没有看到传递this指针,因为这件事又是编译器帮我们做了。
反汇编会看到对象调用一个方法的时候,会将这个对象的首部地址赋值给ecx寄存器,通过寄存器来传递this指针。
我们在成员函数里可以不需明写this指针地调用对象元素,还是因为编译器帮我们多做了一步“翻译”。
私有化:
不多说,就是编译器在编译阶段通过源码来判断某个元素是不是能够被访问,某个方法是不是能够被调用,运行的时候并不会有访问限制。看代码:
1: #include <stdio.h>
2:
3: class Exp
4: {
5: int iA_;
6: int iB_;
7:
8: public:
9: Exp()
10: {
11: iA_ = iB_ = 0;
12: }
13: void Out()
14: {
15: printf("%d \t %d \n",iA_,iB_);
16: }
17: };
18:
19: int main()
20: {
21: Exp oA;
22: void *pC = &oA;
23:
24: oA.Out();
25: *(int*)pC = 1;
26: *(int*)((int)pC+4) = 2;
27: oA.Out();
28:
29: return 0;
30: }
结果是: 0 0
1 2
虽然 iA_,iB_是私有的,但是还是被外界修改了。因为编译器无法知道我干了这事(显式的 oA.iA_ = 1 就被发现了哈)
构造与析构:
说道底还是编译器帮我们在多做了一些工作,生成了一些额外代码。
需要注意的是:
1: void Test( Father oP )
2: {
3: }
4:
5: int main()
6: {
7: Father oA;
8: Test(oA);
9: return 0;
10: }
会调用拷贝构造函数。
重载:
一样还是编译器的功劳,C++最后生成的函数名是与参数有关的,所以又不同参数的函数最后生成的函数名不同,看似同名,实则不同。在函数调用的时候,编译器会判断参数的类型,相应的可以生成一个函数名进行“匹配”。( 当然不止这么简单,还会考虑发生类型转换的情况 )
继承:
从内存布局的角度上看
1: struct Child : Father
和
1: struct Child
2: {
3: Father o;
4: //other
5: };
相同(虚函数情况后面讨论)。子类的前面部分和父类是一样的。
所以一个接受 Father * 参数的函数可以接受 Child *参数,而且转换是安全的。
有 Father & 类型参数的函数可以接受 Child &,但是继承方式要public。But , why ?
protected和private继承模式,子类继承的父类的接口对外都是隐藏的,所以以一个Father &传入的参数所有的方法元素原则上是不可用的,用了肯定是违反规则的,编译器判定这一点,所以报错。
虚函数:
比较特别的是这个。
Question:为什么需要虚函数?
网上看到的答案:基类可以通过虚函数对子类的相识功能进行管理。(我的C++primer被借走以后就此失踪,所以只能网上找了)。
虚函数具体怎么回事就不细说了,讨论一下背后的机制。
为了能够实现虚函数,每个有虚函数的类有一张对应的虚表。这个虚表储存在只读内存区,记录了对应函数的地址。(PS:一个类就只有一个虚表)
每个类对象都要保存一个虚表指针,保存本类的虚表地址。所以你使用 Father *指针指向一个Child对象,调用的虚函数是Child的。
虚表指针保存在每个对象的首部。
1: class Child : Father
2: {
3: int iC_;
4: void FuncC();
5: virtual void VF();
6: };
现在这个Child对象较前面的多了四个字节。内存布局(从低地址到高地址)是:虚表指针__vfptr,iA_,iB_,iC_。
好。问题来了,Child继承了Father,但是Father的函数并没有为Child再量身定做一次,也就是说无论是Father对象还是Child对象,他们调用FuncA()都是同一个函数。但是Father并没有__vfptr,Child对象在头部多了这个,FuncA()中用this指针定位iA_和iB_不是都不正确吗?
现象告诉我们FuncA()是可以正确访问iA_和iB_,所以推测Child对象在调用FuncA的时候,传的不是真正的首部地址,而是往后偏移了四个字节。
反汇编,确实如此。这么说Father类里不能调用虚函数了?当然,Father都还不知道虚函数这回事,怎么在FuncA中调用。
还有一个有趣的现象:
1: #include <stdio.h>
2:
3: class Base
4: {
5: public:
6: virtual void ShowID()
7: {
8: printf("Base\n");
9: }
10: };
11:
12: class CB : public Base
13: {
14: public:
15: virtual void ShowID()
16: {
17: printf("CB\n");
18: }
19: };
20:
21: class CC : public Base
22: {
23: public:
24: virtual void ShowID()
25: {
26: printf("CC\n");
27: }
28: };
29:
30: void Test( CB& oB )
31: {
32: oB.ShowID();
33: }
34:
35: int main()
36: {
37: Base oBase;
38: CB oB;
39: CC oC;
40:
41: CB* pCB = &oB;
42:
43: *(int*)(&oB) = *(int*)(&oC); //修改虚表指针
44: oB.ShowID();
45: ((CB*)(&oB))->ShowID();
46: pCB->ShowID();
47: Test(oB);
48:
49: return 0;
50: }
猜猜结果啊,买定离手。
结果是:CB CB CC CC
在43行的地方,修改了oB的虚表指针,让其指向CC类的虚表。
但是oB.ShowID()没理会我们的修改,还是调用CB类的ShowID。反汇编,发现他没走“获取虚表指针,在虚表中得到相应的函数地址”这一套,直接调用了。因为一般人不会闲着蛋疼去改对象的虚表指针的,对象的类型是明确的,编译器可以通过这些信息确定调用的函数地址,所以没必要走他一套,这样效率还更高。
而pCB->ShowID()就不同了,他很乖地地走了流程,因为一个父类指针可以指向一个子类对象,编译器无法找信息,所以走流程。
那现在纠结了,为神马 ((CB*)(&oB))->ShowID() 输出CB。
反汇编看,发现编译器又擅自做主,没有走指针的流程。
那你猜猜((Base*)(&oB))->ShowID();输出的是什么?CC。
比较二者的差异,可以大概发现一些端倪,什么时候走流程,什么时候不走。
最后是Test(oB)了,前面说过引用的本质是指针,所以这个结果很好理解。
还有,想过
1: void Test2( Base oP )
2: {
3: oP.ShowID();
4: }
拷贝的时候有没有拷贝虚表指针吗?试试就知道,厄…发现没有。
前面说过这样会调用拷贝构造函数,但是你在这个函数你没有写虚表指针的赋值。但是邪恶的编译器已经帮你悄悄加上去了哈哈哈哈~。(唉?节操呢)
RTTI
每个类有特定的虚表地址,每个对象会保存这个虚表地址,应该想到了吧,偷懒,不写了。
综上。可以看到,面向对象机制在底层并不特别,机制的实现主要靠的是编译器。