1.c++多态,用什么实现,以及好处
最常见的用法就是声明一个基类,让其子类继承他的虚函数,使用指向子类的父类指针调用该虚函数,则会调用子类相应的函数,如果在父类不声明为虚函数,则会调用父类的方法。
继承的用处是拓展已存在的代码,封装可以让代码模块化,以上都是为了接口的重用,而多态可以实现接口重用,不论传递过来的是哪个类型的对象,都可以用同一个接口调用。
2.数组和链表的区别,如何选择;
a.数组在声明的时候必须要声明大小,且大小就固定了,如果数据超出数组的大小,会造成溢出,而指针则动态的进行存储分配
b.数组在内存里面是连续的,而链表则是可以不联系的
数组可以用下标随时存取,而链表的删除插入比较方便。
3.stl:实现vector
vector是一块动态的连续存储空间。
push_back: vector增加大小的时候,如果事先分配的内存不够了,则要把之前的内容全部放入一个新的更大的存储空间,注销掉之前的空间,注意一旦引起内存的重新分配,所有之前的指针就会失效
删除:有两种方式 erase 和 pop_back, 通过迭代器使用 erase 在删除,在删除之后后面的元素向前移动一位,
iterator:迭代器是对指针的一个智能封装,不同类型的迭代器对相同的操作,会有不同的实现方式。
5.一个数组中连续下标的最大值之和(一点动规):
#include
#include
using namespace std;
int main()
{
int size;
vector re;
cin>>size;
int temp;
for(int i=0;i<=size-1;i++)
{
cin>>temp;
re.push_back(temp);
}
int sum,maxsum;
sum=re[0];
maxsum=re[0];
for(int i=1;i<=size-1;i++)
{
if(sum<0) sum=re[i];
else sum+=re[i];
if(sum>maxsum)
{
maxsum=sum;
}
}
cout<
6.最后一个问题,关于mapreduce排序的问题;
排序的基本思想是利用了mapreduce的自动排序功能,在hadoop中,从map到reduce阶段,map出来的结构会按照各个key按照hash值分配到各个reduce中,其中,在reduce中所有的key都是有序的了。如果使用一个reduce,那么我们直接将他output出来就行了,但是这不能够体现分布式的好处,所以,我们还是要用多个reduce来跑,多个reduce会由partition将其分配到各个reduce,不免会造成乱序,所以才会有以下的做法。
比方说我们有1000个1-10000的数据,跑10个ruduce任务, 如果我们运行进行partition的时候,能够将在1-1000中数据的分配到第一个reduce中,1001-2000的数据分配到第二个reduce中,以此类推。即第n个reduce所分配到的数据全部大于第n-1个reduce中的数据。这样,每个reduce出来之后都是有序的了,我们只要cat所有的输出文件,变成一个大的文件,就都是有序的了。
基本思路就是这样,但是现在有一个问题,就是数据的区间如何划分,在数据量大,还有我们并不清楚数据分布的情况下。一个比较简单的方法就是采样,假如有一亿的数据,我们可以对数据进行采样,如取10000个数据采样,然后对采样数据分区间。在Hadoop中,patition我们可以用TotalOrderPartitioner替换默认的分区。然后将采样的结果传给他,就可以实现我们想要的分区。在采样时,我们可以使用hadoop的几种采样工具,RandomSampler,InputSampler,IntervalSampler。
这样,我们就可以对利用分布式文件系统进行大数据量的排序了,我们也可以重写Partitioner类中的compare函数,来定义比较的规则,从而可以实现字符串或其他非数字类型的排序,也可以实现二次排序乃至多次排序。
以上。。。。