百度笔试题及答案

时间：2022-07-27 09:37:55 笔试题目我要投稿

相关推荐

百度笔试题及答案

　　1、vsftpd配置本地用户传输速率的参数( )

百度笔试题及答案

　　A：anon_max_rate

　　B：user_max_rate

　　C: max_user

　　D: local_max_rate

　　答案：D

　　解析：vsftpd 是一个在类UNIX 操作系统上运行的FTP服务器，它是一个完全免费的、开放源代码的ftp服务器软件。vsftp支持很多其他的 FTP 服务器所不支持的特征，比如：高安全性需求、带宽限制、良好的可伸缩性、可创建虚拟用户、支持IPv6、速率高等。

　　vsftpd配置参数中：

　　local_max_rate本地用户的传输速率限制，单位为bytes/second，如果是0 为不限制。

　　anon_max_rate匿名用户的传输速率限制，单位为bytes/second，如果是0 则不限制。

　　2、软件项目存储于/ftproot，允许apache用户修改所有程序，设置访问权限的指令( )

　　A：chmod apache -R /ftproot

　　B: chgrp apache /frproot

　　C: chown apache /ftproot

　　D: chmod apache /ftproot

　　答案：A

　　解析：B选项的chgrp命令是变更文件或目录所属群组。C选项的chown将文件的拥有者改为指定的用户或组。A、D选项的chmod 修改文件和文件夹读写执行属性;-R的作用是：可递归遍历子目录，把修改应到目录下所有文件和子目录。

　　3、设有6个结点的无向图，该图至少应有( )条边才能确保是一个连通图。

　　A：7

　　B：5

　　C：8

　　D：6

　　答案：B

　　解析：在一个无向图G中，若从顶点Vi到顶点Vj有路径相连，则称Vi和Vj是连通的。连通图是指任意两个结点之间都有一个路径相连。6个节点的无向图，至少要5个边才能确保是任意两个节点之间都有路径相连。下图是一种可能的连接方式：

　　4、关于Hadoop系统的作业任务调度等问题，以下描述错误的是( )

　　A：JobTracker是一个master服务，软件启动之后JobTracker接受Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失效的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。

　　B：JobClient会在用户端通过JobClient类对Job配置参数、打包成jar文件存储到hdfs，并把路径提交到JobTracker，然后由JobTracker创建每一个Task(即MapTask和ReduceTask)

　　C：Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。

　　D：HDFS默认Block Size为32M

　　答案：CD

　　解析：在Hadoop中，作业是使用Job对象来抽象的。JobClient负责向JobTrack提交Job：包括申请Job的ID、配置Job的运行环境、检查Job的输出配置、对Job的输入数据进行切分生成Job的目录以及相应文件(如jar、xml等)。即JobClient会在用户端通过JobClient类将配置好参数的Job打包成jar文件存储到hdfs，并把路径提交到JobTracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。

　　JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。

　　Nagios是一个可运行在Linux/Unix平台之上的开源监视系统，可以用来监视系统运行状态和网络信息。Nagios可以监视所指定的本地或远程主机以及服务，同时提供异常通知功能。Nagios可以用来监控Hadoop集群，快速定位出现问题的机器。

　　HDFS的块大小由dfs.block.size参数决定，默认是67108864，即64M。

　　5、Fisher线性判别函数的求解过程是将M维特征矢量投影在( )中进行求解。

　　A：M-1维空间

　　B：一维空间

　　C：三维空间

　　D：二维空间

　　答案：B

　　解析：Fisher线性判别函数是将多维空间中的特征矢量投影到一条直线上，也就是把维数压缩到一维。寻找这条最优直线的准则是Fisher准则：两类样本在一维空间的投影满足类内尽可能密集，类间尽可能分开，也就是投影后两类样本均值之差尽可能大，类内部方差尽可能小。一般而言，对于数据分布近似高斯分布的情况，Fisher线性判别准则能够得到很好的分类效果。

　　6、采用开放定址法处理散列表的冲突时，其平均查找长度( )

　　A：高于二分查找

　　B：高于链接法处理冲突

　　C：低于二分查找

　　D：低于链接法处理冲突

　　答案：B

　　解析：散列表(哈希表)中处理冲突的方法有开放定址(Open Addressing)法和拉链(Chaining)法等。开放定址法是指一旦发生了冲突，就去寻找下一个空的散列地址。按照探查方法不同，可将开放定址法区分为线性探查法、二次探查法、双重散列法等。拉链法解决冲突的做法是将所有关键字为同义词的结点链接在同一个单链表中。拉链法处理冲突简单，且无堆积现象，即非同义词决不会发生冲突，因此平均查找长度较短。

　　7、并发操作会带来哪些数据不一致性( )

　　A：丢失修改、脏读、死锁

　　B：不可重复读、脏读、死锁

　　C：不可修改、不可重复读、脏读、死锁

　　D：丢失修改、不可重复读、脏读

　　答案：D

　　解析：并发操作指的是多用户或多事务同时对同一数据进行操作。

　　当两个或多个事务选择同一数据，并且基于最初选定的值修改该数据时，会发生丢失修改问题。每个事务都不知道其它事务的存在，最后的更新将重写由其它事务所做的更新，这将导致修改丢失。

　　当一个事务正在访问数据，并且对数据进行了修改，而这种修改还没有提交到数据库中，这时，另外一个事务也访问这个数据，然后使用了这个数据。因为这个数据是还没有提交的数据，那么另外一个事务读到的这个数据是脏数据。

　　一个事务重新读取前面读取过的数据，发现该数据已经被另一个已提交的事务修改过。即事务1读取某一数据后，事务2对其做了修改，当事务1再次读数据时，得到的与第一次不同的值。在一个事务中前后两次读取的结果并不致，导致了不可重复读。

　　死锁是指两个或两个以上的进程在执行过程中，因争夺资源而造成的一种互相等待的现象，若无外力作用，它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁，这些永远在互相等待的进程称为死锁进程。

　　8、类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是( )

　　A：势函数法

　　B：基于二次准则的H-K算法

　　C：伪逆法

　　D：感知器算法

　　答案：D

　　解析：线性分类器的设计就是利用训练样本集建立线性判别函数式，也就是寻找最优的权向量的过程。求解权重的过程就是训练过程，训练方法的共同点是，先给出准则函数，再寻找是准则函数趋于极值的优化方法。ABC方法都可以得到线性不可分情况下分类问题近似解。感知器可以解决线性可分的问题，但当样本线性不可分时，感知器算法不会收敛。

　　9、假设有4条语句S1:a=5x; S2:b=5+y;S3:c=a+b;S4:d=c+y;根据Bernstein条件，下面说法正确的是( )

　　A：S1,S4可并发执行

　　B：S1,S2不可并发执行

　　C：S2,S3可并发执行

　　D：S3,S4不可并发执行

　　答案：D

　　解析：Bernstein条件是指两个过程如果有数据冲突，那么就没法并行执行。

　　A选项中，S4需要读数据c，而S3中数据c依赖于a，因此S4依赖于S1的结果，S1、S4不可并发执行。B选项中，S1依赖于x，S2依赖于y，S1和S2之间没有数据冲突，可以并发执行。C选项中，S3依赖于b，S3和S2之间有数据冲突，不可并发执行。D选项中，S4需要数据c，S4的执行依赖S3的结果，不可并发执行。

　　10、在C++语言中，若要对Data类中重载的加法运算符成员函数进行声明，下列选项中正确的是( )

　　A：Data+operator(Data);

　　B: Data+(Data);

　　C: Data operator+(Data);

　　D: Data operator+(Data,Data);

　　答案：C

　　解析：运算符重载声明形式为：返回类型 operator运算符(参数表);由于加法是二目运算符，作为类成员函数，还需要一个数据做“被加数”，因此参数列表中Data的数目是1个。此外，使用友元函数也能够达到同样的目的，其声明为friend Data operator+(Data,Data)，因为友元函数不是类的成员函数，没有this指针，其形参数目与运算符需要的数目相同。

　　11、在一个带头结点的单链表HL中，若要在第一个元素之前插入一个由指针p指向的结点，应该使用的语句为：( )

　　A：HL =p; p->next =HL;

　　B: p->next =HL ;HL =p;

　　C: p->next =HL ->next;HL ->next =p;

　　D: p->next =HL ;p =HL;

　　答案：C

　　解析：在插入节点时：先要将待插入节点p的后继节点设为第一个元素，也就是p->next =HL ->next。然后再将头结点HL的后继节点改为p节点，HL ->next =p。下图中红色的箭头说明了插入操作执行的顺序，如果顺序不当，就会丢失指向第一个元素的指针，破坏链表结构。

　　12、在KMP算法中，已知模式串为ADABCADADA，请写出模式串的next数组值( )

　　A：0,1,1,2,1,1,2,3,4,3

　　B：1,2,3,2,1,1,2,4,4,3

　　C：0,1,1,1,2,1,2,3,4,3

　　D：2,1,1,2,1,1,2,3,3,4

　　答案：A

　　解析："前缀"指除了最后一个字符以外，一个字符串的全部头部组合;"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。next数组值就是"前缀"和"后缀"的最长的共有元素的长度。

　　首先求最大相同前缀后缀长度。"A"的前缀和后缀都为空集，没有共有元素，共有元素长度为0;"AD"的前缀为[A]，后缀为[D]，没有共有元素，共有元素长度为0;"ADA"的前缀为 [A, AD]，后缀为[DA, A]，共有元素为A，长度为1;"ADAB"的前缀为[A, AD, ADA]，后缀为[DAB, AB,B ]，共有元素长度为0;以此类推，最大公共元素长度为0,0,1,0,0,1,2,3,2。

　　然后将最长相同前缀后缀长度值右移一位，并将next[0]初值赋为-1，得到的next数组：-1,0,0,1,0,0,1,2,3,2。

　　在某些语言中，数组不是从0开始索引的，而是从1开始索引，只需要将next数组中每个值加1,得到0,1,1,2,1,1,2,3,4,3。

　　13、影响聚类算法效果的主要因素有( )

　　A：特征选取

　　B：已知类别的样本质量

　　C：模式相似性测度

　　D：分类准则

　　答案：ACD

　　解析：聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(Density-Based Methods)、基于网格的方法(Grid-Based Methods)、基于模型的方法(Model-Based Methods)、谱聚类(Spectral Clustering)等，不用的方法对聚类效果存在差异(D正确);特征选取的差异会影响聚类效果(A正确)。聚类的目标是使同一类对象的相似度尽可能地大，因此不同的相似度测度方法对聚类结果有着重要影响(C正确)。由于聚类算法是无监督方法，不存在带类别标签的样本，因此，B选项不是聚类算法的输入数据。

【百度笔试题及答案】相关文章：