怪数额~说说Hadoop葡京娱乐总站平台

目标:

Hadoop是一个由于Apache基金会所开之分布式系统基础架构。

(1)创建Source Insight
工程,方便前面分析哪些启动水源的

用户可以当未了然分布式底层细节之情形下,开发分布式程序。充足利用集群的威力举办高效运算和贮。

(2)分析uboot传递参数,链接脚本咋样进入stext的 

 Hadoop实现了一个分布式文件系统(Hadoop Distributed File
System),简称HDFS。HDFS有高容错性的风味,并且计划用来配置在物美价廉的(low-cost)硬件及;而且它们提供高吞吐量(high
throughput)来访问应用程序的数,适合那么些拥有超大数据集(large data
set)的应用程序。HDFS放宽了(relax)POSIX的求,可以以流的格局拜访(streaming
access)文件系统中的数额。

(3) 分析stext函数怎么样启动水源:

Hadoop的框架最中央的统筹虽是:HDFS和MapReduce。HDFS为海量的数码提供了储存,则MapReduce为海量的多少提供了匡。

 

优点

Hadoop是一个可知对大气数码开展分布式处理的软件框架。 Hadoop
因同种保险、高效、可伸缩的法展开数据处理。

Hadoop
是不费吹灰之力的,因为它即使统计元素和贮会破产,因而她爱护多独干活数据副本,确保可以对黄的节点重新分布处理。

Hadoop 是急速的,因为其坐互动的主意行事,通过并行处理加快处理速度。

Hadoop 仍然只是伸缩的,能够处理 PB 级数据。

此外,Hadoop 依赖让社区服务,由此她的资金较小,任何人都足以采纳。

Hadoop是一个可以被用户轻松架构和接纳的分布式计算平台。用户可轻松地在Hadoop上付出与运行处理海量数据的应用程序。它最重要有以下几个亮点:

  1. 高可靠性。Hadoop按位存储和拍卖数据的能力值得人们相信。

  2. 赛增添性。Hadoop是以可用之微处理器集簇间分配数据并做到总计任务之,那些集簇可以便宜地扩张至数以千计的节点受到。

  3. 高效性。Hadoop可以当节点内动态地走多少,并确保各类节点的动态平衡,因而处理速度非常快。

  4. 高容错性。Hadoop可以自动保存数据的基本上个副本,并且会自行将破产的职责重新分配。

  5. 低成本。与一体机、商用数据仓库以及QlikView、Yonghong
    Z-Suite等数会相相比,hadoop是开源之,项目之软件成本因而会大大降低。

Hadoop带有用Java语言编写的框架,由此运行于 Linux
生产平台达成是颇精彩之。Hadoop 上之应用程序也得以以外语言编写,比如
C++。

hadoop大数额处理的含义

Hadoop得以以至极数目处理下被广泛使用得益于这些自身以数提取、变
形和加载(ETL)方面上的原始优势。Hadoop的分布式架构,将大数额处理引擎尽可能的濒临存储,对像像ETL这样的批判处理操作相对合适,因为类似
这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce成效实现了将单个任务打碎,并拿零散任务(Map)发送至大半只节点上,之后还因为
单个数据集的样式加载(Reduce)到数据仓库里。

     (3.1)
关闭irq和fiq,设置svc管理格局

子项目

Hadoop Common:
在0.20暨从前的本子被,包含HDFS、MapReduce和另品种集体内容,从0.21始发HDFS和MapReduce被分开为独立的子项目,此外内容呢Hadoop
Common

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop
Distributed File System)

MapReduce:并行统计框架,0.20前以 org.apache.hadoop.mapred
旧接口,0.20本子先导引入org.apache.hadoop.mapreduce的新API

HBase: 类似GoogleBigTable的分布式NoSQL列数据库。(HBase和Avro已经让二零一零年十月成一流Apache 项目)

Hive:数据仓库工具,由非死不可贡献。

Zookeeper:分布式锁设施,提供类似谷歌Chubby的功效,由Facebook贡献。

Avro:新的数量系列化格式和传输工具,将渐次取代Hadoop原有的IPC机制。

Pig: 大数据解析平台,为用户提供多接口。

Ambari:Hadoop管理工具,可以很快的监察、部署、管理集群。

Sqoop:于以HADOOP与风俗的数据库中展开数量的传递。

 

伯父总计

通过地方相关阅读,让我们精晓到hadoop是一个翻天覆地的工具集,里面来分布式文件存储,并行云总计,分布式事务锁,大数额解析等一律多重工具,确实够你喝一样壶的!

当,假如你认为它吓,如故越早迈出第一步越好!

 

     (3.2)判断是要么协助此CPU

 

   
 (3.3)判断是否襄助那多少个单板(通过uboot传入的机ID判断)

 

   
 (3.4)创立页表,为后的MMU做准备

 

     (3.5)
使能MMU并跳到__switch_data处,复制数据段,清除bss段,设置栈,调用start_kernel第一个C函数


 

1 创制基础source
sight 工程

1.1
点击 “add all”
添加所有文件,后边还渐渐删去Arch目录和Include目录中同2440芯片没有因而的文书。

 葡京娱乐总站平台 1

1.2 点击Remove Tree
删除Arch文件夹,再补充加同2440相关的硬件主旨代码和此外祖父用的代码

葡京娱乐总站平台,  Arch:包含了平台,处理器相关的代码,并连boot文件夹。

1.2.1 点击Add
Tree添加以下子目录:

           linux-2.6.22.6/arch/arm/boot   (启动配置文件) 

           linux-2.6.22.6/arch/arm/common      (公共文件)  

           linux-2.6.22.6/arch/arm/configs    (配置文件)  

           linux-2.6.22.6/arch/arm/kernel         (内核文件)         

           linux-2.6.22.6/arch/arm/lib            (固件库)  

           linux-2.6.22.6/arch/arm/mach-s3c2440  (machine
设备,2440设备库)  

           linux-2.6.22.6/arch/arm/mach-s3c2410  
(2440惨遭有的调用了2410要备库)  

           linux-2.6.22.6/arch/arm/Mm     (内存管理文件)  

           linux-2.6.22.6/arch/arm/nwfpe             

           linux-2.6.22.6/arch/arm/oprofile         (性能分析工具文件)  
             

           linux-2.6.22.6/arch/arm/plat-s3c24xx    (s3c24体系平台文件)  
   

           linux-2.6.22.6/arch/arm/tools     (常用工具文件)            
             

           linux-2.6.22.6/arch/arm/vfp   (浮点运算文件)                              

1.3 点击Remove Tree
删除Include文件夹,再添加与2440息息相关的条文件

Include: 包括了着力之绝大多数include文件,其它对于每种协理的网布局分别发一个子目录 

1.3.1
点击Add All
添加 linux-2.6.22.6/include/asm-arm目录下文件(不保证含子目录所有文件),如下图所示:

 葡京娱乐总站平台 2

 

1.3.2 点击Add Tree添加以下子目录:  
     
 

         
 linux-2.6.22.6/include/asm-arm/arch-s3c2410     (2410电脑架构)      
    

         
 linux-2.6.22.6/include/asm-arm/hardware    (硬件相关头文件)

         
 linux-2.6.22.6/include/asm-arm/mach             (具体的设施文件)

         
 linux-2.6.22.6/include/asm-arm/plat-s3c24xx   (s3c24序列平台头文件)
 

1.3.3赶回回到 linux-2.6.22.6/include目录下,点击Add
Tree添加除了asm-xx初叶的任何通用文件: 
   

            linux-2.6.22.6/include/acpi  
          (高级配置与电源接口文件)  

           
linux-2.6.22.6/include/config 

           
linux-2.6.22.6/include/crypto 

           
linux-2.6.22.6/include/keys

           
linux-2.6.22.6/include/linux

           
linux-2.6.22.6/include/math-emu

            linux-2.6.22.6/include/mtd  
   

           
linux-2.6.22.6/include/net 

           
linux-2.6.22.6/include/pcmcia

           
linux-2.6.22.6/include/rdma

           
linux-2.6.22.6/include/rxrpc

           
linux-2.6.22.6/include/scsi

           
linux-2.6.22.6/include/sound

           
linux-2.6.22.6/include/video

 葡京娱乐总站平台 3
                     

1.4 最终点击synchronize files  
 创制source insight工程

 

 

2.外对启动的分析uboot传递参数与链接脚本

2.1
内核在uboot启动在此以前是跻身do_boom_linux函数

(do_boom_linux函数启动水源详解:http://www.cnblogs.com/lifexy/p/7310279.html)

do_boom_linux代码如下:

theKernel = (void (*)(int, int, unsigend int))0x30008000;

// 设置theKernel地址=0x30008000,用于后面启动内核

/*设置atag参数*/

setup_start_tag (void);                      //从0X30000100地址处开始保存start_tag数据,

setup_memory_tags (void);         //保存memory_tag数据,让内核知道内存多大 setup_commandline_tag (“boottargs=noinitrd root=/dev/mtdblock3 init=/linuxrc console=ttySAC0”);  

 /*保存命令行bootargs参数,让内核知道根文件系统位置在/dev/mtdblock3,指定开机运行第一个脚本/linuxrc,指定打印串口0*/

setup_end_tag (void);                        //初始化tag结构体结束

theKernel(0,362,0x300000100);        //362:机器ID,  0x300000100: params(atag)参数地址

/*传递参数跳转执行到0x30008000启动内核,           */

/*相当于: mov r0,#0                                */

/*ldr r1,=362                                       */

/*ldr r2,= 0x300000100                             */

/*mov pc,#0x30008000                            */

TAG参数内存布局图如下:

 葡京娱乐总站平台 4

2.2然新生分析链接脚本arm/arm/kernel/vmlinux.lds

OUTPUT_ARCH(arm)                    //设置输出文件的体系架构

 ENTRY(stext)                          //设置stext全局符号为入口地址

 jiffies = jiffies_64;

SECTIONS
{
. = (0xc0000000) + 0x00008000;               

/*设置内核虚拟地址=0xc0000000+0x00008000 */
.text.head : {
  _stext = .;
  _sinittext = .;
  *(.text.head)         //添加所有.text.head段
}
.init : { /* Init code and data                */
   *(.init.text)
  _einittext = .;
  __proc_info_begin = .;
   *(.proc.info.init)               //存放处理器相关的信息初始化
  __proc_info_end = .;
  __arch_info_begin = .;
   *(.arch.info.init)              //存放与架构(arch)相关的信息(info)初始化
  __arch_info_end = .;
...  ...

起vmlinux.lds中汲取linux内核启动第一步是上stext入口函数。

这stext入口函数又当何定义之也罢?

搜索ENTRY(stext)得出,它在arch/arm/kernel/head.S中,

stext函数的于松开条件是:MMU, D-cache,
关闭; r0 = 0, r1 = machine nr, r2 = atags prointer.代码如下:

/*

 * Kernel startup entry point.                      //内核 启动 入口 点

 * ---------------------------

 *

 * This is normally called from the decompressor code.  The requirements

 * are: MMU = off, D-cache = off, I-cache = dont care, r0 = 0,  

/* 前置条件是:MMU, D-cache, 关闭; r0 = 0, r1 =机器ID, r2 =atag参数地址.*/

 * r1 = machine nr.

* This code is mostly position independent, so if you link the kernel at

 * 0xc0008000, you call this at __pa(0xc0008000).

* See linux/arch/arm/tools/mach-types for the complete list of machine

 * numbers for r1.

 *

 * We're trying to keep crap to a minimum; DO NOT add any machine specific

 * crap here - that's what the boot loader (or in extreme, well justified

 * circumstances, zImage) is for.

 */

 section ".text.head", "ax"                      /* 定义一个.text.head段,段的属性a是允许段,x可 执行 */ 

         .type  stext, %function                /*定义了由bootloader进入内核的入口stext */

ENTRY(stext)

... ...

 

其的机能是取总结机类型及机械类型音讯,并成立临时的页表,然后被MMU效能(因为基本代码中全都是0XCxxxxxxx地址),并超越上第一个C语言函数start_kernel。

所以,本启动后率先步
进入arch/arm/kernel/head.S的stext函数中.

3舅核查启动之stext函数分析(arch/arm/kernel/head.S)

stext函数内容,如下图:

(1) 关闭irq和fiq,设置svc管理情势

(2)判断是仍旧支撑这CPU

(3)判断是否补助是单板(通过uboot传入的机器ID判断)

(4)创造页表,为后的MMU做准备

(5)
使能MMU并跳到__switch_data处,复制数据段,清除bss段,设置栈,调用start_kernel第一个C函数

葡京娱乐总站平台 5

   

stext函数代码如下:  

section ".text.head", "ax"                          /* 定义一个.text.head段,段的属性a是允许段,x可 执行 */ 

         .type   stext, %function                     /*定义了由bootloader进入内核的入口stext */

ENTRY(stext)                                    //入口地址stext函数

      /*msr cpsr_c,0xD3   关闭irq和fiq,设置svc管理模式  */

         msr    cpsr_c, #PSR_F_BIT | PSR_I_BIT | SVC_MODE @ ensure svc mode 

                                                          @ and irqs disabled

     /*获取cpu ID */

         mrc    p15, 0, r9, c0, c0              @ get processor id

     /*查找内核是否支持r9这个cpuID,若不支持r5=0,支持r5=处理器ID*/

         bl       __lookup_processor_type             @ r5=procinfo r9=cpuid

         movs  r10, r5                                      @ invalid processor (r5=0)?

      /*不支持则跳转到__error_p,死循环*/

         beq     __error_p                         @ yes, error 'p'

     /*查找内核是否支持uboot传入的r1机器ID(362),若不支持r5=0,支持r5=机器ID*/

         bl       __lookup_machine_type              @ r5=machinfo

         movs  r8, r5                              @ invalid machine (r5=0)?

     /*不支持则跳转到__error_a,死循环*/

         beq     __error_a                         @ yes, error 'a'

 /*跳转到__create_page_tables 创建页表,为后面的MMU做准备*/

         bl       __create_page_tables               

 

3.1
分析者”__lookup_machine_type函数”是哪些通过搜寻r1机器ID(362)是要等单板机器ID的,代码如下(位于arch/arm/kernel):

3:       .long  .
         .long  __arch_info_begin
         .long  __arch_info_end


__lookup_machine_type:

         /*(b:bank)r3=后面的符号3处. 虚拟地址,由于mmu未启动,所以=物理地址*/
adr     r3, 3b               
         ldmia  r3, {r4, r5, r6}/* r4=3b处的虚拟地址 ,r5=__arch_info_begin处的虚拟地址,r6=__arch_info_end处的虚拟地址   */
         sub     r3, r3, r4                         @ get offset between virt&phys //得到虚拟地址(virtual)与物理地址(physical)的偏移值
         add     r5, r5, r3                         @ convert virt addresses to  //找到arch_info_begin处的物理地址
         add     r6, r6, r3                         @ physical address space    //找到__arch_info_end处的物理地址
1:       ldr      r3, [r5, #MACHINFO_TYPE]      @ get machine type   //r3=r5+偏移地址里内容= 单板机器ID
         teq     r3, r1                                  //判断r1(365)和单板机器ID是否相等,相等说明内核支持该单板
         beq     2f                                   @ found   //相等则直接返回到stext函数继续执行
         add     r5, r5, #SIZEOF_MACHINE_DESC      @ next machine_desc
         cmp    r5, r6

         blo     1b
         mov   r5, #0                             @ unknown machine  //r5=0,不支持该单板
2:       mov   pc, lr                       //退出

其中__arch_info_begin和__arch_info_end是当链接脚本arm/arm/kernel/vmlinux.lds中定义:

305  __arch_info_begin = .;           //__arch_info_begin=信息开始地址
306     *(.arch.info.init)              //存放架构相关的信息初始化
307  __arch_info_end = .;           //__arch_info_end =信息结束地址

通过grep  “.arch.info.init” 
-nR其中.arch.info.init段在include/asm-ram/mach/arch.h中53行处定义:

 葡京娱乐总站平台 6

代码如下:

#define MACHINE_START(_type,_name)                     //定义了一个MACHINE_START宏, _type:CPU名字,_name:开发板名字
static const struct machine_desc __mach_desc_##_type \      //##:连词符号
 __used                                                                \
 __attribute__((__section__(".arch.info.init"))) = {       \  //强制将  MACHINE_START宏里的成员组成.arch.info.init段
         .nr               = MACH_TYPE_##_type,          \ 
         .name           = _name,


#define MACHINE_END                               \       //定义宏MACHINE_END=   };

};

搜索MACHINE_START宏发现arch/arm目录下每个文件还使了那多少个宏定义,由于大家采取的凡S3C2440暨SMDKs3c2440

 葡京娱乐总站平台 7

所以得出使用宏#define
MACHINE_START(_type,_name)的是:

1 MACHINE_START(S3C2440, "SMDK2440")       
2     /* Maintainer: Ben Dooks <ben@fluff.org> */
3     .phys_io  = S3C2410_PA_UART,
4     .io_pg_offst    = (((u32)S3C24XX_VA_UART) >> 18) & 0xfffc,
5     .boot_params  = S3C2410_SDRAM_PA + 0x100,
6
7     .init_irq   = s3c24xx_init_irq,
8     .map_io          = smdk2440_map_io,
9     .init_machine  = smdk2440_machine_init,
10   .timer             = &s3c24xx_timer,
11  MACHINE_END

 

个中点第1段落用的宏就是事先在arch.h中定义之MACHINE_START(_type,_name),其中_type替换成S3C2440,
_name替换成”SMDK2440″.

第11段的MACHINE_END于被arch.h中定义也当“};”

最终

拿宏定义代入下面MACHINE_START(S3C2440,
“SMDK2440”)处之11段代码中,展开如下所示:

static const struct  machine_desc  __mach_desc_ S3C2440  //定义一个machine_desc型结构体,名字为__mach_desc_ S3C2440
 __used                                                                \
 __attribute__((__section__(".arch.info.init"))) = {        //强制将MACHINE_START宏里的成员组成.arch.info.init段
         .nr               = MACH_TYPE_ S3C2440,  // __mach_desc_ S3C2440.nr= MACH_TYPE_ S3C2440  机器ID
         .name           = "SMDK2440",              //__mach_desc_ S3C2440. name = "SMDK2440"  机器ID名字   

       /* Maintainer: Ben Dooks <ben@fluff.org> */
    /*.phys_io  =0X50000000,存放物理IO基地址*/
       .phys_io  = S3C2410_PA_UART,         

 /* .io_pg_offst存放物理IO偏移地址*/  
       .io_pg_offst    = (((u32)S3C24XX_VA_UART) >> 18) & 0xfffc,   





/*其中S3C2410_SDRAM_PA=0X30000000, .boot_params= 0X30000100,所以我们uboot传入的atag参数地址必须是0X30000100*/
.boot_params  = S3C2410_SDRAM_PA + 0x100, 

.init_irq = s3c24xx_init_irq,        
       .map_io          = smdk2440_map_io,     
       .init_machine  = smdk2440_machine_init,    
      .timer             = &s3c24xx_timer,   
  };                                        // MACHINE_END替换成  };

 

于者可以见见倘诺起头化了machine_desc结构体,然后将该放在.arch.info.init段上,让
内核启动时以uboot传递进入的ID与之段子及之ID举行较是否适合,支非协理该单板先河化。

为不同的单板都来例外MACHINE_START(_type,_name)以及硬件及恐怕发出入,所以需要起初化的内容吧不同

回去stext函数中持续往下看:

ldr   r13, __switch_data             @ address to jump to after
//MMU使能之后会跳转(jump)到__switch_data@ mmu has been enabled 

adr  lr, __enable_mmu              @ return (PIC) address//使能MMU
add pc, r10, #PROCINFO_INITFUNC  

 

为何要能MMU后会晤过反至__switch_data?

在__enable_mmu函数中最终当可见见而能MMU后,会以r13与给PC,跳反至了__switch_data,代码如下:

__enable_mmu: 
      ...  .... 
      mov    r3, r3
      mov    r3, r3
      mov    pc, r13

 

越反到了__switch_data中,其中 __switch_data
是__mmap_switched的虚拟地址,所以最后跳反至__mmap_switched中.

__switch_data函数代码如下:

__switch_data:
         .long  __mmap_switched                          //进入__mmap_switched函数
         .long  __data_loc                       @ r4              
         .long  __data_start                     @ r5
         .long  __bss_start                      @ r6
         .long  _end                               @ r7
         .long                                       @ r4
         .long  __machine_arch_type                  @ r5
         .long  cr_alignment                         @ r6
         .long  init_thread_union + THREAD_START_SP @ sp

__mmap_switched:
         adr     r3, __switch_data + 4           //r3=__data_loc段内容
/*其中
__data_loc 是数据存放的位置
__data_start 是数据开始的位置    
__bss_start 是bss开始的位置
_end 是bss结束的位置, 也是内核结束的位置
这几个符号都在arch/arm/kernel/vmlinux.lds中定义的变量
*/

         ldmia  r3!, {r4, r5, r6, r7}   //r4=__data_loc ,  r5=__data_start ,  r6=__bss_start ,r7=_end ,  r3= processor_id
         cmp    r4, r5                                        // __data_loc段不等于__data_start段则执行下面1处的内容
1:       cmpne  r5, r6                  // 比较r5(__data_start段)和r6(__bss_start段)
         ldrne   fp, [r4], #4                
         strne   fp, [r5], #4                //str r4,[r5] 将整个段里内容从 __data_loc段 复制到__data_start段
         bne     1b                      //r5不等于r6,则继续复制   


         mov   fp, #0                             @ Clear BSS (and zero fp)  //清除bss段
1:       cmp    r6, r7                   //比较r6(__bss_start t段)和r7(_end段)
         strcc   fp, [r6],#4               // 清除bss段
         bcc     1b                     //(cc:小于)r6<r7,继续清除bss段 


         ldmia  r3, {r4, r5, r6, sp}       //r4=r3= processor_id, r5=__machine_arch_type,r6= cr_alignment,
//设置栈sp= init_thread_union + THREAD_START_SP,方便执行C函数start_kernel
         str      r9, [r4]                            @ Save processor ID
         str      r1, [r5]                            @ Save machine type
         bic     r4, r0, #CR_A                           @ Clear 'A' bit
         stmia  r6, {r0, r4}                      @ Save control register values

         b        start_kernel                   //然后执行start_kernel函数

 

终极跳到start_kernel函数,此函数代码用纯C来兑现,它碰面调用各种平台的连带起初化函数

下一节上马分析start_kernel函数