浅谈大数据平台建设

选择机器、如何采购服务器、确定服务器、确定供应商、确定IDC机房、云专线、案例、网络拓扑图

Posted by 李玉坤 on 2018-05-30

一个公司大数据团队刚开始如何选择大数据平台落地方案

选择机器

云机器

云上(一般是阿里云) IDC机房 公司内部机器

云上:

  • 优点:节省运维成本 对运维的要求很低 快速扩容 缩减
  • 缺点:云上服务器都是虚拟化的,性能降低 20%,云上服务器不算公司资产【小公司,不care】【公司上市,或者经投资ABCD轮,都要算公司资产】

点评: 前期的支付费用缓慢型 刚开始做可以使用云机器 但是如果周期长 费用是方案中最高的


64个core 一般是32个物理core 两个cpu

系统盘 / linux系统 存放:大数据安装包 组件 shell脚本
数据盘 /data01 存放:hdfs数据 kudu数据
/data02

1台 : 64vcore  256内存  100G  10T 49w一年 
20台: 49*20= 1000W

物理机

结论: 必然的选择IDC机房

IDC机房:

不虚拟化 性能高  算公司资产
运维能力top1 必须有专门的运维人员

点评: 支付费用刚开始肉疼 后期只需支付IDC机房托管费用(后期这个钱如果和云机器对比还可以)

公司内部机器

  • 好处:没有IDC托管费用
  • 坏处:不可靠 园区断电【人家可能就是不通知你,突然断电硬盘很可能损坏】

点评: 创业公司 小团队 可以考虑先内部机器

如何采购服务器

直接百度搜索服务器供应商

1、找3家供应商
2、说出自己的需求:数据量,做存储还是计算,还是做数据挖掘、机器学习(显卡)
3、让他们推荐配置 报价
4、适当说一下自己的预算

如果说出了自己的需求,对方一脸懵逼???建议还是换一家供应商

dell服务器,最近几年性价比最高

官网机器链接(官网的价格是最贵的,不建议直接从官网购买,找供应商)
https://www.dell.com/zh-cn/work/shop/%E6%9C%8D%E5%8A%A1%E5%99%A8-%E5%AD%98%E5%82%A8%E5%99%A8%E5%8F%8A%E7%BD%91%E7%BB%9C%E4%BA%A4%E6%8D%A2%E6%9C%BA/poweredge-r740-%E6%9C%BA%E6%9E%B6%E5%BC%8F%E6%9C%8D%E5%8A%A1%E5%99%A8/spd/poweredge-r740/r740-jlnb74002cn?configurationid=0a53e882-302e-4c92-ac2c-93d5f6e74d7c

官网价格: 16W一台 没有GTX显卡

确定服务器

对比三家供应商 ,拿到最终的报价单 配置机型 电源功率+网络拓扑图

整理对比 写出优缺

价格+服务+口碑
1、企查查查看公司概况
2、现场视察公司

1、邮件汇报boss
2、meet 讨论
3、boss让采购部门去三家都去寻价 拿自己估算的最低价去对比
4、boss问你 :价格 服务 口碑等综合考虑

提醒: 时间控制在1-2week 内存条等硬件会随着时间 价格浮动

让供应商确定 报价单有效期

确定供应商

确定了一家供应商

供应商给合同word–》自己公司法务审核 boss审核 –》修改
时间 1个月
供应商打印合同 盖章–》我们
我们盖章 回给他们 供应商收到合同之后

我们开始 打第一笔钱 一般是合同价格30%
二 3个月或者6个月结清 70%

当他们收到第一笔钱 才去采购
机器时间 配置 差不多在1-2week

确定IDC机房

同样选择三家 报价

20台2u服务器 1个防火墙 2个交换机
一个机架 47U 20*2=40u

1个机架 16A(加安培): 10个 2u服务器 +1防火墙 300W+1个交换机= 23000W
1个机架 16A(加安培): 10个 2u服务器 +1个交换机 = 23000W

坑: 问IDC供应商 我有20台机器,把采购的配置 电源功率发给他 让他算 规划

再重复 对比三家IDC机房商家、整理对比、开会、合同等

云专线

寻找云专线供应商 光纤 直达的 北京到上海 一般是20ms【走公网20s都够呛】

需要同步云上的数据 到IDC机房 必然 云专线
报价: 500M带宽 7000/月 一根 * 2 =1.4W/月
+一次操作费1.6W【阿里云从2019-07后开始收费】

再重复 对比三家云专线商家、整理对比、开会、合同等

最终定下

机器+机房+云专线 ok ,约时间 把服务器上架 网络打通 防火墙(华为) 交换机 全部配置
熟练工 2天

调试完毕,督促:所有服务器要重启一下 up network free -m 磁盘格式化

案例


R740XD 戴尔服务器型号 XD表示扩展槽多一些
4210 cpu型号 *2 两个cpu 每个10核
2.4T 每块硬盘的空间 SAS硬盘
2.5 2.5寸 大小
10K 转速 *4 指4块 越高磁盘io越大
H740P 8GB 缓存卡
750w 电源

16G一根 便宜 1616 256G
32G一根 贵 32
8 256G

https://www.cnblogs.com/happy-king/p/10023001.html

480GB SATA SSD*2 raid5 /根目录

2.4TB SAS 2.5 10K*8 不做raid
/data01 2.4T
/data02 2.4T
。。。
/data8 2.4T
热拔插

老大 电源750W2
小弟 电源1100W
2 为未来机器加显卡 GTX 准备

机器费用 : 163W
托管费用IDC: 10000-9000/月1个机柜 =2W/月 24w/年

云专线 按年 500M 2根 1.4*12=16.8W +1.6w阿里云费用

总共: 第一年起步预算要200W 以后每年准备40W 在IDC 云专线


网络拓扑图

企业公网 1M收费 195元、主备交换机

现在交换机的接口数量是有限的 挂载的服务器数量也是有限的 注意要预留每台交换机的口子

假如现在 再购买 50台