题 目:超大规模存储系统快速低干扰恢复方法研究
内容简介:一些线上云存储系统部署在几千甚至上万节点规模的集群上。如此超大规模意味着更高的设备故障率,而提高数据恢复速率是降低数据丢失率、提高数据可用性的关键。云存储系统需要提供7×24的连续服务,在超大规模存储系统中如何实现快速数据恢复而又对前台性能低干扰是一个经典的两难问题。
报告人团队对阿里云线上系统的长时间负载行为进行分析观察,提出一种能够在超大规模存储系统中实现快速低干扰的恢复方法——Dayu(大禹)。Dayu核心思想是定期观察前台负载并调整恢复计划,并在每个时间片的调度框架中采用基于动态凸包的节点选择算法、对高空闲带宽低可用数据的节点进行优先调度、基于迭代式WSS的速率控制机制、落后任务重新调度等关键技术,实现了调度的快速和高质量。
在1000个节点的真实系统上的性能测试表明:在控制前台P90尾部延迟增长不超过4%的情况下,Dayu提高了阿里云线上系统的恢复速度3倍左右。相关论文发表在计算机系统领域顶尖国际会议USENIX ATC'19上。
报告人:清华大学 张广艳 副教授
报告人简介:博士生导师,主要从事计算机系统前沿理论和方法研究,包括大数据计算、网络存储与分布式处理等方面的研究工作。近年来提出大规模存储系统构建及访问的方法与关键技术,有效提高了存储系统的性能、扩展性和可用性。研究得到包括国家重点研发计划、973、863和国家自然科学基金等10余项国家和省部级项目的支持。发表学术论文40余篇,其中包括本领域顶级国际会议或期刊FAST论文2篇、USENIX ATC论文1篇、IEEE TC论文6篇、IEEE TPDS论文4篇、ACM TOS论文3篇。近三年获美国发明专利授权1项(序1),国家发明专利授权5项(3项序1)。研究成果被国家审计署、北京市公安局、中兴通讯、国信安办、阿里云公司等多家单位使用,效果良好。主讲的研究生课程《高等计算机系统结构》被评选为清华大学精品课程,指导的2名硕士生获得“清华大学优秀硕士学位论文”称号。
时 间:2019年9月18日(周三)下午3:30始
地 点:南海楼224室
热烈欢迎广大师生参加!
信息科学技术学院
2019年9月17日