国际超算“大满贯”背后的故事

原标题:国际超算“大满贯”背后的故事

连续3天没回酒店休息的队长在桌子底下睡着了。

2018国际大学生超级计算机竞赛前不久在美国达拉斯落下帷幕,由6名本科生组成的清华大学计算机系超算团队从来自全球的15支团队中脱颖而出,摘得此次大赛总冠军。至此,在今年的三大国际大学生超算竞赛中,清华超算团队包揽了全部三项竞赛的总冠军,实现了继2015年后的又一次“大满贯”。

48小时不间断的专注

超算比赛常常被比作“F1”赛事,本次大赛要求参赛队伍在总功率3000瓦的限制条件下,自行搭建计算机集群系统,以此运行赛事组织方给定的6个应用程序,进行物理核裂变反应、特大地震模拟、天气预报等应用的运算比拼。“比赛的第一天是要做一个基准测试,然后紧接着是连续48小时不间断的比赛。”队长于纪平介绍。对于连续不间断的48小时,他笑着调侃道,印象最深的是自己“没怎么睡觉”。原来,为了顺利完成比赛,于纪平全程守在比赛现场,有时实在撑不住了,他就钻到桌子下面,在桌布下稍作休息。

团队的指导教师、清华计算机系副教授翟季冬告诉记者,大赛允许参赛队员回酒店休息;晚上,其他队伍基本上都回去休息了,有些队伍的场地上甚至会出现“空无一人”的场景,而清华团队的场地上从未少过人。

随机断电的意外“惊喜”

为了使计算机运作的功率在限制的3000瓦以内,团队对比赛所用的四台计算机集群进行了连接结构的修改:取消传统的“星型”连接,采用“链式”连接。“通过网线串联起机器的‘链式’结构,能够省去网络交换机100多瓦的功率。”翟季冬介绍。同时,链状结构也非常“脆弱”,每两台电脑之间要传输非常庞大的数据,“几百个G的数据都要经过一根线,中间任何一根线断了,就会使得机器之间失去‘联系’。”对此,同学们创新出了一个办法:在整条链的两头各引出一条网线来,被队员们亲切地称作“小辫子”。一旦中间的线断了,引出的“小辫子”便能从两侧连接电脑,继续传输数据。

参赛的第一天晚上,团队的“链式”结构就出现了问题,连接四台机器的一根网线中断了,但是严格的比赛规则又给大家增加了难题:机器出故障后不能碰机器,不能检查线缆,只能通过远程的方式检查。“在比赛期间,电脑哪怕蓝屏了、死机了,也不允许重启。”翟季冬解释说。这令现场的气氛紧张起来,大家立马对正在运行的机器进行调试,准备采取“小辫子”的备用措施。谁知戏剧性的一幕发生了:晚上12点,全场突然断电,在场的所有机器都黑屏关机了。

原来,为了考察计算机集群断电后的恢复能力,检验计算机能否经得起断电考验,大赛特别设置了“随机断电”的环节。断电后,组委会要求所有参赛队伍把插头拔下来进行检查,“我们除了拔插头不能进行任何操作。”但正是这次“意外”的断电,给团队带来了“惊险”,同时也带来了“惊喜”。等到大家排查完机器,现场再次“给电”时,原本出现的故障竟然消失了,团队的所有电脑又恢复了正常运作。

兴趣成为最大动力

面对复杂的赛制、烧脑的题目,团队成员们更愿意把它们视为有趣的挑战。回顾比赛的过程,郑立言说,“我们要让一个程序不停地优化,让它‘跑’得更快,还要降低功耗需求,我觉得这样的事情特别有趣。”

“从本质上说,我们其实是一个兴趣团队。几乎每一个参与其中的成员,都源于发自内心的兴趣。而随着对超算理解的日益深入,我们更能体会到超算,乃至于超算赛事的魅力。”翟季冬说,同学们在日常培训中会表现出不同的兴趣,比如于纪平、余欣健对硬件感兴趣,赵成钢、娄晨耀对程序优化和程序分析方面有很大的发挥空间,郑立言和何家傲的英文表达非常好……“我们会在比赛中极力引导大家,让大家尽情展示、发挥自己的兴趣。”

在各司其职的比赛现场,高度配合、相互照顾成了这6个年轻人的日常状态。这场“F1”比赛临近“终点”时,每位队员分散在大赛场地的各个区域,各自做着自己负责的工作,独守阵地的于纪平在微信群里远程呼叫“空闲”队员,大家纷纷放下手中的活儿赶到“阵地”,整个过程不到十分钟的时间。

最终,凭借全面深刻的理解能力、稳健踏实的应对能力以及队员间出色的配合,清华超算团队以领先第二名11.518分的大比分优势,成为今年国际大学生超级计算机竞赛的总冠军。

首页社会