5月16日,学院邀请上海市数据科学重点实验室SKA实验室主任池明旻副教授举办了一场 “大数据助力打开 ‘天眼’” 专题讲座。
池明旻老师首先向大家介绍了 “天眼” 的基本情况。“天眼” 是位于贵州省黔南布依族苗族自治州平塘县大窝凼的喀斯特洼坑中的500米口径球面射电望远镜,简称FAST(Five-hundred-meter Aperture Spherical radio Telescope),在2016年9月25日建成出光。由望远镜的口径越大,收到的数据就越远越多,甚至可以收集到十亿光年远的数据,而十亿光年的数据又非常古老,能让我们分析出宇宙的演化。
FAST每天能收集到10TB数据,每年就有3.5PB的数据,这么庞大的数据就不能仅依靠经验丰富的天文学家来判别,需要设计一个基于机器学习的分类系统。池明旻老师告诉同学们,不同于人们印象中在望远镜前观测星空的形象,现在80%天文学家都坐在电脑前做数据分析,可见数据分析对天文学是多么重要。FAST项目已经建成了相应的数据中心,来分析收集到的数据。
池明旻老师简要回顾了机器学习的历史,并指出现阶段机器学习仍然有语义提取和理解的瓶颈。随后,她讲解了整个机器学习脉冲星搜索系统,包括模型训练和结果预测等部分以及所用到的分类方法。池明旻老师还介绍了在系统架构方面项目技术实现的总体思路和平台优化中已完成的工作,并结合分布式计算框架SPARK(CPU)和TensorFlow(GPU)的混合架构系统设计方法讲解了如何在项目中处理数据调度。由于FAST的数据处理的高要求,给分布式系统的网络传输、数据输入输出和计算能力带来了前所未有的挑战,因此她着重介绍了分布式处理系统的功能来帮助同学们了解FAST的实现过程。
本次讲座帮助同学们拓宽了在计算机学科中的视野、丰富了对数据科学应用领域的认知,也引发了大家对国家重点工程和重点项目的关注和兴趣。
池明旻老师所在SKA实验室所从事的研究是国际大科学工程—平方公里阵列射电望远镜(Square Kilometre Array,简称SKA)项目,是国际天文界计划建造的世界最大综合孔径射电望远镜,其接收面积达一平方公里,预计比目前最大的射电望远镜阵(JVLA)的灵敏度提高约50倍,比我国目前最大的单口径射电望远镜(FAST)的灵敏度提高约10倍,为人类认知宇宙提供了重大机遇。SKA产生的科学大数据需30倍的天河2处理能力,SKA反射面天线数据传输率是现有因特网传输率10倍,而孔径阵列数据传输率比现有因特网传输率高100倍以上,给现有的计算、网络传输带来了巨大的挑战。当前,全球约有十几个国家包括中国、英国、荷兰、澳大利亚、南非等几十个科研机构的天文学家和计算机等多个领域工程师参与SKA的建设。