我觉得现在谈(天文里的)机器学习或深度学习,就好像 20 年前问我们天文里面用不用电脑是一样的,我们现在几乎每一篇论文里面都有机器学习的内容。
我们对于 AI 最大的两个误解,一是在于它离大众很远;二是在于它离小众也很远。
前者很好理解,我们的衣食住行用看起来有所进步,但仿佛和 AI 关系不大,毕竟也没有餐厅说自己是 AI 餐厅,衣服是 AI 外套,但实际上,在生产和服务过程中,AI 的作用已经相当大了,小到外卖派单,大到供应链管理,其中都有 AI 的用武之地。
后者呢,在某某细分领域,比如天文学研究,再细分一下,寻找脉冲星领域,一般人可能这个领域太小众了,AI 还没有到三百六十行,行行精通的地步,所以会认为 AI 离小众也很远。
实际上,技术日新月异,但人的认知迭代往往还没这么快。
在前几日的 2021 世界人工智能大会上,腾讯与国家天文台合作的「探星计划」宣布正式启动—— 基于优图实验室计算机视觉技术、腾讯云领先的计算及存储能力,帮助中国天眼 FAST 提升脉冲星搜索效率,并辅助快速射电暴和近密双星系统中脉冲星搜索,助力天文探索。
FAST 是当今世界最大的单口径射电望远镜、全称为 500米口径球面射电望远镜。作为国家重大科技基础设施,位于贵州平塘的中国天眼于 2016 年 9 月建成启用,进入调试期;2019 年 4 月通过工艺验收并向中国国内天文学家试开放;2020 年 1 月通过国家验收,正式开放运行。今年早些时候,FAST 正式向向世界开放,接受全球科学家的观测申请。
当时,FAST 首席科学家、国家天文台研究员李菂表示:
我们的主要目标是让全人类看得更远,中国天眼的开放是一个必然。
看似风马牛不相及的计算机视觉技术,与世界第一的 FAST 就此发生了联系。
作为世界上最灵敏、单口径最大的射电天文望远镜,中国天眼 FAST 工程的核心目标在于搜寻与发现射电脉冲星。脉冲星被称作宇宙中的灯塔,对其进行研究,有望得到许多重大天体物理学问题的答案。然而,由于脉冲星的信号暗弱,易被人造电磁干扰淹没,需要借助具有极高灵敏度的 FAST 望远镜来进行探索与观测,即科幻电影中常见的「星图定位导航」。
FAST 在 1 周内产生的数据大约相当于 3000 万张信号图,如果以人工肉眼处理,按照 1 张/秒速度,在不吃不喝不休息的条件下,需要用一年的时间才能处理。如果通过 AI 预筛选,只需要 3 天时间就可以完成。在一些细分工作上,AI 的效率要大大高于人类。
实际上,在此之前,天文学研究当中就已经用上了 AI,毕竟 AI 的定义相当广泛,不一定是终结者那样的机器人,机器学习和计算机视觉都算 AI。
中国科学院国家天文台研究员、FAST 首席科学家李菂说:
我觉得现在谈(天文里的)机器学习或深度学习,就好像 20 年前问我们天文(研究)里面用不用电脑是一样的,我们现在几乎每一篇论文里面都有机器学习的内容。
一方面,,天文学能够推动人类的认知,以及对技术提更高的需求,从这个需求来说,天然地,天文学就会亲近最新的技术,其中自然包括人工智能。另一方面,和金融投资或者广告游戏这样来钱快的行业不同,天文学研究不会直接产生效益,加上天文学研究领域比较缺乏 AI 一线的,底层做开发的能力,就有了主要使用现有工具,但很少有专门 AI 开发商去为天文学研究特意开发 AI 工具的现状。
而在今年 5 月的时候,李菂在 2021 中国国际大数据产业博览会上说,FAST 巡天实际上是用比较快的观测模式,既要附带整个 FAST 可视天空,又要同时获取银河系的气体,实时的数据流量每秒 6GB,这就已经超过普通硬盘读写速度,一年应该是 10PB,基本上是在现有构架基础上可以处理的极限了。FAST 在观测中取得重要进展的同时,面临的最大挑战是数据处理。
并且,当 AI 和天文学发生耦合的时候,两门艰深的科学对之间的合作也提出了相当高的要求。李菂也坦言,他们愿意跟有专业背景和构架的单位进行合作。不过这种合作不是一蹴而就,效果立竿见影的,他说:
跟腾讯优图的合作,一开始总有一些学习的门槛和曲线......等于是对研发的人员提了一些不太合理的要求,来了解我们干什么,但是这个阶段进行得很快,最近已经有脉冲星的发现,这是实打实的科学成果,我们还是非常兴奋。
在腾讯这边,在帮助 FAST 团队提升效率之前,也会遇到自己的难点,腾讯优图实验室副总经理黄飞跃说:
AI 探星是有一些难点。第一个难点,做深度学习最核心的要有海量的已经有标注的数据作为训练数据,拿训练数据调整优化我们的模型。天文里面有标注的训练数据相对偏少的状态,这时候我们用来训练可能会存在一些困难;第二个难点,同样的天体信号用不同的望远镜、设备观测,得到的数据、展现形式不完全一样。这两个难点我们也基于原来比较好的积累,不管做人脸、人体检测、工业检测等等,针对海量数据,缺少标注的数据我们是有一个自监督的学习方法,这样的话无标注自监督的方案,对于有标签数据的依赖会大大减少;另外对不同场景,不同的设备拍出来的数据有一个跨域学习的概念,不同的设备数据也是可以整合起来统一来帮助我们训练过程。
由此可见,虽然 AI 在天文学研究早已经运用起来了,但是更垂直更专业的应用其实还在刚刚起步的阶段,对于目前的需求,李菂认为近期目标已经完成,已经实打实地看到了结果。而在中长期目标上,李菂看到的是在整个天文学研究流程中有许多可以通过 AI 进行改进的地方,对于志在开拓 ToB 市场的大厂来说,这是难度和荣光并存的领域。