一句话就能让无人机起飞?
就像人类飞行员一样,听懂指令后立刻照做。
北航的刘偲教授带领的团队,在无人机轨迹控制领域,开创性地构建了一个以语言为引导的精细控制研究体系。他们把无人机按照简短的指令执行短距离的快速反应飞行任务,这一模式被命名为“基于单词的飞行”(Flow)范式。
该团队运用了模拟学习技术,让无人机通过学习人类飞行员在真实场景下的操控技巧,从而能够对分解式的语言命令做出相应的反应。
不久之后,视觉语言动作模型(VLA)成功应用于实际的无人机系统,且在北京航空航天大学国际创新研究院的开放实验环境中,其通过自然语言对话实现飞行控制的能力得到了证实。
从导航到对话
无人机(UAV)近年来凭借其卓越的空中操控性能,已经在视觉感知和任务执行方面占据了关键地位。
自动化技术的广泛应用使得无人机操控的难度显著下降,然而,如何使无人机具备类似“智能助手”的能耐,即能通过简单的语音指令如“围绕我飞行”来准确解读并执行动作,这依然是一个需要攻克的关键技术难题。
目前的研究工作主要致力于将地面机器人的视觉语言导航技术(Visual Language Navigation,简称VLN)应用于无人机平台上,着重攻克了通过语言指令进行目标搜寻和远程操控等高级推理难题。
然而,尽管语言操控的无人机在执行近距离原子级动作或对简单指令作出反应方面尚不成熟,这却是构建智能无人机系统的核心所在,但目前这一领域还未得到充分的研究和开发。
任务定义
“飞行在字词之间”(Flow)任务专注于达成自然语言指令与无人机精确飞行操控的快速匹配。
在执行该任务时,无人机代理融合了三种不同的信息来源:首先是自然语言形式的指令,其次是包含六个自由度的飞行状态数据,最后是来自第一视角的视觉观察。通过这些信息的综合处理,无人机能够生成一系列动作指令,这些指令不仅符合指令的语义要求,而且能够模拟人类飞行员的操控方式。
为了推动Flow任务的研究进展,北京航空航天大学的刘偲教授带领的研究团队成功搭建了一个大型的、基于真实世界语言引导的无人机模拟学习数据集。这项数据收集活动是在三所不同高校的校园内进行的,其总面积合计达到了5.02平方公里。
仿真评测基准
为了确立一个统一的评价标准,该研究团队构建了UAV-Flow-Sim仿真数据集,同时在该数据集的仿真闭环测试环境中对若干模型进行了全面评估。他们运用了成功率(SR)以及归一化动态时间规整(NDTW)等指标,对飞行轨迹的优劣进行了量化分析,以下为具体的测试成效。
真机部署
面对无人机搭载计算资源不足的难题,研究团队开发了一套地面站与无人机协同工作的策略。为了减轻通信和推理过程中的延迟所导致的控制延迟问题,他们设计了一种包含前瞻性机制的全球轨迹同步算法,以此确保运动控制的稳定性与连续性。
该团队依托UAV-Flow现实世界数据集对Pi-0-UAV模型进行了训练,并在北航国新院的公共场地成功进行了视觉语言动作(VLA)系统的实际部署,实现了首次利用自然语言对话对无人机进行实时操控,以执行既定指令。
更多真机飞行精彩视频,详见项目主页。
该研究论文的地址为:https://arxiv.org/abs/2505.15725,读者可在此链接中查阅相关内容。
项目网址为:https://prince687028.github.io/UAV-Flow/,请访问此链接以获取相关信息。