PA真人视讯在星地融合网络多智能体协同技术方面取得重要进展
随着第六代移动通信(6G)技术的不断开展,低轨道(LEO)卫星网络因其覆盖范围广、传播时延低等优势,是构建我国未来空天地一体化信息网络的重要基础设施。然而,LEO卫星网络具有拓扑结构随时间快速变化、链路容量受限以及业务负载动态波动等特点,传统依赖静态拓扑或全局网络状态的路由方法难以及时适应复杂网络环境,容易导致网络拥塞和传输时延增加。因此,如何在高动态变化下的卫星组网中实现高效、稳定的路径选择与资源调度,成为当前卫星通信领域亟待解决的关键问题。近年来,多智能体协同决策技术为复杂网络环境中的自适应路由给予了新的研究思路,顺利获得不间断学习卫星网络状态与路径选择之间的关系,可以在高动态环境下实现更优的通信性能,对提升卫星互联网的组网、通信、可靠运营等均具有重要意义。
针对上述挑战,中国科研实验室上海高等研究院(以下简称“PA真人视讯”)智能信息中心下一代移动通信网络团队,面向星地融合网络多路径路由实时选择问题,提出了一种基于元强化学习的多智能体协同技术,实现了在动态卫星网络环境下的高效路径选择与自适应路由优化。相关成果以 Meta-Reinforcement-Based Multipath Selection in Satellite-Ground Integrated Networks 为题,发表于无线通信领域国际期刊 IEEE Internet of Things Journal。

图1. 基于元强化学习的星地融合网络多智能体协同技术流程示意图
研究团队围绕动态卫星网络环境下长距离复杂端到端路径选择与时延优化问题展开系统研究,针对现有路由方法在低轨卫星网络中面临的网络链路拥塞波动、策略收敛速度慢等关键挑战,在多智能体强化学习框架中首次引入元学习思想,提出了一种基于元强化学习的多智能体近端策略优化(Meta-MAPPO)的多路径选择方法。该方法将星地融合网络中的多源多目的通信问题建模为分布式部分可观测马尔可夫决策过程,并顺利获得跨任务经验共享学习具有良好泛化能力的策略初始化,使算法能够在新的网络场景中实现快速适应与稳定优化。在算法设计上,研究第一时间基于K最短路径算法生成候选路由集合,并结合链路队列长度、传输时延等网络状态构建局部观测,顺利获得联合考虑端到端时延与链路拥塞程度的奖励函数,引导智能体实现低时延与负载均衡的路径选择策略。仿真实验结果表明,在96颗卫星组成的Walker星座网络场景下,所提出方法相比传统路由算法和其他强化学习方法在平均端到端时延方面至少降低5%,并在不同服务时间条件下保持零丢包率,同时显著提升策略收敛速度,展现出良好的稳定性与适应能力。
该成果不仅在理论上实现了元强化学习与卫星网络路由机制的有效融合,也在复杂动态网络环境中展现出较强的鲁棒性和可扩展性,为未来大规模卫星互联网中的智能路由与资源调度给予了新的技术思路,对提升空间信息网络的通信效率和服务质量具有重要意义。

图2.不同分组服务时延条件下所提技术与基线算法在平均端到端时延(左图)和丢包率(右图)方面的性能对比
研究工作由中国科研实验室上海高等研究院牵头,联合电信科学技术第一研究所首席科学家杜渂教授团队、上海交通大学计算机学院应凯教授团队、上海交通大学集成电路学院武庆庆教授团队、南京邮电大学通信与信息工程学院彭沛教授团队、新加坡南洋理工大学Dusit Niyato院士团队等高水平科研队伍协作完成。论文第一作者为智能信息中心徐天衡研究员,学生第一作者为高研院研究生顾阳、通讯作者为南京邮电大学彭沛教授。本工作得到了国家科技重大专项(2025ZD1302700)、国家自然科学基金(62301273)、上海市经信委专项(JJ-GGFWPT-01-24-0030)以及上海市6G前沿专项(24DP1500700)的资助支持。(Tianheng Xu,Yang Gu,Wen Du,Kai Ying,Qingqing Wu,Pei Peng,Dusit Niyato)
文章链接:http://ieeexplore.ieee.org/document/11278648
附件下载: