类脑导航算法：综述与验证

郭迟; 罗宾汉; 李飞; 陈龙; 刘经南

doi:10.13203/j.whugis20210469

类脑导航算法：综述与验证

郭迟^{1, 2,},
罗宾汉¹,
李飞²,
陈龙³,
刘经南¹

1.
武汉大学卫星导航定位技术研究中心，湖北武汉，430079
2.
武汉大学人工智能研究院，湖北武汉，430079
3.
中山大学数据科学与计算机学院，广东广州，510275

基金项目:

国家重点研发计划 2016YFB0501801

详细信息

作者简介:
郭迟，博士，教授，主要从事北斗应用、无人系统导航与基于位置服务研究。guochi@whu.edu.cn

中图分类号: P228;TP242.6
计量
- 文章访问数: 2209
- HTML全文浏览量: 539
- PDF下载量: 461
出版历程
- 收稿日期: 2021-08-26
- 发布日期: 2021-12-04

Review and Verification for Brain-Like Navigation Algorithm

1.
GNSS Research Center, Wuhan University, Wuhan 430079, China
2.
Artificial Intelligence Institute of Wuhan University, Wuhan 430079, China
3.
School of Data and Computer Science, Sun Yat-sen University, Guangzhou 510275, China

Funds:

The National Key Research and Development Program of China 2016YFB0501801

More Information

Author Bio:
GUO Chi, PhD, professor, specializes in BeiDou application, unmanned system navigation, and location-based services (LBS).E-mail: guochi@whu.edu.cn

摘要

摘要: 类脑导航算法是近年来的新兴研究热点，这类算法通过对生物导航能力的模仿实现自主导航，核心问题是如何提升泛化能力。介绍了类脑导航算法的研究背景与理论基础，经过调研总结出了其计算框架；以类脑导航算法计算框架为骨干对该领域的突出工作进行了讨论分析，并通过严格的控制变量实验验证了一些典型改进方法的效果。主要贡献有：全面地介绍并总结了类脑导航领域的理论基础与突出工作；总结出了类脑导航算法的计算框架，该框架科学定义了算法不同部分的职能，从而能解构具体的算法，完成细粒度的分类和对比；通过理论分析与实验验证，总结出了有价值的结论，并展望了未来的发展。
- 类脑导航 /
- 人工智能 /
- 自主导航 /
- 感知 /
- 记忆 /
- 策略
Abstract:
Objectives In recent years, the brain-like navigation algorithm is a new research hotspot, which is expected to achieve autonomous navigation by imitating the ability of biological navigation. The core issue is how to improve generalization ability.
Methods This paper introduces the research background and theoretical basis of the brain-like navigation algorithm. After investigation, we propose a computational framework of brain-like navigation algorithm. The outstanding works in this field are discussed and analyzed under this framework, and we carried out experimental verification of some basic methods.
Results The main contributions of this paper are: (1) Comprehensively introduces and summarizes the theoretical basis and outstanding works in this field. (2) Proposes the computational framework of the brain-like navigation algorithm, which scientifically defines the functions of different modules of the algorithm. (3) Through theoretical analysis and experimental verification, we summarized valuable conclusions and expectations.
Conclusions In terms of model design, mature methods of deep learning can also be applied to this problem, but need more modifications to further improve navigation capabilities; in terms of model training, combining the advantages of multiple learning algorithms is hopeful to further improve the generalization ability.
- brain-like navigation /
- artificial intelligence /
- autonomous navigation /
- perception /
- memory /
- policy

HTML全文

近年来，随着海洋资源的开发和海洋科学技术的发展，水声定位在海洋科学领域的应用越来越广^[1]。基于水下声阵列信号处理的定位方法在水下空间的不同位置布放多个传感器组成阵列，利用阵列接收信号再对其进行处理，目的是估计判断主径上的发射信号方向，抑制无用的干扰和噪声。在解算出发射信号到各个阵元间的时间差后，利用方向角度和时延推算出发射单元的位置，从而达到定位的目的。

目前广泛应用于水下声阵列定位的方法有水下目标波达角（direction of arrival，DOA）估计^[2]、水下波束形成技术^[3]，均借鉴了无线电和声学的阵列处理方式解算水下位置。常用的DOA估计方法包括多信号分类（multiple signal classification，MUSIC）算法^[4-6]、旋转不变技术估计信号参数（estimating signal parameters via rotational invariance techniques，ESPRIT）算法^[7]、最大似然估计法^[8-9]等。上述算法的核心是将噪声假设为高斯过程，通过分离噪声子空间来估计发射信号角度。水下波束形成对多路接收阵信号进行合并处理，抑制非目标方向的干扰并增强目标方向的信号，常见的波束形成算法包括最小均方误差（minimum mean square error，MMSE）波束形成器^[10-11]、线性约束最小方差（linearly constrained minimum variance，LCMV）波束形成器^[12]。在时延估计中，常采用广义互相关-相位变换（generalized cross correlation phase transformation，GCC-PHAT）算法^[13]，其核心是通过对水下阵列间信号进行互相关处理，得到使互相关函数最大的值即信号的时间差。但在实际阵列信号接收中，信道变化是一个复杂的过程，会受到噪声的干扰^[14]。上述算法在噪声环境下均存在难以克服的问题，例如水下信道的噪声变化并不都是高斯过程，DOA估计算法并不能完整地分离出噪声子空间来估计波达方向角^[15-17]；波束形成算法大多聚焦于对主径角度的估算，算法的性能过度依赖目标信号的DOA信息^[18]，而强噪声环境对其处理精度影响十分明显。综上可知，噪声是制约定位精度的主要原因，为了最大程度降低噪声对接收信号的干扰，可应用自适应滤波进行降噪处理，其依靠线性滤波器滤掉噪声频率成分^[19]，但收敛速率较慢且计算量大，为了克服以上问题，本文将深度学习引入降噪的处理中。

近年来，深度神经网络（deep neural network，DNN）被广泛应用于图像降噪和语音识别领域，并取得了突破性进展。依据研究侧重的不同可分为聚焦于数据特征方面^[20-22]和网络模型方面^[23-26]两种。前者将重点放在对接收信号数据特征的训练处理中，根据训练特征不同可大致分为基于掩码估计^[27]和基于谱映射估计^[28]两类。后者则通过不同结构的神经网络提取噪声特征进行训练，例如文献[29]将信号的理想二值掩蔽（ideal binary mask，IBM）作为降噪神经网络的输入特征，对比信号时频单元的信噪比，学习并估计噪声；文献[30]提出一种基于卷积神经网络的水声通信降噪方法，利用时-频关系对接收信号进行二维化表述，达到降噪的目的。深度学习模型的本质是通过学习大量纯净信号和含噪信号样本数据构造复杂非线性函数，生成新的降噪处理估计。但上述两种模型均未针对水下声学信号进行适应性设计，大多数降噪方式都是直接将语音信号处理中常见的特征作为输入，忽略了水声信号的短时平稳性特点^[31]，或者直接套用图像降噪的方式，随着噪声的筛除，水声信号中的关键传输信息也会伴随性丢失^[32]。

针对以上问题，本文在DOA定位的基础上，提出一种基于降噪学习模型的定位方法，通过构建一个两阶段学习模型来处理水下声阵列接收数据，进而完成定位。在第一阶段模型中，为了克服水下噪声对定位结果的影响，使用神经网络模型对接收信号完成降噪处理，为了最大限度地挖掘水声信号的特征，在特征预处理阶段对其进行分帧处理，将信号的实部和虚部作为训练特征，充分利用了水声信号的短时平稳特性，为了尽可能降低对信号信息正交性的破坏，采用压缩合并和还原策略处理数据。在第二阶段模型中，使用第一阶段输出的降噪还原信号作为第二阶段的输入，通过改进的基于加权延时求和的波束形成方法来完成多空域滤波权值更新，达到对期望波达方向的信号增强，结合角度估计结果和时延估计结果解算发射端位置。该方法显著提升了定位系统对信噪比变化的鲁棒性，改善了系统定位精度。

1 水下声阵列定位的数据模型

图 1为水下声阵列的发射-接收结构示意图，发射端信号经过水下噪声和反射产生多径效应的影响，到达接收阵列，L为阵元间距， $θ$ 为入射信号与阵元夹角，c为信号传播速度。

图 1 水下声阵列的发射-接收结构示意图

Figure 1. Transmit-Receive Structure of the Underwater Acoustic Arrays

下载: 全尺寸图片幻灯片

图 2展示了两个参考阵元间的结构关系。假设水下声阵列由M个接收阵元组成，有K个信号 $s_{1} (t), s_{2} (t) \dots s_{K} (t)$ 到达该阵列，则第m个阵元的接收信号可以表示为：

图 2 参考阵元间的结构关系

Figure 2. Structural Relationship of Reference Array Elements

下载: 全尺寸图片幻灯片

x_{m} (t) = \sum_{k = 1}^{K} s_{k} (t - τ_{m, k}) + n_{m} (t)

式中， $m = 1, 2 \dots M$ ；t为传播时间； $τ_{m, k}$ 为第k个信号到达第m个阵元相对于参考阵元的时延； $s_{k} (t - τ_{m, k})$ 表示第m个阵元上接收到的第k个发射信号到达波； $n_{m} (t)$ 表示第m个阵元上的加性噪声。阵列接收数据按照向量形式可表示为：

$$\begin{array}{*{20}{l}} {\mathit{\boldsymbol{x}}(t) = \left[ {\begin{array}{*{20}{c}} {{{\rm{e}}^{ - {\rm{j}}w{\tau _{{\rm{1}}, {\rm{1}}}}}}}&{\begin{array}{*{20}{c}} {{{\rm{e}}^{ - {\rm{j}}w{\tau _{{\rm{1}}, {\rm{2}}}}}}}& \cdots \end{array}}&{{{\rm{e}}^{ - {\rm{j}}w{\tau _{{\rm{1}}, K}}}}}\\ {{{\rm{e}}^{ - {\rm{j}}w{\tau _{{\rm{2}}, {\rm{1}}}}}}}&{\begin{array}{*{20}{c}} {{{\rm{e}}^{ - {\rm{j}}w{\tau _{{\rm{2}}, {\rm{2}}}}}}}& \cdots \end{array}}&{{{\rm{e}}^{ - {\rm{j}}w{\tau _{{\rm{2}}, K}}}}}\\ \vdots &{\begin{array}{*{20}{c}} \vdots & \ddots \end{array}}& \vdots \\ {{{\rm{e}}^{ - {\rm{j}}w{\tau _{M, {\rm{1}}}}}}}&{\begin{array}{*{20}{c}} {{{\rm{e}}^{ - {\rm{j}}w{\tau _{M, {\rm{2}}}}}}}& \cdots \end{array}}&{{{\rm{e}}^{ - {\rm{j}}w{\tau _{M, K}}}}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{s}}_{\rm{1}}}(t)}\\ {{\mathit{\boldsymbol{s}}_{\rm{2}}}(t)}\\ \vdots \\ {{\mathit{\boldsymbol{s}}_K}(t)} \end{array}} \right] + }\\ {\; \; \; \; \; \; \; \; \; \; \; {{\left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{n}}_{\rm{1}}}(t)}&{{\mathit{\boldsymbol{n}}_{\rm{2}}}(t)} \end{array}}& \cdots &{{\mathit{\boldsymbol{n}}_M}(t)} \end{array}} \right]}^{\rm{T}}}} \end{array}$$

式中， $w$ 为数字域频率。式（2）可简化为：

x (t) = A s (t) + n (t)

其中，

$$x(t) = {[\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{x}}_{\rm{1}}}(\mathit{t})}&{{\mathit{\boldsymbol{x}}_{\rm{2}}}(\mathit{t})} \end{array}}& \cdots &{{\mathit{\boldsymbol{x}}_\mathit{M}}(\mathit{t})} \end{array}]^{\rm{T}}}$$

$$A = [\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\mathit{\boldsymbol{a}}({{\rm{ \mathit{ θ} }}_{\rm{1}}})}&{\mathit{\boldsymbol{a}}({{\rm{ \mathit{ θ} }}_{\rm{2}}})} \end{array}}& \cdots &{\mathit{\boldsymbol{a}}({{\rm{ \mathit{ θ} }}_{\rm{K}}})} \end{array}]$$

a (θ_{k}) = {[\begin{matrix} \begin{matrix} e^{j w τ_{1, k}} & e^{j w τ_{2, k}} & \dots \end{matrix} & e^{j w τ_{M, k}} \end{matrix}]}^{T}

式中， $θ_{k}$ 为第k个发射信号的方位角。

根据式（3）得到参考接收信号 $x_{1} (t)$ 和 $x_{2} (t)$ 为：

x_{1} (t) = A s (t) + n_{1} (t)

x_{2} (t) = A s (t) + n_{2} (t)

时延 $τ$ 可通过广义互相关（generalized cross correlation，GCC）算法^[33]对两个参考阵元间的接收信号峰值检测得到，计算如下：

R_{x_{1} x_{2}} (τ) = \int x_{1} (w) x_{2}^{*} (w) e^{- j w τ} d w

\hat{τ} = a r g \underset{τ}{m a x} R_{x_{1} x_{2}} (τ)

式中，“ $^{*}$ ”表示矩阵共轭； $\hat{τ}$ 表示估计时延，一般为相关运算峰值最大的时刻。

由图 2可知，估算时延 $\hat{τ}$ 和发射信号的波达方向估计值 $\hat{θ}$ 的关系可表示为：

s i n \hat{θ} = \frac{c \hat{τ}}{L}

在式（1）中，以第一个阵元为参考阵元，若第m个阵元的位置坐标为 $(x_{m}, y_{m})$ ，根据式（10）和式（11）可得到^[34]：

τ_{m, k} = \frac{1}{c} [x_{m} s i n θ_{k} + y_{m} c o s θ_{k}]

通过几何解算可完成发射端的定位，但是在实际环境中，噪声的存在会导致式（9）中相关运算 $R_{x_{1} x_{2}} (τ)$ 的峰值不明显，降低了时延估计的精度，影响定位精度。因此如何准确地估计出 $\hat{θ}$ 和 $\hat{τ}$ 成为水下声阵列定位系统的关键。

2 本文方法

为了在噪声影响严重的条件下准确地估计角度信息 $\hat{θ}$ 和时延信息 $\hat{τ}$ ，本文提出一种基于两阶段学习模型的水下声学定位方法。在第一阶段模型中，构建一个基于深度卷积神经网络（deep convolution neural network，DCNN）的降噪模型^[35]，将接收端信号进行基于时-频关系的二维矩阵化^[36]，对其进行提取特征输入，通过该模型在纯净不含噪的发射信号和带噪的接收信号之间建立神经网络函数映射，进而得到具有降噪效果的接收信号；在第二阶段模型中，为了提升角度估计的准确性，设计一种改进的基于加权延时求和的波束形成模型，该模型利用梯度下降准则确定各个通道的最优相对延时，根据实际环境对各个通道的权重进行迭代更新^[37]，得到最优权值，最终输出估计出的角度信息 $\hat{θ}$ 和时延 $\hat{τ}$ ，得到位置估计。图 3为本文两阶段学习模型的结构示意图。

图 3 两阶段学习模型结构

Figure 3. Structure of Two-Stage Learning Model

下载: 全尺寸图片幻灯片

2.1 第一阶段模型

第一阶段模型的核心是一个降噪学习网络模型。由于降噪的过程不是简单的线性过程，对实部和虚部进行分离再合并的过程会破坏二者的正交性，为了使这种影响最小化，本文对数据预处理进行了策略优化：（1）在预处理阶段对接收信号数据进行重新组合分帧，在短时平稳区间内，截取数据长度间存在帧重叠，尽量保持正交的关联性；（2）在得到分帧数据后进行实部和虚部分离，将分离后的实部和虚部数据进行函数压缩，保证数据特性的统一；（3）利用归一化函数将降噪后的实部和虚部数据合并。对式（1）接收信号数据进行分帧和加窗处理，窗函数 $w i n d o w (n)$ 采用海明窗， $α_{0}$ 取值0.538 36，则取窗函数为：

w i n d o w (n) = α_{0} - \underset{α_{1}}{\underset{︸}{(1 - α_{0})}} c o s (\frac{2 π n}{N - 1})

式中， $0 \leq n \leq N - 1$ ，N表示海明窗取值长度。

对加窗处理后的帧数据进行重新组合分帧，由于接收的信号具有短时平稳的特点，在20~30 ms表现为较为平稳的幅度特征，分帧时每一帧长度为20 ms，帧间设置重叠长度为10 ms，分帧组合策略如图 4所示。

图 4 数据预处理的分帧策略

Figure 4. Framing Strategy of Data Preprocessing

下载: 全尺寸图片幻灯片

首先将每帧信号表示为时间-频率的二维化矩阵，进行短时傅里叶变换（short time Fourier transform，STFT），计算如下：

x_{r e v S T F T} (t, f) = \sum_{n = 0}^{N - 1} x (t, f) w i n d o w (t, f) e^{\frac{- j 2 π k n}{N}}

式中，f为信号频率。

然后进行实部和虚部分离： $x_{r e v S T F T} (t, f) \to$ $(R_{x}, I_{x})$ ，得到接收信号输入特征。同理，对发射信号 $s (t)$ 也进行同样的操作，得到 $s_{S T F T} (t, f) \to (R_{s}, I_{s})$ 。 $其中,$ $R_{x}$ 、 $R_{s}$ 分别是 $x_{r e v S T F T} (t, f)$ 、 $s_{S T F T} (t, f)$ 对应的实部数据； $I_{x}$ 、 $I_{s}$ 分别是 $x_{r e v S T F T} (t, f)$ 、 $s_{S T F T} (t, f)$ 对应的虚部数据。

最后采用双曲正切函数分别对实部和虚部进行压缩，得到对应的实部双曲正切压缩（hyperbolic tangent comprssed real component，TR）和虚部双曲正切压缩（hyperbolic tangent comprssed imaginary component，TI）作为网络的输入输出特征，计算如下：

T R (t, f) = \frac{β (1 - e^{- α Z_{R} (t, f)})}{1 + e^{- α Z_{R} (t, f)}}

T I (t, f) = \frac{β (1 - e^{- α Z_{I} (t, f)})}{1 + e^{- α Z_{I} (t, f)}}

式中， $α$ 和 $β$ 为限制因子，取值分别为0.5和10； $Z_{R} (t, f)$ 表示 $R_{x}$ 和 $R_{s}$ 经压缩后的结果； $Z_{I} (t, f)$ 表示 $I_{x}$ 和 $I_{s}$ 经压缩后的结果。图 5为降噪网络模型的神经网络结构， $\hat{R}$ 、 $\hat{I}$ 分别代表经降噪网络输出后的实部、虚部。

图 5 降噪网络模型的神经网络结构

Figure 5. Neural Network Structure of the Noise-Reduction Network Model

下载: 全尺寸图片幻灯片

降噪网络是基于DCNN的结构进行适应性调整得到的，常见的DCNN已包含完整的训练结构，为使其在实部虚部特征训练过程中具有去噪作用，本文引入通道关注机制^[38]进行特征运算，同时将金字塔去噪结构分配到每个分支，只聚焦在同一个尺度内的特征提取^[39]，提取全局信息并保留局部细节，为全面去噪进行初始化准备，使用U-Net来分割池化层降采样的特征^[40]，激活函数选用Sigmoid采用的交叉熵损失函数，计算如下：

L o s s = - \frac{1}{B} \sum_{b = 1}^{B} [n l n \hat{n} + (1 - n) l n (1 - \hat{n})]

式中，B为接收阵元个数；n为预期输出； $\hat{n}$ 为神经网络输出，即降噪后的 ${\hat{R}}_{z}$ 和 ${\hat{I}}_{z}$ 。

将降噪输出的实部和虚部进行归一化还原，得到：

\hat{R} (n) = - \frac{1}{α} l o g \frac{β - {\hat{R}}_{z} (n)}{β + {\hat{R}}_{z} (n)}

\hat{I} (n) = - \frac{1}{α} l o g \frac{β - {\hat{I}}_{z} (n)}{β + {\hat{I}}_{z} (n)}

降噪还原信号为：

y (t) = \hat{R} (t) + \hat{I} (t) \times j

表 1为该阶段模型的具体参数设置。

表 1 降噪神经网络的参数设置

Table 1. Parameter Setting of the Noise-Reduction DNN

设置项	参数值
卷积层	4
全连接层	2
卷积层滤波器	5×5、3×3、2×2
步长	2×2
激活函数	Sigmoid函数
池化层	3
输出层	6×161

下载: 导出CSV

| 显示表格

2.2 第二阶段模型

第二阶段模型的核心是一个改进的基于加权延时求和的波束形成组，将第一阶段降噪处理的接收信号作为第二阶段的输入，进行角度 $\hat{θ}$ 估计和时延 $\hat{τ}$ 估计。

为了更准确地完成期望波达方向上的角度 $\hat{θ}$ 估计，需要抑制降低其他方向的干扰，本文提出一种使用多个波束形成器对期望信号估计策略，如图 6所示，水下声阵列接收信号分别与P个波束形成器相连，对感兴趣用户的第p条路径信号进行波束形成，即将阵列波束主瓣对准其到达方向，并在其他路径信号和多址干扰信号到达方向上形成期望方向零陷或较低的增益^[41]。

图 6 多个波束形成器组成的角度估计结构

Figure 6. Angle Estimation Structure Consisting of Multiple Beamformers

下载: 全尺寸图片幻灯片

波束形成器组输出向量 $η_{1}, η_{2} \dots η_{M}$ ，各个接收支路降噪接收后波束形成器的输出信号可表示为：

\tilde{y} (k) = \sum_{p = 1}^{L} η_{p} y_{p} (k - τ_{p}) = \sum_{p = 1}^{L} η_{p} V_{p}^{H} x (k - τ_{p})

式中， $η_{p}$ 表示每个分支波束形成器中期望方向的加权系数； $τ_{p}$ 为相对时延； $V_{p}$ 表示阵列加权向量，

可采用MMSE准则^[42]迭代计算得到：

V_{p} = {[\begin{matrix} \begin{matrix} \frac{α_{1}}{M} e^{2 π i f Δ τ_{1}} & \frac{α_{2}}{M} e^{2 π i f Δ τ_{2}} \end{matrix} & \dots & \frac{α_{M}}{M} e^{2 π i f Δ τ_{M}} \end{matrix}]}^{T}

式中， $α_{m}$ 为第m个接收阵元上的接收信号经频域变化后的相位调节参数，由迭代计算产生。

将 $V_{p}$ 代入波束形成器组，为了使期望角度上的输出功率为最大，从而抑制干扰和噪音完成输出 $\hat{θ}$ 估计， $\hat{θ}$ 的判断依据为：

$$\hat \theta = {\rm{arg}}\; {\rm{max}}[E|{\rm{d}}(t){|^{\rm{2}}}||V_p^Ha(\theta)|{|^{\rm{2}}} + {\sigma ^{\rm{2}}}||{V_p}|{|^{\rm{2}}}]$$

计算时延 $\hat{τ}$ 需对式（2）和式（4）进行转换，则第m个接收阵元上接收信号可表示为：

x_{m} (t) = A s (t - τ_{m}) + n_{m} (t)

式中， $m = 1, 2 \dots M$ ； $τ_{m}$ 为两个参考阵元间的相对时延，可采用互相关求解得到：

R_{x_{m - 1} x_{m}} (τ) = E (x_{m - 1} (t) x_{m - 1} (t - τ))

式（25）可进一步表示为：

\begin{matrix} R_{x_{m - 1} x_{m}} (τ) = A_{m - 1} A_{m} E (s (t - τ_{m - 1}) s (t - τ_{m} - τ)) + A_{m - 1} E (s (t - τ_{m - 1}) n_{m} (t - τ) + \\ A_{m} E (s (t - τ_{m} - τ) n_{m} (t)) + E (n_{m - 1} (t) n_{m} (t - τ)) \end{matrix}

当限制条件 $τ = τ_{m - 1} - τ_{m}$ 成立时， $R_{x_{m - 1} x_{m}} (τ)$ 取最大值，则两个参考阵元间的时延可表示为：

$$\Delta {\tau _{m - {\rm{1}}, m}} = {\rm{arg}}\; {\rm{max}}{\mathit{\Psi }_{{x_{m - {\rm{1}}}}{x_m}}}(\tau)$$

式中， $Ψ_{x_{m - 1} x_{m}} (τ)$ 为互相关系数^[26]，由快速傅里叶逆变换（inverse fast Fourier transforms，IFFT）展开得到，对于估计时延 $\hat{τ}$ ，计算如下：

Ψ_{x_{m - 1} x_{m}} (\hat{τ}) = I F F T (\frac{x_{m - 1} (f) x_{m}^{*} (f)}{| x_{m - 1} (f) x_{m}^{*} (f) |})

将时延 $\hat{τ}$ 求解转换为对 $Ψ_{x_{m - 1} x_{m}} (\hat{τ})$ 的最佳加权估计^[43]是一个基于梯度下降准则的白化滤波过程，可逐次迭代权值直至得到最优估计，定义梯度为 $W_{t}$ ，前后两次权值的加权平均和为 $H_{t}$ ， $δ$ 为学习率， $⊙$ 表示矩阵逐元素相乘，则有：

W_{t + 1} = W_{t} - δ \nabla_{W_{t}}

H_{t} = δ H_{t - 1} + (1 - δ) \nabla_{W_{t}} ⊙ \nabla_{W_{t}}

W_{t + 1} = W_{t} - \frac{δ}{\sqrt[]{H_{t}}} ⊙ \nabla_{W_{t}}

H_{t} = δ^{t - 0} \overset{̑}{H} + (1 - δ) \sum_{i = 1}^{t} δ^{t - i} \overset{̑}{H}

式中， $\overset{̑}{H} = \nabla_{W_{0}} ⊙ \nabla_{W_{0}}$ 。

将 $Ψ_{x_{m - 1} x_{m}} (τ)$ 设置为初始权值，按照以下条件更新：

‖\frac{δ}{\sqrt[]{H_{t}}}‖ \leq | | \frac{δ}{\sqrt[]{\nabla_{W_{t}} ⊙ \nabla_{W_{t}}}} | |

最后通过式（28）完成对 $\hat{τ}$ 的有效估计。

3 仿真实验和湖上实验

3.1 仿真实验

仿真实验采用Bellhop仿真工具^[44]模拟水下阵列的发射-接收场景，如图 7所示。发射端为1个声源，接收端为四元均匀线性阵列（uniform linear array，ULA），声场限定在300 m×300 m×160 m的水域内，阵元间距为半波长d，与阵元中心O的距离R=100 m，其中发射端T₁、T₂、T₃的入射角发生了角度变化，对应角度分别为 $θ_{1} = 60 °$ ， $θ_{2} = 100 °$ ， $θ_{3} = 130 °$ ，发射信号由线性调频波（linear frequency modulation，LFM）和正交相移键控（quadrature phase shift keying，QPSK）组成，噪声采用高斯白噪声，为全频带噪声，信噪比设置为-25~10 dB，多径数设置为5。

图 7 发射-接收的仿真示意图

Figure 7. Transmit-Receive Simulation Schematic

下载: 全尺寸图片幻灯片

第一阶段模型的输出为降噪后的实部和虚部，通过短时傅里叶逆变换（inverse STFT，ISTFT）得到去噪接收信号。当信噪比为5 dB时，分别取3个角度的某一帧抽样显示去噪接收信号的时域-频域二维重构结果，如图 8所示。由图 8可以看出，对于接收信号而言，第一阶段降噪学习网络模型具有良好的降噪效果。

图 8 信号降噪后的时域-频域二维重构

Figure 8. Time -Frequency Domain 2-Dimensional Reconstruction of the Received Signal After Noise Reduction

下载: 全尺寸图片幻灯片

图 9为去噪前后第二阶段模型角度估计结果。图 9（a）为未经过降噪网络处理直接采用波束形成进行角度估计的结果，图 9（b）为经过第一阶段降噪网络后再使用波束形成估计的角度。由图 9可以看出.角度估计的准确率有了较大幅度的提升。

图 9 去噪前后第二阶段模型角度估计对比

Figure 9. Angle Estimation of the Second-Stage Model Before and After Noise Reduction

下载: 全尺寸图片幻灯片

广义互相关-相位变换方法根据两个参考阵元的互相关函数峰值来估计时延值，在本文仿真模型中，四阵元接收阵列两两可组成一对参考阵元。

根据式（7）、（8）得到参考阵元接收信号 $x_{1}$ 和 $x_{2}$ ，将其转换至频域 $X_{1}$ 和 $X_{2}$ ，则互相关（generalized cross correlation，GCC）过程的互相关函数和互功率谱关系为：

R_{X_{1} X_{2}} (τ) = \int_{0}^{π} X_{1} (w) X_{2}^{*} (w) e^{- j w τ} d w

由于噪声的影响， $R_{X_{1} X_{2}} (τ)$ 的相关峰值会受影响，这降低了时延的估计精度。为了锐化峰值，在频域内对互功率谱进行加权，从而抑制干扰。则式（34）可变为：

R_{X_{1} X_{2}} (τ) = \int_{0}^{π} φ_{12} (w) X_{1} (w) X_{2}^{*} (w) e^{- j w τ} d w

式中， $φ_{12} (w)$ 表示频域加权函数。

加权函数 $φ_{12} (w)$ 利用PHAT（phase transformation）加权，其对噪声的约束效果较好，但当信号能量较小时，处理误差增大。 $φ_{12} (w)$ 可展开为：

φ_{P H A T} (w) = 1 / | | {G_{x_{1}}}_{x_{2}} | | = 1 / | | X_{1} (w) X_{2}^{*} (w) | |

经过PHAT加权的GCC互功率谱近似于单位冲击响应，可突出时延的峰值，进而解算出时延。在对多径的处理中，采用判断策略确定主径，将接收阵列首次到达的信号方向（时间最短）设为主径的入射方向，在GCC-PHAT中，两个参考阵元件间，互相关运算后时间最短的即为相对时延。

克拉美-罗下界（Cramer-Rao lower bound，CRLB）^[45]常用于描述计算理论能达到的最佳估计精度。对于真实值 $θ$ 和 $τ$ ，其CRLB根据定义可表示为：

P_{θ} = (J_{θ}^{T} R_{θ}^{- 1} J_{θ})^{- 1}

P_{τ} = (J_{τ}^{T} R_{τ}^{- 1} J_{τ})^{- 1}

式中， $J_{θ}$ 和 $J_{τ}$ 分别表示 $θ$ 和 $τ$ 的观测函数关于发射端位置的雅克比（Jacobi）矩阵； $R$ 为协方差矩阵。式（12）中第m个阵元位置为 $(x_{m}, y_{m})$ ，则 $J_{θ}$ 中各行元素为：

J_{θ}^{m} = [\begin{matrix} - \frac{y_{m}}{r_{m}^{2}} & \frac{x_{m}}{r_{m}^{2}} \end{matrix}]

$J_{τ}$ 中各行元素为：

J_{τ}^{m} =

[\begin{matrix} \frac{- y_{m}}{r_{m}^{2}} + \frac{y_{1}}{r_{1}^{2}} & \frac{x_{m}}{r_{m}^{2}} - \frac{x_{1}}{r_{1}^{2}} \end{matrix}]

则联合定位误差的CRLB为：

P = (J^{T} R^{- 1} {J)}^{- 1}

将式（37）和式（38）代入式（41）可得：

P = (J_{θ}^{T} R_{θ}^{- 1} J_{θ} + J_{τ}^{T} R_{τ}^{- 1} J_{τ})^{- 1} = (P_{θ}^{- 1} + P_{τ}^{- 1})^{- 1}

P_{θ}^{- 1} = \frac{1}{σ_{θ}^{2}} [\begin{matrix} \sum_{m = 1}^{M} \frac{y_{m}^{2}}{r_{m}^{4}} & - \sum_{m = 1}^{M} \frac{x_{m} y_{m}}{r_{k}^{4}} \\ - \sum_{m = 1}^{M} \frac{x_{m} y_{m}}{r_{k}^{4}} & \sum_{m = 1}^{M} \frac{x_{m}^{2}}{r_{m}^{4}} \end{matrix}]

P_{τ}^{- 1} = (σ_{θ}^{2} / σ_{τ}^{2}) P_{θ}^{- 1} - (1 / σ_{τ}^{2}) a a^{T}

a = [\begin{matrix} - \sum_{m = 1}^{M} \frac{y_{m}}{r_{m}^{2}} & \sum_{m = 1}^{M} \frac{x_{m}}{r_{m}^{2}} \end{matrix}]

式中， $σ_{θ}^{2}$ 和 $σ_{τ}^{2}$ 分别为 $θ$ 和 $τ$ 的噪声方差。

应用本文方法和其他两种方法进行仿真实验，设置信噪比为-25~10 dB，多径数设置为5时，分别验证了 $θ_{1} = 60 °$ 、 $θ_{2} = 100 °$ 、 $θ_{3} = 130 °$ 3个角度下定位结果的均方根误差（root mean square error，RMSE）和CRLB对比，结果如图 10所示。其中方法1表示直接利用传统算法GCC-PHAT进行定位，方法2表示在第一阶段降噪模型处理后联合GCC-PHAT算法进行处理，方法3为本文方法。由图 10可知，本文方法模型在应对信噪比变化的鲁棒性更高。

图 10 定位结果的RMSE对比

Figure 10. RMSE Comparison of Positioning Results

下载: 全尺寸图片幻灯片

同时，本文在仿真实验中还进行了收发拉距测试，以验证方法的适用边界，发现在收发距离超过1 km后，本文方法对于噪声的鲁棒性逐渐降低。

3.2 湖上实验

湖上实验采用2021年7月在安徽省安庆市花亭湖采集的数据，发射信号由LFM和QPSK组成，多帧连续的波形组合生成WAV格式文件，通过功放由发射换能器发出，接收端为四元ULA，实验水域丰水期平均水深为90 m，发射端变换两次位置，角度分别为30°和60°。实验具体参数设置如下：LFM带宽为7~13 kHz，QPSK载波频率为10 kHz，采样率为200 kHz，发射端水深为50 m、86 m，收发距离为100 m。

实验中使用LFM宽带信号对水下信道的信噪比进行测量估算，平均信噪比为10 dB。图 11为4个接收阵元接收到的水声信号。

图 11 4个阵元的接收信号

Figure 11. Received Signals of the 4 Array Elements

下载: 全尺寸图片幻灯片

对角度估计值和位置估计值的计算结果进行100次统计，图12、13分别为角度估计、定位结果的对比，其中方法1、方法2、方法3与§3.1相同。

图 12 角度估计结果对比

Figure 12. Comparison of Angle Estimate Results

下载: 全尺寸图片幻灯片

图 13 位置估计统计

Figure 13. Statistics of Positioning Estimates

下载: 全尺寸图片幻灯片

由图 12可知，在角度估计中，方法1未经过第一阶段降噪模型处理，角度的估计结果与真实值差距较大；方法2经过第一阶段降噪模型处理，明显改善了噪声对估计结果的影响；方法3即本文方法改善了噪声的影响，准确地估算出期望方向的角度，验证了方法的稳定性。由图 13可知，在定位结果中，方法1定位结果的解算收敛性不佳，误差较大；方法2定位结果有所改善；方法3的定位解算结果具有十分良好的收敛性，定位精度更高，更稳定。

表 2为湖上实验的结果对比，包括30°和60°角度估计的平均值和均方根误差，以及真实值分别为（20，50）m、（56，86）m中定位估计的平均值和均方根误差。由表 2可知，本文提出的两阶段方法在实测数据中也保持了较好的优势。

表 2 湖上实验结果对比统计

Table 2. Result Comparison on the Lake Test

方法	角度/(°)			定位结果/m
方法	真实值	估计平均值	均方根误差	真实值	估计平均值	均方根误差
方法1	30	22.3	0.52	(20, 50)	(15.32, 51.67)	0.36
方法2		27.4	0.31		(21.02, 53.43)	0.25
方法3		30.8	0.12		(20.87, 50.24)	0.10
方法1	60	53.6	0.49	(56, 86)	(52.30, 84.28)	0.34
方法2		56.3	0.33		(54.24, 87.51)	0.29
方法3		60.5	0.14		(56.38, 86.55)	0.15

下载: 导出CSV

| 显示表格

4 结语

水下声阵列信号处理是水下定位研究的重要手段之一。引入降噪处理、加权时延估计和基于梯度下降准则的权值迭代等方法，可提升定位系统对于噪音变化影响的鲁棒性和准确率，本文利用以上策略建立了两阶段模型方法，有效地应对了仿真环境中信噪比为-25~10 dB、多径数为5的干扰场景，并在湖上实验也得到了有效的验证。对接收信号分段处理的两阶段模型结构适用于多数阵列信号处理的定位场景，包括室内声学定位和无线电雷达阵列等领域^[46]。在未来的工作中，可持续性发掘深度学习模型中数据特征提取的优势^[47]，在多个场景下的水声传播数据场景中，构建覆盖范围更广的训练模型库，使得预训练结构具有更佳的范用价值^[48]，从而达到更佳的定位效果。

图 1 导航智能体与环境的交互

Figure 1. Interaction of Navigation Agent and Environment

下载: 全尺寸图片幻灯片

图 2 AI2-THOR场景实例

Figure 2. Instances of AI2-THOR Scenes

下载: 全尺寸图片幻灯片

图 3 类脑导航计算框架

Figure 3. Calculation Framework of Brain-like Navigation

下载: 全尺寸图片幻灯片

图 4 模型设计与梯度传播图

Figure 4. Model Design and Gradient Propagation

下载: 全尺寸图片幻灯片

图 5 元强化学习方法实例

Figure 5. Instance of Meta-Reinforcement Learning Method

下载: 全尺寸图片幻灯片

图 6 辅助任务方法实例

Figure 6. Instance of Auxiliary Tasks

下载: 全尺寸图片幻灯片

图 7 对抗适应网络实现能力迁移

Figure 7. Ability Transformation by Generative Adversarial Networks

下载: 全尺寸图片幻灯片

图 8 显式记忆推理与规划决策设计

Figure 8. Explicit Designs of Memory and Plan Model

下载: 全尺寸图片幻灯片

图 9 基于注意力的动作选择

Figure 9. Action Selection Based on Attention Mechanism

下载: 全尺寸图片幻灯片

图 10 实验网络结构与训练方法

Figure 10. Model Designs and Training Methods for Experiment

下载: 全尺寸图片幻灯片

图 11 RGB还原效果图

Figure 11. Examples of RGB Reconstructions

下载: 全尺寸图片幻灯片

图 12 Baseline1在测试场景的导航的最后8帧图像观察与对应动作

Figure 12. Last 8 Observations and Actions on Test Scenes by Baseline1

下载: 全尺寸图片幻灯片

图 13 训练成功率曲线图

Figure 13. Curves of Training Success Rate

下载: 全尺寸图片幻灯片

表 1 不同模拟环境简介

Table 1 Summary of Different Simulated Environments

模拟环境	数据集	场景规模	场景修改	亮点
DeepMind Lab^[12]	渲染合成	小型迷宫	支持	高度可定制化
AI2-THOR^[11]	渲染合成	室内单个房间	支持	物体对象可交互模拟真实物理
RoboTHOR^[13]	渲染合成以及真实场景	室内单个房间	支持	仿真环境对应真实存在的场景
MINOS^[14]	SUNCG^[15]M3D	多房间完整室内建筑	支持	多模态传感信息
House3D^[16]	SUNCG	多房间完整室内建筑	支持	支持房间导航任务
Habitat^[7]	M3DGibson，Replica	多房间完整室内建筑	不支持	运行高速，可导入自定义数据集

下载: 导出CSV

表 2 奖励函数代表性设计一览表

Table 2 Representative Designs of Reward Function

文献	成功奖励	时间惩罚	碰撞惩罚	探索鼓励奖励
Zhu等^[11]	常量(10)	－0.01	－0.1	—
Mirowski等^[28]	常量(10)	—	—	地图上分布着奖励为1或2的“水果”
Mirowski等^[23]	路径长度加权奖励	—	—	—
Shi等^[29]	常量	—	常量	通过预测下一个状态来衡量探索的程度，将探索程度作为额外的好奇心奖励
Druon等^[30]	常量(5)	－0.01	—	目标出现在视野中的外接矩形框是目前最大的时候能获得正比于矩形框大小奖励
Ye等^[31]	—	—	—	目标出现在视野中的外接矩形框是目前最大的时候能获得正比于矩形框大小奖励

下载: 导出CSV

表 3 不同目标表示处理

Table 3 Different Treats of Target Representation

目标	对应网络	代表文献
独热码	线性	[26, 36]
单词	词嵌入网络	[24, 34-35]
物体图像	卷积网络	[31]
视点图像	卷积网络	[11, 37]
相对位置	无处理	[38]
绝对位置	无处理	[23]

下载: 导出CSV

表 4 实验中选择的导航目标

Table 4 Navigation Targets Chosen in Experiment

房间类型	目标
厨房	Toaster，Microwave，Fridge，Coffee Maker
客厅	Pillow，Laptop，Television，Garbage Can
卧室	House Plant，Lamp，Book，Alarm Clock
浴室	Sink，Toilet Paper，Soap Bottle，Light Switch

下载: 导出CSV

表 5 不同测试集测试结果（SR/SPL） /%

Table 5 SR/SPL Results on Test Set /%

方法	厨房		客厅		卧室		浴室		平均值
方法	SR	SPL	SR	SPL	SR	SPL	SR	SPL	SR	SPL
Baseline2	17.05	7.83	7.55	3.02	1.02	0.32	11.00	4.53	9.16	3.93
RGB-off	19.18	7.45	10.19	3.46	1.47	0.56	17.29	7.01	12.03	4.62
RGB-on	16.83	7.45	11.85	5.25	3.50	1.48	10.59	3.23	10.69	4.35
Linear	7.92	2.69	8.94	2.88	9.88	5.79	55.69	28.96	20.60	10.08
Delay	21.23	6.72	11.99	5.28	4.07	1.74	45.96	23.13	20.81	9.22
Baseline1	27.52	9.59	9.10	3.32	9.95	4.51	54.47	26.00	25.26	10.85

下载: 导出CSV

参考文献(52)

[1]	Doeller C F, Barry C, Burgess N. Evidence for Grid Cells in a Human Memory Network[J]. Nature, 2010, 463(7281): 657-661 doi: 10.1038/nature08704
[2]	Kropff E, Carmichael J E, Moser M B, et al. Speed Cells in the Medial Entorhinal Cortex[J]. Nature, 2015, 523(7561): 419-424 doi: 10.1038/nature14622
[3]	Banino A, Barry C, Uria B, et al. Vector-based Navigation Using Grid-Like Representations in Artificial Agents[J]. Nature, 2018, 557(7705): 429-433 doi: 10.1038/s41586-018-0102-6
[4]	Smith L, Gasser M. The Development of Embodied Cognition: Six Lessons from Babies[J]. Artificial Life, 2014, 11(1-2): 13-29 http://davidzemach-bersin.com/wp-content/uploads/2012/09/Linda_Smith_embodied-cognition_babies.pdf
[5]	Epstein R A, Patai E Z, Julian J B, et al. The Cognitive Map in Humans: Spatial Navigation and Beyond [J]. Nature Neuroscience, 2017, 20(11): 1504-1513 doi: 10.1038/nn.4656
[6]	Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. Cambridge, MA : MIT Press, 1998
[7]	Savva M, Kadian A, Maksymets O, et al. Habitat: A Platform for Embodied AI Research[C]//IEEE International Conference on Computer Vision, Seoul, Korea(South), 2019
[8]	Xia F, Zamir A R, He Z, et al. Gibson Env: RealWorld Perception for Embodied Agents[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Anchorage, Alaska, 2018
[9]	Chang A, Dai A, Funkhouser T, et al. Matterport3D: Learning from RGB-D Data in Indoor Environments[C]//International Conference on 3D Vision(3DV), Qingdao, China, 2017
[10]	Straub J, Whelan T, Ma L, et al. The Replica Dataset: A Digital Replica of Indoor Spaces[J/OL]. (2019-06-13)[2021-3-10]. http://arxiv.org/abs/1906.05797
[11]	Zhu Y, Mottaghi R, Kolve E, et al. Target-Driven Visual Navigation in Indoor Scenes Using Deep Reinforcement Learning[C]//IEEE International Conference on Robotics and Automation, Singapore, Singapore, 2017
[12]	Beattie C, Leibo J Z, Teplyashin D, et al. DeepMind Lab[J/OL]. (2016-12-13)[2021-3-10]. http://arxiv.org/abs/1612.03801
[13]	Deitke M, Han W, Herrasti A, et al. RoboTHOR: An Open Simulation-to-Real Embodied AI Platform [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020
[14]	Savva M, Chang A X, Dosovitskiy A, et al. MINOS: Multimodal Indoor Simulator for Navigation in Complex Environments[J/OL]. (2017-12-11
[15]	Song S, Yu F, Zeng A, et al. Semantic Scene Completion from a Single Depth Image[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Honolulu, HI, USA, 2017
[16]	Wu Y, Wu Y, Gkioxari G, et al. Building Generalizable Agents with a Realistic and Rich 3D Environment[C]// The 6th International Conference on Learning Representations, Vancouver, Canada, 2018
[17]	Mnih V, Badia A P, Mirza L, et al. Asynchronous Methods for Deep Reinforcement Learning[C]// The 33rd International Conference on Machine Learning, ICML, New York, USA, 2016
[18]	Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735
[19]	Gupta S, Tolani V, Davidson J, et al. Cognitive Mapping and Planning for Visual Navigation[J]. International Journal of Computer Vision, 2020, 128 (5): 1311-1330 http://arxiv.org/pdf/1702.03920
[20]	Ross S, Gordon G J, Bagnell J A. A Reduction of Imitation Learning and Structured Prediction to NoRegret Online Learning[C]//The 14th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, USA, 2011
[21]	Jaderberg M, Mnih V, Czarnecki W M, et al. Reinforcement Learning with Unsupervised Auxiliary Tasks[C]//The 5th International Conference on Learning Representations, Toulon, France, 2017
[22]	Kulhanek J, Derner E, De Bruin T, et al. Visionbased Navigation Using Deep Reinforcement Learning [C]//European Conference on Mobile Robots, Prague, Czech Republic, 2019
[23]	Mirowski P, Grimes M K, Malinowski M, et al. Learning to Navigate in Cities Without a Map[J]. Advances in Neural Information Processing Systems, 2018, 2018: 2419-2430
[24]	Wortsman M, Ehsani K, Rastegari M, et al. Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 2019
[25]	Finn C, Abbeel P, Levine S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [C]//The 34th International Conference on Machine Learning, Sydney, Australia, 2017
[26]	Du H, Yu X, Zheng L. Learning Object Relation Graph and Tentative Policy for Visual Navigation [C]// The 16th European Conference on Computer Vision, Glasgow, UK, 2020
[27]	Cobbe K, Klimov O, Hesse C, et al. Quantifying Generalization in Reinforcement Learning[C]//The 36th International Conference on Machine Learning, Long Beach, California, USA, 2019
[28]	Mirowski P, Pascanu R, Viola F, et al. Learning to Navigate in Complex Environments[C]//The 5th International Conference on Learning Representations, Toulon, France, 2017
[29]	Shi H, Shi L, Xu M, et al. End-to-End Navigation Strategy with Deep Reinforcement Learning for Mobile Robots[J]. IEEE Transactions on Industrial Informatics, 2020, 16(4): 2393-2402 doi: 10.1109/TII.2019.2936167
[30]	Druon R, Yoshiyasu Y, Kanezaki A, et al. Visual Object Search by Learning Spatial Context[J]. IEEE Robotics and Automation Letters, 2020, 5 (2): 1279-1286 doi: 10.1109/LRA.2020.2967677
[31]	Ye X, Lin Z, Li H, et al. Active Object Perceiver: Recognition-Guided Policy Learning for Object Searching on Mobile Robots[C]//IEEE International Conference on Intelligent Robots and Systems, Madrid, Spain, 2018
[32]	Lü Y, Xie N, Shi Y, et al. Improving Target-Driven Visual Navigation with Attention on 3D Spatial Relationships[J/OL]. (2020-4-29)[2021-3-10]. http://arxiv.org/abs/2005.02153
[33]	Bengio Y, Louradour J, Collobert R, et al. Curriculum Learning[C]//ACM International Conference Proceeding Series, Montreal, Quebec, Canada, 2009
[34]	Yang W, Wang X, Farhadi A, et al. Visual Semantic Navigation Using Scene Priors[C]//The 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, 2019
[35]	Lu Y, Chen Y, Zhao D, et al. MGRL: Graph Neural Network Based Inference in a Markov Network with Reinforcement Learning for Visual Navigation [J]. Neurocomputing, 2020, 421: 140-150 http://d.wanfangdata.com.cn/periodical/a77ecd99de8ef08fb88b8eabc70bc802
[36]	Mousavian A, Toshev A, Fišer M, et al. Visual Representations for Semantic Target Driven Navigation [C]//IEEE International Conference on Robotics and Automation, Montreal, QC, Canada, 2019
[37]	Savinov N, Dosovitskiy A, Koltun V. Semi-parametric Topological Memory for Navigation[C]// The 6th International Conference on Learning Representations, Vancouver, BC, Canada, 2018
[38]	Gordon D, Kadian A, Parikh D, et al. SplitNet: Sim2Sim and Task2Task Transfer for Embodied Visual Navigation[C]//IEEE International Conference on Computer Vision, Seoul, Korea(South), 2019
[39]	Wu Y, Wu Y, Tamar A, et al. Bayesian Relational Memory for Semantic Visual Navigation[C]// IEEE International Conference on Computer Vision, Seoul, Korea(South), 2019
[40]	Kahn G, Villaflor A, Ding B, et al. Self-Supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation[C]//2018 IEEE International Conference on Robotics and Automation, Brisbane, Australia, 2018
[41]	Zhu F, Zhu L, Yang Y. Sim-real Joint Reinforcement Transfer for 3D Indoor Navigation[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 2019
[42]	Wu Q, Manocha D, Wang J, et al. NeoNav: Improving the Generalization of Visual Navigation via Generating Next Expected Observations[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(6): 10001-10008
[43]	He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016
[44]	Shen W, Xu D, Zhu Y, et al. Situational Fusion of Visual Representation for Visual Navigation[C]// IEEE International Conference on Computer Vision, Seoul, Korea(South), 2019
[45]	Oh J, Chockalingam V, Singh S, et al. Control of Memory, Active Perception, and Action in Minecraft[C]//The 33rd International Conference on Machine Learning, New York, USA, 2016
[46]	Pritzel A, Uria B, Srinivasan S, et al. Neural Episodic Control[C]//The 34th International Conference on Machine Learning, Sydney, NSW, Australia, 2017
[47]	Graves A, Wayne G, Reynolds M, et al. Hybrid Computing Using a Neural Network with Dynamic External Memory[J]. Nature, 2016, 538(7626): 471-476 doi: 10.1038/nature20101
[48]	Kipf T N, WellinG M. Semi-Supervised Classification with Graph Convolutional Networks[C]//The 5th International Conference on Learning Representations, Toulon, France, 2017
[49]	Tamar A, Wu Y, Thomas G, et al. Value Iteration Networks[C]// Advances in Neural Information Processing Systems, Barcelona, Spain, 2016
[50]	Watkins-Valls D, Xu J, Waytowich N, et al. Learning Your Way Without Map or Compass: Panoramic Target Driven Visual Navigation[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems, Las Vegas, NV, USA, 2020
[51]	Anderson P, Chang A, Chaplot D S, et al. On Evaluation of Embodied Navigation Agents[J/OL]. (2018-7-18)[2021-3-10]. http://arxiv.org/abs/1807.06757
[52]	Pennington J, Socher R, Manning C D. GloVe: Global Vectors for Word Representation[C]// 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 2014

施引文献(25)

期刊类型引用(3)

1.	孟怡悦，郭迟，刘经南. 采用注意力机制和奖励塑造的深度强化学习视觉目标导航方法. 武汉大学学报(信息科学版). 2024(07): 1100-1108+1119 . 百度学术
2.	张银胜，崔志强，王兴涛，孙佳琪，胡宇翔，单慧琳. 基于单目深度估计的智能驾驶路径规划方法. 国外电子测量技术. 2023(08): 71-79 . 百度学术
3.	李新凯，虎晓诚，马萍，张宏立. 基于改进DDPG的无人驾驶避障跟踪控制. 华南理工大学学报(自然科学版). 2023(11): 44-55 . 百度学术

其他类型引用(22)

资源附件(0)

图(13) / 表(5)

计量

文章访问数: 2209
HTML全文浏览量: 539
PDF下载量: 461
被引次数: 25

1 水下声阵列定位的数据模型
2 本文方法
2.1 第一阶段模型
2.2 第二阶段模型
3 仿真实验和湖上实验
3.1 仿真实验
3.2 湖上实验
4 结语

类脑导航算法：综述与验证

作者简介: 郭迟，博士，教授，主要从事北斗应用、无人系统导航与基于位置服务研究。guochi@whu.edu.cn

计量

出版历程

Review and Verification for Brain-Like Navigation Algorithm

Author Bio: GUO Chi, PhD, professor, specializes in BeiDou application, unmanned system navigation, and location-based services (LBS).E-mail: guochi@whu.edu.cn

1 水下声阵列定位的数据模型

2 本文方法

2.1 第一阶段模型

2.2 第二阶段模型

3 仿真实验和湖上实验

3.1 仿真实验

3.2 湖上实验

4 结语

期刊类型引用(3)

其他类型引用(22)

计量

出版历程

目录

1 水下声阵列定位的数据模型

2 本文方法

2.1 第一阶段模型

2.2 第二阶段模型

3 仿真实验和湖上实验

3.1 仿真实验

3.2 湖上实验

4 结语

作者简介:
郭迟，博士，教授，主要从事北斗应用、无人系统导航与基于位置服务研究。guochi@whu.edu.cn

Author Bio:
GUO Chi, PhD, professor, specializes in BeiDou application, unmanned system navigation, and location-based services (LBS).E-mail: guochi@whu.edu.cn