reinforcement learning; multiple unmanned surface vehicle; scalability; long–short-term memory; ϵ-greedy strategy; robustness