常见问题

每个用户创建的环境及文件是完全隔离的,不会互相干扰。但请确保创建时设置强密码,避免泄露。

若因服务器被包月了或被他人占用,又或服务器硬盘满了等其他原因,则可以将服务器内的文件迁移到另一台服务器上。

  • 主目录 20G以内可以迁移,所需时间取决于具体数据量。按平均网速 3-5M/s计算,迁移 10G大约需要一小时。
  • 迁移范围为整个主目录下的文件,暂无法挑特定文件或目录,且不包括环境,请配好环境后参考"如何备份配置好的环境"备份环境到云存储中。
  • 迁移过程中可以不开机,但有可能再次被占用。

若需要迁移数据,请联系客服,并提供用户名原来的服务器id新的服务器id

故障和已下线的机器不保证能迁移,建议使用云存储备份数据。

累计充值满100元即可在控制台左侧"开发票"处申请开发票。

注:
  • 多选多笔充值订单默认合并成单张开出
  • 发票类型为"增值税电子普通发票";名称为"*信息技术服务*GPU云计算服务费"
  • 发票名称不可修改

如何使用

新手或简单操作可直接用服务器右边的附加功能-命令行

Linux、MacOS、Windows 10以上系统:直接复制控制台的ssh命令到本机命令行即可,也可参考SSH的使用教程

服务器登录用户名为 mist,密码为创建服务器时设置的密码。

cloud目录属于云存储下,可以用于存放代码和模型等需要同步的小文件,在您的所有服务器上都可以访问,无需重复上传并避免因服务器被占用无法访问文件

同步速度取决于服务器网速,不适合存放1G以上大文件或者在训练时频繁写入的文件,同步可能会滞后。

cloud目录下的文件和云存储数据一起计费,每位用户拥有1G免费空间,超出部分按0.05元/G/天计费,详见上传数据集页面介绍

服务器已转为默认使用 Jupyter Lab ,如果您不习惯新版的界面,可以切换为旧版的 Notebook 。

从控制台中打开 Jupyter ,在菜单栏中点击 Help - Launch Classic Notebook即可。

pip下安装的包执行pip freeze > /data/piplist.txt即可备份到云存储中,pip install -r /data/piplist.txt恢复。

conda的环境在激活环境后conda env export > /data/environment.yml。恢复时输入conda env create -f /data/environment.yml

可以*,在服务器/mistgpu目录下有名为 shutdown.sh的脚本**,执行此脚本即可让服务器关机。

命令行程序:运行命令改为 原命令; sleep 300; sh /mistgpu/shutdown.sh 即可在原命令退出过五分钟后(正常结束或异常退出)自动执行脚本。
Jupyter (.ipynb文件):在文件最后加一个cell,cell中输入 !sleep 300; sh /mistgpu/shutdown.sh 。运行的时候请务必选择Cell-Run All。
(若之前的cell没有执行成功,则不会自动执行后面的命令。)

其中 sleep 300;会等待五分钟,这是为了让Jupyter自动保存以及云存储同步,数值可按需修改。请务必确保所有文件都已保存后再关机,否则可能丢失数据!

*此脚本还处在测试阶段,使用前请先自行测试能否成功关机。MistGPU不承担因自动关机失败及文件未保存造成的损失。
**每次创建机器时都会生成一份独一无二的脚本,删除后无法恢复。即使机器ID相同此脚本也不通用。

报错处理

当网络环境出现波动,或者长时间未操作时,ssh连接会被中断,导致前台运行的进程会被结束。这是由ssh本身机制决定的,因此需要长时间运行的任务请务必挂到后台运行

方法一:运行命令改为 nohup 原命令 & 即为后台运行,使用 cat nohup.out 查看输出
方法二:(推荐!) 运行程序前 在终端中输入 screen -SL 会话名 -Logfile 日志名 新建会话(会话名与日志名自定),
之后输入需要执行的命令(如python3 文件名.py)。只要服务器不关机,程序就在后台继续运行。
输入 screen -dr 会话名 恢复会话;程序输出可恢复会话或在Jupyter中查看。
如果持续连不上,请尝试通过备用线路(可查看控制台附加功能一列)连接或联系客服

报错提示可能的原因及处理方法
RuntimeError: CUDA error: out of memory显存不足,在训练开始前可使用nvidia-smi命令查看显存占用情况,若有进程残留可重启机器或手动结束进程。
也可调小训练规模(降低batchsize)或换显存更大的卡
若输出中提示x GiB reserved by PyTorch,则可在代码中加上torch.cuda.empty_cache()或参考这篇教程
Killed内存不足
可使用free -h命令查看内存占用情况,建议在创建页-选择详细配置中更换大内存的服务器
Illegal Instruction core dumped部分CPU不支持新的指令集,如有此情况请联系客服
Jupyter程序(.ipynb)突然停止不建议使用Jupyter notebook直接运行耗时长或输出多的程序,网页关闭后的报错信息不会保存或显示。
建议将程序改为.py并使用命令行 + screen的方式运行程序。具体命令请参考"SSH断开连接"部分。
可执行下面的代码设置镜像,或本地下载成zip文件后上传至服务器。请注意使用镜像时不要登录账号。
git config --global url."http://gh.mistgpu.com:81/".insteadOf "https://github.com/"
请先执行sudo apt update