Tensorflow在重新训练ssd_mobilenet时使我的系统崩溃

最后发布: 2018-03-24 01:17:57


问题

系统配置如下:

Ubuntu 16.04,CUDA 9.1,

库顿7.0.5,

NVIDIA驱动程序390.30,

GTX 1050 TI GPU,

tensorflow-gpu 1.7rc1和1.5

配置文件和train.py是来自tensorflow发行版的库存,正在使用的经过训练的模型是ssd_mobilenet_v1_coco_2017_11_17。

从腻子终端会话收集以下内容:

(od)gennis @ AI:〜/ models / research $ ./train_raccoon.sh警告:tensorflow:来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/learn /python/learn/datasets/base.py:198:不建议重试(来自tensorflow.contrib.learn.python.learn.datasets.base),并将在以后的版本中删除。 更新说明:使用重试模块或类似的替代方法。

警告:tensorflow:从/home/dennis/models/research/object_detection/trainer.py:228:不推荐使用create_global_step(来自tensorflow.contrib.framework.python.ops.variables),并将在以后的版本中删除。 更新说明:请切换到tf.train.create_global_step

INFO:tensorflow:预测框之前的附加转化深度:0

INFO:tensorflow:预测框之前的附加转化深度:0

INFO:tensorflow:预测框之前的附加转化深度:0

INFO:tensorflow:预测框之前的附加转化深度:0

INFO:tensorflow:预测框之前的附加转化深度:0

INFO:tensorflow:预测框之前的附加转化深度:0

INFO:tensorflow:摘要名称/ clone_loss不合法; 改用clone_loss。

警告:tensorflow:从/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/slim/python/slim/learning.py:736: 初始化 (从tensorflow.python。 training.supervisor)已弃用,并将在以后的版本中删除。

更新说明:请切换到tf.train.MonitoredTrainingSession

2018-03-23 16:59:01.725435:我tensorflow / core / common_runtime / gpu / gpu_device.cc:1355]找到具有属性的设备0:

名称:GeForce GTX 1050 Ti主要:6个次要:1 memoryClockRate(GHz):1.455

pciBusID:0000:01:00.0

totalMemory:3.94GiB空闲内存:3.89GiB

2018-03-23 16:59:01.725484:我tensorflow / core / common_runtime / gpu / gpu_device.cc:1434]添加可见的gpu设备:0

2018-03-23 16:59:02.090533:我tensorflow / core / common_runtime / gpu / gpu_device.cc:922]具有强度1边缘矩阵的设备互连StreamExecutor:

2018-03-23 16:59:02.090592:I tensorflow / core / common_runtime / gpu / gpu_device.cc:928] 0

2018-03-23 16:59:02.090601:I tensorflow / core / common_runtime / gpu / gpu_device.cc:941] 0:N

2018-03-23 16:59:02.090801:我tensorflow / core / common_runtime / gpu / gpu_device.cc:1052]创建了TensorFlow设备(/ job:localhost /副本:0 /任务:0 /设备:GPU:0和3631 MB内存)->物理GPU(设备:0,名称:GeForce GTX 1050 Ti,pci总线ID:0000:01:00.0,计算能力:6.1)

INFO:tensorflow:从/home/dennis/models/research/ssd_mobilenet_v1_coco_2017_11_17/model.ckpt恢复参数

INFO:tensorflow:正在运行local_init_op。

INFO:tensorflow:已运行local_init_op。

INFO:tensorflow:正在启动会话。

INFO:tensorflow:将检查点保存到路径temp / model.ckpt

INFO:tensorflow:启动队列。

INFO:tensorflow:global_step / sec:0

此时系统崩溃,我必须关闭系统电源,然后再将其重新启动(重新引导)。

除了训练数据和配置,我还使用了Dat Tran的文章“如何使用Tensorflow的对象检测API训练对象检测器”中的模型和数据,并获得了相同的结果。

我已经能够运行mnist示例和其他测试来表明tensorflow-gpu在工作。

我不确定下一步该怎么做。 我是否可以收集其他信息以帮助进一步诊断问题?

任何建议将不胜感激,

谢谢

tensorflow crash deep-learning