作者:oschina 来源:开源中国 时间:2019-09-11 15:35:46 我要评论

ElasticDL 是一个基于 TensorFlow 2.0 构建的 Kubernetes 原生深度学习框架,支持容错和弹性调度。 TensorFlow 具有故障可恢复的原生分布式计算功能,在某些进程挂掉的情况下,分布式计算作业将停止,但是可以重新启动作业并从最新的检查点文件中恢复其原有状态。 ElasticDL 在此基础上支持容错。ElasticDL 不需要检查点也不需要从检查点恢复,在某些进程挂掉的情况下,该作业将继续运行。 容错的特性使得 ElasticDL 与基于优先...

点击查看:https://www.oschina.net/p/elasticdl

>>查看详情

28阅读 | 0评论
你的回应
写文章

联系我们