作者:oschina 来源:开源中国 时间:2019-08-07 16:16:59 我要评论

脏数据和错误数据是数据分析工作的主要瓶颈,数据清理和修复约占数据科学家工作的60%。最近出现一个新的开源项目 HoloClean ,这是一个半自动数据修复框架,依赖于统计学习和推理来修复结构化数据中的错误。HoloClean 建立在弱监督范式的基础上,利用各种信号,包括用户定义的启发式规则(如通用数据完整性约束)和外部词典,来修复错误的数据。 HoloClean 关键特性: 它是第一个整体数据清理框架,在统一的框架中结合了各种异...

点击查看:https://www.oschina.net/p/holoclean

>>查看详情

27阅读 | 0评论
你的回应
写文章

联系我们