【Tensorflow2】Estimator使用流程——以Titanic预测任务为例
Estimator是Tensorflow完整模型的高级表示,它被设计用于轻松扩展和异步训练。
这句话是官方文档上的描述,我觉得说的挺对的。为了更直观的体会这句话,这里我以Kaggle经典的入门练习Titanic为例,为大家呈现Estimator的完整使用流程。
Estimator是Tensorflow完整模型的高级表示,它被设计用于轻松扩展和异步训练。
这句话是官方文档上的描述,我觉得说的挺对的。为了更直观的体会这句话,这里我以Kaggle经典的入门练习Titanic为例,为大家呈现Estimator的完整使用流程。
tf.feature_column
是官方提供的一套用于处理结构化数据的工具。它是原始数据和Estimator
模型之间的桥梁。丰富的tf.feature_column
方法,让你可以将各种原始数据转换为Estimators
可以使用的格式,从而更加容易的进行模型实验。
最近夜不能寐,总是有一个声音在耳边回荡:
人工智能的大潮都已经来了,你既然还不懂Tensorflow!
真的是呀,作为一名标榜自己为推荐算法工程师的小学生,我羞愧啊!其实也不是我不学,只是一叶障目,不见泰山。
真正地懂得,应该是全面的、系统的。痛定思痛,我决心要有所改变!
既然时间已经来到了激动人心的2020年,那我也不藏着掖着啦,干就是了!
Dataset是Tensorflow提供的一套高效的数据加载工具。我们可以利用Dataset以简单可复用的方法构建复杂的输入Pipeline。
自Tensorflow2.0之后,Dataset的API变得更加的简单易用。用过的Tensorflow1.x的朋友可能会知道,Dataset之前需要依赖Iterator来实现数据迭代。为了提供Tensorflow的易用性,2.0版本开始,Dataset可以直接使用for语句来实现数据遍历,使得Dataset更加的pythonic。
简单、方便、强大,你不选择使用Dataset,我不信。
TFRecord格式是官方推荐使用的模型输入数据的存储格式。模型在训练和预测的过程中,TFRecord格式用于组织模型的输入数据部分。
我们使用TFRecord来存储训练数据。同时,也使用TFRecord的数据作为模型计算的输入。
TFRecord的存储方式,能够以较小的空间来实现数据携带。对于基于Tensorflow Serving这种网络传输输入数据的打分形式,较小的传输数据,对打分性能的提升是很有帮助的。
所以,使用TFRecord就对了!
TFRecord是官方推荐使用的tensorflow模型数据存储格式。基于该格式的模型数据,可以实现较小空间大小的数据携带。
这里使用java的API,对TFRecord中基本数据结构:BytesList、FloatList、Int64List、Feature、Features、Example、FeatureList、FeatureLists、SequenceExample进行说明。
这篇论文主要是讲深度学习模型在YouTube视频推荐系统中的应用,包括候选集生成模型和排序模型两部分。
工欲善其事,必先利其器
既然开始专心写博客,自然就需要对markdown的语法了然于胸。之前虽然也用过一些特性,但是,总归不能有一种驾轻就熟的感觉。作为博客的开篇之作,今天就好好说道说道。(一个有意思的事情是,这篇博客也是用markdown语言写的)