本文共 1741 字,大约阅读时间需要 5 分钟。
实际工作工程中,我们应该优先处理哪些事情?
为了应用监督学习,首先要想的是如何来表示邮件的特征向量x:
如何在有限时间下让你的垃圾邮件分类器具有高精准度和低错误率?
1、通过一个简单的算法来快速实现它,然后通过交叉验证来测试数据;
2、画出相应学习曲线以及检验误差来找出算法是否存在高偏差或者高方差或其他的问题,在作出这些分析之后再来决定是否使用更多的数据或者特征等等;
3、误差分析:看交叉验证的数据,看被算法错误分类的文件,有什么共同的特征和规律,思考应该设计怎样的新特征,或目前的系统有什么优点和缺点;
手动地去检查算法所出现的失误的过程,能导向最有成效的道路:
改进学习算法的时候,如果算法能够返回一个数值评价指标来估计算法执行的效果,将会很有帮助:
*在自然语言处理中,这种方法是通过一种stemming software(词干提取软件)实现的,可去搜索引擎上搜一下Porter Stemmer,这种软件在词干提取方面做得相当不错,会将所有discount、discounts等视作同一个单词。
*强烈建议,在交叉验证向量上来坐误差分析。
#skewed classes(偏斜率):一个类中的样本数与另一个类的数据相比多很多。
如果有一个偏斜类,用classification accuracy(分类精确度)并不能很好地衡量算法,因为你可能会获得一个很高的精确度,非常低的错误率,但是我们并不知道,我们是否真的提升了分类模型的质量:
当我们遇到这样一个偏斜类时,我们希望有一个不同的error metric(误差度量值)或者不同的evaluation meric(评估度量值),
其中一种评估度量值叫precision/recall(查准率/召回率):
*如果这个类出现得非常少,则总是习惯用y=1。
有没有办法自动选取临界值?
Key test:
1、一个人类专家看到了特征值x能有信心预测出y值吗?因为这样证明y可以根据特征值x被准确的预测出来;
2、我们能否得到一组庞大的训练集,并且在这个训练集中训练一个有很多参数的学习算法。
PS.内容为学习吴恩达老师机器学习的笔记【】
转载地址:http://vpqn.baihongyu.com/