|
楼主 |
发表于 2025-6-9 10:52:20
|
查看全部
(接上篇)
模型评估与调试
对抗样本(Adversarial Examples):通过向输入数据添加细微且难以察觉的扰动来诱使机器学习模型产生错误输出的数据点。这些样本常用于测试模型的安全性和鲁棒性。
可解释性(Explainability):指的是模型决策过程的透明度和可理解性,即能够清楚地解释模型为什么做出特定预测的能力。这对于确保模型的公平性、避免偏见以及增强用户信任至关重要。
局部搜索(Local Search):一种优化算法,通过在解空间中寻找局部最优解,并试图从局部最优解出发找到全局最优解。尽管不是直接与模型评估相关,但在某些情况下可用于优化模型参数。
模型的可扩展性(Scalability):指模型处理大规模数据和复杂任务时的扩展能力,包括计算资源的有效利用和分布式训练策略的应用等。
模型的鲁棒性(Robustness):模型在面对噪声、对抗攻击或数据分布偏移时保持稳定性和准确性的能力。一个鲁棒性强的模型能够在各种条件下保持良好的性能。
模型的泛化能力(Generalization):模型在未见过的新数据上表现良好的能力,是衡量模型是否过拟合的重要指标。良好的泛化能力意味着模型不仅能在训练数据上表现良好,在新数据上也能有出色的表现。
交叉验证(Cross-validation):一种统计方法,通过将数据集划分为几个子集并循环使用这些子集进行训练和测试来评估模型性能。这种方法有助于更准确地估计模型的泛化能力,并减少因数据划分不同而导致的结果波动。
混淆矩阵(Confusion Matrix):用于描述分类模型性能的一种表格,显示了每个类别的实际值与预测值之间的对比情况,提供了关于分类器误差类型的详细信息。
精确率、召回率和F1分数(Precision, Recall, F1 Score):精确率是指预测为正类的样本中有多少是真正正确的;召回率是指所有实际为正类的样本中有多少被正确识别出来;F1分数则是精确率和召回率的调和平均数,提供了一个单一的指标来评价模型性能。
AUC-ROC曲线(Area Under the Curve - Receiver Operating Characteristic Curve):用于评估二分类模型性能的一个图形工具,展示了模型区分正负类的能力。AUC值越接近于1,表示模型的分类效果越好。
模型校准(Model Calibration):确保模型预测的概率反映了真实发生的概率的过程。良好的校准对于需要概率估计的任务非常重要。
偏差-方差权衡(Bias-Variance Tradeoff):描述了模型复杂度与误差之间的关系。高偏差通常意味着模型过于简单而欠拟合,高方差则意味着模型过于复杂而过拟合。
特征与数据处理
特征提取(Feature Extraction):从原始数据中提取关键特征以用于训练的过程。例如,在图像处理中,可能涉及到边缘检测、颜色直方图等;在文本分析中,则可能包括词袋模型、TF-IDF值等。有效的特征提取能够显著提高模型性能。
特征选择(Feature Selection):从所有可用特征中挑选出对模型最有帮助的一组特征,目的是减少维度并避免过拟合,同时提升模型性能。
特征构建(Feature Construction):创建新的特征或修改现有特征以更好地捕捉数据中的模式。这可以通过数学变换、组合现有特征等方式实现。
数据标准化/归一化(Data Standardization / Normalization):将不同尺度的数据转换到相同的尺度上,以便于某些机器学习算法的处理。标准化通常是基于均值和标准差进行的,而归一化则是将数值缩放到一个特定范围(如0到1之间)。 |
|