量化指标计算
📌 定义:
衡量系统对文本、图像、视频、3D课件等非结构化资源的实体识别、语义标注和粒度化再构建的准确程度。
📈 目的:
确保教培资源经过处理后,信息抽取结果与人工标注一致度高,保证质量。
🧮 公式:
处理准确率 = 正确处理的资源数量 / 总处理资源数量 × 100%
💡 说明:
正确处理的资源数量:系统处理结果与人工标注(或标准答案)一致的样本数量。
例如实体识别中,识别出“避雷器”并正确标注为“设备名称”,算1个正确处理。
总处理资源数量:参与评估的全部样本数量,包含不同模态。
实际评估可使用 F1-score(精准率+召回率综合指标)进行补充说明,尤其适合文本处理任务。
正确处理的资源数量:系统处理结果与人工标注(或标准答案)一致的样本数量。
例如实体识别中,识别出“避雷器”并正确标注为“设备名称”,算1个正确处理。
总处理资源数量:参与评估的全部样本数量,包含不同模态。
实际评估可使用 F1-score(精准率+召回率综合指标)进行补充说明,尤其适合文本处理任务。
✅ 2. 系统处理延时 ≤ 2秒
📌 定义:
衡量系统完成一次教培资源处理任务所需的时间。
📈 目的:
确保系统响应足够快,适用于实时应用场景。
🧮 公式:
处理延时 = T_响应完成 − T_请求提交
💡 说明:
T_响应完成:系统输出处理结果(如完成视频剪辑、实体识别)的时间戳。
T_请求提交:用户或系统发起处理请求的时间戳。
通常采用 平均延时 或 P95延时(95%任务处理时间不超过该值)来衡量性能。
T_响应完成:系统输出处理结果(如完成视频剪辑、实体识别)的时间戳。
T_请求提交:用户或系统发起处理请求的时间戳。
通常采用 平均延时 或 P95延时(95%任务处理时间不超过该值)来衡量性能。
✅ 3. 员工学习进度识别准确率 ≥ 85%
📌 定义:
评估系统能否正确判断员工是否完成学习任务、是否达标等。
📈 目的:
确保学习过程监测的智能化和准确性。
🧮 公式:
识别准确率 = 正确识别的学习状态数量 / 总学习状态数量 × 100%
💡 说明:
学习状态:如“已完成”、“学习中”、“未完成”或具体行为(如某视频是否观看满80%)。
正确识别指系统输出与事实一致。
可参考 LMS(Learning Management System)日志 + 人工对照表校验。
学习状态:如“已完成”、“学习中”、“未完成”或具体行为(如某视频是否观看满80%)。
正确识别指系统输出与事实一致。
可参考 LMS(Learning Management System)日志 + 人工对照表校验。
✅ 4. 能力差距智能分析误差 ≤ 10%
📌 定义:
衡量系统对员工能力评估结果与人工(专家)评估结果之间的误差。
📈 目的:
验证能力分析的精确度,保障后续培训内容推荐的准确性。
🧮 公式(平均相对误差):
误差 = (1/N) × ∑(|系统评估值_i − 标准值_i| / 标准值_i) × 100%
💡 说明:
系统评估值_i:系统对员工第i项能力的评分(如变电检修能力=0.75)
标准值_i:专家评估或人工打分值
N:总评估样本数量
也可采用 均方根误差(RMSE) 替代
系统评估值_i:系统对员工第i项能力的评分(如变电检修能力=0.75)
标准值_i:专家评估或人工打分值
N:总评估样本数量
也可采用 均方根误差(RMSE) 替代
✅ 5. 能力画像更新频率 ≥ 1次/日
📌 定义:
系统自动更新员工能力画像的频率。
📈 目的:
保证能力画像反映最新学习和任务表现。
🧮 公式:
更新频率 = 能力画像更新次数 / 天数
💡 说明:
自动更新应涵盖学习记录、行为日志、技能变化等
可使用 定时批处理(每日0点) 或 实时流处理
自动更新应涵盖学习记录、行为日志、技能变化等
可使用 定时批处理(每日0点) 或 实时流处理
✅ 6. 个性化资源推荐准确率 ≥ 85%
📌 定义:
衡量系统推荐给员工的培训资源是否真正“有用”或“被接受”。
📈 目的:
验证推荐系统的个性化有效性。
🧮 公式:
推荐准确率 = 推荐结果中被接受/完成的数量 / 推荐总数量 × 100%
或基于点击率/完成率评估:
Top-N 推荐准确率 = 用户点击或完成Top-N中推荐内容的次数 / N × 100%💡 说明:
被接受:员工点击、完成、收藏、好评等行为。
多维度评估推荐结果,如点击率(CTR)、转化率、平均评分。
被接受:员工点击、完成、收藏、好评等行为。
多维度评估推荐结果,如点击率(CTR)、转化率、平均评分。
✅ 7. 推荐响应时间 ≤ 2秒
📌 定义:
从用户发起推荐请求到系统生成推荐结果的时间。
📈 目的:
确保推荐系统具备良好实时性体验。
🧮 公式:
推荐响应时间 = 推荐完成时间戳 − 推荐请求时间戳
💡 说明:
实际可取平均值、P95、P99做评估
实际可取平均值、P95、P99做评估
✅ 8. 支持典型岗位场景 ≥ 5个
📌 定义:
平台是否为5个以上典型岗位建立完整知识/能力模型,并具备推荐能力。
📈 目的:
验证系统覆盖度。
🧮 公式(枚举):
支持岗位数 = 系统已建模岗位类型数量
💡 说明:
可列出示例岗位,如“调度员”、“线路运维”、“设备检修员”等
可列出示例岗位,如“调度员”、“线路运维”、“设备检修员”等
评论
发表评论