全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111539786.0 (22)申请日 2021.12.15 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 陈龙  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 代理人 孙宝海 赵新龙 (51)Int.Cl. H04L 9/40(2022.01) H04L 41/14(2022.01) (54)发明名称 异常检测及对比嵌入模型训练、 检测方法、 装置及介质 (57)摘要 本申请实施例中提供异常检测及对比嵌入 模型训练、 检测方法、 装置及介质, 异常检测方法 包括: 获取待检测样本; 预处理所述待检测样本; 将经预处理的待检测样本输入已训练的对比学 习嵌入模型, 以获得待检测样本嵌入特征向量; 将所述待检测样本输入已训练的异常检测模型, 得到异常检测结果。 本申请实施例中的异常检测 模型由机器学习模型训练得到, 在根据网络流量 文本进行异常检测之前, 通过已训练的对比学习 嵌入模型对网络流量文本生 成嵌入向量, 对比学 习加强相似异常的样本在特征空间上的聚集程 度, 也就使不相似异常的样本更分离, 提升异常 检测准确性。 权利要求书3页 说明书13页 附图7页 CN 114244603 A 2022.03.25 CN 114244603 A 1.一种异常检测模型的训练方法, 其特征在于, 用于根据网络流量文本检测异常流量 的异常检测模型的训练; 所述训练方法包括: 预处理各异常检测训练样本; 所述异常检测训练样本为网络流 量文本; 将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模型, 以获得输出的各 训练样本嵌入特 征向量; 将各所述训练样本嵌入特 征向量输入一异常检测模型, 以训练所述异常检测模型。 2.根据权利要求1所述的训练方法, 其特征在于, 所述预处理各异常检测训练样本包 括: 对异常检测训练样本进行泛化和/或乱序。 3.一种异常检测方法, 其特 征在于, 包括: 获取待检测样本; 预处理所述待检测样本; 将经预处理的待检测样本输入已训练 的对比学习嵌入模型, 以获得待检测样本嵌入特 征向量; 将所述待检测样本 输入已训练的异常检测模型, 得到异常检测结果; 其中, 所述异常检测模型由如权利要求1或2所述的训练方法所训练得到 。 4.一种对比学习嵌入模型的训练方法, 其特征在于, 应用于对如权利要求1或2所述的 训练方法、 或如权利要求3所述的异常检测方法中所使用的对比学习嵌入模型进 行训练, 包 括: 预处理对比学习样本集种的各对比学习样本; 将预处理后的对比学习样本集划分形成训练样本集和评估样本集; 根据所述评估样本集 生成评估数据; 利用所述训练样本集训练所述对比学习嵌入 模型; 通过所述评估数据评估所述对比学习嵌入 模型的训练结果; 获得评估通过的对比学习嵌入 模型。 5.根据权利要求4所述的训练方法, 其特征在于, 所述网络流量文本包括: URL地址; 所 述预处理对比学习样本集种的各对比学习样本, 包括: 对URL地址形式的对比学习样本去除文本干扰; 所述文本干扰包括: 协议信息、 IP地址 及端口号中的至少一种; 将网络流 量文本转换为小 写形式和/或统一编码格式。 6.根据权利要求4所述的训练方法, 其特征在于, 所述根据 所述评估样本集生成评估数 据, 包括: 计算评估样本集中的评估集样本之间的余弦相似矩阵; 根据所述余弦相似矩阵, 在所述评估集中为每个评估集样本获取其最相似样本及对应 余弦相似度, 以组成每个评估集样本的相似样 本三元组; 以及, 获取每个评估集样本的最相 异样本及对应余弦相似度, 以组成每 个评估集样本的相异样本三元组; 其中, 各个评估集样本的相似样本三元组和相异样本三元组构成所述评估数据。 7.根据权利要求4所述的训练方法, 其特征在于, 所述对比学习嵌入模型由多层的深度 神经网络实现; 所述利用所述训练样本集训练所述对比学习嵌入 模型, 包括: 将一组训练样本输入所述对比学习嵌入模型, 其中每个训练样本输入所述对比学习嵌权 利 要 求 书 1/3 页 2 CN 114244603 A 2入模型两次; 其中, 在第二次输入时, 所述对比学习嵌入 模型中的部分神经 元失活; 提取当前训练样本两次输入时所述对比学习嵌入模型时的隐藏层向量矩阵, 分别对两 个所述隐藏层向量矩阵进行均值池化以得到对应的两个当前隐层向量; 利用一损失函数, 根据 所述两个当前隐层向量之间的余弦相似度计算的一向量相似度 的指数函数值同由所述一组训练样本得到的各向量相似度的指数函数值之和间的比例关 系的对数 结果以计算损失; 以降低所述损失为目标, 调节所述对比学习嵌入 模型的参数。 8.根据权利要求4所述的训练方法, 其特征在于, 所述通过所述评估数据评估所述对比 学习嵌入 模型的训练结果, 包括: 将评估样本、 以及所述评估样本在评估样本集中的最相似样本和最相异样本输入所述 对比学习嵌入模型, 以得到对应所述评估样本的第一模型输出向量、 对应所述最相似样本 的第二模 型输出向量、 以及 对应所述最相异样 本的第三模型输出向量; 并且, 计算所述第一 模型输出向量和 第二模型输出向量之 间的第一余弦相似度, 第一模型输出向量和 第三模型 输出向量之 间的第二余弦相似度; 根据第一余弦相似度和 第二余弦相似度构成第一评估数 据对向量; 通过预设向量生成算法处理所述评估样本及其最相似样本和最相异样本以分别得到 第一算法输出向量、 第二算法输出向量和第三算法输出向量; 并且, 计算所述第一算法输出 向量和第二算法输出向量之 间的第三余弦相似度, 第一算法输出向量和 第三算法输出向量 之间的第四余弦相似度; 根据第三余弦相似度和第四余弦相似度构成第二评估数据对向 量; 计算第一评估数据对向量和第二评估数据对向量之间的相关度; 响应于所述相关度达 到预设阈值以上, 确定所述对比学习嵌入 模型评估通过。 9.根据权利要求8所述的训练方法, 其特征在于, 所述预设向量生成算法包括TF ‑IDF; 和/或, 所述相关度通过皮尔森相关系数计算。 10.一种异常检测模型的训练装置, 其特征在于, 用于根据网络流量文本检测 异常流量 的异常检测模型的训练; 所述训练装置包括: 第一预处理模块, 用于预处理各异常检测训练样本; 所述异常检测训练样本为网络流 量文本; 第一输入模块, 用于将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模 型, 以获得输出的各训练样本嵌入特 征向量; 第一训练模块, 用于将各所述训练样本嵌入特征向量输入一异常检测模型, 以训练所 述异常检测模型。 11.一种异常检测装置, 其特 征在于, 包括: 样本获取模块, 用于获取待检测样本; 第二预处 理模块, 用于预处 理所述待检测样本; 第二输入模块, 用于将经预处理的待检测样本输入已训练的对比学习嵌入模型, 以获 得待检测样本嵌入特 征向量; 第三输入模块, 用于将所述待检测样本输入已训练的异常检测模型, 得到异常检测结 果;权 利 要 求 书 2/3 页 3 CN 114244603 A 3

.PDF文档 专利 异常检测及对比嵌入模型训练、检测方法、装置及介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 异常检测及对比嵌入模型训练、检测方法、装置及介质 第 1 页 专利 异常检测及对比嵌入模型训练、检测方法、装置及介质 第 2 页 专利 异常检测及对比嵌入模型训练、检测方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:35:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。