专利字体生成方法、模型的训练方法、装置、设备和介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210748173.6 (22)申请日 2022.06.29 (65)同一申请的已公布的文献号申请公布号 CN 114820871 A (43)申请公布日 2022.07.29 (73)专利权人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人唐礼承　刘家铭　尚太章　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06T 11/20(2006.01) G06T 3/00(2006.01)G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114139495 A,202 2.03.04 CN 114418834 A,202 2.04.29 CN 113792854 A,2021.12.14 US 2019220746 A1,2019.07.18 审查员卢济敏 (54)发明名称字体生成方法、模型的训练方法、装置、设备和介质 (57)摘要本公开提供了一种字体生成方法、字体生成模型的训练方法、装置、设备和介质，涉及深度学习、图像处理、计算机视觉等技术领域。方案为：分别对待处理图像和参考图像进行编码，以得到待处理图像中第一待处理字符的内容特征及参考图像中参考字符的风格特征；将内容特征和风格特征进行融合，得到目标特征；对目标特征进行解码，得到包括具有参考风格的第二待处理字符的预测图像。由此，可实现将参考图像中具有参考风格的各字符的风格特征，融合进待处理图像中各字符的内容特征中，从而可使解码后的预测图像中各字符具有参考图像中的参考风格，提升预测图像中各字符的生成效果或字体风格的迁移效果，即提升预测图像生成结果的准确性。权利要求书6页说明书26页附图10页 CN 114820871 B 2022.12.16 CN 114820871 B 1.一种字体生成方法，其特征在于，所述方法包括：获取待处理图像和参考图像；分别对所述待处理图像和所述参考图像进行编码，得到所述待处理图像中第一待处理字符的内容特征以及所述参考图像中参考字符的风格特征；将所述内容特征与所述风格特征进行融合，得到目标特征；对所述目标特征进行解码，得到预测图像，其中，所述预测图像包括具有参考图像中参考字符的风格特征的第二待处理字符；所述将所述内容特征和所述风格特征进行融合，得到目标特征，包括：将所述内容特征输入字体生成模型的注意力网络的第一线性层，得到所述第一线性层输出的第一注意力参数；将所述风格特征输入所述注意力网络中的第二线性层，得到所述第二线性层输出的第二注意力参数；将所述风格特征输入所述注意力网络中的第三线性层，得到所述第三线性层输出的第三注意力参数；根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述目标特征。 2.根据权利要求1所述的方法，其特征在于，所述根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述目标特征，包括：将所述第二注意力参数与所述第一注意力参数内积后进行归一化，得到注意力权值；根据所述注意力权值对所述第三注意力参数进行加权，得到加权特征；根据所述加权特征生成所述目标特征。 3.根据权利要求2所述的方法，其特征在于，所述根据所述加权特征生成所述目标特征，包括：将所述加权特征和所述第一注意力参数进行融合，得到融合特征；将所述融合特征输入所述注意力网络中的第四线性层，得到所述第四线性层输出的中间特征；将所述中间特征与所述内容特征进行拼接，得到所述目标特征。 4.根据权利要求1 ‑3中任一项所述的方法，其特征在于，所述分别对所述待处理图像和所述参考图像进行编码，得到所述待处理图像中第一待处理字符的内容特征以及所述参考图像中参考字符的风格特征，包括：采用字体生成模型中的内容编码网络对所述第一待处理字符进行编码，得到所述内容特征；采用所述字体生成模型中的风格编码网络对所述参考字符进行编码，得到所述风格特征。 5.根据权利要求4所述的方法，其特征在于，所述对所述目标特征进行解码，得到预测图像，包括：采用所述字体生成模型中的解码网络对所述目标特征进行解码，得到所述预测图像。 6.一种字体生成模型的训练方法，其特征在于，所述方法包括：获取样本图像、目标图像及参考图像，其中，所述样本图像中包括具有第一风格的样本权　利　要　求　书 1/6 页 2 CN 114820871 B 2字符，所述目标图像中包括具有第二风格的所述样本字符，所述参考图像中包括具有第二风格的参考字符；采用初始字体生成模型分别对所述样本图像和所述参考图像进行编码，得到所述样本图像中所述样本字符的内容特征以及所述参考图像中所述参考字符的第一风格特征；将所述内容特征和所述第一风格特征进行融合，得到第一目标特征；采用所述初始字体生成模型对所述第一目标特征进行解码，得到第一预测图像；根据所述目标图像和所述第一预测图像之间的差异，对所述初始字体生成模型进行训练；所述将所述内容特征和所述第一风格特征进行融合，得到第一目标特征，包括：将所述内容特征输入所述初始字体生成模型的注意力网络的第一线性层，得到所述第一线性层输出的第一注意力参数；将所述第一风格特征输入所述注意力网络中的第二线性层，得到所述第二线性层输出的第二注意力参数；将所述第一风格特征输入所述注意力网络中的第三线性层，得到所述第三线性层输出的第三注意力参数；根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述第一目标特征。 7.根据权利要求6所述的方法，其特征在于，所述获取参考图像，包括：对所述样本字符进行分解，得到至少一个组件；从设定的多个具有所述第二风格的候选字符中，确定与所述至少一个组件匹配的参考字符；根据与所述至少一个组件匹配的参考字符，生成所述参考图像。 8.根据权利要求6所述的方法，其特征在于，所述根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述第一目标特征，包括：将所述第二注意力参数与所述第一注意力参数内积后进行归一化，得到注意力权值；根据所述注意力权值对所述第三注意力参数进行加权，得到加权特征；根据所述加权特征生成所述第一目标特征。 9.根据权利要求8所述的方法，其特征在于，所述根据所述加权特征生成所述第一目标特征，包括：将所述加权特征和所述第一注意力参数进行融合，得到融合特征；将所述融合特征输入所述注意力网络中的第四线性层，得到所述第四线性层输出的中间特征；将所述中间特征与所述内容特征进行拼接，得到所述第一目标特征。 10.根据权利要求6 ‑9中任一项所述的方法，其特征在于，所述根据所述目标图像和所述第一预测图像之间的差异，对所述初始字体生成模型进行训练，包括：采用所述初始字体生成模型对所述目标图像中的所述样本字符进行编码，得到所述样本字符的第二风格特征；将所述第二风格特征和所述内容特征进行融合，得到第二目标特征；采用所述初始字体生成模型对所述第二目标特征进行解码，得到第二预测图像；根据所述目标图像和所述第一预测图像之间的差异，以及根据所述目标图像和所述第权　利　要　求　书 2/6 页 3 CN 114820871 B 3

专利 字体生成方法、模型的训练方法、装置、设备和介质

专利字体生成方法、模型的训练方法、装置、设备和介质