PaECTER专利相似度模型：基于引用信息的Transformer专利表示学习完全指南

张

张建站

2026/6/2 6:36:17

10分钟阅读

PaECTER专利相似度模型基于引用信息的Transformer专利表示学习完全指南【免费下载链接】paecter项目地址: https://ai.gitcode.com/hf_mirrors/HangZhou_Ascend/paecterPaECTERPatent Embeddings using Citation-informed TransformERs是一款革命性的专利相似度模型它基于Google的BERT for Patents构建能够从专利文本中生成1024维的密集向量嵌入。这些向量封装了专利文本的语义本质非常适合各种专利分析相关的下游任务如语义搜索、现有技术检索、聚类和专利布局分析。什么是PaECTERPaECTER是一种基于Transformer的专利表示学习模型专为专利文本的语义理解和相似度计算而设计。它利用专利引用信息来增强模型对专利内容的理解从而生成更准确、更具代表性的专利嵌入向量。该模型的核心优势在于能够捕捉专利文本的深层语义信息考虑专利之间的引用关系提升相似度计算的准确性生成的嵌入向量可用于多种专利分析任务基于成熟的BERT架构具有良好的泛化能力和可扩展性PaECTER的应用场景PaECTER模型在专利分析领域有着广泛的应用前景主要包括以下几个方面语义搜索利用PaECTER生成的专利嵌入向量可以实现高效的专利语义搜索。通过将用户查询与专利库中的专利进行向量相似度比较可以快速找到与查询内容相关的专利大大提高专利检索的效率和准确性。现有技术检索在专利申请过程中现有技术检索是一个关键环节。PaECTER模型可以帮助专利审查员和申请人快速找到与目标专利相关的现有技术从而评估专利的新颖性和创造性。专利聚类通过PaECTER生成的嵌入向量可以对大量专利进行聚类分析发现专利之间的内在联系和技术领域的分布情况。这对于企业进行技术布局和竞争情报分析具有重要意义。专利布局分析PaECTER模型可以帮助企业了解特定技术领域的专利分布情况识别技术热点和空白区域从而制定更加有效的专利布局策略。如何开始使用PaECTER使用PaECTER模型非常简单下面将介绍两种常用的使用方法使用Sentence-Transformers当您安装了sentence-transformers库后可以直接使用以下代码来加载和使用PaECTER模型pip install -U sentence-transformersfrom sentence_transformers import SentenceTransformer sentences [This is an example sentence, Each sentence is converted] model SentenceTransformer(HangZhou_Ascend/paecter) embeddings model.encode(sentences) print(embeddings)直接使用openmind库如果您不想安装sentence-transformers库也可以直接使用openmind库来加载和使用PaECTER模型from openmind import AutoTokenizer, AutoModel import torch # Mean Pooling - Take attention mask into account for correct averaging def mean_pooling(model_output, attention_mask): token_embeddings model_output[0] # First element of model_output contains all token embeddings input_mask_expanded attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float() return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min1e-9) # Sentences we want sentence embeddings for sentences [This is an example sentence, Each sentence is converted] # Load model from HuggingFace Hub tokenizer AutoTokenizer.from_pretrained(HangZhou_Ascend/paecter) model AutoModel.from_pretrained(HangZhou_Ascend/paecter) # Tokenize sentences encoded_input tokenizer(sentences, paddingTrue, truncationTrue, return_tensorspt, max_length512) # Compute token embeddings with torch.no_grad(): model_output model(**encoded_input) # Perform pooling. In this case, mean pooling. sentence_embeddings mean_pooling(model_output, encoded_input[attention_mask]) print(Sentence embeddings:) print(sentence_embeddings)PaECTER的模型架构PaECTER的完整模型架构如下SentenceTransformer( (0): Transformer({max_seq_length: 512, do_lower_case: False}) with Transformer model: BertModel (1): Pooling({word_embedding_dimension: 1024, pooling_mode_cls_token: False, pooling_mode_mean_tokens: True, pooling_mode_max_tokens: False, pooling_mode_mean_sqrt_len_tokens: False, pooling_mode_weightedmean_tokens: False, pooling_mode_lasttoken: False}) )从架构中可以看出PaECTER主要由两部分组成Transformer部分和Pooling部分。其中Transformer部分采用了BertModel设置了最大序列长度为512。Pooling部分则采用了均值池化mean tokens的方式将词嵌入转换为句子嵌入。根据config.json文件中的配置我们可以了解到PaECTER的一些关键参数hidden_size: 1024隐藏层大小num_attention_heads: 16注意力头数量num_hidden_layers: 24隐藏层数量max_position_embeddings: 512最大位置嵌入vocab_size: 39859词汇表大小这些参数共同决定了PaECTER模型的性能和能力。PaECTER的训练细节PaECTER模型的训练参数如下DataLoader:torch.utils.data.dataloader.DataLoader长度为318750参数为{batch_size: 4, sampler: torch.utils.data.sampler.RandomSampler, batch_sampler: torch.utils.data.sampler.BatchSampler}Loss:sentence_transformers.losses.CustomTripletLoss.CustomTripletLoss参数为{distance_metric: TripletDistanceMetric.EUCLIDEAN, triplet_margin: 1}fit()方法参数:{ epochs: 1, evaluation_steps: 4000, evaluator: sentence_transformers.evaluation.TripletEvaluator.TripletEvaluator, max_grad_norm: 1, optimizer_class: class torch.optim.adamw.AdamW, optimizer_params: { lr: 1e-05 }, scheduler: WarmupLinear, steps_per_epoch: null, warmup_steps: 31875.0, weight_decay: 0.01 }这些训练参数的选择反映了模型训练的严谨性和专业性有助于确保模型的性能和泛化能力。如何获取PaECTER模型要获取PaECTER模型您可以通过以下步骤克隆仓库git clone https://gitcode.com/hf_mirrors/HangZhou_Ascend/paecter克隆完成后您可以根据前面介绍的使用方法来加载和使用模型。评估结果PaECTER模型的详细评估结果可以在我们的论文PaECTER: Patent-level Representation Learning using Citation-informed Transformers中找到。论文中对模型在多个专利相关任务上的性能进行了全面评估证明了PaECTER在专利表示学习方面的优越性。引用PaECTER如果您在研究或工作中使用了PaECTER模型请引用以下论文misc{ghosh2024paecter, title{PaECTER: Patent-level Representation Learning using Citation-informed Transformers}, author{Mainak Ghosh and Sebastian Erhardt and Michael E. Rose and Erik Buunk and Dietmar Harhoff}, year{2024}, eprint{2402.19411}, archivePrefix{arXiv}, primaryClass{cs.IR} }总结PaECTER是一款基于Transformer的专利相似度模型它利用专利引用信息来增强对专利内容的理解能够生成高质量的专利嵌入向量。该模型在语义搜索、现有技术检索、专利聚类和专利布局分析等任务中具有广泛的应用前景。通过本文介绍的方法您可以轻松地开始使用PaECTER模型为您的专利分析工作带来新的可能性。无论是专利审查员、知识产权律师还是企业研发人员都可以从PaECTER模型中获益提高专利分析的效率和准确性。希望本指南能够帮助您更好地了解和使用PaECTER模型。如果您有任何问题或建议欢迎随时与我们联系。【免费下载链接】paecter项目地址: https://ai.gitcode.com/hf_mirrors/HangZhou_Ascend/paecter创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考