当前位置: 首页 > news >正文

基于Transformer的百万级文本分类技术

文本分类是自然语言理解领域最基础的任务。例如,某中心智能助手的用户请求需要按领域分类(天气、音乐、智能家居等),许多自然语言处理应用依赖词性分类解析器。对于类别较少的任务,最佳性能系统通常采用BERT、XLNet等预训练Transformer模型。但Transformer模型的复杂度随输入序列长度呈平方增长,随类别数量线性增长,面对数十万甚至百万级分类任务时变得不切实际。

在某计算协会知识发现与数据挖掘年会(KDD)发表的论文中,提出了一种针对极端多标签分类的Transformer改进方法。该模型通过两阶段处理实现高效分类:首先用Transformer模型将输入分配到类别簇,再用简单线性分类器从簇中选出具体类别。实验表明,该方法在四个数据集上的分类准确率均超越现有最佳系统。

核心创新点

  1. 采用XLNet生成类别名称或样本输入的嵌入向量,通过语义相似度进行类别聚类
  2. 设计一对多线性分类器,通过多重决策边界交集精确识别目标类别
  3. 创新性负样本构造方法:既从同簇其他类别采样,也利用模型预测的高概率错误簇

实验对比了九种基准系统,在单标签精确匹配任务上全面领先。虽然相较于第二名AttentionXML系统的优势幅度约1%,但两种方法存在互补潜力。该方法使Transformer模型参数量减少约75%,同时保持分类精度,为大规模文本分类任务提供了实用解决方案。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

http://www.aitangshan.cn/news/559.html

相关文章:

  • 详细介绍:网络基础1-11综合实验(eNSP):vlan/DHCP/Web/HTTP/动态PAT/静态NAT
  • Omnissa Horizon Windows OS Optimization Tool 2506 - Windows 系统映像优化工具
  • docker 容器化部署 vLLM 启动大模型
  • App Linking 助力应用场景创新,操作步骤立省 60%
  • ChatGpt 5系列文章1——编码与智能体
  • Cisco Catalyst 9800-CL IOS XE 17.18.1 发布,新增功能简介
  • Cisco Modeling Labs (CML) 2.9.0 - 网络仿真工具
  • Omnissa App Volumes 4, version 2506 - 实时应用程序交付系统
  • Omnissa Dynamic Environment Manager 2506 - 个性化动态 Windows 桌面环境管理
  • AES 加密模式演进:从 ECB、CBC 到 GCM 的 C# 深度实践
  • Cisco Catalyst 9800 WLC IOS XE 17.18.1 发布,新增功能简介
  • 详细介绍:python办自动化--读取邮箱中特定的邮件,并下载特定的附件
  • 微软开源的 MCP 教程「GitHub 热点速览」
  • 题解:qoj10322 Matching Query
  • ZR Summer 2025 CD ACM暨 ZR Summer 2025 C 游记
  • flutter flutter_inappwebview插件里js上传调用相机和图库碰到的问题
  • ruoyi-cloud微服务docker部署
  • #dp#L 最多变的序列
  • idea系列问题
  • Infoblox推出革命性高级威胁防御方案,通过DNS层防护主动抵御AI驱动的复杂攻击
  • 电商交易-履约-库存中心业务模型设计
  • pyyzDay8
  • 基于OAuth2与JWT的微服务API安全实战经验分享 - 实践
  • 文件或文件夹访问被拒绝,文件没有权限: 1.gpedit.msc--WINDOWS设置--安全设置--安全选项--用户帐户控制:以管理员批准模式运行所有管理员---已启用
  • 那快把题端上来吧(三)
  • 时变特征场景下的主动特征获取方法评估
  • (势能线段树)SPOJ GSS4/洛谷 P4145 上帝造题7分钟/P7334 吊打 题解
  • 6.3.3 狄利克雷卷积
  • 6.3.1常见积性函数
  • 一些 DS 题目