Arabic Gigaword Third EditionLDC2007T40是 LDC 于 2007 年发布的大规模现代标准阿拉伯语MSA新闻语料库核心为多来源阿拉伯语新闻文本适配语言模型训练、统计机器翻译、文本摘要等任务是阿拉伯语 NLP 领域的基础大规模单语语料资源。以下是详细介绍基本信息项目详情发布机构Linguistic Data ConsortiumLDC发布时间2007 年 12 月语种现代标准阿拉伯语MSA编号LDC2007T40语料类型阿拉伯语新闻文本新闻专线、报纸报道数据规模约 10.77 亿词超 330 万篇文档时间跨度 1994-2005 年核心标注文档级元数据来源、日期、文档 ID 等、UTF - 8 编码统一数据格式XML 结构化文件、纯文本文件、元数据索引适配任务语言模型训练、统计机器翻译、文本分类、信息检索、文本摘要等