Hugging Face发布FineTranslations:一个万亿级的多语言平行文本数据集

来源: InfoQ 话题 - 大数据

原文

Hugging Face发布了FineTranslations,这是一个大规模多语言数据集,包含覆盖英语和其他500多种语言的并行文本、超过1万亿个Token。该数据集是通过使用Gemma3 27B将FineWeb2语料库中的非英语内容翻译成英语来创建的,整个数据生成流程被设计成可复现且公开可查的。

该数据集主要用于提高机器翻译的质量,特别是将英语翻译成其他语言。对于许多资源比较少的语言,效果还比较差。通过将非英语的原始文本翻译成英语,FineTranslations提供了适用于对现有翻译模型进行微调的大规模并行数据。内部评估表明,在训练仅限英语的模型时,生成的英语文本效果与FineWeb相当,并且这些数据可以在翻译之外的任务中重用。

除了翻译之外,Hugging Face报告称,生成的英语语料库保留了源语言的大量文化和上下文信息。在内部实验中,使用翻译后的英语文本训练出来的模型,其性能与使用原始FineWeb数据集训练的模型相当。这表明,对于仅限英语的模型预训练来说,FineTranslations也可以作为一个高质量的补充。

该数据集来源于FineWeb2,它聚合了2013年至2024年间从CommonCrawl快照中收集的多语言Web内容。为了减少由高度重复或特定领域内容(如宗教文本和维基百科页面)所导致的偏差,其中只包含bible_wiki_ratio低于0.5的语言子集。每种语言最多处理了500亿个Token,优先应用FineWeb2-HQ的质量分类器(如有可用),否则使用随机抽样。

Hugging Face使用datatrove框架完成了大规模的翻译工作。该框架在Hugging Face集群上实现了强大的检查点机制、异步执行和GPU的高效利用。文档被分割成最多包含512个Token的块,为了保持跨段落上下文的连贯性,他们采用了滑动窗口策略。为了减轻大规模翻译中常见的问题,Hugging Face引入了额外的保护措施,包括早期对恶意或垃圾内容的分类、严格的格式约束,以及确保换行与结构一致性的后处理流程。

每个数据集条目包含原始文本块和翻译文本块、语言和字符集标识符、Token计数、教育质量评分,以及指向原始CommonCrawl数据源的引用。该数据集可通过Hugging Face数据集库访问(支持流式处理,可进行大规模处理),或直接通过基于datatrove的管道使用。

Achref Karoui在评论此次发布时表示

太棒了!这次发布将弥合差距,让各个社区都能够更好地将流行模型与他们的语言相匹配。

FineTranslations现已在Hugging Face上提供。该数据集遵循开放数据共享署名(ODC-By)v1.0许可,其使用受CommonCrawl的条款约束。

原文链接:

https://www.infoq.com/news/2026/01/huggingface-fine-translations/