Hugging Face发布FineTranslations：一个万亿级的多语言平行文本数据集

Hugging Face发布了FineTranslations，这是一个大规模多语言数据集，包含覆盖英语和其他500多种语言的并行文本、超过1万亿个Token。该数据集是通过使用Gemma3 27B将FineWeb2语料库中的非英语内容翻译成英语来创建的，整个数据生成流程被设计成可复现且公开可查的。

该数据集主要用于提高机器翻译的质量，特别是将英语翻译成其他语言。对于许多资源比较少的语言，效果还比较差。通过将非英语的原始文本翻译成英语，FineTranslations提供了适用于对现有翻译模型进行微调的大规模并行数据。内部评估表明，在训练仅限英语的模型时，生成的英语文本效果与FineWeb相当，并且这些数据可以在翻译之外的任务中重用。

除了翻译之外，Hugging Face报告称，生成的英语语料库保留了源语言的大量文化和上下文信息。在内部实验中，使用翻译后的英语文本训练出来的模型，其性能与使用原始FineWeb数据集训练的模型相当。这表明，对于仅限英语的模型预训练来说，FineTranslations也可以作为一个高质量的补充。

该数据集来源于FineWeb2，它聚合了2013年至2024年间从CommonCrawl快照中收集的多语言Web内容。为了减少由高度重复或特定领域内容（如宗教文本和维基百科页面）所导致的偏差，其中只包含bible_wiki_ratio低于0.5的语言子集。每种语言最多处理了500亿个Token，优先应用FineWeb2-HQ的质量分类器（如有可用），否则使用随机抽样。

Hugging Face使用datatrove框架完成了大规模的翻译工作。该框架在Hugging Face集群上实现了强大的检查点机制、异步执行和GPU的高效利用。文档被分割成最多包含512个Token的块，为了保持跨段落上下文的连贯性，他们采用了滑动窗口策略。为了减轻大规模翻译中常见的问题，Hugging Face引入了额外的保护措施，包括早期对恶意或垃圾内容的分类、严格的格式约束，以及确保换行与结构一致性的后处理流程。

每个数据集条目包含原始文本块和翻译文本块、语言和字符集标识符、Token计数、教育质量评分，以及指向原始CommonCrawl数据源的引用。该数据集可通过Hugging Face数据集库访问（支持流式处理，可进行大规模处理），或直接通过基于datatrove的管道使用。

Achref Karoui在评论此次发布时表示：

太棒了！这次发布将弥合差距，让各个社区都能够更好地将流行模型与他们的语言相匹配。

FineTranslations现已在Hugging Face上提供。该数据集遵循开放数据共享署名（ODC-By）v1.0许可，其使用受CommonCrawl的条款约束。

原文链接：

https://www.infoq.com/news/2026/01/huggingface-fine-translations/