当前位置: 科技热点 > 一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合

2020-05-18 16:18 点击:22次 aae 谷歌 ROMA ip elan 数据 mini bac

原标题:一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合 来源:量子位

关注前沿科技 鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1008 种模型,正式涉足机器翻译领域。

模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语……还能一对多翻译。

就像这样:

抱抱脸创始人 Clement Delangue 表示:

全世界有那么多人在使用我们的开源项目,越来越多使用不同语言的人聚集在NLP社区。

这让我们意识到,应该在模型中提供更多其他语言的接入,同时也提供翻译。

1008种机器翻译模型

据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。

OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。

△部分模型 △部分模型

并且,抱抱脸也在 Transformer 项目中增加了喜闻乐见的 Seq2Seq 模型。

比如谷歌 AI 的 T5,Facebook 的 BART。

使用方法,一如既往的简单。

比如用 opus-mt-en-ROMANCE 这个模型同时进行英语翻法语、英语翻葡萄牙语和英语翻西班牙语,一个 API 就搞定了。

就有网友评价道:节约时间的利器。

关于 Hugging Face Transformer

抱抱脸的 Transformer Python 库目前已有超过 50 万 pip 安装量,SQuAD排行榜上的最佳语言模型们通通被收编其中。

比如谷歌 AI 的 BERT、XLNet,Facebook AI 的 RoBERTa,OpenAI 的 GPT-2。

使用简单,只需一个 import。

支持 TensorFlow 2.0 和 PyTorch 之间的深度互操作。

还有在线 Demo 供你实时调戏。

这样的万星项目,NLPer 用了都说好。

这就用起来?

传送门

GitHub 项目:

https://github.com/huggingface/transformers

作者系网易新闻·网易号“各有态度”签约作者

卡姆吸毒被捕 教育局承认学校与钟美美接触 Uzi退役 郑爽 又给自己涨了教训 再见Uzi 我的青春结束了 京东星店长 地摊经济 喜欢你我也是 中国天眼捕捉罕见快速射电暴三连闪 西安一中学校园发生车祸 弗洛伊德遗孀发言时嗓子哭哑 RNG 苹果将追踪定位iPhone抢夺者 于正 杨鸣黄景瑜同框 巴西流行的新冠病毒与欧美样本相似 二型糖尿病 不可能打工男子公开道歉 广西金嗓子创始人被限制出境 李一桐 北方将迎今年最大范围高温天 美国新冠患者出院收到84万美元账单 Ming陪Uzi打到退役 李荣浩 在一起嘛好不好 央视独家专访Uzi退役 青簪行双人海报 姜贞羽因伤暂停录制创3 上海小学生戴一米帽返校 普京批准俄罗斯核威慑政策 上官婉儿新皮肤 美国小哥分享黑人生存法则 范冰冰黑长直封面 江西警方悬赏百万通缉3名涉黑人员 民法典里的16组数字 余额宝收益率低于1年期定存 鬼灭之刃动画制作公司涉嫌逃税 天涯客 医院回应B站抗癌UP主质疑 李仙姬朴灿烈合作 金晨点赞于正微博 珍珠奶茶茶冻 城管打电话喊商贩去摆摊 印度累计确诊病例超20万例 斗牛犬开滑板带一串小朋友 67岁老农用17年种出椅子树 美国儿童频道8分钟黑屏支持抗议 31省区市新增4例无症状感染者 北京家庭摇号 特鲁多记者会沉默20秒 特朗普和美国州长电话会议录音