奥飞寺干明
量子比特报告 | 公众号
想做研究却没有足够的数据会令人沮丧和沮丧。
现在,您可以自己创建数据集。
的小姐姐Chip Huyen在网上开源了一个名为“”的工具库。
爬取网页、清洗数据、创建数据集都可以完成。
她说,使用这个库网站建设一条龙,你应该能够创建一个大于 40G 的文本数据集,比用于训练 GPT-2 的数据集还要大。
仅开源一天,该项目就获得了超过300颗星和上千个点赞。 fast.ai的创始人等人也转发了推荐。
而且,使用这个工具库创建数据集的过程并不麻烦。
五步一火车
第一步是获取要抓取的网页的 URL。
小姐姐提供了三个网址集合,大家可以直接拿走使用,分别来自 (电子书)和维基百科。
当然你也可以自己下载。
第二步是删除重复的 URL。
网址很多,重复在所难免。
这里有两种删除重复网址的方法。
第三步,下载URL内容。
这里提供两种方法,一种可以并行下载多个文件,另一种可以单独下载网页内容。
如果url数量比较多,可以将列表分成多个文件网站建设一条龙,分别调用函数。
小姐姐说她可以并行运行40个脚本,下载也比较方便。
第四步,清理网页。
这一步有3种方法可以选择,一种是使用/.py中的方法,另一种是直接调用命令行:
。(页)
或者,您可以使用 .() 函数来抓取页面并同时清理它。
第五步,删除重复的网页。
网站已经下载好了,需要清理的都清理好了,接下来就是去重了。
否则,某些文本会重复,从而影响数据集的性能。
小姐姐提供了3个功能可以帮你完成步骤。
这样做之后,你就拥有了自己的NLP数据集,你可以为所欲为。
如果您有想法,请保留以下传送门:
*请认真填写需求信息,我们会在24小时内与您取得联系。