全网资源采集网站搭建

电脑端+手机端+微信端=数据同步管理

免费咨询热线:13114099110

当前位置: 主页 > 新闻资讯

网站建设一条龙-(建设工程质量管理条例11条)

发布时间:2023-01-25 10:03   浏览次数:次   作者:派坤优化

奥飞寺干明

量子比特报告 | 公众号

想做研究却没有足够的数据会令人沮丧和沮丧。

现在,您可以自己创建数据集。

的小姐姐Chip Huyen在网上开源了一个名为“”的工具库。

爬取网页、清洗数据、创建数据集都可以完成。

她说,使用这个库网站建设一条龙,你应该能够创建一个大于 40G 的文本数据集,比用于训练 GPT-2 的数据集还要大。

仅开源一天,该项目就获得了超过300颗星和上千个点赞。 fast.ai的创始人等人也转发了推荐。

而且,使用这个工具库创建数据集的过程并不麻烦。

五步一火车

第一步是获取要抓取的网页的 URL。

小姐姐提供了三个网址集合,大家可以直接拿走使用,分别来自 (电子书)和维基百科。

当然你也可以自己下载。

第二步是删除重复的 URL。

网址很多,重复在所难免。

这里有两种删除重复网址的方法。

第三步,下载URL内容。

这里提供两种方法,一种可以并行下载多个文件,另一种可以单独下载网页内容。

如果url数量比较多,可以将列表分成多个文件网站建设一条龙,分别调用函数。

小姐姐说她可以并行运行40个脚本,下载也比较方便。

第四步,清理网页。

这一步有3种方法可以选择,一种是使用/.py中的方法,另一种是直接调用命令行:

。(页)

或者,您可以使用 .() 函数来抓取页面并同时清理它。

第五步,删除重复的网页。

网站已经下载好了,需要清理的都清理好了,接下来就是去重了。

否则,某些文本会重复,从而影响数据集的性能。

小姐姐提供了3个功能可以帮你完成步骤。

这样做之后,你就拥有了自己的NLP数据集,你可以为所欲为。

如果您有想法,请保留以下传送门:

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。