当前位置:谷歌学术镜像_Google学术搜索 » 学术资讯 » 学术界 » 文章详细

学术研究中应用学术研究的网页抓取进行大数据收集

发布时间:2021-04-14

一、学者如何学会停止烦恼和热爱网络爬虫

Web抓取可以为您的学术研究带来奇迹。 确实,越来越多的学者依赖这种方法,因为它可以使他们更有效地进行研究。 例如,您可以抓取Web来收集来自Web论坛和社交媒体的数据,或者监视Web页面随时间的变化。 此外,您可以检索学术论文以找到与您的研究相关的论文! 但是,您如何抓取学术研究? 简而言之,如果您试图获取登录背后的数据,或者正在从私人论坛中收集信息,则您可能正潜伏在泥泞的水中。 因此,让我们剖析用于学术研究的网络抓取附带的一些道德问题。

二、遵守规则

网络抓取世界有一个黄金法则:如果普通用户无法在网站上访问此数据,那么您也不应尝试访问它。 这可能是敏感信息,无论如何您都不应该动手。 此外,在开始任何网络抓取项目之前,请确保与大学的IT部门和IRB保持联系,以制定数据管理计划。 另外,请务必阅读网站的条款,以避免法律上的麻烦,并检查网站是否具有其API。

三、尊重您正在搜寻的网站

尊重永远不会过时。 因此,在抓取时,请尝试欣赏网站的带宽。 例如,如果您不自己编码,请下载一些旨在仅收集您要收集的文件的网络抓取应用程序。 这样一来,您消耗的带宽就大大减少了,使您的抓取体验更加有效,并最大程度地减少了对网站服务器的影响。 此外,请确保在请求之间至少等待几分钟,如果可能的话,请在非高峰时段刮擦。 同时,抢一杯可爱的咖啡!

四、如何为学术目的刮擦社交媒体

对于许多研究人员而言,社交媒体是政治和社会行为实例的聚宝盆。它允许对相关主题进行各种观察性研究,例如政治参与动态或假新闻的传播。 但这不是来来往往的情况。您必须真正意识到如何收集这些数据以满足您的学术需求。 可见,社交媒体拥有个人数据。许多法律法规都保护此类数据。此外,科学界的道德标准本身规定您必须保护用户的隐私。这意味着您必须避免将实际的人与研究中提到的人联系起来可能造成的任何伤害。 此外,您无法在自己的私人环境中观察任何主题。例如,其中可能包括他们的Facebook墙,私人消息或您无权访问的封闭组。我的意思是,您不想当大哥,对吗? 当然,如果您进行定量研究,则很可能由于数据泄露而使个人受到伤害。在进行定性研究时,您必须保持警惕,因为您可能会通过引用用户的帖子作为证据来披露个人数据。最好的方法是使用假名化技术。这样一来,您就可以分析数据并跟踪主题的活动,而不会损害它们。

五、Smartproxy谷歌学术镜像代理: 

官方网站 www.h123.org