首页>云计算 > 正文
2023年了,为什么我们还需要“非法”的Sci-Hub?-速讯
来源: 虎嗅网 发布于:2023-02-10 07:58:04

本文来自微信公众号:果壳 (ID:Guokr42),作者:翁垟,题图来自:《星际穿越》


(相关资料图)

2022 年 2 月, 学术数据库 Sci-Hub 开始对外公布每月的文献下载统计——不论何时,中国用户在这个网站上的论文下载量都位居全球第一,是第二名美国的近五倍。

2023 年1月使用数据 |图片来源:Sci-Hub

中国用户和 Sci-Hub 的关系升温于 2020 年的一个小插曲。当年 5 月, Sci-Hub 创始人亚历山德拉·埃尔巴金(Alexandra Elbakyan)在网站主页上添加了一张 GIF 动图:图中她挥舞着手,身穿一件印有“发送”字样的衬衫,面带微笑,有张肉肉的脸。这激起了人们的好奇,知乎上,“Sci-Hub 左下角在招手的神秘女人是谁?”的相关解答收获上万点赞。

图片来源:Sci-Hub

那之后,数千封邮件突如其来地淹没了埃尔巴金的邮箱,其中一些“非常冗长而详尽”。

中国用户亲切地将 Sci-Hub 称呼为“小鸟”,称埃尔巴金为“学术女神”;Sci-Hub 则在最近的一次更新中,将 logo 小鸟口衔的钥匙变成了一把镰刀锤头。但看似和谐的关系背后是各自深陷的困境——埃尔巴金不断被美国、印度的出版商起诉;中国的科研人员则“苦知网久已”。

尽情拥抱 Sci-Hub 之时,中国科研从业者也响应学术开放的口号,探索着一条隐秘之路。

再造一条船

一战成名的故事开始于程序员论坛 ycombinator 上的一个帖子,标题简单直接:《Sci-Bay:谷歌学术和 Sci-Hub 的合体》,后面附带了网站链接。

一石千层浪。“这太棒了!”扑面而来的溢美之词带来了访问量的飙升,网站每天的日活数达到两万多人,分布在世界各地。

维基百科对 Sci-Hub 的定性是影子图书馆,一种绕过出版社付费墙,将文献开放给大众的在线数据库。Sci-Bay(意为科学海盗湾) 是一个与 Sci-Hub 高度类似的工具,被很多用户视为后者的“升级版”——Sci-Hub 只能用 DOI 号找论文,Sci-Bay 则允许用户使用关键词进行检索。

图片来源:pixabay

相较于 Sci-Hub 和埃尔巴金的高调,Sci-Bay 的来历是个谜团。“有谁知道 Sci-Bay 创始者的信息么?” 2018 年三月,曾为《大众科学》《科学美国人》等媒体撰稿的美国记者 Ian Graber-Stiehl 在一个技术论坛上求助发问。此前不久,他刚在 The Verge 上发表了一篇关于埃尔巴金的深度长文,正想乘胜追击。他说:“据我了解,全世界最知名的一些期刊编辑都希望能尽快做一篇关于 Sci-Bay 的报道。”

五年后, Dongning 再次回忆起当时的状况,仍感到不可思议。他并非互联网创业者,创建 Sci-Bay 也不是为了营利。这个网站做的唯一推广,只有那个帖子。

他看到媒体在四处打听,思前想后,考虑到各种风险,还是决定不要现身。直到现在,也几乎没人知道那个平台背后的运营者来自中国。

Dongning 属于中国最早接触到 Sci-Hub 的那批人。在他的印象中, Sci-Hub 的用户爆发期是 2016 年。也就是在那一年,“白嫖”了三年的他开始考虑对 Sci-Hub 进行改良——作为材料领域的学术人员,他知道研究者的需求,他们希望能在查阅文献的同时,可以对比期刊信息、主题、影响因子,在浩瀚的论文之海中找到对自己有用的那一篇。

他把 Sci-Bay 和 Sci-Hub 的关系定义为升级而非竞争。在他看来,如果成功, Sci-Hub 也将是获益者,“不然你随便看见一个文件就去下载,对 Sci-Hub 的服务器会造成很大的压力。”

“升级改造”所需的主要技术是 Python 编程,以他当时的水平只算了解些皮毛。但很快他就在开源平台上找到了一个谷歌学术的代理工具。他将两者进行了功能的整合,像搭乐高一样拼在一起。只一两个月之后,一个拥有检索功能的类 Sci-Hub 平台便初具雏形。

像是凭印象搭了一艘船,手边全是临时找来的废旧材料。网站刚一上线,常是每两个小时就会例行崩溃,只能手动重启。Dongning 就再返回去学架构、服务器知识,不停地往船上打补丁。

但仍有成千上万的人搭上了这艘船,摇摇荡荡来到了对岸。上线大概一个月时间,这个工具的访问增长到每天将近有一万人左右。为了改进技术并实现用户交流,Dongning 还设置了一个两千人的 QQ 群,结果几天就被加满,不得不找了一些志愿者跟他一起进行维护。

后来他将这些功能都聚合到一个网站上,模仿一些技术论坛的中文社群,建立了一个基于 Sci-Hub 的在线社区。

Sci-Hub 和它的中国拥趸

实际上,庞大的中国用户群体一直对 Sci-Hub 的运作模式产生着持续的影响。

2013,Sci-Hub 创立的第三年,迎来了中国用户的第一次爆炸式增长。发现这点后,埃尔巴金先是暂时阻止了来自中国的访问,以防网站崩溃。紧接着她测试了限流的方法——一度,用户寻找论文时需要“排队”才能进入。

在此之前,Sci-Hub 采用的是“下后即焚”的方式,没有存储库,文章被用户下载后六个小时就会自动删除。来自中国、疯狂增长的请求数让这种模式无法再延续,埃尔巴金转而从页面中提取 DOI,将用户重新定向到更老牌的文献数据库 LibGen 。

2013 年下半年,LibGen 内部出现严重的存储问题,大约四万篇论文丢失。埃尔巴金决定发起众筹,购买硬盘,建立自己的文献副本——这才让 Sci-Hub 更接近如今的模样,一个包含数千万篇论文的巨大存储库。

2021 年 8 月,Sci-Hub 接收捐款的账户被封,应用户要求,埃尔巴金在支付宝上开设了一个账户。立刻,大量的捐款开始涌入。至于具体收到的金额,埃尔巴金表示,提款限制是每年三万美金,在达到限额后,她没有再积极地进行统计和收集。

但总体来看,2021 年 Sci-Hub 收到的所有捐款中,来自中国用户的捐款占比达到了 30% 到 50%。

许多用户发信希望网站能增加中文的语言选项,作为回应,埃尔巴金在几个月前的一次更新中为 Sci-Hub 增添了这个功能。

图片来源:知乎截图

一起打游击

围绕 Sci-Hub 存在一个现象,每次被封锁、被诉讼都只是让它的名气变得更大,获得的支持更多。这体现出它在舆论中占据的上风。

2015 年 6 月,爱思唯尔(全世界最大的出版商之一)对 Sci-Hub 提起版权诉讼,让被告声名鹊起。但这场败诉也让 Sci-Hub 丢掉了自己 Sci-Hub.org 的域名。自此,它进入了一种四处游击,不断搬家的状态,先后使用过 .ac、 .io、 .cc 等不同后缀。

迄今为止,它的官方域名已经更换数次。原本埃尔巴金依赖 Twitter 作为窗口,向用户随时更新最新域名。在 2021 年,Sci-Hub 的几个 Twitter 账户也接连被封。

2022 年 11 月,同为影子图书馆的 Z-lib 域名也遭美国司法部查封,引发广泛的不满|图片来源:bleepingcomputer

因此,几乎所有 Sci-Hub 的中文社群最初都是为了这个单纯的目的聚集到一起——获知 Sci-Hub 的最新地址。

YoviSun 便是其中之一。起初,他基于个人兴趣建立了一个网站,实时更新 Sci-Hub 的可用网址链接。为了弥补部分用户无法登陆 Sci-Hub 的问题,他又建立了 QQ 群,那些无法登陆网站的人可以在群内求助,总会有热心人伸出援手。

最终,这个模式在 2020 年衍生出一个非盈利性的科研互助平台“科研通”。“科学是属于全人类的,它本不应该有障碍。”平台介绍中,YoviSun 如此写道,“大家站在巨人的肩膀上,才更有可能跳得更远。”

对于有资源的人来说,别人四处难寻的文献,只需点点鼠标就可以获取。阿莱是科研通的一名热心志愿者,据他粗略估算,对于表述清晰无误的求助,他平均的回应时间只要 20 秒。

过去半年多,他的应助数量高达两万多次,也就是说,两万篇被需要的论文由他搬运到了垄断出版机构的墙壁之外,发送给求助之人。这是不菲的成绩,他的活跃让他在网站的应助榜上留下名字。应助前十的人能看到一些网站运行的内部数据。他查看发现,科研通每一天的应助人次都在万次以上。

一定程度上,阿莱将此视为一种互惠投资。“我也不会一直在一个(访问科研文献)权限好的学校待下去,就当成现在帮别人,好让以后也有人能帮自己吧。”

一开始,科研通的功能和 Sci-Hub 重度重叠,但事情在 2021 年走到一个分水岭。 

2021 年,Sci-Hub 在印度再次遭遇大规模诉讼,继而停止了对新论文的上传。同年 9 月,为庆祝成立十周年,埃尔巴金进行了一轮大规模的论文上传,但最新的论文仍有许多缺失。几乎所有基于 Sci-Hub 的索引平台也受牵连,可下载的论文也就停留在了 2021 年。

从这时起,科研通点对点互助模式就显出优越性,平台的活跃度一下子提升起来。

科研通承继了 Sci-Hub 基因当中最原初的那个部分:互助精神。

绕过出版商的付费墙是非法的,但用自己的账户帮朋友下一篇论文呢?那么十篇呢?一百篇呢?一百万篇呢?

截止 1 月 29 日,据其官网, Sci-hub 所收纳的论文数量已经达到 88343822 篇,对主要科学出版社的覆盖率都在 95% 以上。

外界一直对 Sci-Hub 庞大的论文来源充满好奇,对此埃尔巴金只透露过少量信息:早期许多账号都来自于身处高校或研究机构内部的教授或学生,他们自愿贡献出自己的用户名和密码,直接发送到她的邮箱里。埃尔巴金记得,其中有一部分文献和密码就是与中文的学术论坛科研速递(expaper.cn)合作而取得的 。

对于很多人来说,这或许跟朋友之间共享一个 B 站或 Netflix 账号并无二致。

友情提醒:如果在 Sci-Hub 上找不到你要的论文,尝试直接给作者发邮件,他们通常都会很乐意给你发一份全文|来源:Sci-Hub Twitter

从来没有救世主

学术研究者与学术出版商之间的矛盾,全球同此凉热。

据统计,拥有《柳叶刀》和《细胞》的出版商爱思唯尔对单篇论文的获取平均收费高达 31.5 美金(约 220 元)。2012 年,哈佛向全校数千名师生发表备忘录,表示难以承担每年高达 350 万美金的订阅费用;2019 年,包含十座校区的加州大学系统宣布停止对爱思唯尔的订阅。

在中国,学术成本同样高企,相比于每年涨价 5% 的爱思唯尔,中国知网从 2010 年到 2016 年平均每年提价了近 20% 。

2013 年底,云南省多所高校因为涨价停用知网;2016 年 3 月,北大一度贴出“可能停用知网”的通知;2021 年 3 月,浙江理工大学法政学院特聘副教授郭兵以“滥用市场支配地位”为由起诉知网;2022 年 4 月,网传中科院将停用知网,因“订购总费用已达到千万级别”,引燃舆论。微博话题“#中科院回应停用知网#”“#知网涨价是否伤害了科研环境#”等阅读量累计超过 6 亿。

Sci-Hub 暴打收费期刊 meme|图片来源:Sci-Hub Twitter

运营 Sci-Hub 社区的过程中, Dongning 常收到求助邮件。其中有几位让他印象尤其深刻:一些年龄比较大、在他看来相当有年资的高校老教授,也会为了 Sci-Hub 联系到他们,大多是为寻找一篇特定的论文,也有的会对网站的功能提些反馈意见。

“有一些真的资历特别高,院士级别的吧。我很惊讶是因为,你会以为,凭借他们本身的资历,想要获取文献会有很多途径,不需要通过 Sci-Hub ,但实际情况不是这样。”

抵制促进了开放。2021 年的重新谈判中,加州大学与爱思唯尔签署了里程碑意义的协议。爱思唯尔破天荒同意,将前者在其上发表的研究成果免费开放给世界上任何地方的任何人。

民意沸腾下,知网也被责令整改。经过半年的调查,2022 年 12 月 26 日,国家市场监管总局发布公告:确认知网滥用市场支配地位,处以其 2021 年中国境内销售额 17.52 亿元 5% 的罚款,计 8760 万元,并提出整改独家合作、大幅降低数据库服务价格在内的 15 条整改措施。

不同于 Sci-Hub 、Sci-Bay 和科研通所代表的隐秘、灰暗的抗争,为争取学术开发,还存在一条看似更为光明的岔路——已经进行了数十年的开放获取运动(Open Access)

开放获取运动并非没有成果:2013 年,奥巴马政府规定,所有通过美国联邦机构进行的研究,必须在发表一年内上传副本到免费资源库;压力之下,全世界的出版商巨头陆续推出开放获取期刊,如今根据地区的不同,OA 对现有论文的覆盖率在 27.9% 到 53.7% 不等;也存在 arXiv 这样的在线数据库,供研究者上传存档尚未经同行审议的论文。

然而,这场始自 2001 年的运动步调实在太过缓慢,慢得让人们几乎失去耐心。更糟糕的是,开放获取的成本也常常被转嫁到论文作者的身上。Dongning 介绍,如今在论文出版的时候,出版商会问要不要选择 OA(Open Access),选择的话,作者就要自行交付非常昂贵的版面费(又称文章处理费 APC);不选择 OA, 版面费会低一点,但能接触到这篇论文的人就会少得多。

比如,根据期刊不同,爱思唯尔的 APC 价格在 200 美元到 10100 美元之间;美国国家科学院院刊(PNAS)的即时开放获取价格为 5495 美元(合约 3.7 万人民币)。因而坊间有调侃:“OA 期刊出现以前,有人穷得读不起好文章;OA 期刊出现以后,有人穷得发不起文章。”

2013 年 reddit 创始人亚伦·斯沃茨自杀。此前他曾因利用个人学生账号大规模下载学术文献遭到起诉,面临最高 35 年的刑期|图片来源:《互联网之子》海报

埃尔巴金来看,Sci-Hub 和开放获取(OA)并不应简单地以“合法”与否作为区分。“2001 年开放获取运动出现时,没有人谈论它必须是‘合法’的——这样的问题根本就没有出现过!人们谈论的是如何让获取科学变得免费、开放,以及,如何将科学扩展到所有人而不仅仅是专业研究人员。”

她提到,事实上,当科学家在一些学术社交平台,比如 ResearchGate 或 Academia 上分享他们的工作成果时,也常会被爱思唯尔告上法庭。最终,许多不得不服从于诉讼,将自己的论文删除。

“开放获取中的‘合法性’问题是在 Sci-Hub 出现后才成为一个问题。基本上,Sci-Hub 只是更激进的开放获取,目标是让科学变得开放,即使有人说它不完全合法。”

但这种区分仍给 Sci-Hub 带来了真实的麻烦。如今,由于深陷诉讼,论文的上传已经停滞,埃尔巴金希望未来能够恢复。她还梦想加入人工智能的功能,让 Sci-Hub 能自动翻译论文,或是用自然语言回答关于科学的问题……

现实中,科研学术人员还是离不开 Sci-Hub 和它的海盗团。

(Sci-Hub)这样的网站,它的存在本身就是一场悲剧。” Palladium 杂志评论道,“它填补了一个本不该存在的利基市场,就像买不起处方药的人只能在黑市买药。它的存在本身,就是在控诉让它能够出现的外部环境。”

谁也说不准这场悲剧将如何收场,就连海盗自己也不愿尽情高歌。

(文内 Dongning、阿莱均为化名)

参考文献

[1] https://news.ycombinator.com/item?id=16631913

[2] https://www.zhihu.com/question/397761737

[3] https://www.reddit.com/r/hacking/comments/868mqd/academic_piracy_journalist_know_anything_about/

[4] https://www.theverge.com/2018/2/8/16985666/alexandra-elbakyan-sci-hub-open-access-science-papers-lawsuit

[5] https://engineuring.wordpress.com/2017/07/02/some-facts-on-sci-hub-that-wikipedia-gets-wrong/

[6] https://www.sixthtone.com/news/1008286/paypal-less-journal-pirate-sci-hub-seeks-funds-via-alipay 

[7] https://www.theguardian.com/science/2012/apr/24/harvard-university-journal-publishers-prices

[8] https://www.insidehighered.com/news/2019/03/01/university-california-cancels-deal-elsevier-after-months-negotiations

[9] https://m.huxiu.com/article/533810.html

[10] https://huacheng.gz-cmc.com/pages/2021/12/13/6371cccd1a804c12809a401ef2df0aa3.html 

[11] http://www.legaldaily.com.cn/index/content/2022-06/20/content_8736288.htm

[12] https://news.berkeley.edu/2021/03/16/ucs-deal-with-elsevier-what-it-took-what-it-means-why-it-matters/

[13] https://36kr.com/p/2061888432623233

[14] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0265545#:~:text=With%20the%20growing%20number%20of,source%20and%20period%20of%20investigation. 

[15] http://zhishifenzi.com/depth/depth/7483.html#:~:text=%E7%BB%8F%E8%BF%8720%E5%B9%B4%E7%9A%84%E5%8F%91%E5%B1%95,%E6%88%90%E6%9C%AC%E7%BA%A6%E5%90%884000%E7%BE%8E%E5%85%83%E3%80%82

[16] https://www.palladiummag.com/2021/09/24/a-world-without-sci-hub/

[17] https://www.pnas.org/author-center/publication-charges

本文来自微信公众号:果壳 (ID:Guokr42),作者:翁垟

关键词: https