打开大数据研究的潘多拉魔盒

2015-12-20 18:27:00 作者:互联网 分类 : 探索发现

  打开大数据研究的潘多拉魔盒

  近年来,大数据研究方法逐渐应用于社会学科领域,运用大规模用户数据,社科领域研究者得以从新的视角理解用户媒介使用习惯、语言、与情感。然而,在大数据研究不断普及的背景下,如何规范大数据研究的伦理准则,如何保证研究对象的隐私权,以及如何研究现有互联网公司的伦理问题,这些问题看似遥远,但是却直接影响大数据研究者的行为准则。此外,回答与大数据研究、实践相关的伦理问题,将有助于增加普通公众对大数据的了解。本期【大数据与社会】栏目将以案例讨论的形式梳理在大数据研究和实践中所涌现出的若干问题,解释大数据研究的潘多拉魔盒是如何被打开的,而它又将如何改变我们的生活。

  作为大数据资源的管理者,社交网站拥有丰富的用户数据资源。传统意义上,网站运营者的主要角色在于提供社交平台、优化服务与产品、吸引更多用户加入。然而,在近年来出现的部分用户行为研究中,社交网站的研究人员通过大规模用户实验研究用户行为习惯超越了其传统单纯的网络运行者角色。一方面,该类研究为社会学科补充了大规模实验的实证结果;然而另一方面,用户行为实验,尤其是涉及操控用户社交媒体内容的实验,也触碰到了社交网络使用者的权利。其中,Facebook的一项关于情绪感染(emotional contagion)的实验更是引发了社会科学内部对于大数据研究伦理的广泛讨论。

  Facebook情绪感染实验:关于研究伦理的争议

  在《美国国家科学院》2014年6月17日院刊中,Facebook首席数据科学家亚当·卡拉默(Adam Kramer),康奈尔大学交流与信息科学学院教授贾米·古伊洛瑞(Jamie Guillory)和杰弗瑞·汉考克(Jeffrey Hancock)通过修改689,003名Facebook用户可以接触到的好友新鲜事的情绪帖研究情绪在社交媒体上的传播与扩散方式。

  在为期一周的实验中(2012年1月11日-2012年1月18日),研究人员通过用户ID随机选取689,003名Facebook英语版用户,并将其分为两组。一组减少刷新好友新鲜事时显示的正面情绪帖占比,另一组则减少刷新时显示的负面情绪贴占比。

  研究人员发现当好友正能量新鲜事被有意减少后,用户在发帖时会使用更多比例负面词汇和更少比例正面词汇。当减少负能量新鲜事时,则出现相反的表达方式。与此同时,研究者还发现一种退出效果(withdrawal effect):越少接触情绪性状态的人,在接下来的日子里也会减少感情流露。这项发现与此前认为“阅读朋友Facebook上正面情绪状态会带来负面影响”的观点相左,基于此发现,研究人员认为负面影响的产生原因是接触正面情绪不足所导致的。

  该研究证实:情绪可以通过情绪传染(emotional contagion)的形式传递给他人,使他人在无意识中感受到同样的情绪。此外,大规模社交网络的情绪传染还证实面对面的交流和非言语上的暗示并非情绪传染的必要条件,即情绪传染可以通过社交媒体,如Facebook,经由线上社会网络进行。

  然而,由于该实验过程涉及操纵用户的好友消息推送(译者注:通过推送包含积极或消极情绪的好友消息,Facebook用户被动接受了研究者处理过的信息),Facebook的实验也引发了学术界和社会对其法律和道德层面的激烈探讨。最为广泛的批评在于:被动接受负面信息的用户很有可能收到了负面情绪的不良影响,在其不知情的情况下体会到了情绪感染导致的焦虑(anxiety)。

  鉴于论文发表后强大舆论批判, Facebook的数据实验团队强调,所有的数据分析全部基于计算机算法,他们没有阅读或篡改用户发布的内容,只是调整了新鲜事的排列顺序。好友的其他新鲜事和状态,在进入其个人主页后仍能看到。实验的目的旨为提升用户体验,以使用户在facebook上看到的内容更具相关性。

  然而,该研究的争议性依然持续发酵,该研究的第一作者亚当·卡拉默(Adam Kramer)最终不得不在其博客中公开向Facebook用户道歉,并保证今后将不会在用户不知情的情况下进行类似实验。

  对Facebook实验伦理的讨论不仅限于该个案本身,牛津大学互联网研究所教授拉尔夫·施罗德(Ralph Schroeder)撰文质疑Facebook实验背后更广泛的大数据研究伦理问题,并延伸讨论了我们应当如何应对大数据研究对公众的影响。

  施罗德教授援引赫胥黎在《美丽新世界》一书中展现的在信息繁盛的文明中日渐被动、麻木的社会。借此警示:社会研究所使用的大数据,因其对数据学习前所未有的深度和广度,对我们的生活越来越有影响力。这一特质很容易会被掌握了大数据影响力的企业或机构利用,借此操纵人的好恶。

  施耐德教授认为,当下热议的大数据道德问题的关键在于数据多大程度上属于用户私人数据(an essential infrastructure for citizens),假如实验者所操纵的是用户的私人数据而非公共数据,那么类似研究将不可避免地侵犯用户利益。

  关于大数据研究,施耐德教授还提出了两种不同导向:第一种研究为学术导向(Academic Research),另一种则是应用导向(AppliedResearch)。两种研究都利用大数据增加对人类社会的理解,区别却在于前者意图创造可推广的知识(generalizableknowledge);后者则致力于向特定受众(particular audience)提供可应用的知识(implementing knowledge),从而影响用户决策行为。两种不同导向虽然有重合之处,但是对于我们理解研究伦理却又不同的指导意义。

  按照施耐德教授的定义,Facebook研究可以归类于致力于提供可推广知识的学术导向研究,尽管涉及研究伦理及侵犯用户隐私等问题,该研究为行为科学研究提供了一定实证支持。然而,对于大数据的使用和操控的另一种导向:应用导向通常更加隐蔽,但同样威胁用户权利,甚至可能操控用户商业、政治等决策行为。

  Google搜索与印度大选:搜索引擎可能操控我们的决策

  罗伯特·爱泼斯坦(Robert Epstein)是美国行为研究和技术研究所(AmericanInstitute for Behavioral Research and Technology)高级心理学研究员及科学美国人心灵杂志(Scientific American Mind)的特约编辑。他也是马萨诸塞州的剑桥行为学研究中心的创始人和名誉主任。他的团队抽取了2014年印度人民议会选举最后投票前4556位中间选民,样本来自美国和印度具有有效投票资格的印度选民。

  该实验使用了模拟搜索引擎,随机将被试分为不同组,每一组所接受的搜索引擎结果经过研究者设计为偏向于某个特定竞选人。在实验前后,研究被试均被问及其投票偏好(voting preferences)。通过该实验,研究人员希望发现:有倾向的搜索结果是否可以改变选民意见和偏好?如果有,将在多大程度上改变中间选民的偏好?

  研究发现:1)有偏倚的搜索排名可以改变20%或更多的中间选民的投票取向;2)这种转变在某些特定人口群体中比例更高达60%;3)搜索排名的偏好可以很隐蔽,以至于人们无法意识到自己被操纵。

  爱泼斯坦团队将这种现象归因于搜索引擎的操纵效应(SEME,译者注:Search Engine Manipulation Effect)。在现实选举中,很多选举都由于竞选团队实力不相上下,最终多数党以小幅优势取胜,因此,该研究的意义在于证实了:单凭对搜索结果排名的操控,一家搜索引擎公司便有实力影响选民决策、操纵竞选结果。

  虽然该研究使用的是模拟搜索引擎,但是研究者希望借由该模拟结果引起公众对索索引擎操纵效应的警惕:由于当下对搜索引擎公司监管并不完善,研究者认为这些公司有可能影响,甚至已经开始影响政治选举的结果。借由操纵搜索排名偏好该公司所青睐的候选人,从而操纵犹豫不决的选民是一个极其微妙但是却行之有效的政治操纵方式。更为令人警惕的是该种操纵对于民主制度将有可能造成威胁。

  有趣的是,在爱泼斯坦团队研究的过程中,谷歌并非不知情,甚至有可能派出员工参与该研究的实验中。据爱泼斯坦在接受媒体采访时介绍,当研究团队在第二个实验中从互联网招募志愿者时,两个IP地址都来自谷歌的总部。

  学术界对于搜索引擎可能的操纵行为早有预警,作为互联网信息的接口,学术界对于搜索引擎未来是否会沦为政治派系斗争的工具有着诸多顾虑。

  Introna和Nissenbaum撰文指出互联网具有科技和政治的二重性。一方面,互联网是科技发展的产物;另一方面,互联网作为新兴媒体,同传统媒体一样可能会遭受政治派系的影响和操控。

  在搜索引擎的案例中,政治偏见的产生可能体现于搜索引擎和被搜索信息的关系里:即网页是否能够收录于搜索引擎结果中,又能够被给予怎样的排名。这两个过程中算法的不公开性都会为政治偏见的产生提供温床。从微观层面讲,大多数搜索者并不了解搜索引擎的收录和排名机制。信息的不对称使得搜索者无法做出理性的决策,他(她)们只会根据偏好或者随机进行选择。

  Introna和Nissenbaum强调,搜索引擎的算法不公开和商业导向会导致其违背互联网成立之初所确立的基本原则和最初理想。网页搜索算法的重要地位使得它不应该单由市场所控制。搜索引擎是市场的市场,当人们在搜索一个特定市场时,实际上是处于信息市场当中。而搜索引擎会在信息市场中倾向于选择突出更受欢迎和金钱能力更强的网站。如果单单由市场所控制,随着互联网变得更普遍,这种偏见问题就会更尖锐。因此,两位研究者提倡在搜索引擎的市场机制以外引入其他制约机制,规范搜索引擎的运行。

  结语

  在学术研究领域,大数据所带来的勇敢新世界不断扩展着社会研究的边界,为研究者提供全新的视角,更大规模的样本,增加我们对人类社会结构与人类情感行为的理解。于此同时在实践与应用领域,大数据也对商业公司提供了更多的机遇,尤其是大规模的用户数据资料为企业提供了细分用户市场、剖析用户行为偏好的资源。然而,正如传统社会研究与社会应用,大数据研究与实践同样应当受伦理与法律的双重制约。当大数据的弄潮儿打开大数据的潘多拉魔盒,看到一个“勇敢新世界”(brave newworld)的同时,更应该意识到与之并存的危机。大数据不仅仅是生硬死板的数字,其背后是用户的日常生活,社会交往,甚至是情感表达。定义哪些数据是用户的私人数据,界定商业公司实践操作的边界和尺度。这些必须,也必将会成为大数据研究的重点课题之一。

最近更新
科普

科普图集
带着朋友和机器人上月亮散步

带着朋友和机器人上月亮散步>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。