当前位置:首 页 >> 学术研究 >> 新闻传播学 >> 时间累积、用户行为与匿名社区资本——基于豆瓣网网络爬虫数据的分析
学术研究
点击排行
最新文章
热门标签
哲学 影评 符号学 分析哲学
管理 经济危机 贫富差距
传播 新闻 和谐社会
历史 胡塞尔  人口比例
郎咸平 华民 林毅夫 价值观 
司法公正 国学 正义 人文 
存在主义 现象学 海德格尔
新闻传播学
时间累积、用户行为与匿名社区资本——基于豆瓣网网络爬虫数据的分析
来源:网络转摘 作者:崔凯,刘德寰,燕熙迪 点击:564次 时间:2017-06-28 21:03:44
   一、引言

   网络社区中的社会资本是现实世界中社会资本的延伸,可以给用户带来新的社会网络与社会资本(Hofer & Aubert,2013)。随着社会化媒体的进一步商业化发展,拥有较多关注量的网络红人(“网红”)群体开始崛起,他们不仅成为网络社区中内容生产的主力军,还以其优质的内容吸引着普通用户的眼球,获取用户的持续关注,同时也开始承担起网络营销中的重要节点(李原、吴育琛,2016)。

   网络社区匿名与否对其用户社会资本的积累影响较大。以新浪微博为例,关注量较高的前10名黄V认证排名中,除张小娴为作家之外,其余均为当红明星。①这些人无一例外都是已经在现实社会中取得了较高社会资本的人,当其转移到网络社区中来时,因为他们的知名度以及实名认证等机制,他们可以迅速地获取大量的关注,现实社会资本转化为网络社区社会资本。虽然新浪微博上的被关注量无法直接体现对应明星的受欢迎程度,但可以看到,实名制的网络社区获得较高社会资本的路径与匿名网络社区有非常大的区别。

   二、文献综述与理论研究

   虽然最先提出社会资本概念的是经济学家洛瑞(Loury),但学界公认社会资本的理论框架是由布迪厄(Bourdieu)、科尔曼(Coleman)和帕特南(Putnam)三位学者建立的。布迪厄将社会资本定义为“实际或潜在资源的集合体,他们与或多或少制度化了的相互认识与认知的持续关系网络联系在一起……通过集体拥有的资本的支持提供给他的每一个成员”(Bourdieu,1983),首创从社会网络的角度研究社会资本的途径。科尔曼从理性行动理论出发,认为社会资本“是内在于家庭关系和社区社会组织中的一整套系统,对儿童或年轻人的认知和社会发展非常有益”(Coleman,1988)。帕特南承前启后,认为社会资本是“通过促进合作行动而提高社会效率的社会组织的某种特征”(Putnam,2001)。之后,林南(Lin,2002)、福山(Fukuya,2001)、边燕杰(2000)等学者继续深入研究,但都没有超越既有的理论框架。

   网络社会资本是在网络空间中形成的社会资本,研究者可以通过分析社交媒体用户的朋友数量和信息分享等特点来反映其网络社会资本的情况及影响。网络社会资本体现了社交网站对个体人际关系网络的扩展与促进作用,社交网站帮助人们在社会生活中获得了更多的资源、信息、情谊和机会(杨萍,2010)。在网络社会资本研究中颇具地位的学者埃里森(Ellison)认为,网络社会资本是社会资本发展的时代性创新,既包含了实际存在的社会关系,又创造了新的社会关系样态(Ellison et al.,2007)。也就是说,网络社会资本可以被解构为两部分——一是业已存在的线下社会资本转移到网络;二是纯粹因网络沟通而建立的新的网络社会资本。

   尽管网络社区数据样态的完善和研究者大数据处理能力的提升让研究者有机会通过互联网痕迹指标来丰富网络社会资本的评估体系,但基于社会资本进行的大数据分析仍是凤毛麟角。笔者总结梳理了近年来国内外研究网络社会资本的实证研究,并制成了表格(见表1)。

   

   现有对网络社会资本的研究可依据数据来源分为两大类。基于问卷调查的研究多通过精心设计的量表定义社会资本,并讨论网络社区的使用对用户社会资本的影响(具体分为对某个特定网络社区典型作用的探讨和对不加指定的网络社区的使用影响的泛化描述),埃里森等人在2007年的研究可谓典型(Ellison et al.,2007);而基于网络爬虫获取数据的研究则多以现有指标来定义社会资本,优点在于数据量大,但只能根据既有数据进行研究,在测量的维度上存在较大不足。以赫法克(Huffaker)2009年的研究为代表,针对从Google Group爬取到的用户的发布、回复行为及完整内容和用户间关注关系,通过文本分析、分层线性模型等模型建构,得到用户社会资本的影响权重(Huffaker,2009)。

   实名网络社区中,“意见领袖的专业性和可信度可以通过转移原有身份及声望来确认,也可以通过发布信息、参与讨论等社区贡献手段来累积”(Pornpitakpan,2004)。但在匿名网络社区,由于线下影响力无法转移到线上,“积极、认真、负责任的社区参与”对于成为意见领袖更为重要(王秀丽,2014)。因而,对实名网络社区和匿名网络社区用户网络社会资本的评估应有所区分。大多数学者认为评估实名网络社区用户的网络社会资本需要考虑的方面较多,“被关注数量仅能体现用户影响力的很小部分”(Cha et al.,2010),网络社会资本对用户的行为意愿与社交网络影响颇深(Zhang et al.,2011)。而在以豆瓣网为代表的匿名网络社区中,被关注数量不仅意味着影响力(王智颖、钟毅,2015),还是变现能力的必要不充分条件(王佳,2016),也是用户身份认同构建和社区身份感知的重要指标(周俊、毛湛文,2012)。

   以豆瓣网为代表的匿名网络社区基于趣缘关系和用户生产内容(UGC)形成自己的小群落社会规则,用户在社区中某个板块的影响强度可能很大,但再向外的影响辐射却相对有限。这种由被关注数量表征的影响力只反映了广义的网络社会资本的一个截面,与带有转化网络社会资本条件的实名网络社区有着不同的产生及表现机制,故本文提出“匿名社区资本”这一概念,②用以继承同时区别于“社会资本”,而这种“匿名社区资本”又表现出匿名网络社区所特有的特点。

   首先,匿名社区资本区别于实名网络社会资本。在匿名网络社区中,现实社会资本会在匿名网络空间中清零,更无法将现实社会资本转移至匿名社区中。因此,在(尤其是初期)匿名社区中,用户是平等的,用户的社会资本的获取即可理解为获取“被关注量”的过程。

   其次,在匿名网络社区中,解除好友关系不需要付出任何代价。因此,经过一段较长的、稳定的时间后,一个用户拥有较多的被关注量就意味着这个用户在此社区中受到较多其他用户的认可,“被关注量”本身即意味着经过长期的、日积月累的认定后的匿名社会关系的沉淀。

   再次,匿名社区资本又同社会资本一样,不仅标示用户获取特定网络社区资源的能力,还标示着用户在一个网络社区中的影响力、话语权。一般而言,匿名社区资本只在特定社区中,很难转移到其他网络社区。

   最后,在新媒体环境下的市场营销与公关活动中,匿名社区资本(被关注量)可以用来指代用户实际拥有的注意力资源和潜在可能的影响强度和变现能力。

   综合以上原因,对匿名社区资本的测量得以简化。以豆瓣网为例,豆瓣网对用户没有“认证”机制,无法直接获取其特定的身份信息;用户又分散在不同的小小群落中,影响力也较为分散,几乎不存在众人皆知的用户;技术上而言,通过爬虫无法从用户页面获取其“用户质量”信息,其关注者的“用户质量”也难以通过数据抓取的方式进行评价。因此,豆瓣用户的“被关注量”是匿名社区资本最直接也最为重要的测量指标。

   三、研究方法与数据获得

   匿名社交网络社区数量众多,其中不乏以用户生产内容(UGC)为主要内容生产机制的网站,豆瓣网是其中的佼佼者。据公开资料显示,豆瓣网创立于2005年3月6日,距今已有十余年的历史。③十多年的积累使豆瓣网汇聚了一批优质的用户。截止到2015年第三季度,豆瓣网的用户量达到1.3亿,④用户结构趋于稳定。此外,豆瓣网还积累了相当的用户自发生产的内容,这些内容分布于评论类、“豆瓣说”、用户日记、用户相册以及小组发言等模块,这些都是本研究的基础。

   (一)数据采集与数据清洗

   本文所用的数据是在2014年11月23日至30日,使用Python(2.7.6版)中的BeautifulSoup4网络爬虫库对豆瓣网的用户个人页面进行数据采集而得到的。取第一个注册的ID为起始位置,间距设定为500,对豆瓣网全体用户进行等距抽样,最终爬取抽样样本的用户页面数量为175039。

   通过网络爬虫爬取的互联网原始数据与传统调研所得数据在结构上有较大不同,所回收的数据存在较多的无效数据。因此,本文设定清洗规则为,用户的社交、用户生产内容行为数据同时为空(值为0)时,则将此样本剔除,最终得到有效样本数量为68911,样本有效率为39.37%。

   (二)研究方法、变量选取

   本文所关心的核心议题是:在较为成熟的匿名网络社区中,用户的哪些行为会影响到匿名社区资本的获取与积累,因此最终从爬取数据中选用的变量与数据基本情况如表2所示。

   

   鉴于互联网痕迹数据的离散性导致建模的不稳定性,我们有必要在建模之前对自变量的数据进行降维。我们采用因子分析的方法对用户生产内容类型(UGC)的自变量进行降维,在正交因子旋转之后,因子分析的结果如表3所示。因子分析结果的累积解释率为70.71%。

   

   本文中,笔者对网络爬虫爬取获得的数据使用了R语言的相关函数来进行数据清洗和分析,R的版本为3.1.0。接下来我们将以“被关注量”为因变量建立方程。由表2可知,尽管已经对爬取数据进行数据清洗,但多数变量的中位数为0,这表示清洗之后的数据仍具有严重的偏态,不满足线性回归的基本假设。因此在建立模型时,我们只选取被关注量大于0的样本进行建模(样本量为12006)。在进行这一处理之后,将自变量与因变量均取对数值,继而建立的线性模型可以通过标准化残差的P-P Plot检验。最终,我们确定选用多元线性回归方程来建立最终模型。

   四、时间累积、用户行为与匿名社区资本

   (一)基础:用户社区行为是匿名社区资本建立的基本方式

   以用户的被关注量作为因变量,用户社区行为则以用户生产内容(UGC)变量(含内容标注、评论、相册、写日记等)与社交变量(加入小组)等作为代表加入方程,得到结果如表4所示。

   

   

   从模型的结果来看,在自变量与因变量同时取对数之后,所有的自变量都与因变量有显著相关(显著度都小于0.001)。从偏回归系数来看,所有的变量都呈现正向相关,且偏回归系数均大于0.1。从字面来解释方程的结论,用户在豆瓣网的所有行为都有助于积累匿名社区资本,影响从大到小依次是创建相册(0.622)、撰写评论(0.350)、加入小组的数量(0.219)、内容标注(0.198)、是否写日记(0.173)。同现实社会中的社会资本累积一样,用户的社交与内容生产等行为是其获取匿名社区资本的基础。

   (二)沉淀:匿名社区资本是用户在网络社区持续耕耘的累积

   数据量较大时,会带来规律的丧失和严重失真(刘德寰、李雪莲,2013),具体表现为建立方程时自变量更容易通过显著性检验。从用户行为变量来看,表4所示的方程拟合较好。但从结论来看,却没有回答匿名社区资本积累与时间的关系。现实社会中,资历是社会资本的重要维度,而资历的背后就是时间。基于此,我们将时间变量加入方程之中,并尝试交互项的计算。

   为了进行交互项的计算,笔者将表4模型中的用户生产内容(UGC)变量转化为定类变量与加入天数相乘,得到方程如表5所示。由方程可知,加入时间与各定类变量相乘项显著。由此可以总结出匿名社区资本的两个重要因素:首先是用户必须要不断地发生社区行为,在这里既包括用户生产内容(UGC)行为,又包括社交行为;其次这些行为必须是基于时间而持续累积的,匿名社区资本是用户生产内容(UGC)等行为在时间上的凝结。

   

   图1 不同用户行为与加入天数对匿名社区资本影响的多元回归模型

   前文我们已经证明用户行为与匿名社区资本之间的关系,在这一部分我们可以看到,这些行为不是简单地与匿名社区资本之间存在“线性正相关”关系。用户行为与匿名社区资本之间的关系,经由时间变量的作用,会得以更加深刻的显现。由图1可以看到,从平均意义上而言,随着时间推移,内容生产用户的被关注量增加,进行内容生产的用户的社区资本也总是更多。因此也可以说,匿名社区资本是用户在网络社区持续耕耘的结果。

   (三)先发优势:用户加入时间点的影响⑤

   经由时间的沉淀作用,即使是默默无闻的用户,通过其持续不断的内容生产等行为总是可以获取匿名社区资本。但在不同时期加入豆瓣网的用户经过相同的时间沉淀,其可能获取的粉丝量是同一量级的吗?陈云松在对谷歌图书(Google Books)中百年社会学家的名字进行词频统计并依据时间进行排序后认为,“后人似乎再也难以超越前人在文化影响力方面的辉煌”,“这种现象也可以说是路径依赖或先发优势”(陈云松,2015)。一个匿名社区最初就好比一个空白的学科,随着时间的推移,从这些匿名的用户中开始涌现一些具有一定影响力的ID。前文我们已经证明了行为、时间长度与匿名社区资本之间有显著的相关关系,从另一个角度讲,加入匿名社区的时间点是否也会对匿名社区资本的获取以及积累有显著的影响?

   按照这个思路,笔者尝试将加入的具体时间与虚拟社区资本(被关注量)作一个图(见图2)。在图2中,我们将用户以加入年份分组,以被关注量大于100的用户为例,展现其在该年样本(数据清洗后)中所占的比例。同理,我们也对被关注量大于10的用户进行了相同处理以作参照,发现相近趋势。

   

   图2 注册时间与被关注量的关系

   假设加入时间与被关注量有正相关关系,为了消除时间的影响,我们取斜率(变化率)来进行对比。由数据观察可以看出,加入时间越晚,用户获得较高虚拟社区资本的比例越低,且增长趋势(斜率)也呈下降的趋势。即便使用增长率的上界进行预测(基于加入当年的斜率延长该曲线,即图中虚线),我们仍可以看到,从平均趋势的角度而言,晚期加入的用户要想超越早期加入的用户的匿名社区资本,是非常困难的。

   五、结论和讨论

   (一)研究结论

   本文使用网络爬虫收集数据,以我国知名的基于用户生产内容(UGC)的匿名网络社区豆瓣网为例,进行数据分析与建模,得到如下研究结论。

   首先,本文提出“匿名社区资本”这一概念,用以继承并同时区别于“社会资本”。匿名社区资本是指在匿名的网络社区中,因现实社会资本被清零、无法转移到匿名社区中而生的一种特殊的社会资本形式,是用户在匿名社区中影响力的体现,其主要体现方式即用户的被关注量。

   其次,在匿名社区中,普通用户的社交、用户生产内容等行为与匿名社区资本有着显著的正相关关系。尽管匿名社区资本的获取具有一定的偶然性,但长期的源源不断的内容生产与社交行为最终导致匿名社区资本的积累,匿名社区资本是用户在匿名社区的持续耕耘在时间上的累积。

   

   图3 用户网络社区行为对匿名社区资本的影响过程

   最后,加入匿名社区的时间点对用户获取匿名社区资本有显著影响。早期加入的用户在匿名社区资本的获取上具有一定的先发优势。

   本文也对基于网络爬虫数据的社会科学实证研究进行了方法上的探索。采用网络大数据的方法一般而言很难描述总体的特征(唐文方,2015),本文使用对全体用户进行等距抽样的方法,既保留了大数据的客观性,又较好地描述了豆瓣网用户的总体特征。另外,网络爬取数据的特点是真实客观,但是数据冗余的缺陷也不可忽视。对痕迹数据进行严格数据清洗,根据数据结构和研究目标选取恰当的算法,才不至于陷入海量数据所造成的数据误区中。

   (二)研究局限与展望

   本文使用网络爬虫数据采集与建模的方法对匿名社区资本进行研究,有一定的探索性。但同时也存在一定的局限性。主要包含以下两个方面。

   第一,研究变量的选择受网络爬虫数据的限制,使得研究操作化不够完善。不论是社会资本还是用户生产内容(UGC)等都存在进一步操作化的必要,但采用网络爬虫采集数据的方法只能抓取在用户个人页面存在的数据,更多研究假设因为数据无法获得而无法进行。而在传统调研中,这一问题可以被轻松克服。因此,在未来的研究中可以对被抓取用户发放一定数量的随机问卷,使用爬虫抓取数据与问卷数据进行交互检验,这样可以提升研究的信度与效度。⑥

   第二,在进行方程建构时,为了尽可能满足回归建模的假定条件,没有进一步对自变量进行复杂的函数变换,仅采取了简单相乘的方法通过交互项探测共同作用。这一方法虽然在逻辑上并无问题,但只能呈现线性关系,而社会问题的复杂性应该不止于线性相关。未来,将对非线性关系进行进一步的探测。

   注释:

   ①根据新浪微博公开数据整理,粉丝量前十名的ID分别是:谢娜、陈坤、姚晨、赵薇、何炅、Angelababy、林心如、张小娴、郭德纲、夢想家林志穎。访问时间2016年4月30日。

   ②感谢匿名审稿人对该观点的启发。

   ③王乐,2016,《网络新生领域扫描:一个人运营的“豆瓣”网》,5月1日(http://news.xinhuanet.com/ec/2005-11/26/content_3838371.html)。

   ④邓若虚、马宁忆,2016,《如果豆瓣是一个国家,它的国民都是什么样的人?》,5月1日(http://www.qdaily.com/cards/19635.html)。

   ⑤感谢匿名审稿人对于该观点的启发。

   ⑥感谢匿名审稿人对该观点的启发。

 

原文参考文献:

  • [1]边燕杰、丘海雄,2000,《企业的社会资本及其功效》,《中国社会科学》第2期。
  • [2]卜巍巍,2014,《基于强弱关系的SNS用户参与行为对社会资本获取影响的实证研究》,青岛大学硕士学位论文。
  • [3]陈云松,2015,《大数据中的百年社会学——基于百万书籍的文化影响力研究》,《社会学研究》第1期。
  • [4]梁玉麒,2014,《中国社交媒体用户社会资本状况对网络口碑行为的影响——以新浪微博、腾讯微信为例》,厦门大学硕士学位论文。
  • [5]刘德寰、李雪莲,2013,《大数据的风险和现存问题》,《广告大观(理论版)》第3期。
  • [6]李原、吴育琛,2016,《网红经济学》,《中国企业家》第6期。
  • [7]李园园,2011,《社交网络使用行为与社会资本获得关系研究》,兰州大学硕士学位论文。
  • [8]吕峰,2015,《基于隐马尔科夫模型的问答社区用户知识贡献意愿研究》,哈尔滨工业大学硕士学位论文。
  • [9]唐文方,2015,《大数据与小数据:社会科学研究方法的探讨》,《中山大学学报(社会科学版)》第6期。
  • [10]王佳,2016,《网红流量变现内在机理探析——基于文化资本与心理诉求的双维视角》,《中外企业家》第16期。
  • [11]王秀丽,2014,《网络社区意见领袖影响机制研究——以社会化问答社区“知乎”为例》,《国际新闻界》第9期。
  • [12]王智颖、钟毅,2015,《粉丝营销与粉丝经济学》,《中国广告》第4期。
  • [13]杨萍,2010,《论SNS社交网站的传播价值:社会资本理论的视角》,《东南传播》第9期。
  • [14]赵曙光,2014,《社交媒体的使用效果:社会资本的视角》,《国际新闻界》第7期。
  • [15]周俊、毛湛文,2012,《网络社区中用户的身份认同建构——以豆瓣网为例》,《当代传播》第1期。
  • [16]Beaudoin,Christopher E.& E.Thorson 2004,"Social Capital in Rural and Urban Communities:Testing Differences in Media Effects and Models." Journalism & Mass Communication Quarterly 81(2).
  • [17]Bohn A.,C.Buchta,K.Hornik & P.Mair 2014,"Making friends and Communicating on Facebook:Implications for the Access to Social Capital." Social Networks 37(1).
  • [18]Bourdieu,Pierre 1983,"The Field of Cultural Production or the Economic World Reversed." Poetics 12(4).
  • [19]Brandtzaeg Petter Bae 2012,"Social Networking Sites:Their Users and Social Implications-A Longitudinal Study." Journal of Computer-Mediated Communication 17(4).
  • [20]Cha,Haddi,Benevenuto et al.2010,"Measuring User Influence in Twitter:The Million Follower Fallacy." The 4[th] International AAAI Conference on Weblogs & Social Media.
  • [21]Coleman,James S.1988,"Social Capital in the Creation of Human Capital." American Journal of Sociology 94.
  • [22]Douglas,Blanks Hindman & Masahiro Yamamoto 2011,"Social Capital in a Community Context:A Multilevel Analysis of Individual-and Community-Level Predictors of Social Trust." Mass Communication and Society 14(6).
  • [23]Ellison,N.B.,C.Steinfield & C.Lampe 2007,"The Benefits of Facebook 'Friends':Social Capital and College Students' Use of Online Social Network Sites." Journal of Computer-Mediated Communication 12(4).
  • [24]NB Ellion,C.Steinfield & C.Lampe 2011,"Connection Strategies:Social Capital Implications of Facebook-enabled Communication Practices." New Media & Society(6).
  • [25]Fukuyama,Francis 2001,"Social Capital,Civil Society and Development." Third World Quarterly 22(1).
  • [26]Hofer,M.& V.Aubert 2015,"Perceived Bridging and Bonding Social Capital on Twitter:Differentiating between Followers and Followees." Computers in Human Behavior 29.
  • [27]Huffaker 2009,"Dimensions of Leadership and Social Influence in Online Communities." Human Communication Research 4.
  • [28]Lee,Junghee & H.Lee 2010,"The Computer-Mediated Communication Network:Exploring the Linkage Between the Online Community and Social Capital." New Media & Society 12(5).
  • [29]Lin,Nan 2002,Social Capital:A Theory of Social Structure and Action.Cambridge:Cambridge University Press.
  • [30]Pornpitakpan 2004,"The Persuasiveness of Source Credibility:A Critical Review of Five Decades' Evidence." Journal of Applied Social Psychology 34(2).
  • [31]Putnam,R.D.2001,"Bowling Alone:The Collapse and Revival of American Community." Journal of Policy Analysis & Management 20(4).
  • [32]Shah,Dhavan V.,N.Kwak & L.K.Holbert 2001,"Connecting' and 'Disconnecting' with Civic Life:Patterns of Internet Use and the Production of Social Capital." Political Communication 18.
  • [33]Steinfield,C.,N.B.Ellison & C.Lampe 2008,"Social Capital,Self-esteem,and Use of Online Social Network Sites:A Longitudinal Analysis." Journal of Applied Developmental Psychology 29(6).
  • [34]Valenzuela S.,N.Park & K.F,Kee 2009,"Is There Social Capital in a Social Network Site:Facebook Use and College Students' Life Satisfaction,Trust,and Participation." Journal of Computer-Mediated Communication 14(4).

共[1]页

崔凯,刘德寰,燕熙迪的更多文章

上一篇: 空间争夺战——中国大城并区的媒介话语分析 下一篇:没有数据!
相关推荐:·时间累积、用户行为…     
没有数据!
姓名:
E-mail:

内容:
输入图中字符:
看不清楚请点击刷新验证码
设为首页 | 加入收藏 | 联系我们 | 投稿须知 | 版权申明
地址:成都市科华北路64号棕南俊园86号信箱·四川大学哲学研究所办公室 邮编:610065
联系电话:86-028-85229526 电子邮箱:scuphilosophy@sina.com scuphilosophy@yahoo.com.cn
Copyright © 2005-2008 H.V , All rights reserved 技术支持:网站建设:纵横天下 备案号:蜀ICP备17004140号