大数据心理学研究的一般步骤

论文作者：同为论文网论文来源：caogentz.com 发布时间：2017年09月26日

上述例子都是运用大数据进行心理学研究的案例，它们详尽地描述如何拟定研究的主题，以及选择大数据研究的益处。心理学大数据研究通常包括四步:确定研究计划、获取数据、处理数据、分析数据。

(一)确定研究计划

一个典型大数据研究项目是以数据选择开始，根据研究目的选择需要的数据，如伊斯拉连环杀人案、7.23动车事故道德谴责研究等，研究者并不需要全体数据，只需要截取部分数据即可。如同Greenber}所说获取正确的数据通常比拥有更多数据更重要。研究者必须明确研究的基本问题是什么，哪些数据可能会与研究问题相关，哪些分析技术可能会使用到。这些问题必须在数据获取之前确定，只有这样才不会在繁杂的、海量数据中偏移研究重点。用大数据推动心理研究并非简单扩大样本数量，如何运用大数据有效实现研究目的才是重中之重。

(二)获取数据

数据获取是大数据研究的基础.数据获取资源有许多，目前大数据来源包括数以千计的词汇库、万亿字节书籍记录、媒体库、语料库、视频库、网络文本、搜索记录、各种网络社交媒体数据包等。获取这些数据库资源往往是通过应用程序接口(Application Programming Interlace, API)，它是一种指定的数据结构形式，提供了允许计算机程序相互通信的关联语法。API就像翻译器，应用程序开发人员可在自己的系统上创建应用程序，然后与用户无缝共享内容，增强用户的社交媒体体验效果。API还允许分析人员提取信息，而不会中断用户的体验。API可以方便地通过Wcl)浏览器或其他下载方式处理大量实时数据

如何贮存数据也是必须考虑的，传统结构化数据存贮和检索方法包括关系数据库、数据集市、数据仓库。通过工具提取、转换、加载或提取、加载、转换数据，实现将数据加载到数据库或数据仓库中。然而，大数据环境对数据的分析提出更高要求。传统数据储存不支持数据源整合，但是大数据具有强大磁性，在忽略数据质量前提下它会不断吸收数据源。此外，鉴于数量的成倍增加以及数据分析的复杂性，一个操作敏捷的数据库可以帮助快速分析和调整数据。非关系数据库是一个很好的选择，例如NOSQL是开发出用于存储和管理非结构化或非关系的数据。其目标是运用于大规模量化数据，实现数据模型的灵活性，以及简化开发和部署应用程序。与关系数据库相反，NOSQL数据库独立于数据管理和数据存储。此类数据库更侧重于高性能的可伸缩数据存储，并允许数据管理任务在应用程序层中编写，而不是将其写入数据库特定的语言中

(三)处理数据

数据获取后，需要对数据进行处理，也称之预分析阶段，数据包中的数据是以新的、无结构的方式呈现的，处理这些数据是分析的基础。通常，所收集的信息不会以便于分析的格式呈现，例如一个医院电子健康记录会包括医生转录口述、传感器测量数据以及一些图像数据，以这种混乱形式保存的数据是没有办法进行有效分析的。同样地，心理学研究也会获取到海量数据，像推特、脸书等社交应用中会提供各种信息，如文字、图像、音频甚至一些表情符，大数据为心理学研究提供海量数据，但研究者并不需要所有数据驱动研究。海量数据中的很多数据对于研究是没有意义的，研究者可以按照重要级别进行过滤和压缩，即我们所说的清洗数据。问题是如何定义这些过滤器，确保在过滤过程中不会丢弃有用的信息。现有大数据心理分析多是基于文本分析，分析某些可能传递情绪、心理感官的词汇频率，大量无关信息的存在会对比例产生影响，从而使研究结果产生偏差。

清洗数据是一个细致的过程，通过何种方式提高数据覆盖而同时减少交叉率是值得探索的。如伊斯拉案件中，使用R语言检测器将非英语的推特信息删除。同样地，汪静莹等学者认为转发微博不能真实表达个体情绪，数据清理时将非原创微博信息删除。但是该研究主要是采用文本分析，对于通过表情包表达情绪的微博信息无法识别，是否应该删除这类信息在该文中没有阐述清楚。数据处理涉及将无用数据删除，混杂数据整理成清楚有序数据，自下而上的数据驱动需要的是可以推导出结论的样本数据而不关心获取多少样本。根据对脸书系统和庞大用户数据集的分析，He等人提出数据预处理分析四个关键点，即快速数据加载、快速查询处理、高效的存储空间利用率、适应高动态工作的负载模式

(四)分析数据

数据分析是大数据驱动心理学研究最为核心的部分，概括地说，数据分析分为两大类:文本分析和多媒体分析;机器挖掘和机器学习。近年来，自动化文本分析方法发展迅速，重点在于衡量心理和人口特征。虽然这个发展主要是由计算机科学家和计算语言学家推动的，但这种方法对于一般的社会科学家特别是心理学家来说也是非常有价值的。文本分析有用户定义词典、特征提取、词共现分析、潜在语义分析。数据挖掘涉及发现数据中的关联，以对未来的现象进行预测。数据挖掘通常依赖机器学习，这与模式识别基本相同。在概念上，机器学习是指使用正确的功能构建正确的模型来实现正确的任务，其核心是从数据中提取有用的信息。

海量样本的涌现给社会科学的传统实证研究方法带来重大变化，也推动定性与定量研究的交叉融合。大数据作为信息科技高速发展的产物，为心理学研究提供更多的可能与便利，有效克服传统实验和抽样研究的局限性。但是数据分析与处理的复杂性、伦理的两难抉择以及数据源缺陷也给心理学中的大数据研究带来一系列挑战，如何抓住时代技术发展的机遇迎接挑战，进一步促进心理学学科体系的发展，具有重要的意义。

上一条：Erinnerung und schärfer in der kognitiven psychologie Produkt - design

下一条：开放大学的数字化校园泛在活动文化