在一般人群中调查膳食营养状态,基于研究目的选择适当的调查方法非常重要。如针对食物中毒等,需要做个体小规模及特定日期的食物调查。还有营养普查项目,主要是针对某一地区全体人群某一时点,调查食物摄入量或经年的食物摄入量变化等。相比于这些特定时间范围内的调查,营养流行病学队列研究需要对某一固定人群进行长期平均摄入量调查以分析其与疾病发生的关联。为了正确评估个体的长期平均摄入水平,需要事先掌握影响食物摄入量变化的因素。如一日三餐的变化、平日和周末节假日变化、季节变化、居住地区及民族饮食习惯等因素。在欧美等经济发达国家,季节和地区变化较小,但我国幅员辽阔、多民族,季节、地区和民族的差异或许不能被忽略。此外,国内外数据[包括笔者在天津市构建的营养流行病学队列研究(TCLSIH)[1-3]]均显示饮食的摄入在同一个体内的变化要大于个体间变化。这也很大程度地增加了膳食营养调查的难度。根据以往研究,要想精确把握个体营养素或食物长期的平均摄入状况,至少需要调查2~3周以上的时间[4],而对于大样本营养流行病学队列研究而论,这种调查一般是很难实现的。
流行病学调查研究时,主要使用的膳食营养调查方法包括膳食记录法(又称为“记账法”,diet record)、24 h回顾法(24-hour recall)、双份饭法(duplicate meal)、生物样品指标(biomarker)和食物频率法(food frequency questionnaire,FFQ)等。对这几种调查方法的主要内容及其优缺点进行比较见表 1。从表中可以看出,由于众多因素影响,无论在个体还是群体水平上,正确评估膳食营养摄入量都是相当困难的。另一方面,在构建大样本长期随访队列时,尽可能地减少受试者负担和降低调查成本的同时,正确地评估膳食营养长期平均摄入水平是成功构建队列研究的前提条件。膳食记录法可有效避免回忆偏倚,一般可用于FFQ开发时的效度验证指标。但由于其调查流程复杂,受试者负担较大(会直接影响配合度),且如果不是长期调查就不能正确评估膳食营养的长期平均摄入水平,因此,该方法很少直接用于大样本长期随访队列研究。与膳食记录法相比较,24 h回顾法存在受试者负担较小、容易配合等优点,但仍有调查流程复杂、回忆偏倚且需要长期调查等弊端。因此,至今也尚未成为长期随访队列研究的主流调查方法。此外,双份饭法可避免回忆偏倚的同时,能够不依赖食物成分表,比较准确地测量已知和未知营养成分。但其存在调查流程复杂、受试者负担大、成本高及需要长期调查等缺点,因此,很少用于长期随访队列研究。血液、尿液等生物样品指标既可有效避开回忆偏倚和食物成分表精度等问题,也可以直接分析体内营养素浓度对健康的影响,推测其作用机制,因此,相对广泛地应用于营养流行病学队列研究[5]。但生物样品指标存在测量费用昂贵、受消化和吸收等个体状态影响、某些营养素不能反映长期平均摄入水平等问题。例如,血清类胡萝卜素浓度比较好地反映了日常摄入量[6],但在吸烟、饮酒人群中,其相关较低[7]。与上述4种调查方法比较,FFQ在便捷性、费用及是否能够反映个体长期平均摄入量水平等方面显示出一定的优势,在几万、十几万乃至几十万的大型营养流行病队列研究中,其测量精准程度及对疾病的预测价值也在大量研究中得以证实,成为最为普及的长期随访队列调查方法[8]。现结合国内外该领域队列研究成果,着重介绍FFQ构成要素及其在前瞻性队列研究构建过程中的注意点和实际经验。
表 1 营养流行病学中常用膳食营养的调查方法总结 表选项一、FFQ介绍及其在营养流行病学队列构建中的应用1.调查问卷的基本构成:调查问卷是针对各种食物,询问受试者过去一定时期内(大多数为1年,也有半年或1个月)平均的摄入频率。其主要内容包括:食物清单(food list)、平均摄入频率(food frequency)和每次平均摄入份数(portion size)3个要素。在天津市构建的TCLSIH队列中,询问了最近1个月内,不同食物的平均摄入频率及其相对摄入量(图 1)。
图 1 食物频率调查问卷实例(TCLSIH队列研究使用的FFQ截图) 图选项“食物清单”通常包含了几十至百余项食物。食物项的选择方法有主观和客观两个方面。主观选择主要是基于熟悉调查人群饮食习惯的营养专家的判断。客观选择主要是指根据实际数据选择食物项。在构建营养流行病学队列时,食物清单的决定很少使用单一方法,而是综合了多种不同的方法。例如,可以根据以往该人群调查数据,选择与人群总体营养素摄入相关高的食物项。简单而言,就是针对某一营养素计算总摄入量。然后,计算每个食物项的贡献率。最后,按照贡献率高低将食物项排序,选择累计贡献率达到80%或90%以上的食物项;也可以根据以往该人群调查数据,选择能够反映营养素的个体间差异的食物项:计算每个人某营养素的总摄入量和来源于不同食物的摄入量。然后,将总摄入量作为因变量,每种食物摄入量作为自变量,进行多元回归分析,并使用stepwise法,选择贡献率高的食物项。最后,当累计贡献率达到一定标准(R2=0.9,即反映了90%的个体间差异)时的食物项作为最终调查项目。此外,针对某些地区特异性食物,即使对于人群和个体间差异贡献度较小,如果研究者考虑探讨其对健康及疾病发生影响的话,也可以选择放入调查问卷中。例如,作为中国相对特异性食物的黄豆、生蒜、松花蛋、油条、山楂和咸鸭蛋等可以作为调查的备选食物项。通过这些食物项的评估,首次发现黄豆、松花蛋与抑郁症状[9-10];生蒜与握力[3]、非酒精性脂肪肝[11]等的关联。
“平均摄入频率”主要包括调查期间和食物项的平均摄入频率两个方面。调查期间,大多数研究设定为过去1年[12-13],也有研究为半年或1个月[14-15]。对于季节性较强的食物,例如,西瓜、新鲜葡萄、橘子/橙子等,一般评估其应季时的摄入频率。各食物项的平均摄入频率(几次/日、周或月),一般有9个选择(几乎不吃;每月1~3次;每周1次;每周2~4次;每周5~6次;每天1次;每天2~3次;每天4~5次;每天6次以上)[12-13]和7~8个选择(几乎不吃;每周小于1次;每周1次;每周2~3次;每周4~6次;每天1次;每天2次以上)(注:饮料最高选项改为“1天2~3杯”和“1天4杯以上”)等[14-15]。作为原则,应避免细分化摄入频率低的选项,而相对地增加频率高的选项。此外,每个频率选项的上限值和下限值应设定在2倍以内。例如,“每周2~4次”选项,其上下限正好是2倍。上下限过大时,会造成测量精度下降[16]。
“每次平均摄入份数”一般使用的几种方法:①单独设定选项,使用图片或文字提示标准份数,例如,碗碟,自己拳头大小等,然后填写与之比较是等量、偏少还是偏多[17];②对饮料、鸡蛋等食物项,可以用杯或个数等取代频率[3, 13, 15];③不设定份数选项,根据金标准测量结果或人群特性等资料,研究人员自己设定摄入份数[15, 18]。
在问卷中,是否有必要设定“每次平均摄入份数”选项,研究者间没有统一定论。美国国家癌症研究所的研究者认为增加份数设问增加了FFQ调查问卷的效度[19],而哈佛大学研究团队则认为即使加了份数选项,对问卷效度的影响也不大[20]。美国护士队列研究的结果显示约88%以上食物项的标准份数个体内差异大于个体间差异,暗示了对于同一个体或许不存在标准份数这个概念[21]。此外,以往研究也显示食物摄入频度的个体间差异大于摄入份数的个体内差异,而份数的个体内差异,与同龄同性别人群比较,远大于个体间差异[21]。这些结果暗示了摄入份数未必是很重要的信息。基于以上论证,现在一般认为,设定“每次平均摄入份数”并不能增加FFQ效度,但或许存在民族或地区差异[22]。
2.营养素摄入量的计算方法:根据频率问卷计算营养素摄入量的方法主要有“食物成分表法”和“多元回归法”2种。最常用的是“食物成分表法”。首先,使用公式“食物的每天平均摄入频率×每次摄入量×某种营养素含量”计算某种食物中某营养素的每天摄入量,然后,将所有食物项的计算值累加得到每天某种营养素的平均摄入量。此外,对于特定季节食物项的计算,需要乘以0.25予以补正。
“多元回归法”是代替食物成分表,使用膳食记录法(FFQ效度验证的金标准)等数据库计算得到的营养素摄入量,构建预测模型,进而计算每天营养素的摄入量。首先,针对同一个体,同时获取FFQ和膳食记录数据,并根据膳食记录结果计算营养素摄入量。然后,将该计算值作为因变量,FFQ得到的平均摄入频率作为自变量,使用多元回归模型的逐步回归法(stepwise)构建预测式。最后,将摄入频率代入预测式,计算营养素的摄入量。此外,也可使用血液或尿液中的生物样品指标构建预测模型进行计算。
“食物成分表法”和“多元回归法”比较而论,前一种依赖于食物成分表和“每次平均摄入份数”的精度,且因为许多个体差异等原因有时并不能正确反映体内营养素水平。反观“多元回归法”,理论上更能正确计算营养素摄入量,但其预测式精度有赖于所选人群是否具有代表性、其样本量是否足够大。
3.食物频率调查问卷的信效度:食物频率问卷在应用于某队列研究时,需要进行信效度评估。信度是针对同一受试者,分析反复调查后,所计算的食物及营养素摄入量的一致程度。信度评估理论上期待饮食习惯具有长期的稳定性,但事实上,饮食习惯不仅受随机变动的影响,也受实质饮食习惯改变的影响。由于饮食习惯的这种变化,对于需要长期随访的前瞻性队列研究,单次调查(基线调查)结果有可能导致暴露因素的误分类,从而推导出不正确的结论。因此,一些大规模营养流行病学队列研究采用重复测量的方法,探讨饮食习惯的改变对疾病发生的影响[8]。但这种重复调查方法难度很大,需要与受试者建立良好的信赖关系和相应的组织管理策略等。
效度是指根据FFQ计算的食物和营养素摄入量,与受试者实际的摄入量比较,分析两者间一致性的大小。进行效度验证时,一般将“膳食记录法(称重法)”“24 h回顾法”和“生物样品指标”等测量值作为参照标准,进行分析比较。可是,按表 1所述,这几种方法也未必真实反映了个体长期的食物或营养素摄入状态。因此,FFQ效度研究并不是与绝对标准比较,而是相对地评估了FFQ与其他几种评价方法间的一致程度以保证其测量值无过大偏差。
FFQ调查问卷开发完成时,主要可以给我们提供3个方面的信息:①每例受试者每种食物的食用频率。该类资料可以直接用于分析某种食物摄入频率与某种疾病或健康状态的关联。例如,在TCLSIH队列研究中,我们首次发现生蒜摄入频率与握力呈阳性关联[3];②根据每种食物摄入频率、每次平均摄入份数及每份相当的重量(g)或体积(ml)等信息计算每种食物的每天摄入量(g/d或ml/d)。该类资料可以用于分析膳食模式或某种食物摄入量与某种疾病或健康状态的关联。例如,我们利用降秩回归方法提取出与体内慢性炎症水平密切相关的膳食模式,发现其与非酒精性脂肪肝呈阳性关联[1];③利用②所获得的资料,参考“食物成分表”计算每种食物的各种营养素摄入量,并最终合并所有食物项结果,计算出各种营养素每天摄入总量。该类资料可以用于分析营养素膳食模式(注:类似研究并不多见)或某种营养素摄入量与某种疾病或健康状态的关联。如,我们分析了食物来源的总槲皮素摄入量与2型糖尿病患病的关联[2]。
二、实例分析:天津版成年人群FFQ(TCLSIH队列研究)TCLSIH队列是作者在天津市构建的营养流行病学队列研究。其食物频率问卷研发始于2012年9月。该自填式问卷由100个食物项,127个问题构成,调查受试者过去1个月,食物的摄入频率及平均每次相对摄入量。每个食物项分为7~8个频率选项(食物7选项,饮料8选项)。早期问卷未提供份数选项,根据膳食记录法结果,参考年龄、性别和BMI等指标赋予受试者平均每次摄入量。后期根据追加效度验证结果,询问了相对摄入量选项(少/普通/多)见图 1。鉴于本地区“每次摄入份数”无统一概念(中国的大部分地区都很类似),例如,1碗米饭的“碗的大小”,对于不同餐厅,不同家庭,不同个体,其差异较大且大幅增加了回答难度,因此,我们忽略了“每次摄入份数”概念,直接使用简单易答的“与普通摄入量比较,多还是少”的提问方式。经非连续4 d的称量法效度验证,证明该提问方式与不设定摄入量选项比较,可以轻微提高53%(100种食物中的53种)食物/营养素摄入量推定值的正确性(与金标准比较相关系数增加了0.1~0.2)。与此同时,比较了“与自己拳头大小”和直接询问“每次摄入克数”等方法,数据表明这些选项并不能增加问卷的精准程度。此外,尽管数量很少,我国的一些研究也直接询问了食物项每次摄入的重量(克数)。但因为受试者对食物的重量无统一认识,在TCLSIH队列研究中,不仅不能获得有益信息,还增加了调查和回答的难度,从而影响调查的质量和应答率。TCLSIH的信效度验证研究从队列人群中选取了150~200人(根据测量指标,人数略有变动)进行。信度验证进行了春、夏、秋、冬、春5次评估。效度验证,作为金标准使用了非连续4 d的膳食记录法,同样进行了春、夏、秋、冬、春5次评估,合计1年内20 d的膳食记录。关于信度指标,2次FFQ评估间的相关系数在0.62~0.79之间,这些结果在调整总能量摄入后未出现明显改变。关于效度验证的几个指标(营养素摄入量的平均值比较、相关系数、误分类分析及各五分位平均值比较等)也做了相应分析。与金标准比较,总能量摄入的相关系数是0.49,而针对各种营养素绝对摄入量的相关系数在0.35~0.54之间。经总能量调整后的相关系数略有改善,其相关系数在0.39~0.72之间。这些结果类似于美国[13]和日本[23-24]的研究。
三、讨论首先,在生活方式调查问卷中,膳食营养部分占比较大(约2/3左右)。为了增加回答的依从性,根据TCLSIH队列研究经验,①依据问卷内容提供生活方式指导报告书;②对回答完整的受试者发放适当礼品等是非常有效的手段。
第二点需要强调的是,FFQ的信效度验证只是反映了在该人群中进行调查时的精准程度,并不能反映调查问卷本身的精准程度。因此,在用于其他不同质人群时,有必要再次做信效度评估。例如,不同国家、不同地区、不同民族,成年人群与青少年、孕妇差异等。此外,把调查问卷作为整体去判断其信效度的“有”或“无”本身意义不大,更主要的是各种营养素的摄入量,例如,钙摄入量的精准程度信息更为重要。
第三点需要讨论的是FFQ所获得的膳食营养资料是否可用于个体营养指导等。这里需要理解的是,FFQ研发的主要目的是根据摄入量多少将人群分为不同的暴露组,进而分析该营养素、食物乃至食物群(膳食模式)对疾病发生的影响。因此,FFQ并不适用于个体的营养指导。若考虑用于个体营养指导,FFQ的精准程度需要进一步提高。
最后,讨论一下全国版FFQ研发问题。我国采用经信效度验证的FFQ的队列研究还不是很多,鉴于膳食营养因素在慢性疾病发生过程中的重要作用[25],有必要构筑全国版FFQ,在阐明膳食营养与健康效应共性部分的同时,深入探讨各地区、各民族的个性成分与健康关联,协同推动国民健康水平的向上。上海男/女健康、TCLSIH和东北区域自然人群队列研究中使用FFQ的相同食物项(表 2),这3个队列中不同食物项及其占比见表 3。此外,我们也初步调查了陕西、安徽、山西、四川、江西、广西、河南、河北、甘肃等省市一般居民的食物构造特征,结果显示全国各地区食物项与天津地区比较,其差异度最大不会超过17%,一般在5%~10%。这些结果暗示了全国版FFQ可以以共同食物项为主体,适当增减地区特色食物来设定。此外,在调查过程中,也需要考虑各地食物名称标化问题。例如“山药”在不同地区方言中有“红薯”“土豆”和“淮山”等多种称呼。全国版FFQ研发的另一个难点是如何在各地区选择代表人群、如何组织和实施这项研究等问题。事实上,我国已经有多次全国营养调查经验,均选取了全国各地区代表人群并进行了大规模组织、实施调查。这些调查的成功实施,为全国版FFQ研发提供了一定的经验和基础。因此,如果可能,在中国营养学会等组织框架下,通过全国营养流行病学专家(主要集中在“中国营养学会营养流行病分会和公共营养分会”)提供技术支持,在中国营养学会领导、专家的指导和支持下,协同完成全国版FFQ研发,为构建全国营养流行病学队列研究奠定基础。
表 2 上海男/女健康、TCLSIH、东北区域自然人群队列研究中FFQ相同食物项 表选项 表 3 上海男/女健康、TCLSIH、东北区域自然人群队列研究FFQ地域特色食物项占比情况 表选项四、小结膳食营养状态是个体生活方式调查中,相当复杂的部分。不仅涉及是否正确评估问题,也很大程度上影响了受试者的配合度和应答率,从而影响整体队列研究的质量。FFQ的成功研发和推广应用(1980年前后),为构建营养流行病学队列研究奠定了坚实的基础。只花费15~20 min时间,回答简单的频度问题,就能够大体把握长期膳食营养平均摄入状态是FFQ的最大优势。可是,需要注意的是在应用FFQ前,在某特定人群,评估其精准程度(信效度验证)是必要的。此外,FFQ反映了食物或营养素摄入量的群体间差异,并不能精准推断个体营养素摄入水平。因此,其结果并不适用于日常营养指导。另一方面,在我国,研发全国版食物频率问卷,构建全国标准化营养流行病学队列研究是该领域在我国蓬勃发展、贡献于社会的重要方向之一。此外,FFQ自成功研发以来,在技术上一直没有重大突破。充分利用高解像度手机影像技术和AI分析技术,通过每餐上传食物照片方式评估个体膳食营养状态,或许是膳食营养调查和健康指导的重要手段之一。期待该领域资深专家在技术研发和标准化制定方面发挥更大作用。
利益冲突 所有作者均