數字計量——數字時代、數字中國、數字質量的先行者

         一、引言
        人類的發展史是一部認識自(zì)然、改造自(zì)然的曆史。在古代,人類通過觀測春夏秋冬四季變化的數據掌握了農作物的生(shēng)長規律,推動了第一次農業革命的誕生(shēng),生(shēng)産方式由狩獵采摘向土(tǔ)地種植改變;18世紀,瓦特通過觀察蒸汽的數據,發明了蒸汽機,引發了第一次科(kē)技革命;19世紀初,奧斯特通過觀察發現了電流磁效應,安培研究相(xiàng)關數據,提出了電動力學這一理論,引發了第二次科(kē)技革命;20世紀後半期,通過對人類遺傳物質的研究和數據積累,推動了克隆技術的發展,引發了第三次科(kē)技革命。
        在這一過程中,人類通過持續改進技術手段,不斷修正和補充對自(zì)然的認識。由于各民(mín)族、地域、宗教以及成長環境的差異,不同民(mín)族或個體(tǐ)對同一事(shì)物或現象會産生(shēng)不同的認知和實踐;或在不同階段或條件(jiàn)下,同一個民(mín)族或個體(tǐ)對相(xiàng)同事(shì)物或現象會産生(shēng)不同的認知和實踐。爲了盡可能統一這種認知上的差異,人類需要在一定程度上統一單位和量值的表述形式和規則。
基于這種統一的單位和量值表述,人類社會的每一次重大(dà)革命都(dōu)對觀測到的數據進行收集、分(fēn)析和挖掘,從(cóng)而形成當時人類對自(zì)然世界的認識,同時也支撐了人類思維大(dà)廈的構建。我國古人通過對河圖、洛書中數字的分(fēn)析,發展了以1到10爲萬物根基的自(zì)然和社會哲學;古希臘的畢達哥拉斯通過對1到10的研究,提出了“萬物皆可數”的觀點,這些人類思維大(dà)廈的構建,對人類組織社會、改造社會具有深遠的意義。
        二、數字計量的興起
       從(cóng)傳統計量的角度來(lái)看(kàn),數據可以分(fēn)爲量化數據和非量化數據兩類。量化數據最核心的概念是“量”,在JJF1001-2011《通用計量術語及定義》中将其定義爲“現象、物體(tǐ)或物質的特性,其大(dà)小可用一個數和一個參照(zhào)對象表示”,其内在的哲學是主觀賦予客觀的,依據規則對客觀進行度量的一種主觀概念。一旦這種概念被承認,這一概念就(jiù)與客觀相(xiàng)統一,但(dàn)是也隻在下定義的時刻相(xiàng)統一。主要原因在于實物參照(zhào)對象随時空變化的特性,使得(de)參照(zhào)對象自(zì)身(shēn)也會發生(shēng)變化。當這種變化超出一定範圍之後,量的定義就(jiù)不再能夠支撐後續的科(kē)學研究。換言之,當前數據的準确性與曆史數據的準确性發生(shēng)巨大(dà)偏差,而這種偏差的存在,必然影(yǐng)響人類對世界的認識結論,有時甚至導緻經濟、政治或軍事(shì)上的損失。
        從(cóng)計量技術角度講,上述問題存在三種修正方法。一種是不斷修補定義,使得(de)定義具有物理可實現性。例如(rú),“安培”在1946年國際計量委員(yuán)會上被批準定義爲“真空中相(xiàng)距1米的兩根無限長且圓截面可忽略的平行直導線内通過一恒定電流,當兩導線每米長度之間産生(shēng)的力等于2×10-7牛頓時,則規定導線中通過的電流爲1安培”,顯然這個定義是物理不可實現的,人類無法找到無限長的導線。于是在2018年11月16日(rì),國際計量大(dà)會通過決議(yì),1安培定義爲“1s内通過導體(tǐ)某一橫截面的1/1.602176634×1019個電荷移動所産生(shēng)的電流強度”,新定義比老定義具有更強的可實現性;第二種是不斷提升設備的性能,用準确度高的設備代替準确度低的設備。但(dàn)是這種提升具有很大(dà)的現實局限性,具體(tǐ)體(tǐ)現在成本和設備性能的客觀有限性上;第三種是發現新的原理和方法。數字計量就(jiù)是在這一背景下誕生(shēng)的新領域。
        三、數字計量
        實現單位統一、量值準确可靠是數字計量的目标,其核心是對數據和算法的計量,是對信息技術中二進制數字的形式、内容、結構、語義、二進制數字對主觀或客觀世界的反映——數據和算法,以及承載二進制的物理設備、系統性能中計量問題的研究。包括兩個方面:一方面爲計量數字化,是傳統計量采用信息化手段實現網絡化、自(zì)動化、遠程化的計量工作,包括計量電子證書和數字證書、測量不确定度在線雲評定、遠程計量和在線計量、計量數字化圖譜、計量軟件(jiàn)測評、智慧計量機器人、人工智能計量師(shī)、計量數據可視化等15個領域;另一方面爲數字的計量化,是數字世界中引出的計量工作,包括算法溯源、數字圖像、音頻和視頻計量、網絡點擊量和轉發量計量、數字資産等15個領域。
       1.數據采集階段存在的數字計量問題
數據是數字計量的基礎,在數據采集中,采集到的事(shì)實或統計内容與客體(tǐ)本身(shēn)會有較大(dà)的差異,這種差異體(tǐ)現在定義的缺陷上和采集的有限性上。例如(rú)關于長度的定義是建立在抽象概念點之上,然而抽象的點在現實生(shēng)活中并不存在,因而在現實中也就(jiù)無法測量抽象的點之間的距離(lí)。同樣由于采集設備的物理有限性,一般不能無限采集在空間和時間上有延綿特性的客體(tǐ)或現象,常常采用離(lí)散的方式采集,這就(jiù)必須遵循奈奎斯特采樣定律,使獲得(de)的數據在一定程度上能夠滿足質量要求。
       人工采集的數據一般以非量化數據爲主,例如(rú)人口信息統計、選舉投票、各類調查問卷、主觀評價等。這類采集數據質量往往與樣本、人員(yuán)水平、人員(yuán)态度、方式緊密相(xiàng)關。爲了獲得(de)良好的數據,一般人工采集方案采用專業和數理的方法進行評估。但(dàn)是由于各專業的局限性,對于數據采集目的最終實現,應引入計量基标準建立的技術方法開展,比如(rú)采用測量不确定度的評定方法對方案本身(shēn)進行定量評估。
設備采集相(xiàng)對于人工采集而言,數據質量相(xiàng)對較高。但(dàn)是就(jiù)同一設備而言,存在随着時空改變而導緻采集質量下降的情況,例如(rú)電能表在使用一段時間後就(jiù)需要更換,或是在運行一段時間後才能達到精準;同時也存在不同設備在同一時空下采集質量不同的情況。設備一般分(fēn)爲三類:第一類設備爲非量化數據采集設備,例如(rú)家用照(zhào)相(xiàng)機、攝像機或者錄音機等;第二類設備爲非計量類量化數據采集設備,例如(rú)家用體(tǐ)重秤;第三類設備爲計量設備,例如(rú)電能表、水表、燃氣表等。
        在這三類中,計量設備采集的數據質量最高,這是因爲計量設備依據法律法規進行周期性檢定/校(xiào)準,從(cóng)而較爲有效地保證了計量設備的穩定性、可靠性和量值的溯源性;在第二類中,設備采集的數據質量較計量設備略差,這是因爲這類設備所采集的數據隻具有參考性意義,一般不宜用于科(kē)學研究;在第一類中,設備采集的數據主要用于定性判斷。随着對數據質量要求的不斷提升,第二類和第一類設備數據采用數字計量理論進行全方位研究成爲計量學研究的重要内容。
       2.數據計算存在的數字計量問題
       數據的計算分(fēn)爲兩個階段:數據采集時的計算和數據采集後的計算。
       當數據采集時,一般是從(cóng)連續的無限中提取有限可表示信息,這就(jiù)會導緻數據的損失。數據采樣頻率越高和數據表示的準确度越高,對客體(tǐ)或現象的刻畫(huà)就(jiù)越精準,通常用采樣率、字長和測量不确定度來(lái)表述。爲了獲得(de)較高的數據質量,一般都(dōu)采用預處理的方式進行,比如(rú)在電子計價秤中爲了獲得(de)穩定的零點數據,采用了去(qù)噪、零點漂移的算法進行補償。由于這類算法對數據采集有很大(dà)影(yǐng)響,應該在投入使用前進行計量。
       在數據采集後,需要進行分(fēn)析,計算機内所使用的加減乘除都(dōu)是有限字長,因此還(hái)會帶來(lái)數據上的損失,如(rú)兩個變量的除法運算,當分(fēn)母爲0時,計算機會報錯。爲了避免這一問題,程序員(yuán)往往會加一個自(zì)定義的微小量,在計算結果中引入不确定度。因此這類算法對數據分(fēn)析有很大(dà)影(yǐng)響,也應該在投入前進行計量。
       随着深度學習等人工智能技術的發展,科(kē)學家和應用工程師(shī)采用各種算法從(cóng)大(dà)數據中提取有用結論,但(dàn)是算法結論的科(kē)學性、準确性和可靠性卻需要采用技術手段進行評估,爲此,需要開展算法溯源的數字計量研究。
       四、數字計量中的算法溯源技術
       随着信息技術的深入發展,我國軟件(jiàn)産業發展迅猛,不僅在産值上超過了傳統産業規模,也爲國民(mín)經濟發展和産品質量提升提供了必要的技術支撐。尤其是近幾年,随着人工智能技術的發展,由軟件(jiàn)控制的計量器具的占比已經迅速超越95%,與信息技術緊密結合的新型設備不斷湧現,推動着科(kē)學技術不斷創新。
       作爲人類思維的拓展,軟件(jiàn)具有低成本、智能化、功能複雜和易替代等優點,但(dàn)從(cóng)計量角度而言,也存在着欺騙性使用、Bug不易發現、算法的正确性以及穩定性較差、法律法規依從(cóng)性較差等問題。因此随着對計量器具軟件(jiàn)産品質量要求的不斷提高和軟件(jiàn)工程技術的發展,軟件(jiàn)測評成爲計量器具軟件(jiàn)生(shēng)産和使用中的重要環節。
       根據JJF1182-2018《計量器具軟件(jiàn)測評指南(nán)》,在計量器具軟件(jiàn)的計量特性功能測評中,是利用測試用例,将被驗證算法的計算結果與可供參考的期望值進行比較,通過判斷是否在最大(dà)允許誤差範圍内,給出算法是否正确的驗證結果。從(cóng)計量上講,該驗證方法屬于定性判斷,很少涉及定量,即使涉及定量,也沒有對量值進行溯源,不能完全滿足計量保障量值準确可靠的要求。
       爲了解決這一問題,需要以算法對應的軟件(jiàn)爲被測對象,軟件(jiàn)的輸出量爲被測量,測量不确定度評定爲評價手段,提出一種将算法軟件(jiàn)輸出量溯源至現有計量基标準、标準參考數據或算法标準的算法溯源的方法,從(cóng)而基于計量技術對算法軟件(jiàn)輸出量的準确可靠性進行精準刻畫(huà)。
        算法溯源是通過一條具有規定不确定度的不間斷的比較鏈,使算法軟件(jiàn)的輸出量能夠與規定的參考标準(計量基标準、标準參考數據或算法标準)聯系起來(lái)。
算法溯源中的被測對象爲基于算法形成的軟件(jiàn),包括計量數字化過程中計量器具檢定/校(xiào)準中所涉及的一些算法軟件(jiàn)和未來(lái)數字計量化過程中有溯源需求的算法軟件(jiàn)。
算法溯源中的被測量爲算法軟件(jiàn)的輸出量,該輸出量一般分(fēn)爲三類,分(fēn)别爲:計量量值(如(rú)手機測距軟件(jiàn)中的長度、數字指示秤軟件(jiàn)中的質量、化學分(fēn)析軟件(jiàn)中的濃度等);基于計量量值的定性判斷(如(rú)基于深度學習算法判斷臨床質控數據是否合格等);未來(lái)數字計量化過程中将納入計量範疇的輸出量(如(rú)人臉識别算法的輸出量、行人重識别算法的輸出量)。上述的輸出量,可以溯源至計量基标準或由計量标準形成的标準參考數據或基于上述标準參考數據模型生(shēng)成的理論标準參考數據或算法标準。
        在算法溯源中,相(xiàng)同的算法可能對應不同的軟件(jiàn);相(xiàng)同的輸出量可能由不同的算法實現,因此會對算法軟件(jiàn)的輸出量的準确性和可靠性有影(yǐng)響。例如(rú),在多點平均中,采用3點平均、5點平均、100點平均是屬于3種不同的算法,顯然這3種算法的準确性和可靠性是不相(xiàng)同的。
        基于上述軟件(jiàn)特有的原因,需要引入測量不确定度評定方法,對算法軟件(jiàn)輸出量的量值進行測量不确定度評定。
        五、數字計量展望
         在經濟全球化的國際大(dà)背景下,數字計量已成爲全球計量領域研究的熱點。2018年,國際計量委員(yuán)會(CIPM)制定了2030+戰略并成立Digital-SI任務組,把計量數字化轉型作爲重點任務進行全球研究與合作;BIPM/CIPM-OIML/CIML聯合任務組一緻認爲要與質量基礎設施領域的所有利益相(xiàng)關方密切合作,積極開展工業計量、法制計量和科(kē)學計量活動和流程的數字化轉型工作,使用數字化國際單位制和FAIR數據準則來(lái)促進全球計量數字化轉型進程;歐洲計量合作組織(EURAMENT)和美洲計量組織(SIM)分(fēn)别成立了M4D和M4DT計量數字化轉型工作組,緻力于實驗室流程自(zì)動化、計量雲和數字校(xiào)準證書(DCC)的研究。目前,德國聯邦物理技術研究院(PTB)和英國國家物理實驗室(NPL)已經開發了DCC,正在收集有關校(xiào)準的标準化元數據和數據。美國國家标準與技術研究院(NIST)正在着手NIST計量雲的開發。
        2021年3月,《中華人民(mín)共和國國民(mín)經濟和社會發展第十四個五年規劃和2035年遠景目标綱要》提出“加快(kuài)數字化發展、建設數字中國”的目标;2021年12月,國務院發布的《“十四五”數字經濟發展規劃》提出“形成統一公平、競争有序、成熟完備的數字經濟現代市場體(tǐ)系”的目标;2022年1月,市場監管總局聯合各部門(mén)共同研究制定的《關于加強國家現代先進測量體(tǐ)系建設的指導意見(jiàn)》提出“到2035年,測量對我國經濟社會高質量發展的貢獻水平顯著提高”的目标,都(dōu)爲我國數字計量發展指明方向。
        無論國内還(hái)是國外,在貿易、零售、醫療、教育、交通、金融和政務等多個領域中,生(shēng)産、消費和管理等方面必将基于數字深度融合。由智能設備或大(dà)數據、物聯網、區塊鏈、人工智能、數字孿生(shēng)等技術生(shēng)成的大(dà)量信息豐富的數據和算法,将成爲驅動經濟增長的關鍵生(shēng)産要素,用于經濟社會衆多領域的洞見(jiàn)、分(fēn)析、決策和行動。這些生(shēng)産要素使用的同時,也面臨着諸如(rú)數字鴻溝、數字安全、數據産權、算法正确性、算法共謀等方面涉及的計量法律法規滞後的挑戰,包括計量術語不清晰、計量技術規範缺失、數據可信度較低,算法正确性和結果的客觀公正性無法保證等問題。因此,爲了解決新一代信息技術變革而催生(shēng)的新型計量問題,保障數字經濟時代測量的準确性、一緻性和可信度,支持我國在數字時代建設數字中國、提升數字質量,保障數字經濟的健康發展,大(dà)力開展數字計量研究具有重要的意義。