智能閱卷官
“當(dāng)學(xué)生的時候最煩考試,沒想到工作后幾乎天天跟考試打交道?!辈稍L剛開始,科大訊飛考試業(yè)務(wù)線工程師張凱自己先笑了。此時,他正在機場等飛機,與記者的談話不時被“某某航班即將起飛”的背景音淹沒,飛來飛去,甚至將所有工作塞滿24小時,這是人工智能領(lǐng)域工程師的日常。他說:“能從事人工智能輔助閱卷系統(tǒng)的研發(fā),我很驕傲。我希望用這套系統(tǒng),為更多老師減負(fù),打出最準(zhǔn)確的分?jǐn)?shù),讓每一名學(xué)生都體會到教育的公平公正。”
人工智能輔助閱卷系統(tǒng)從2016年開始啟動實驗,至今已經(jīng)在安徽省、江蘇省、河南省等14個省份投入使用。去年,北京的一些重要考試也試點應(yīng)用了人工智能輔助閱卷。這套系統(tǒng)還進(jìn)入學(xué)校,成為“智慧教室”的標(biāo)配。六七年間,這套“智慧”的系統(tǒng)已經(jīng)獲得了十余個自有知識產(chǎn)權(quán)專利,涉及中英文類手寫體識別、測評等方面。
主觀題智能評分技術(shù)研究 人工算法必不敢省人工
“最早判卷是靠一支紅筆,但是面對海量的試卷和有限的閱卷時間,閱卷老師難免會出現(xiàn)紕漏。然而每一場考試對于學(xué)生而言,都可能是一次命運的轉(zhuǎn)折,所以閱卷的公平性至關(guān)重要。比如中考、高考、研究生考試,還有四六級考試、托福考試……我們管這些叫高利害考試。”張凱自稱是教育領(lǐng)域的外行,但是經(jīng)年累月和老師們打交道,張口閉口就會帶出教育領(lǐng)域的專有名詞,說起考試更是侃侃而談,“上世紀(jì)八十年代,技術(shù)實現(xiàn)了客觀題閱卷機械化,利用光學(xué)掃描和石墨感應(yīng)技術(shù),光標(biāo)閱讀機可以識別答題卡上的客觀題答案,自動給考生批閱核分,老師只需要用筆判卷子上的主觀題。進(jìn)入新世紀(jì)前后,高速掃描儀可以掃描整張試卷了,客觀題由計算機出分,閱卷老師可以在網(wǎng)上無紙化、零接觸批閱卷子里的主觀題,而且一張試卷同時雙評、多評,還有仲裁都可以實現(xiàn)了。”
2016年3月,科大訊飛與教育部考試中心簽署合作協(xié)議,宣布共建聯(lián)合實驗室。當(dāng)時給實驗室制定的工作目標(biāo)是:以考試信息化推動考試現(xiàn)代化,探索信息技術(shù)和人工智能技術(shù)解決大規(guī)模教育考試的難點問題,拓展教育考試服務(wù)功能,探索教育考試評價的新方法和新機制,開拓人工智能技術(shù)產(chǎn)業(yè)化的新領(lǐng)域。
編程、開發(fā)系統(tǒng),這些對于張凱和同事們而言屬于常規(guī)操作,真正讓他們犯難的是“講明白”這套系統(tǒng)。最簡單的辦法是,讓這位“智能閱卷官”拿出好成績。這個成績分兩部分:一部分是閱卷準(zhǔn)確率要高,一部分是耐力分要高。
在開始正式研發(fā)前,張凱和同事們做了一次調(diào)研,希望摸清全國考試的家底兒,“考試種類多,數(shù)量龐大,閱卷量很大。以河南省為例,僅是高考每年就有百萬級的考生參加,這意味著上千萬甚至更多的題目批閱量。而且考試出分的時間又非常緊湊,如果輔助智能閱卷系統(tǒng)不能保證長時間高強度工作,就不能算合格。”
第一次“試崗”經(jīng)歷,讓張凱記憶猶新。“三個大小伙子,輪番盯著系統(tǒng)干活兒,排好班,目不轉(zhuǎn)睛地盯著?!碑?dāng)初的辛苦如今在工程師嘴里成了小笑話,“當(dāng)時實驗室剛成立幾個月,智能評卷系統(tǒng)安裝在計算機上可以出分了。我們就做了一次效果驗證。剛開始,系統(tǒng)鬧‘脾氣’,明明設(shè)定了24小時工作運算時間,不盯著就‘偷懶’,我和倆同事一個人盯8小時,加了一層人工崗,保障它的穩(wěn)定性?!?/p>
一次次的更新,一次次的試錯,到2018年,智能閱卷系統(tǒng)可以實現(xiàn)連續(xù)運算1個月,不打瞌睡。
2021年,智能評卷系統(tǒng)參與了國家義務(wù)教育質(zhì)量監(jiān)測。這項監(jiān)測被業(yè)內(nèi)形象地比喻成對九年義務(wù)教育質(zhì)量的一次“體檢”,要對我國義務(wù)教育階段學(xué)生德智體美勞和學(xué)校教育教學(xué)等狀況進(jìn)行客觀評價,引導(dǎo)社會樹立正確的教育質(zhì)量觀,促進(jìn)學(xué)生身心健康發(fā)展。
大,是這次監(jiān)測最大的特點??忌鷶?shù)量大,約57萬人,待閱答題卡數(shù)量達(dá)到1440萬份左右。搭建卷庫、掃描設(shè)備、服務(wù)器,設(shè)置數(shù)據(jù)處理區(qū)、監(jiān)控安保,各種技術(shù)人員和相關(guān)工作人員緊密配合,一系列工作有條不紊地推進(jìn)。
人工算法必不敢省人工,但曾經(jīng)的“人工盯梢崗”悄然消失了。更多的人力用在了技術(shù)升級上。
為了提高效率,每一分每一秒的時間,都要擠著用。為此,工程師們也是絞盡腦汁。最開始的技術(shù),試卷整體掃描完成,工程師們定時去取數(shù)據(jù),然后再上傳到某個局域網(wǎng),老師去機房判卷子。一取一傳,緊趕慢趕往往也需要24小時?,F(xiàn)在,在保障絕對安全的前提下,智能閱卷系統(tǒng)和試卷掃描系統(tǒng)可以連接到一個網(wǎng)上了,兩者打通,省去了原來的“接頭”時間。張凱說:“理想狀態(tài)下可以實現(xiàn)掃描、人工網(wǎng)評和智能閱卷同步進(jìn)行,數(shù)據(jù)實時互傳?!?/p>
擦亮人工智能的“眼睛”
相比智能閱卷的耐力值而言,準(zhǔn)確度是“更要命”的。
傳統(tǒng)的網(wǎng)上評卷方式,評卷過程主要包括:掃描儀掃描答題卡,形成的圖像被上傳到計算機,再由教師在網(wǎng)上看圖閱卷。換句話說,整個過程其實只是從紙上轉(zhuǎn)移到了電腦屏幕上,評卷的質(zhì)量保障都由教師把控。
讓人工智能加入評卷后,會有什么變化?張凱將評卷過程“拆分”細(xì)解:首先在掃描階段,計算機不再是簡單地呈現(xiàn)圖像,而是對掃描的答題卡進(jìn)行圖像轉(zhuǎn)文本的處理,讓圖片轉(zhuǎn)化為計算機能夠“讀懂”的文本,“基于大數(shù)據(jù)和海量文庫資源的處理技術(shù),計算機就能對客觀題進(jìn)行自動評分,同時還能檢測出主觀題里考生未作答的部分,單獨形成一個空白題列表,不將這些題繼續(xù)下發(fā),為老師們評卷減負(fù)?!敝?,進(jìn)入教師網(wǎng)評階段,計算機也可以幫助教師給主觀題“查重”,比如篩出套作網(wǎng)絡(luò)范文的作文,讓教師單獨處理這些試卷;甚至計算機就可以自主給主觀題打分,作為教師雙評、多評的輔助。
“實現(xiàn)這些應(yīng)用場景,要突破3大技術(shù)要點。”張凱拋出3個專業(yè)術(shù)語——文本圖像識別技術(shù)、基于深度神經(jīng)網(wǎng)絡(luò)建模的評分模型訓(xùn)練、多維度計算機智能評分算法。他貼心地將難懂的術(shù)語翻譯成白話:“簡單地說,我們要做的就是擦亮這位‘智能閱卷官’的眼睛,通過大量的訓(xùn)練,讓它學(xué)會識字、辨錯、測評,還要保證準(zhǔn)確率達(dá)到教師閱卷的基本水平?!?/p>
突破技術(shù)要點的背后,工程師們在不斷試錯、默默耕耘。
光是圖像識別轉(zhuǎn)寫文本,就讓張凱和同事費了不少功夫?!凹僭O(shè)要識別100張圖像,我們需要先給這100張圖像找到對應(yīng)的準(zhǔn)確文本,再和計算機識別的內(nèi)容進(jìn)行比對,得出準(zhǔn)確率。”張凱笑著說,他和同事嘗試了各種技術(shù)手段去找“標(biāo)準(zhǔn)答案”,比如融合多套算法“算”出準(zhǔn)確的文本,借鑒網(wǎng)絡(luò)上其他的識別轉(zhuǎn)寫技術(shù)等,不論怎樣嘗試,找到的“標(biāo)答”還是不盡如人意……“試了一個月之后,我們發(fā)現(xiàn)還是最原始的方法最有效——找兩個標(biāo)注員,把同一張圖像的文本敲出來,兩人的答案如果還有偏差,就再找第三個人敲一遍,以此類推,最終找到準(zhǔn)確的文本?!?/p>
考試中,還有些題的答案并不唯一,如何讓計算機學(xué)會處理這些題目,也曾令張凱和同事“撓頭”。“舉個最簡單的例子,一道數(shù)學(xué)題的答案是三分之一,學(xué)生寫六分之二或者九分之三都算對,但是計算機最開始只認(rèn)一個答案,這就導(dǎo)致最后機器評分的準(zhǔn)確率大打折扣?!睆垊P說,類似的情況讓計算機在數(shù)學(xué)等專業(yè)性較強的題目的評定上吃了虧,“有些專業(yè)領(lǐng)域的知識我們是想不到的,第一次發(fā)現(xiàn)答案有遺漏需要增補,是在一次考試之后做數(shù)據(jù)分析,于是我們想到要給計算機做更細(xì)更深的規(guī)約。”
張凱最開始想到的方法是把考生們的高頻作答收集起來,形成一個新的樣本,讓老師進(jìn)行一次評分,再讓計算機學(xué)習(xí),做出更準(zhǔn)確的評定?!暗覀冊谑占罅啃聵颖緯r發(fā)現(xiàn),老師評過的題目也不一定百分之百準(zhǔn)確,計算機學(xué)習(xí)之后還是評不準(zhǔn)?!睆垊P說,他們又想到把所有答案類型都統(tǒng)計出來,發(fā)給評卷組的老師逐一確認(rèn),然而這無疑又增加了老師的工作量,“以70萬考生規(guī)模的考試為例,統(tǒng)計出來的答案數(shù)據(jù)也有2萬條左右,讓老師每條都看一遍也不現(xiàn)實。”
反復(fù)磨合、測試,張凱和同事們終于找到“最優(yōu)解”:讓計算機對考生的所有作答結(jié)果進(jìn)行歸類,“基本上能判斷對錯的歸為一類,最核心、最需要評卷老師來判斷的歸為一類,讓老師在這些作答中挑出正確答案。”張凱說,看似簡單的步驟,背后其實需要工程師一步步地細(xì)化、完善,不斷提高計算機的準(zhǔn)確度。
2018年,張凱和同事帶著這套人工智能輔助閱卷系統(tǒng)在某省高考評卷中進(jìn)行了試驗,探索人工智能評卷技術(shù)在多科目、多題型上應(yīng)用的可行性。
“對我們來說,這是一次大考?!碑?dāng)年參加這場大考時的緊張感,張凱記憶猶新。他解釋,這次試驗內(nèi)容包括:在線對高考語文、高考英語的作文題進(jìn)行智能評分,并將評分結(jié)果應(yīng)用于輔助質(zhì)量監(jiān)控;以離線方式驗證高考語文簡答題、高考數(shù)學(xué)證明和計算題、高考文科綜合能力測試政治簡答題的智能評分效果?!褒嫶蟮目忌鷶?shù)量,閱卷涉及多個科目、多個題型,時間緊迫,這些因素?zé)o疑給我們增加了難度。但是,搞科研,就是要有韌勁兒?!睆垊P笑著說,當(dāng)時國內(nèi)還沒有可借鑒的成功經(jīng)驗,團隊就把這次大考當(dāng)作對前兩年“訓(xùn)練”成果的檢驗。
149萬余份考卷、40臺掃描和評卷用各類服務(wù)器、兩周時間內(nèi)評出所有試題結(jié)果……這次大考的“成績單”,讓張凱和同事們喜出望外。人工智能評分系統(tǒng)對各科抽取的試卷樣本評分的準(zhǔn)確率在95%左右,評分結(jié)果都經(jīng)過了閱卷系統(tǒng)完整性、準(zhǔn)確性檢查。同時,這位“智能閱卷官”還檢測出了特殊異常的作答樣本,包括與范文庫中文本內(nèi)容相似度高、與當(dāng)次考試試卷題干相似度高、考生之間作答內(nèi)容相似度高三種情況。
項目組還在語文作文和英語作文中分別隨機挑選了100份圖片進(jìn)行識別率的統(tǒng)計對比,結(jié)果顯示:語文中文字符的識別準(zhǔn)確率為96.93%,英語單詞的識別準(zhǔn)確率為98.88%?!拔覀兊闹悄荛喚砉僖呀?jīng)超過了識別準(zhǔn)確率在95%以上的目標(biāo),這說明它已經(jīng)達(dá)到了一個較高的水平。”張凱興奮地說,他們還根據(jù)智能評分得到的數(shù)據(jù),與評卷教師的評分情況進(jìn)行了比對,并對人機產(chǎn)生大分差的樣本進(jìn)行標(biāo)注,將這些大分差樣本數(shù)據(jù)下發(fā)給各學(xué)科組評卷專家進(jìn)行復(fù)核,“各題型復(fù)核結(jié)果也表明,人工智能評分系統(tǒng)對輔助試卷質(zhì)量監(jiān)控起到精準(zhǔn)定位、精細(xì)復(fù)核、精確評分的作用?!?/p>
人工智能評分系統(tǒng)在這次大考中的出色成績,令張凱和同事們信心倍增。此后,他們又帶著這位智能閱卷官參加了全國多個省市的各類考試。不斷優(yōu)化升級的過程中,智能閱卷官的準(zhǔn)確率也在逐年提高:95%,97%,98%……到2021年,它已經(jīng)能夠作為高考閱卷的“一評”,參與填空題等答案明確題型的評分,準(zhǔn)確率達(dá)99.5%以上。
從評卷到構(gòu)建“智慧課堂”
和科研人員類似,“社會影響力”也是張凱所在項目組的績效指標(biāo)。從2016年實驗室成立至今,項目組已經(jīng)發(fā)表了語言識別、翻譯、評測相關(guān)論文28篇,大多數(shù)都獲得了自有知識產(chǎn)權(quán)專利;同時,項目組還發(fā)表了中文類手寫體識別、評測相關(guān)論文11篇,獲得10個相關(guān)專利,英文類手寫體識別、評測相關(guān)論文4篇,獲得4個專利。
依托項目組的自有知識產(chǎn)權(quán)專利,目前,人工智能輔助閱卷系統(tǒng)已經(jīng)能夠?qū)崿F(xiàn)對語文、英語以及政治、歷史等文科類學(xué)科試卷的智能評分,也可以處理數(shù)學(xué)這類公式相對統(tǒng)一的學(xué)科的試卷,下一步的目標(biāo)是“精益求精”?!跋窕瘜W(xué)、物理、地理這些學(xué)科,會涉及有機分子式、圖形等一些特殊符號,在計算機圖像識別轉(zhuǎn)寫上,這些難點是我們要進(jìn)一步突破的?!睆垊P用“謹(jǐn)小慎微”形容他們正在做的工作,“還有很多細(xì)節(jié),比如語文常用的刪除號、調(diào)位號等修改符號,現(xiàn)在計算機只能把它們識別出來交給閱卷老師去復(fù)核;未來,我們希望它能獨立完成對這些內(nèi)容的處理。”
去年,智能閱卷官在北京“上崗”了。新中考首考中,從搭建試卷庫、掃描儀、服務(wù)器,到實時處理數(shù)據(jù),監(jiān)控試卷安全……項目組在規(guī)定時間內(nèi)順利完成了20萬考生近90萬份答題卡的掃描閱卷工作。不僅這一場考試,大到高考、高中學(xué)業(yè)水平考試,小至一些學(xué)校的月考、期末考,各類考試中都有這套人工智能輔助閱卷系統(tǒng)不同程度的試點應(yīng)用。
除了關(guān)注考試,在北京的中小學(xué)校園里,“智慧課堂”的建設(shè)也有人工智能系統(tǒng)的身影。今年,育英中學(xué)“上新”了一份個性化學(xué)習(xí)手冊,里面包含了學(xué)生日常檢測的錯題解析、知識點講解,以及針對薄弱知識點的拓展練習(xí)題,幫助學(xué)生有針對性地進(jìn)行鞏固提升,滿足多樣化學(xué)習(xí)需求。如果學(xué)生學(xué)有余力,可以自主自愿選擇基于自身知識圖譜生成的個性化學(xué)習(xí)手冊,作為補充專題學(xué)習(xí)。這份智能手冊不僅可以識別學(xué)生手寫作答的中英文和公式,減輕教師的批改負(fù)擔(dān),還可以通過計算機閱讀理解技術(shù)分析學(xué)生學(xué)情,推薦個性化學(xué)習(xí)方案。
“隨著‘雙減’政策的實施,我們也在探索人工智能在素質(zhì)教育方面發(fā)力,提供能力輔助提升。”張凱說,在個性化推薦上,這套系統(tǒng)將轉(zhuǎn)變以往推薦題庫“刷題”的模式,更注重引導(dǎo)學(xué)生自主學(xué)習(xí)和素質(zhì)培養(yǎng),基于對學(xué)生的愛好分析,推薦更多相關(guān)的課外讀物??此坪唵蔚霓D(zhuǎn)變,其實需要研發(fā)人員做大量的工作才能實現(xiàn)。為此,張凱和同事除了在人工智能評卷技術(shù)上進(jìn)一步拓展之外,也正在忙著探索人工智能在素質(zhì)教育中的應(yīng)用。
雖然每天面對著冷冰冰的計算機,做著看似枯燥的工作,工程師們的心卻比誰都細(xì)膩溫暖?!拔覀兏脒_(dá)到的目標(biāo)是快樂教育,為孩子們減負(fù),讓他們開心成長?!辈稍L結(jié)束,背景音里又響起航班開始登機的廣播,張凱掐準(zhǔn)時間,起身趕往下一座城市,他說,“為了萬千學(xué)生,投身這一事業(yè),再辛苦也值得?!?/p>
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。