Ymestyn Ar Draws yr Ynysoedd: Mae DU-LLM yn Dod â Deallusrwydd Artiffisial i Ieithoedd y DU Gyda NVIDIA Nemotron
Wedi’i hyfforddi ar yr uwch gyfrifiadur Isambard-AI, mae model newydd a ddatblygwyd gan University College London, NVIDIA a Phrifysgol Bangor yn manteisio ar dechnegau a setiau data ffynhonnell agored NVIDIA Nemotron i alluogi rhesymu Deallusrwydd Artiffisial ar gyfer y Gymraeg ac ieithoedd eraill y DU ar gyfer gwasanaethau cyhoeddus gan gynnwys gofal iechyd, addysg ac adnoddau cyfreithiol.
Ieithoedd Celtaidd — gan gynnwys Cernyweg, Gwyddeleg, Gaeleg yr Alban a Chymraeg — yw ieithoedd byw hynaf y DU. Er mwyn grymuso eu siaradwyr, mae menter y DU-LLM yn adeiladu model Deallusrwydd Artiffisial yn seiliedig ar a all resymu yn Saesneg a Chymraeg hefyd, iaith a siaredir gan yng Nghymru heddiw.
Bydd galluogi rhesymu Deallusrwydd Artiffisial o ansawdd uchel yn y Gymraeg yn cefnogi’r ddarpariaeth o wasanaethau cyhoeddus gan gynnwys gofal iechyd, addysg ac adnoddau cyfreithiol yn yr iaith.
“Rwyf am i bob cwr o’r DU allu harneisio manteision deallusrwydd artiffisial. Drwy alluogi deallusrwydd artiffisial i resymu yn y Gymraeg, rydym yn sicrhau bod gwasanaethau cyhoeddus — o ofal iechyd i addysg — yn hygyrch i bawb, yn yr iaith maen nhw’n byw ynddi,” meddai Prif Weinidog y DU, Keir Starmer. “Mae hon yn enghraifft bwerus o sut y gall y dechnoleg dddiweddaraf, wedi’i hyfforddi ar uwch gyfrifiadur deallusrwydd artiffisial mwyaf datblygedig y DU ym Mryste, wasanaethu lles y cyhoedd, amddiffyn treftadaeth ddiwylliannol a datgloi cyfleoedd ledled y wlad.”
Mae prosiect DU-LLM, a sefydlwyd yn 2023 fel BritLLM ac a arweinir gan University College London, wedi rhyddhau dau fodel ar gyfer ieithoedd y DU yn flaenorol. Mae ei fodel newydd ar gyfer y Gymraeg, a ddatblygwyd mewn cydweithrediad â Phrifysgol Bangor Cymru ac NVIDIA, yn cyd-fynd ag ymdrechion llywodraeth Cymru i hybu defnydd gweithredol o’r iaith, gyda’r nod o gyflawni miliwn o siaradwyr erbyn 2050 — menter o’r enw .
Bydd darparwr cwmwl Deallusrwydd Artiffisial yn y DU, Nscale, yn sicrhau bod y model newydd ar gael i ddatblygwyr trwy ei ryngwyneb rhaglennu rhaglenni (API).
“Y nod yw sicrhau bod y Gymraeg yn parhau i fod yn iaith fyw, sy’n anadlu ac sy’n parhau i ddatblygu gyda’r oes,” meddai Gruffudd Prys, uwch derminolegydd a phennaeth yr Uned Technolegau Iaith yng Nghanolfan Bedwyr, canolfan y brifysgol ar gyfer gwasanaethau, ymchwil a thechnoleg y Gymraeg. “Mae deallusrwydd artiffisial yn dangos potensial aruthrol i helpu gyda chaffael y Gymraeg fel ail iaith yn ogystal â galluogi siaradwyr brodorol i wella eu sgiliau iaith.”
Gallai’r model newydd hwn hefyd roi hwb i hygyrchedd adnoddau Cymraeg drwy alluogi sefydliadau cyhoeddus a busnesau sy’n gweithredu yng Nghymru i gyfieithu cynnwys neu ddarparu gwasanaethau sgwrsfot dwyieithog. Gall hyn helpu grwpiau gan gynnwys darparwyr gofal iechyd, addysgwyr, darlledwyr, manwerthwyr a pherchnogion bwytai i sicrhau bod eu cynnwys ysgrifenedig yr un mor hawdd ar gael yn y Gymraeg ag y mae yn Saesneg.
Y tu hwnt i’r Gymraeg, mae tîm y DU-LLM yn anelu at gymhwyso’r un fethodoleg a ddefnyddiwyd ar gyfer ei fodel newydd i ddatblygu modelau Deallusrwydd Artiffisial ar gyfer ieithoedd eraill a siaredir ledled y DU fel Cernyweg, Gwyddeleg, Sgoteg a Gaeleg yr Alban — yn ogystal â gweithio gyda chydweithwyr rhyngwladol i adeiladu modelau ar gyfer ieithoedd o Affrica a De-ddwyrain Asia.
“Mae’r cydweithrediad hwn gydag NVIDIA a Phrifysgol Bangor wedi ein galluogi i greu data hyfforddi newydd a hyfforddi model newydd mewn amser record, gan gyflymu ein nod o adeiladu’r model iaith gorau erioed ar gyfer y Gymraeg,” meddai Pontus Stenetorp, yr athro prosesu iaith naturiol a dirprwy gyfarwyddwr y Ganolfan Deallusrwydd Artiffisial yn University College London. “Ein nod yw cymryd y mewnwelediadau a gafwyd o’r model Cymraeg a’u cymhwyso i ieithoedd lleiafrifol eraill, yn y DU ac ar draws y byd.
Manteisio ar Seilwaith Deallusrwydd Artiffisial Sofran ar gyfer Datblygu Model
Mae’r model newydd ar gyfer y Gymraeg yn seiliedig ar , teulu o fodelau ffynhonnell agored sy’n cynnwys pwysau, setiau data a ryseitiau agored.Mae’r tîm datblygu DU-LLM wedi manteisio ar fodel 49-biliwn-paramedr Llama Nemotron Super a model 9-biliwn-paramedr Nemotron Nano, gan eu ar ddata iaith Gymraeg.
O’i gymharu ag ieithoedd fel Saesneg neu Sbaeneg, mae llai o ddata ffynhonnell ar gael yn y Gymraeg ar gyfer hyfforddiant Deallusrwydd Artiffisial. Felly, er mwyn creu set ddata hyfforddi Cymraeg ddigon mawr, defnyddiodd y tîm ficrowasanaethau ar gyfer a i gyfieithu gyda dros 30 miliwn o gofnodion o’r Saesneg i’r Gymraeg.
Defnyddion nhw glwstwr GPU drwy blatfform ac yn harneisio cannoedd o ar — uwchgyfrifiadur mwyaf pwerus y DU, gyda chefnogaeth ac wedi’i leoli ym Mhrifysgol Bryste — i gyflymu eu llwythi gwaith cyfieithu a hyfforddi.
Mae’r set ddata newydd hon yn ategu data presennol yr iaith Gymraeg o ymdrechion blaenorol y tîm.
Cipio Naws Ieithyddol Gyda Gwerthusiad Gofalus
Mae Prifysgol Bangor, sydd wedi’i lleoli yng Ngwynedd — y sir gyda’r — yn cefnogi datblygiad y model newydd gydag arbenigedd ieithyddol a diwylliannol.
Mae Prys, o ganolfan Gymraeg y brifysgol, yn dod â thua dau ddegawd o brofiad gyda thechnoleg iaith ar gyfer y Gymraeg i’r cydweithrediad. Mae ef a’i dîm yn helpu i wirio cywirdeb data hyfforddi a gyfieithir gan beiriannau a data gwerthuso a gyfieithir â llaw, yn ogystal ag asesu sut mae’r model yn ymdrin â naws Gymraeg y mae Deallusrwydd Artiffisial fel arfer yn cael trafferth â nhw — megis y ffordd y mae cytseiniaid ar ddechrau geiriau Cymraeg yn newid yn seiliedig ar eiriau cyfagos.
Disgwylir i’r model, yn ogystal â’r setiau data hyfforddiant a gwerthuso’r Gymraeg, fod ar gael i fentrau a’r sector cyhoeddus eu defnyddio, gan gefnogi ymchwil ychwanegol, hyfforddiant modelu a datblygu rhaglenni.
“Mae’n un peth cael y gallu Deallusrwydd Artiffisial hwn yn bodoli yn y Gymraeg, ond mae’n beth arall ei wneud yn agored ac yn hygyrch i bawb,” meddai Prys. “Gall y gwahaniaeth cynnil hwnnw fod y gwahaniaeth rhwng y dechnoleg hon yn cael ei defnyddio ai peidio.”
Defnyddio Modelau Deallusrwydd Artiffisial Sofran Gyda NVIDIA Nemotron, Microwasanaethau NIM
Gall y fframwaith a ddefnyddiwyd i ddatblygu model DU-LLM ar gyfer y Gymraeg fod yn sylfaen ar gyfer datblygu Deallusrwydd Artiffisial amlieithog ledled y byd.
Mae modelau, data a ryseitiau Nemotron, sy’n cyrraedd y brig, ar gael yn gyhoeddus i ddatblygwyr er mwyn iddynt adeiladu modelau rhesymu sydd wedi’u teilwra i bron unrhyw iaith, parth a llif gwaith. Wedi’u pecynnu fel microgwasanaethau NVIDIA NIM, mae modelau Nemotron wedi’u hoptimeiddio ar gyfer cyfrifiadura cost-effeithiol a rhedeg yn unrhyw le, o liniadur i’r cwmwl.
Bydd mentrau Ewrop yn gallu rhedeg wedi’i bweru gan Ddeallusrwydd Artiffisial.
Dewch i ddechrau arni gyda .