国科会今释出TAIDE-LX-7B模型__提供产学研以台湾文化的大型语言模型导入生成式AI
【记者锺佩芳/台北报导】 2024/04/16

因应2022年底ChatGPT带来广泛且巨大的影响,国科会自去(2023)年初即推动可信任生成式AI发展先期计画(Trustworthy AI Dialogue Engine,简称TAIDE),国科会主委吴政忠在15日宣布释出 TAIDE-LX-7B模型,这是一款结合台湾文化的大型语言模型,透过此次模型释出,将能更进一步协助我国政府在生成式AI模型发展路上,提供更多元与多样化的服务,帮助产学研快速导入生成式AI。

TAIDE-LX-7B模型释出版相当於汽车的引擎,後续搭配各式零件、组装车壳,就可以化身成不同用途的车辆运具,提供消费者使用。例如TAIDE已与高雄大学合作,透过吴俊兴教授及其团队开发的开源生成式AI应用平台(Kuwa GenAI OS),将TAIDE模型预载内建於Kuwa平台,开发者可灵活组合串接周边功能,使用者则是透过简易的Web介面与後端模型互动。其他应用案例,包含台南大学的TAIDE台语对话机器人、中兴大学神农TAIDE、中研院行政常见问题回应、民间公司智慧客服等。

与现今其他大型语言模型不同之处,TAIDE-LX-7B模型具有繁体中文的文本生成能力,在Meta Llama-2-7B的基础上,透过额外扩充繁体中文字元、字词,使得生成的文本更加流畅、精准,并且更具有「台湾特色」。为达成前述目标,训练模型所使用的文本资料,皆以合法取得授权之文本数据进行训练,此一过程确保模型本身强调的「可信任性」,透过「可信任性」的文本协助TAIDE-LX-7B模型加强台湾文化、用语与国情等知识,从而产生丰富多样的文本内容。另加强训练5大功能,包括自动摘要、写信、写文章、中翻英、英翻中等,并开发出多轮问答的对话能力,让模型可以透过已生成的文本内容,接续使用者的指令,产出更符合需求的文本。

藉由公开释出,可望於近期看到TAIDE语言模型在公部门或民间机构的各类应用(包含商业应用),有效扩散整个语言模型的发展。现在即可以进入 TAIDE官方网站(https://taide.tw/),了解模型发展目标与历程,并点入网站上「TAIDE模型」连结(https://taide.tw/index/download-model),再进入该页面中提供的Huggingface连结下载,就可开始使用并体验具有台湾特色的大型语言模型。