Unicode字符表网页

4 我的世界肝帝玩家 1个月前 132次点击

Unicode字符:藏在文字背后的“世界通用身份证”

平时咱们用手机打字、发表情包、看外国的文字,甚至打个特殊符号比如℃、★,从来不会乱码,背后全靠Unicode字符在撑腰。说直白点,它就是给全世界所有文字、符号发的“唯一身份证”,有了它,不管是中文、英文、日文,还是表情包、数学符号,在任何设备、任何系统里,都能被准确识别,再也不会出现满屏小方框的乱码情况了。

早年间可没这好东西,那时候电脑刚出来,只认ASCII编码,就管英文字母、数字和几个简单的标点,一共就128个位置,够英文用就行。可到了咱们中文这里,光是常用字就几千个,ASCII根本塞不下,于是各个国家就自己搞自己的编码,比如咱们的GB2312、台湾地区的BIG5,日本有Shift_JIS,韩国有EUC-KR。结果就是跨系统、跨设备全乱套,比如早年看个台湾的网页,满屏都是看不懂的乱码,传个文件到国外,对方打开也是一堆框,核心问题就是大家的“字符编号”不统一,你认你的,我认我的。

这时候Unicode就应运而生了,它的核心想法特别简单:搞个“大一统”的字符集,把全世界所有的字符都收进来,不管是主流语言的常用字,还是生僻字、古文字,甚至表情包、数学符号、特殊符号,每个都给一个独一无二的编号,这个编号就叫“码点”,格式一般是U+后面跟一串十六进制数字,比如咱们的“一”是U+4E00,笑脸表情包😀是U+1F600,连℃这个符号都是U+2103,一个萝卜一个坑,绝对不重复。

这里得说个容易搞混的点,很多人把Unicode和UTF-8、UTF-16弄混,其实它们不是一回事。Unicode只是给字符编了号,相当于定了个“花名册”,但电脑存东西只认二进制,怎么把这些编号转成电脑能存、能传的二进制,这就需要UTF-8、UTF-16这些“编码方式”来实现。比如咱们现在最常用的UTF-8,是个“变长编码”,英文、数字只用1个字节,中文用3个字节,既省空间,又能兼容老的ASCII,所以现在网页、手机、软件,基本全用UTF-8,这也是现在乱码几乎消失的关键原因。

Unicode的“收纳能力”还特别强,它的码点范围特别大,不光收录了咱们日常用的两万多个汉字,还有甲骨文、金文这些古文字,甚至连埃及象形文字、玛雅文字、各种少数民族文字都收进去了,就连咱们人名里的生僻字,比如䂙、䶮,能在身份证、手机上打出来,都是因为Unicode把它们收录编了号。而且它还在不断更新,每年Unicode联盟都会新增一批字符,比如新的表情包、新的生僻字,咱们现在用的各种新潮emoji,都是这么来的。

其实咱们平时根本不会特意感受到Unicode的存在,它就像个幕后英雄,藏在每一次打字、每一次发消息、每一次刷网页的背后。但如果没有它,咱们的数字世界早就乱成一锅粥了:发个微信表情包对方看不到,看个外国网站全是乱码,跨系统传文件根本没法看,更别说全球化的网络交流了。

说白了,Unicode就是用一套统一的规则,让全世界的字符能在数字世界里“无障碍交流”,它把不同语言、不同文化的符号都揉进了同一个体系里,咱们随手敲出的一个字、一个表情,背后都是这个“世界通用身份证”在发挥作用,这大概就是科技最温柔的样子——默默解决问题,让我们用得舒心又省心。

本文来自豆包

所以今天做了一个Unicode字符表网页

点击跳转浏览器打开Unicode字符表
共 2 条评论
decca 1个月前
0 
并不是很有用的东西。不过也挺好玩
我的世界肝帝玩家 [楼主] 1个月前
0 
唉,终于是有人评论了呀,这玩意调试的挺久了,虽然说是豆包写的,然后这个里面点击字符之后,还有一些显示信息,还有复制功能什么的
添加一条新评论

登录后可以发表评论 去登录