- Published on
字典推导式
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
解释如下:
for idx, ch in ...
:这是一个for循环,enumerate()
会返回元素的索引和值。ch: idx
:这是字典的键值对,ch
是key,idx
是value。set(tokenized_text)
:去重所有字符。sorted(...)
:排序所有字符。
整体意思:
遍历所有去重并排序后的字符,为每个字符分配一个唯一的索引,生成一个字典,key是字符,value是索引。
例子:
text = "abc"
tokenized_text = list(text) # ['a', 'b', 'c']
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
# 结果: {'a': 0, 'b': 1, 'c': 2}
这种写法叫推导式,常用于快速生成列表、集合或字典。
THE END