- Published on
字典推导式
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
解释如下:
for idx, ch in ...:这是一个for循环,enumerate()会返回元素的索引和值。ch: idx:这是字典的键值对,ch是key,idx是value。set(tokenized_text):去重所有字符。sorted(...):排序所有字符。
整体意思:
遍历所有去重并排序后的字符,为每个字符分配一个唯一的索引,生成一个字典,key是字符,value是索引。
例子:
text = "abc"
tokenized_text = list(text) # ['a', 'b', 'c']
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
# 结果: {'a': 0, 'b': 1, 'c': 2}
这种写法叫推导式,常用于快速生成列表、集合或字典。
THE END