从PySpark中的字符串获取列表方法讲解

在 PySpark 中是否有类似eval的功能。

我正在尝试将 Python 代码转换为 PySpark

我正在查询一个数据框,并且其中一列具有数据,如下所示,但采用字符串格式。

[{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}]

假设“ x”是在数据框中保存此值的列。

现在,我想传递该字符串列“ x”并获取列表,以便可以将其传递给 mapPartition 函数。

我想避免迭代驱动程序上的每一行,这就是我这样想的原因。

在 Python 中使用 eval()函数(如果已使用):我得到以下输出:

x = "[{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}]"

list = eval(x)

for i in list:  print i

输出:(这也是我在 PySpark 中想要的)

{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}
{u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}
{u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}

如何在 PySpark 中做到这一点?

实例扩展:

df.schema: StructType(List(StructField(id,StringType,true),StructField(recs,StringType,true)))
|id     | recs |

|ABC|[66, [["AB", 10]]]
|XYZ|[66, [["XY", 10], ["YZ", 20]]]
|DEF|[66, [["DE", 10], ["EF", 20], ["FG", 30]]]  

我正试着把这些单子弄平

|id | like_id
|ABC|AB|
|XYZ|XY|
|XYZ|YZ|
|DEF|DE|
|DEF|EF|
|DEF|FG|

到此这篇关于从PySpark中的字符串获取列表方法讲解的文章就介绍到这了,更多相关如何从 PySpark 中的字符串获取列表内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 从PySpark中的字符串获取列表方法讲解

    在 PySpark 中是否有类似eval的功能. 我正在尝试将 Python 代码转换为 PySpark 我正在查询一个数据框,并且其中一列具有数据,如下所示,但采用字符串格式. [{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-

  • Java 中运行字符串表达式的方法

    在日常的开发中,偶尔会遇到运行字符串表达式的情况,通常这样的需求会对需求进行进一步分析,然后进行进一步 "特殊化",最后直接写到硬代码中,这样做的话,就不太好扩展了:也有另外的处理方式是采用 Java 内置的 JavaScript 引擎等运行字符串表达式,但是内置引擎也有弊端,比如频繁运行片段式的字符串的效率非常低,并且与 Java 之间的数据交互比较麻烦,于是,便产生了写一个"字符串表达式计算引擎"的想法... 写的过程其实没想象中那么麻烦,最初版大概在今年 5

  • python中的字符串内部换行方法

    python里有两种在字符串内部换行的方式(使用一个print打印多行字符串). 首先使用\n的方法大家肯定都知道了. 然后是使用 ''' 三个单引号大方法. 在交互式命令行里输入print('''line1回车后光标会自动跳转到下一行,并且提示符由>>>变为...在这之后继续输入下一行的内容即可.内容输入完毕之后结尾加上''')再回车就OK啦! 在编译器里编程序的时候,和命令行里类似,只是不会出现提示符而已. 输出为: 以上这篇python中的字符串内部换行方法就是小编分享给大家的全部

  • C# 从 UTF-8 流中读取字符串的正确方法及代码详解

     我们下面的代码是从一个流 stream 中读取 UTF-8 编码的字符串.我们可以先考虑一下其中存在的潜在问题. string ReadString(Stream stream) { var sb = new StringBuilder(); var buffer = new byte[4096]; int readCount; while ((readCount = stream.Read(buffer)) > 0) { var s = Encoding.UTF8.GetString(buf

  • php中创建字符串的变量实例讲解

    在编程中经常会设置一个变量,这样就可以对一些程序进行反复的时候,想要改动一些结果,对变量的值进行修改就可以了.为了让大家能够对变量有一个初步的认识,本篇先就变量的概念.使用注意带来介绍,然后以创建字符串变量的实例方法,帮助大家学会基础的变量使用方法. 1.概念 变量用于存储值,比如数字.文本字符串或数组.一旦设置了某个变量,我们就可以在脚本中重复地使用它.PHP 中的所有变量都是以 $ 符号开始的. 2.使用注意 (1)PHP中,不需要在设置变量之前声明该变量. (2)不必向 PHP 声明该变量

  • java中计算字符串长度的方法及u4E00与u9FBB的认识

    字符串采用unicode编码的方式时,计算字符串长度的方法找出UNICODE编码中的汉字的代表的范围"\u4E00" 到"\u9FBB"之间,由于一个汉字代表两个字符所以可以采用如下方法进行计算字符串的长度 复制代码 代码如下: public static int getCharLength(String content) { int count = 0; for (int i = 0, len = content.length(); i < len; ++i

  • python中实现字符串翻转的方法

    具体代码如下所示: #字符串反转 def reverse (s): rt = '' for i in range(len(s)-1,-1,-1): rt += s[i] return rt def reverse2 (s): li = list(s) li.reverse() rt = "".join(li) return rt def reverse3 (s): return s[::-1] def reverse4 (s): return "".join(rev

  • php中实现字符串翻转的方法

    字符串:$str = "abcdefg"; 方法一(直接使用php自带函数strrev($str)) print_r(strrev($str)); 使用for循环方式,str_split($str) $newArrOne = [];//初始化一个新的数组 $newStrOne = '';//初始化一个新的字符串 $newArrOne = str_split($str); $arrCount = count($newArrOne); for ($i=0; $i < $arrCoun

  • Lua中操作字符串的基本方法整理

    字符串是一个字符序列,以及控制字符.字符串可以用三种形式被初始化,其中包括: 单引号之间的字符 双引号之间的字符 [] 之间的字符[[和]] 对于上述三种形式的一个例子如下所示. 复制代码 代码如下: string1 = "Lua" print("\"String 1 is\"",string1) string2 = 'Tutorial' print("String 2 is",string2) string3 = [[&qu

  • 在Python中处理字符串之isdecimal()方法的使用

    isdecimal()方法检查字符串是否仅由十进制字符组成.此方法只存在于unicode对象. 注意:要定义一个字符串为Unicode,只需前缀分配'u'左引号.以下是示例. 语法 以下是isdecimal()方法的语法: str.isdecimal() 参数 NA 返回值 如果字符串中的所有字符为十进制此方法返回true,否则返回false. 例子 下面的例子显示了isdecimal()方法的使用. #!/usr/bin/python str = u"this2009"; print

随机推荐