C# GroupBy的基本使用教程

起因

今天在公司做一个需求的时候,写的是面条代码,一个方法直接从头写到尾,其中用到了GroupBy,且GroupBy的KeySelector是多个属性而不是单个属性。

但是公司最近推行Clean Code,要让代码有可读性。且作为一个有追求的程序员,肯定是不能写面条代码的,要对代码进行拆分。

重构前GroupBy大概是这样子的:

var groups = data.GroupBy(m => new { m.PropertyA, m.PropertyB})

个人对于短的Linq比较习惯于用方法而不是用关键字的那种写法。

一开始这样写是没问题的,但是重构的时候问题就来了:这个groups是什么类型?

重构以后这个groups是要作为参数进入到别的方法中的,方法签名显然是不能用var做类型推导,必须指定确定的类型。

我们知道GroupBy出来的东西是个泛型的东西,签名是IEnumerable<IGrouping<TKey, TSource>>,这个TSource类型是没问题,我没有对Source做修改,就是data本身的类型。

但是这个Key就有问题了。

我没有指定Key的类型,这里应该是匿名类型,于是定义了一个类型承接Key,代码变成了:

class EntityKey
{
 public int PropertyA { get set; }
 public string PropertyB { get set; }
}

......

var groups = data.GroupBy(m => new EntityKey { PropertyA = m.PropertyA, PropertyB = m.PropertyB});

但是后来我发现这样有问题,GroupBy指定的Key失效了。也就是说,groups的分组数量与data的长度一致,每一个group里面只有一个对象。

分析

发现这个问题后,我仔细思考了一下,大致猜到了问题出在哪里。

GroupBy这种东西,判断两个对象是不是一个分组,必然用到了相等判断。

虽然我没有看匿名类型反编译生成后的IL代码,不知道之前用的是怎么做的Key相等判断,但是引用类型的肯定是直接用对象的HashCode做判断。

这样子肯定是不行的,要解决引用类型的相等判断问题。

重现

根据猜测,我写了一个Sample程序最小化的重现了这个问题:

class Program
{
 static void Main(string[] args)
 {
  var list = new List<Student>();
  list.Add(new Student(1, "Cat", 10, "University1"));
  list.Add(new Student(2, "Dog", 10, "University1"));
  list.Add(new Student(3, "Pig", 10, "University2"));
  list.Add(new Student(4, "Fish", 12, "University1"));

  var groups = list.GroupBy(m => new {m.Age, m.Class});

  foreach (var group in groups)
  {
   Console.WriteLine("Age:{0},Class:{1}", group.Key.Age, group.Key.Class);
   foreach (var student in group)
   {
    Console.WriteLine(student);
   }
  }
 }

 class Student
 {
  public int Id { get; set; }
  public string Name { get; set; }
  public int Age { get; set; }
  public string Class { get; set; }

  public Student(int id, string name, int age, string @class)
  {
   Id = id;
   Name = name;
   Age = age;
   Class = @class;
  }

  public override string ToString()
  {
   return $"Id={Id},Name={Name},Age={Age},Class={Class}";
  }
 }

 class StudentKey
 {
  public int Age { get; set; }
  public string Class { get; set; }
 }
}

这时候输出结果是

Age:10,Class:University1
Id=1,Name=Cat,Age=10,Class=University1
Id=2,Name=Dog,Age=10,Class=University1
Age:10,Class:University2
Id=3,Name=Pig,Age=10,Class=University2
Age:12,Class:University1
Id=4,Name=Fish,Age=12,Class=University1

将new {m.Age, m.Class}替换为new StudentKey {Age = m.Age, Class = m.Class},结果却变成了

Age:10,Class:University1
Id=1,Name=Cat,Age=10,Class=University1
Age:10,Class:University1
Id=2,Name=Dog,Age=10,Class=University1
Age:10,Class:University2
Id=3,Name=Pig,Age=10,Class=University2
Age:12,Class:University1
Id=4,Name=Fish,Age=12,Class=University1

Id=1和Id=2变成了两组。

解决问题

解决问题方式有几种。

第一种

最简单,就是直接将StudentKey从class变成struct。

但是这样有个问题,class是堆内存,struct是栈内存。

虽然实际情况不一定会出现内存异常什么的,但是总归是改变了一些东西,存在隐患。

第二种

第一种方式被我自己否决后,于是打开了Google搜了一下,在StackOverflow和MSDN以及查看GroupBy源码之后,得到了GroupBy的运行原理。

GroupBy在没有传comparer的时候,会创建一个基于当前TSource类型的默认的comparer。

但不管是默认的comparer还是我们自己传的comparer,都会调用Equals和GetHashCode两个方法,所以我们需要重载这两个方法。

第二种方法就是我们在类型上重载Equals和GetHashCode两个方法。

可以实现IEquatable<TKey>使用下面的代码,也可以不实现接口,使用重载的Equals方法。

但是不论如何,一定要重载GetHashCode。

修改后StudentKey如下

class StudentKey : IEquatable<StudentKey>
{
  public int Age { get; set; }
  public string Class { get; set; }

  public override int GetHashCode()
  {
    return Age.GetHashCode() ^ Class.GetHashCode();
  }

//      public override bool Equals(object obj)
//      {
//        var model = obj as StudentKey;
//        if (model == null)
//        {
//          return false;
//        }
//
//        return model.Age == Age && model.Class == Class;
//      }

  public bool Equals(StudentKey other)
  {
    return Age == other.Age && Class == other.Class;
  }
}

第三种

第三种就是传一个comparer给GroupBy参数,实现一个IEqualityComparer<TKey>。

代码如下:

list.GroupBy(m => new StudentKey {Age = m.Age, Class = m.Class}, new StudentKeyComparer());

......

class StudentKeyComparer: IEqualityComparer<StudentKey>
{
  public bool Equals(StudentKey x, StudentKey y)
  {
    return x.Age == y.Age && x.Class == y.Class;
  }

  public int GetHashCode(StudentKey obj)
  {
    return obj.Age.GetHashCode() ^ obj.Age.GetHashCode();
  }
}

这种相对于第二种方式,最大的区别在于不用侵入实体类添加代码,但是原理是类似的。

总结

本文是在c#开发过程中碰到的一个GroupBy的分组的Key失效的问题。

了解其分组原理后,通过实现Equals和GetHashCode或者传入自定义的comparer,解决GroupBy的分组Key失效的问题。

好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • C# 中的GroupBy的动态拼接问题及GroupBy<>用法介绍

    废话不多说了,直接给大家贴代码了,具体代码如下所示: public class Person { public string FirstName{set;get;} public string LastName{set;get;} public Person(){} public Person(string firstName, string lastName) { FirstName = firstName; LastName = lastName; } } List<Person> per

  • 解决C#中Linq GroupBy 和OrderBy失效的方法

    发现问题 在一个数据列表中我用了Linq GroupBy 和OrderBy. 排序在本机正常使用,发到测试后排序死活不对,总以为是程序问题.于是请教了别人有了以下的答案. 问题原因和解决方法 因为服务器装的是英文版操作系统,没有中文包,所以碰见中文排序无法识别,所以使用OrderBy时需要单独处理下. CultureInfo culture = CultureInfo.GetCultureInfo("zh-cn"); List<TeamDto> teamDtos = tea

  • C# GroupBy的基本使用教程

    起因 今天在公司做一个需求的时候,写的是面条代码,一个方法直接从头写到尾,其中用到了GroupBy,且GroupBy的KeySelector是多个属性而不是单个属性. 但是公司最近推行Clean Code,要让代码有可读性.且作为一个有追求的程序员,肯定是不能写面条代码的,要对代码进行拆分. 重构前GroupBy大概是这样子的: var groups = data.GroupBy(m => new { m.PropertyA, m.PropertyB}) 个人对于短的Linq比较习惯于用方法而不

  • Python进行数据科学工作的简单入门教程

    Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介

  • CentOS 6.5 i386 安装MySQL 5.7.18详细教程

    大多数都是将MySQL编译好放在系统目录里而我的方式是将编译的文件放在指定的目录里 为了实现同一台机器可以开启多个MySQL实例进程 各个实例之间相互不影响.不需要root权限 下载CentOS6.5_X86  安装基于Basic Server http://archive.kernel.org/centos-vault/6.5/isos/i386/CentOS-6.5-i386-bin-DVD1.iso MySQL 官方下载       https://dev.mysql.com/downlo

  • pandas数据预处理之dataframe的groupby操作方法

    在数据预处理过程中可能会遇到这样的问题,如下图:数据中某一个key有多组数据,如何分别对每个key进行相同的运算? dataframe里面给出了一个group by的一个操作,对于"group by"操作,我们通常是指以下一个或多个操作步骤: l (Splitting)按照一些规则将数据分为不同的组: l (Applying)对于每组数据分别执行一个函数: l (Combining)将结果组合到一个数据结构中: 使用dataframe实现groupby的用法: # -*- coding

  • Python 数据处理库 pandas进阶教程

    前言 本文紧接着前一篇的入门教程,会介绍一些关于pandas的进阶知识.建议读者在阅读本文之前先看完pandas入门教程. 同样的,本文的测试数据和源码可以在这里获取: Github:pandas_tutorial. 数据访问 在入门教程中,我们已经使用过访问数据的方法.这里我们再集中看一下. 注:这里的数据访问方法既适用于Series,也适用于DataFrame. 基础方法:[]和. 这是两种最直观的方法,任何有面向对象编程经验的人应该都很容易理解.下面是一个代码示例: # select_da

  • MyBatis Plus工具快速入门使用教程

    MyBatis-plus有什么特色 1.代码生成 2.条件构造器 对我而言,主要的目的是使用它强大的条件构建器. 快速使用步骤: 1.添加pom文件依赖 <dependency> <groupId>org.apache.velocity</groupId> <artifactId>velocity</artifactId> <version>1.7</version> </dependency> <dep

  • Pandas高级教程之Pandas中的GroupBy操作

    目录 简介 分割数据 多index get_group dropna groups属性 index的层级 group的遍历 聚合操作 通用聚合方法 可以同时指定多个聚合方法: NamedAgg 不同的列指定不同的聚合方法 转换操作 过滤操作 Apply操作 简介 pandas中的DF数据类型可以像数据库表格一样进行groupby操作.通常来说groupby操作可以分为三部分:分割数据,应用变换和和合并数据. 本文将会详细讲解Pandas中的groupby操作. 分割数据 分割数据的目的是将DF分

  • Python可视化工具Plotly的应用教程

    目录 一.简介 二.各图运用 1.柱状图 2.散点图 3.冒泡散点图 4.旭日图 5.地图图形 三.实战案例 一.简介 发展由来: 随着信息技术的发展和硬件设备成本的降低,当今的互联网存在海量的数据,要想快速从这些数据中获取更多有效的信息,数据可视化是重要的一环.对于Python语言来说,比较传统的数据可视化模块是Matplotlib,但它存在不够美观.静态性.不易分享等缺点,限制了Python在数据可视化方面的发展. 为了解决这个问题,新型的动态可视化开源模块Plotly应运而生.由于Plot

  • SQL注入教程之报错注入

    目录 SQL报错注入概述 报错注入的前提条件 Xpath类型函数 extractvalue() updatexml() 其他函数 floor().rand().count().groupby联用 exp()(5.5.5<=MySQL数据库版本号<=5.5.49) MySQL数据库报错功能函数总汇 报错注入实例 extractvalue() 暴库 暴表 updatexml() 暴库 暴表 总结 SQL报错注入概述 通过构造特定的SQL语句,让攻击者想要查询的信息(如数据库名.版本号.用户名等)通

  • Python可视化库之HoloViews的使用教程

    目录 Python-HoloViews库介绍 Python-HoloViews库样例介绍 密度图+箱线图 散点图+横线图 IrisSplom 面积图 直方图系列 RouteChord 小提琴图 总结 参考资料 最近一直在整理统计图表的绘制方法,发现Python中除了经典Seaborn库外,还有一些优秀的可交互的第三方库也能实现一些常见的统计图表绘制,而且其还拥有Matplotlib.Seaborn等库所不具备的交互效果. 当然,同时也能绘制出版级别的图表要求,此外,一些在使用Matplotlib

随机推荐